技术应用语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例进行功能

译者进行翻译时离不开语料的处理和应用。

语料查询:除了词典,语料库(corpus)对于译员也是一大辅助。通过高效准确地查询语料,译者可以核实查证单词/短语的译法。

语料收集:语料收集(datacollection)是2011年公布的语言学名词。从语言形式上分为书面语料和口语语料,从搜集方式上分为摘引文献、语言调查以及参考辞书等,从搜集手段上分为人工搜集和借助电子技术搜集。

2、进行语料辅助查询和收集的好处

(1)客观性

进行语料辅助查询和收集可以更好地掌握语言发展规律。进入计算机时代,人们可以借助语料对语言进行更大规模的抽样,这样计算出的频率准确性会更高。

(2)科学性

进行语料辅助查询和收集可以使语言更具科学性。

语料辅助查询和收集帮助我们快速高效地搜索需要的信息。面对形形色色的工具,我们不需要贪多,要选择适合自己的工具并熟练运用,形成自己的一套语料处理体系,无论是对日常学习工作,还是对学术研究,都有重要的意义。

1、自动化数据采集简介

依靠大数据技术和信息技术手段对海量数据进行自动化的采集和整理工作,以供后续的分析和使用,可以提高数据采集的效率、精准度、和完整性。

(1)用途

在翻译领域,可用于采集术语,采集译者招聘信息,采集文本/平行文本建成语料库等。在其他领域可以用于如采集购物评价,了解用户需求,预测股票走势,优化网站平台。

(2)数据源

开放数据源:政府、高校、企业

爬虫抓取:网页、app

日志采集:前端采集、后端脚本

传感器:图像、测速、热敏

(3)采集方法

1)使用Python编写爬虫代码(对没有编程基础的同学来说较为困难)

使用Requests爬取内容。

使用XPath解析内容。

使用Pandas保存数据。

2)使用常用采集工具,如八爪鱼采集器、火车采集器、神箭手采集器等。

2、常用采集工具对比

(1)八爪鱼采集器

价格:中等

功能:功能齐全,且其免费版功能齐全

界面:简洁

上手难易:简单

流程是否可视化:是

特点:

①无需编写代码,软件自动采集主要内容,非常简单。

②免费数据采集模板。

注意事项:

①循环都是xpath元素定位,很容易在翻页采集时出现错误。

②采集数据速度有时较慢。

(2)火车采集器

价格:略高

功能:功能强大且复杂,包含数据处理、分析、挖掘等功能,但是免费版功能局限较大

界面:简洁、朴素

上手难易:较难

①分布式采集,采集效率高。

②功能十分强大,覆盖数据分析处理等功能。

①适合有一定编程基础的人使用。

②功能多,比较占用内存和CPU。

(3)集搜客采集器

价格:相对较低

功能:功能较为齐全

①可以抓取手机网站数据。

②有分词情感词标注功能,以及构建词云功能。

①没有云采集功能。

②免费版中快捷采集导出需要应积分下载数据。

(4)后裔采集器

功能:功能强大,且其免费版功能齐全

①无需编写代码,比较简单。

①有时无法完全抓取需要展开的内容。

②没有云采集功能。

3、八爪鱼

(1)工具简介

整合了网页数据采集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据采集工具,已连续5年蝉联互联网数据采集软件榜单第一名,截止2021年全球用户已突破300万。提供解决方案如下图:

免费版:内容采集规则,包括了电商类、生活服务类、社交媒体类和论坛类的网站都可以采集。

付费版:云采集,配置好采集任务,交给八爪鱼的云端进行采集。

(2)工具下载

进入官网即可下载使用免费版,无需注册。

(3)采集分类

2)自定义数据采集

表格采集

列表数据采集

列表+详情页采集

翻页采集

(4)实际操作

1)中华文化思想文化术语库:术语列表+详情页采集

文字操作流程:

步骤一、开始采集

在首页【输入框】中输入目标网址,点击【开始采集】。

步骤二、建立【循环-点击元素-提取数据】

1、先建立一个【循环-提取数据】步骤。可以通过自动识别功能生成字段,如下图:

2、然后在循环的当前项中找到链接并选中,在弹出的操作提示框中,选择【点击该链接】。可以看到流程中生成了1个【点击元素】步骤,八爪鱼自动跳转到了详情页,然后提取详情页数据即可。

步骤三、编辑字段

八爪鱼自动为我们提取了列表中的所有字段,我们可以对这些字段进行删除、修改字段名称等操作。在字段名称处双击即可修改字段名;在右侧更多操作里面可以对字段进行删除、复制、格式化等操作。

步骤四、启动采集

1、修改完字段名后,整个规则编辑完成,点击【保存】,然后【采集】,再点击【启动本地采集】启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集)

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

视频版:

2)术语在线:术语表格+翻页采集

文字操作流程

步骤一、开始采集。在首页【输入框】中输入目标网址,点击【开始采集】。

步骤二、建立一个【循环-提取数据】步骤。

1、可以采用自动识别功能,如下:

会提供多种字段选择,如果识别的字段不是我们倾向的,可以切换:

若手动选择,先选中页面上第一个列表的第一个单元格,再点击提示框右下角的【扩大选区】按钮,选中至一整行。(扩大的作用是,扩大选中的范围。当前选中的是一个单元格,选中的范围就扩大一个层级,即选中了一行)。

在提示框中,选择【选中子元素】。这时八爪鱼又自动识别到页面中其他列表具有相同的【子元素】之后在提示框中,选择【选中全部】。

步骤三、建立【翻页循环】

在【黄色操作提示框】中点击【设置翻页采集】。然后占到并点击【下一页】按钮即可完成设置。

或者找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】。

特别说明:如果出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的。

若使用自动识别功能,可以自动进行翻页采集,如下图:

步骤四、启动采集,同中华思想文化术语库。

(5)优点

1)与Python编写爬虫代码相比,操作简单,门槛低,完全可视化,对于翻译专业的学生来说非常友好。

2)不管是文字图片,还是贴吧论坛,支持所有业务渠道的爬虫,满足各种采集需求。

3)支持多格式导出,包括Excel,CSV,HTML,JSON,同时支持导出到数据库。

4)即使是免费版,功能相比其他采集器功能也强大很多,提供免费识别,无限度采集等。

5)自动识别功能可以帮助简化流程,快速提取数据。

(6)缺点

1)自动识别,数据采集会出现速度较慢情况,在中华思想文化术语库的采集中一分钟大约只能采集10条数据。

2)在翻页采集过程中可能会遇到一些问题。比如在配置完采集流程初次进行翻页采集时,得到的采集结果可能存在大量重复,这是因为Xpath定位不好,只是循环提取前两页数据,而不会转到第三页及以后。

参考资料:《翻译搜索指南》之系列配套视频(Ethan_LSJ):

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn数据挖掘中的功能选择 缺少值(Analysis Services – 数据挖掘) 嵌套表(Analysis Services – 数据挖掘) Learn 早期版本 SQL SQL Server 2008 逻辑体系结构(Analysis Services - 数据挖掘) 使用英语阅读 保存 添加到集合 添加到计划 通过 Facebookx.com 共享LinkedIn电子邮件 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.16种数据挖掘技术尽管神经网络可以是数据挖掘中的强大工具,但组织在使用它时应该谨慎:其中一些神经网络模型非常复杂,这使得很难理解神经网络如何确定输出。14.数据仓库 数据仓库是数据挖掘过程的重要组成部分。传统上,数据仓库涉及将结构化数据存储在关系数据库管理系统中,以便对其进行商业智能、报告和基本仪表板功能的分析。今天,在半https://baijiahao.baidu.com/s?id=1786242884956031097&wfr=spider&for=pc
3.数据挖掘的工具与软件SAS:SAS是一种商业软件,提供了强大的数据分析、数据可视化和机器学习功能。 KNIME:KNIME是一个开源的数据挖掘工具,可以用于数据预处理、数据分析、机器学习等。 Weka:Weka是一个开源的机器学习软件,提供了许多常用的机器学习算法。 在接下来的部分中,我们将详细介绍这些工具和软件的核心概念、算法原理、具体操作步骤和https://blog.csdn.net/universsky2015/article/details/135803268
4.数据挖掘用哪些工具做帆软数字化转型知识库R是一种专门用于统计分析和数据可视化的编程语言。它提供了丰富的数据挖掘工具和包,如 dplyr、tidyr 和 ggplot2。R 的强大之处在于其统计功能和可视化能力,使得数据分析和结果展示变得更加直观。R 也支持各种数据格式,如 CSV、Excel 和 SQL 数据库,可以方便地进行数据导入和导出。其社区活跃,拥有大量的开源资源和文https://www.fanruan.com/blog/article/576876/
5.3款好用的数据挖掘工具功能分析,你pick款?一般来说,思迈特软件Smartbi是一种非常实用的数据挖掘工具。 二、Oracle 该数据挖掘工具提供了优秀的数据预测算法,可用于分类、回归、聚类、关联、属性重要性判断等专业分析。Oracle数据挖掘功能允许用户发现洞察力、预测和使用Oracle数据,并构建模型来发现客户行为目标客户和开发总结文件。此外,还可以使用SQL.PL/SQL.R和https://www.jianshu.com/p/4cd84141e377
6.常用的数据挖掘软件有哪些常用数据挖掘工具通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。 1.2 专用数据挖掘工具 针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑了数据、需求的特性。 2 数据挖掘工具选择 2.1 数据挖掘工具选择参考指标 功能性:一个好的数据挖掘工具应该能够为每个步骤体哦那个相应的功能集; https://blog.51cto.com/u_13446/9407416
7.2024在市场规模方面,全球数据挖掘工具市场近年来保持了稳步增长的态势。这主要得益于大数据技术的不断突破和应用场景的持续拓展。随着数据的爆炸式增长,企业对于数据挖掘工具的需求也日益增加,推动了市场的快速发展。同时,随着云计算、人工智能等技术的不断融合,数据挖掘工具的功能和性能也得到了显著提升,进一步扩大了市场规模https://m.book118.com/html/2024/1219/7032042065010011.shtm
8.数据挖掘工具有哪些数据挖掘软件排名R软件是另一种较为流行的GNU开源数据挖掘工具,它主要是由C语言和FORTRAN语言编写的,是一款针对编程语言和软件环境进行统计计算和制图的免费软件。 除了可以为科学家、研究人员以及学生提供数据挖掘和分析功能外,它还可以提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等等。 https://m.elecfans.com/article/609515.html
9.最好用的采集数据挖掘工具软件熊猫采集工具软件介绍及下载最好用的采集数据挖掘工具软件-熊猫采集工具软件介绍及下载 人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。 经管之家是国内活跃的在线教育咨询平台! 经管之家新媒体交易平台 https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_1540678_1.html
10.易撰:高效写作工具助力内容创作,媒体人士必备的干嘛用功能解析易撰是一款基于数据挖掘技术的自媒体工具,它整合了各大自媒体平台的内容,为自媒体作者提供实时热点追踪、爆文素材、视频素材以及微信文章编辑器排版等功能。易撰团队持续对产品实优化和更新不断改进算法,升级客户体验,旨在助力自媒体人士高效运营。 二、易撰的核心功能解析 https://www.yanggu.tv/webgov/aixuexi/235066.html
11.友情链接检测结果十亿级数据支持,为您提供更方便的数据挖掘功能 进入API接口 更多工具 站长的必备工具,用户可以通过权重查询、收录查询、反链查询、死链检测、关键词挖掘、网站速度测试等工具,全面了解网站表现和优化方向。 综合查询 网站SEO综合诊断工具 百度权重 百度关键词排名分析 https://linkche.aizhan.com/
12.数据分析中的数据挖掘需要哪些工具数据分析中的数据挖掘需要以下工具:一、数据库管理工具;二、ETL工具;三、数据可视化工具;四、统计分析工具;五、机器学习工具;六、自然语言处理工具;七、大数据处理工具;八、Web爬虫工具;九、时间序列分析工具;十、图像处理工具;十一、数据挖掘工具。 一、数据库管理工具 https://www.linkflowtech.com/news/1596
13.教育信息化2.0视域下的“互联网+教育”要素与功能研究文章提出了“互联网+教育”的五个核心要素:学习资源、学习方式、师生关系、教学环境和管理模式;从“互联网+”对教育的重构和对教育信息化2.0的支撑两个方面讨论了“互联网+教育”的功能。文章认为,“互联网+教育”从思想源泉、创新工具和变革途径三个方面对教育信息化2.0起重大支撑作用。http://epc.swu.edu.cn/info/1129/3278.htm