重磅干货丨互联网数据挖掘导论新闻中心数据观中国大数据产业观察

熟悉数据挖掘的流程与各个步骤所用的技术

对数据挖掘的应用场景有基本的认识

写在前面

随着互联网的日益蓬勃发展,如何从广袤的信息海洋中提取出有价值的信息、模式和关系,逐渐成为了一门新的领域——数据挖掘。作为一门交叉学科,数据挖掘融合了信息检索、互联网、数据库、机器学习、自然语言处理等不同的学科,用多样技术完成具体的数据挖掘应用。常见的应用有:垂直搜索、推荐系统、智能问答、机器翻译、舆情监测、情报收集等等,可谓是深入到了我们日常生活的方方面面。

▊接下来我们会从基础技术说起,从以下三个方面来了解数据挖掘:

搜索技术

数据挖掘技术

具体应用

搜索

搜索其实是一个很大的主题,但是核心问题其实并不复杂,一是如何去表示文档,二是在这样的基础上如何去检索文档。具体的评价标准是『效果』和『效率』。效果指的是如何准确匹配查询与文档,一般来说会基于检索模型进行。效率值得是如何快速返回检索结果,一般来说是基于索引进行的。

文档表示

▊文档表示一般有两种方法:手动或自动

自动方法,最有代表性的是词袋(BagofWords)技术,即使用文档中出现的词的集合来表示一篇文档。但是这种方法也有很多不足之处,因为是词语的无序集合,句法信息首先已经丢失了,另外针对不同的语言会有不同的难点。

对于中文来说,如何进行分词(即把句子分成词)就是一个很大的难点,尤其是层出不穷的网络热梗,如何保证准确和实时就是非常大的挑战。对于英文来说,虽然没有分词的问题,但是大小写、单复数、时态、词根等等同样让人头疼。这也导致了大部分搜索引擎都不会考虑词根问题,一是因为文档太多,进行二次处理得不偿失,二是因为对于搜索结果来说影响没有那么大,自然就没有太大的动力去做。

文档索引

表示了文档之后,我们需要对其进行索引,不然每次检索如果需要用户等太久,体验就很糟糕了。而具体到用什么进行检索,最终人们选择了用词而不是短语来作为索引,这里一个比较有代表性的工具就是Lucene,现在互联网上广为应用的Elasticsearch和Solr都是基于Lucene的。

Lucene最重要的技术就是倒排索引(invertedindex),可看做链表数组,每个链表的表头包含关键词,其后序单元则包括所有包括这个关键词的文档标号,以及一些其他信息,如该词的频率和位置等。这里关键词查询一般采用B-Tree或哈希表,文档列表组织一般采用二叉搜索树。

文档检索

最初人们常用的是基于布尔代数的匹配,虽然比较简单,但是对查询的要求很高;并且匹配标准过于严格,容易导致过少或过多的检索结果。尽管布尔模型不再用作主流文档检索模型,但其思想常用于实现高级(综合)检索功能。

现在最常用的是向量空间模型(VectorSpaceModel),其思路是文档与查询都是高维空间中的一个向量,用户自由输入文本也是一个向量,利用向量空间的相似性进行查询。具体的相似性同样可以用两种方法来确定:内积或者夹角。因为是空间,所以度量距离的时候会采用不同的描述距离的方式,有Minkowskimetric,Euclidiandistance,Jacquardmeasure和Dice’scoefficient等等。

同一篇文档中不同词语其实也会有不同的权重,这里我们比较常用的是TF-IDF算法,其中TF表示词语出现的频率,而IDF则能区别不同词语的重要性。

文档收集

前面介绍了文档检索的各种概念,但是现在问题来了,文档从哪里来呢?这就要提到我们最常听见的爬虫(WebCrawler)了,它能够快速有效地收集尽可能多的有用Web页面,包括页面之间的链接结构。

▊随着Web2.0的兴起,脚本语言生成的动态内容和各类多媒体内容给爬虫增加了许多难度,但基本的页面爬取策略没有太大的改变,一般以以广度优先为主,深度优先为辅,需要具体的特性主要有:

健壮Robustness,避免进入死循环

友好Politeness,遵守服务器的采集协议

分布式Distributed,多台机器分布式采集

可扩展Scalable,爬虫架构方便扩展

性能与效率,有效利用系统资源

质量Quality,倾向于采集有用的页面

新颖Freshness,获取网页的最新版本

可扩充Extensible,能够处理新数据类型、新的采集协议等

链接分析

这里有一个很有趣的现象叫做排序沉入(RankSink),页面A引用了页面B,页面B也引用了页面A,就形成了一个闭环,不再向外传播分数了。这是我们在实际运用中需要避免的情况。

数据挖掘

数据挖掘根据应用的不同,分为不同的子领域,这些子领域又和机器学习、概率统计、模式识别等有着千丝万缕的关系。接下来先介绍基本概念,然后聊聊一些常见的应用。

主要任务

为了完成上述任务,整个数据挖掘的流程为:获取数据->选择数据->预处理数据->数据规整->数据挖掘->模式识别。不同阶段会使用不同的技术,但一定要把整个流程走通,数据挖掘才有意义。

随着数据量的增大,如何让数据挖掘更加容易拓展效率更高,如何去挖掘有上下文关系的数据,如何从复杂、异构、网络化数据中挖掘复杂知识,如何挖掘低质量数据,如何保证安全性和隐私,都是未来数据挖掘需要努力的方向。

常用工具

▊开源的工具有:

Weka

GATE

Carrot2

NLTK

Orange

RapidMiner

KNIME

▊商用的应用主要有:

IBMInfoSphereWarehouse

MicrosoftAnalysisServices

SASEnterpriseMiner

STATISTICADataMiner

OracleDataMining

自然语言处理

▊推荐教材:

FoundationsofStatisticalNatrualLanguageProcessing

SpeechandLanguageProcessing

统计自然语言处理

▊这里主要以汉语为例子说说分词。一般认为词是最小的、能够独立运用的、有意义的语言单位。但是汉语分词有许多挑战,比如:

词和词组的边界模糊

新词(未登陆词)

切分歧义

汉字串AJB被称作交集型切分歧义,如果满足AJ,JB同时为词,此时汉字串J被称作交集串

汉字串AB被称作组合型切分歧义,如果满足条件A,B,AB同时为词

真歧义:存在两种或两种以上的真实存在的切分形式

简单的模式匹配

正向最大匹配(FMM)、逆向最大匹配(BMM,比正向更有效)、双向匹配(BM,比较两种方法的结果,大颗粒词越多越好,非词典词和单子词越少越好,可以识别出交叉歧义)

基于规则的方法

最少分词算法

基于统计的方法

统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词

第一步是候选网格构造:利用词典匹配,列举输入句子所有可能的切分词语,并以词网格形式保存

最后根据图搜索算法在图中找到一条权值最大的路径,作为最后的分词结果

常见应用

接下来介绍数据挖掘的积累常见应用:

▊智能问答技术

智能问答技术起源于信息检索社区,简单来说就是根据用户的提问给出简短的答案或提供答案的证据。根据不同的划分标准,我们可以总结出如下的几类问题类型:

根据答案类型划分

事实型问题(Factualquestions)

观点型问题(Opinions)

摘要型问题(Summaries)

根据问题言语行为(questionspeechact)划分

是否型问题(Yes/NOquestions)

WH问题(WHquestions)

间接请求(IndirectRequests)

命令(Commands)

复杂/困难问题

为什么/怎么样(Why,Howquestions)

什么(Whatquestions)

遗憾的是,目前大部分理解问题的技术都是基于正则表达式的,毕竟在自然语言理解这块,暂时还没有突破性进展。

▊传统自动问答技术主要是基于语料库的自动问答或基于知识库的自动问答,基本包括三个步骤:

问题分析(分类、模板匹配、语义分析)

段落检测(段落抽取、排序)

答案抽取(实体识别、模板匹配、排序)

社区问答主要是应用与诸如知乎和Quora这类网站,目前主要的方向是问题分类、问题推荐、信誉评估和知识抽取等等。

情感分析与观点挖掘

情感分析与观点挖掘主要应用于产品比较与推荐、个人与机构声誉分析、电视节目满意度分析、互联网舆情分析和反恐与维稳。目前很多互联网平台(如淘宝、大众点评)都已经利用这种技术帮助提取用户评价中的关键词以提供更好的用户体验。

▊基本的框架如下所示:

应用层:情感检索,情感摘要,情感问答

核心层:情感要素抽取,情感倾向性分析,主客观分析/观点文本识别

基础层:NLP基本模块,情感资源收集与标注

▊而具体应用中,会将文本按照所表达的总体情感进行分类,可能的分类主要有如下三种,一般会从词、句子、文档三中粒度来进行分析:

主客观分析/观点文本识别

客观:反映关于世界的事实信息

主观:反映个人情感、信念等

倾向性分析(可看作主客观分析的细粒度处理)

对包含观点的文本进行倾向性判断

一般分为三类:褒义、贬义、中性(在一些问题不考虑中性)

情绪分析

愤怒、高兴、喜好、悲哀、吃惊等等

特征抽取与聚类(aspectextractionandgrouping)

抽取对象的所有特征表达,并将同义特征表达聚类。每个特征类表示了关于该对象的独一无二的某个特征

特征情感分类(aspectsentimentclassification)

确定观点针对每个特征的情感倾向:正面、负面、中性

信息摘要

抽取式:从文档中抽取已有句子形成摘要。这种方法实现简单,能保证句子的可读性

生成式/混合式:生成新的句子,或者对已有句子进行压缩、重构与融合。这种方法难度更大,但更接近摘要的本质

抽取式文档摘要的典型工作流程是:文档集->文档理解->句子重要性计算与排名(利用词语句子的各类特征,基于机器学习)->句子选择->摘要句子排序->摘要

目前摘要总体性能不高,需要方法上的突破。

社交网络分析

社交网络作为Web2.0的典型代表,用户生成的内容相当多,可以看作是某种程度上的群体智慧和在强交互性基础上构造的异构网络。

社交网络分析主要是基于社交关系、结构进行挖掘,比如社区检测、连接预测、影响力分析。而社交内容挖掘则是基于文本等内容数据进行挖掘,比如摘要、关键词、情感分析。因为每个人在社交网络上可以抽象为一个元素,于是他们之间的关系可以用矩阵表示。另一种表示的方式是使用图,其中节点=成员,边=关系。

▊比较常见的任务有:

社交网络抽取(SocialNetworkExtraction):从数据源中抽取、构建社交网络

网络中心性分析(NetworkCentralityAnalysis):识别社交网络上最重要的节点(重要性的定义由目的、环境所定)

输入为一个社交网络,输出为最重要的节点列表,一般方法是为节点计算分数或排序,反映节点的重要性/专业性/影响力

对于点重要性的评估可以采用网络中心性测度(Centralitymeasures)方法,具体中心性的定义可能是度数中心性(朋友最多)、中介中心性(处在信息流动关键节点)或亲近中心性(离所有节点平均距离最短)

用户画像:根据用户特点给用户群体分类

链接预测(LinkPrediction):给定一个社交网络,预测哪些节点相互连接。例如:facebook中的好友推荐

病毒式营销(ViralMarketing):找出若干用户,为其提供优惠或折扣,从而影响网络上的其他用户,使得收益最大化

试一试

尝试在网络寻找应用了数据挖掘的产品,并思考不同公司是如何使用的

对于大数据时代的个人隐私问题,你怎么看?

总结

这一讲,我们简单了解了数据挖掘及应用的方方面面,当然,如果有很多不明白的概念,建议简单看看维基百科了解一下,不过实在不明白也没关系,随着之后的实践,应该会有恍然大悟的一天。

THE END
1.数据挖掘基于数据挖掘技术的CRM应用腾讯云开发者社区数据挖掘(Data Mining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。 https://cloud.tencent.com/developer/article/1044985
2.数据挖掘算法与现实生活中的应用案例数据挖掘在生活中的应用案例上文所提到的四种算法类型(分类、预测、聚类、关联),是比较传统和常见的。还有其他一些比较有趣的算法分类和应用场景,例如协同过滤、异常值分析、社会网络、文本分析等。下面,想针对不同的算法类型,具体的介绍下数据挖掘在日常生活中真实的存在。下面是能想到的、几个比较有趣的、和生活紧密关联的例子。 https://blog.csdn.net/pangjiuzala/article/details/49428491
3.简述数据挖掘的应用领域。数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 数据挖掘在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数据库,皆可利用数据挖掘工具进行https://easylearn.baidu.com/edu-page/tiangong/bgkdetail?id=58206c54f01dc281e53af0fa&fr=search
4.数据挖掘应用(精选十篇)①数据选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据预处理:研究数据的质量,进行数据的集成、变换、归约、压缩等,为进一步的分析作准备,并确定将要进行的挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成功的https://www.360wenmi.com/f/cnkeymoknlxl.html
5.数据挖掘应用专题28.6 不会停的蜗牛 3 18 数据挖掘及其在金融中的应用 数据挖掘及其在金融中的应用 - hhqiu的日志 - 网易博客http://hengqiu0417.blog.163.com/blog/stat 1.4 葡萄喃喃呓语 0 26 专题公告主要为数据挖掘在实际业务中的应用案例 分享到 管理https://www.jianshu.com/c/c3dea3bc561e
6.商业智能中数据挖掘的应用也可以理解成一个用来构建各种假说的方法,在商业智能系统中,数据挖掘应用在大数据的数据库中,在体量巨大的数据库中挖掘数据的变化趋势,这就是数据挖掘的魔力。 数据挖掘流程 1.定义目的 数据挖掘的前期准备,便是对于将要处理的数据如何定义,明确数据挖掘的目的和意义,按照最终目的去准备。定义数据挖掘目的。 2.数据https://www.finebi.com/detailed-design/shujuwajue
7.数据挖掘的应用嘲有哪些在医学分析的领域,病人的病例可以通过记录他的门诊就诊次数和假期的季节来分析。它还有助于确定对各种疾病,成功进行药物治疗的模式。研究人员也正在使用多维数据来降低成本,提高提供的服务质量,并提供更广泛和更好的护理。 5、教育 在教育领域,数据挖掘的应用一直很普遍,其中新兴的教育数据挖掘应用,主要集中在从教育机https://www.linkflowtech.com/news/2012
8.数据挖掘的应用热点有哪些帆软数字化转型知识库数据挖掘的应用热点包括:客户行为分析、金融风险管理、医疗诊断、市场营销、推荐系统、网络安全、社交网络分析、制造业优化。其中,客户行为分析是数据挖掘最为广泛且重要的应用之一。通过分析客户的购买历史、浏览行为和社交媒体互动,企业能够更精准地了解客户的需求和偏好,从而实现个性化推荐、优化营销策略以及提高客户满意度https://www.fanruan.com/blog/article/592976/
9.《数据挖掘应用》课件.ppt《数据挖掘应用》PPT课件欢迎来到《数据挖掘应用》PPT课件!本课程将介绍数据挖掘的概念、任务、流程、算法以及应用实例,并展望其发展趋势和应用前景。让我们一起深入探索数据挖掘的奥秘。一、介绍数据挖掘的定义数据挖掘是指从大量数据中发现隐藏在其中有价值的信息和模式的过程。了解数据挖掘的基本概念、优势和局限性。https://max.book118.com/html/2023/1224/5002131114011031.shtm
10.数据挖掘及应用期刊摘要:简要介绍了知识发现的一般过程,对其中的关键步骤数据挖掘的概念、任务、方法以及在各相关行业中的应用做了较详细的阐速. 关键词: 知识发现数据挖掘数据分析 分类号: TP3(计算技术、计算机技术) 在线出版日期: 2004-02-06 (万方平台首次上网日期,不代表论文的发表时间) 页数: 3 (28-30) https://d.wanfangdata.com.cn/periodical/xddzjs200212011
11.数据挖掘在人力资源信息分析中的应用首先企业要根据发展战略目标,进行工作分析,制定人力资源规划,具体分析拟招聘人数、招聘标准,认清数据挖掘的目的;其次人力资源部招聘专员在平台上发布招聘广告,招聘广告的内容包括公司的基本情况、招聘岗位、应聘人员的基本条件及截止日期,从网站的数据库中获得简历数据,将应聘人员作为数据仓库,从中选择出适用于数据挖掘应用https://biyelunwen.yjbys.com/fanwen/guanli/614244.html
12.什么是数据挖掘数据挖掘有哪些应用数据挖掘是一种从大量数据中自动发现隐藏信息和潜在关系的技术。它运用了统计学、机器学习和数据库等相关领域的知识与技术,可以帮助人们对数据进行全面深入的分析,提高数据的利用价值。https://www.eefocus.com/e/1348975.html
13.R语言数据挖掘方法及应用(薛薇著)完整pdf扫描版[188MB]电子书下后续围绕数据挖掘应用的四大核心方面,安排了数据预测篇:立足数据预测未知,数据分组篇:发现数据中的自然群组,数据关联篇:发现数据的内在关联性,离群数据探索篇:发现数据中的离群点。每篇下各设若干章节,各章节从简单易懂且具代表性的案例问题入手,剖析理论方法原理,讲解R语言实现,并给出案例的R语言数据挖掘代码和结果https://www.jb51.net/books/630445.html
14.数据挖掘技术的应用网易数帆为您提供数据挖掘技术的应用相关产品介绍、帮助文档,与数据挖掘技术的应用感兴趣的用户在网易数帆社区进行知识和技术交流互动。网易数帆 - 领先的数字化转型技术与服务提供商!https://www.163yun.com/search/5pWw5o2u5oyW5o6Y5oqA5pyv55qE5bqU55So
15.数据挖掘技术与应用(豆瓣)大数据时代,数据挖掘技术被越来越广泛应用于解决工程应用和科学领域的复杂问题。近年来数据科学相关技术更新较快,但“数据挖掘”课程的教材出版较少。从探索培养应用型人才所需要的数据挖掘知识体系的角度出发,我们组织编写了这本质量过硬、新颖实用的教材。 《数据挖掘技术与应用》适用于数据科学相关的本科、研究生相关专https://book.douban.com/subject/35694932/
16.如何进行数据挖掘(数据挖掘方法与应用)数据挖掘是从大量数据中通过算法和统计模型提取模式与知识的过程,它广泛应用于商业智能、金融分析、市场分析、医疗诊断等领域,以下是进行数据挖掘的步骤和方法: (图片来源网络,侵删) 1. 确定问题和目标 在任何数据挖掘项目开始之前,必须明确你希望通过数据挖掘解决的问题以及你的目标是什么,这将指导后续的数据收集和分https://www.kdun.com/ask/490583.html
17.数据挖掘与分析应用课程介绍:网络 1.数据挖掘与分析应用(17集) 课程列表 【第1集】第一集 关于课程的策划.mp4(上)译 【第2集】第一集 关于课程的策划.mp4(下)译 【第3集】第二集 数据分析软件界面介绍.mp4(上)译 【第4集】第二集 数据分析软件界面介绍.mp4(下)译 https://open.163.com/newview/movie/courseintro?newurl=RHK36F8CF
18.数据挖掘的应用嘲都有哪些?数据挖掘技术的应用已经渗入到教育教学的各个方面,如支持教育科学决策、实施个性化教育、对学生的学业成绩进行评估等。数据挖掘的实际应用逐渐突破了传统的教学模式,改善了教学效果,促进了教学质量的提升。 2.风控领域 数据挖掘作为深层次的数据信息分析方法,能够对各种因素之间隐藏的内在联系进行全面分析。目前在风控领域可https://m.hqqt.com/webnews/16092935968229.html
19.数据挖掘:原理与应用→ 69630~数据挖掘原理与应用习题答案(习题答案) → 教辅资源获取方式.txt(PPT课件) → 69630~数据挖掘原理与应用教材对应PPT-更新版(PPT课件) 资源详情 资源名称:69630~数据挖掘原理与应用习题答案 下载积分:10 资源类型:习题答案,PPT课件 书号:69630 http://www.cmpedu.com/ziyuans/ziyuan/109889.htm
20.数据挖掘VS数据分析:区别联系及应用嘲在数据科学的世界里,数据挖掘和数据分析是两大基础概念。尽管它们经常被混为一谈,但它们的目的、方法和应用场景存在明显的差异。作为一名在这个领域有多年实践经验的从业者,我经常见到新手对此感到困惑。今天,我们来深入探讨这两个概念的区别与联系,帮助大家在实际工作中更好地运用它们。 https://www.cda.cn/view/204818.html
21.数据挖掘算法与应用(Python实现)孙家泽,王曙燕编理科教材本书是作者近几年面向本科生和研究生开设的“数据挖掘及应用”的教学实践与积累,介绍数据挖掘的经典算法、典型应用,以及Python数据分析、挖掘实现和6个经典应用案例。 内容简介 本书是作者近几年面向本科生和研究生开设的"数据挖掘及应用"课程的教学实践与积累,作者参考了国外有名大学相关课程的教学体系,系统地介绍https://item.winxuan.com/1202167992
22.数据挖掘论文二、数据挖掘的现代最新方法介绍 常用的数据挖掘方法主要有决策树(Decision Tree)、遗传算法(Genetic Algorithms)、关联分析(Association Analysis).聚类分析(C~smr Analysis)、序列模式分析(Sequential Pattern)以及神经网络(Neural Networks)等。 三、数据挖掘的实际应用 https://www.unjs.com/lunwen/f/20220924130749_5650839.html
23.《数据挖掘:方法与应用(第2版)》(徐华)简介书评当当网图书频道在线销售正版《数据挖掘:方法与应用(第2版)》,作者:徐华,出版社:清华大学出版社。最新《数据挖掘:方法与应用(第2版)》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《数据挖掘:方法与应用(第2版)》,就上当当网。http://product.dangdang.com/29391892.html
24.数据挖掘原理与应用数据挖掘 :原理与应用 作者:丁兆云,周鋆,杜振国著 ISBN:9787111696308 出版社:机械工业出版社 出版年:2021 数据挖掘原理与商务应用 作者:朱小栋 ISBN:9787542938169 出版社:立信会计出版社 出版年:2013 数据挖掘原理、算法及应用 作者:李爱国 ISBN:9787560627311 出版社:西安电子科技大学出版社 出版年:2012 数据https://www.las.ac.cn/front/book/detail?id=a290d2ca395574132025fa6ae5b567e1