非结构化数据分析和应用非结构化数据分析和应用孔祥维管理学院数据系kongxiangwei@目录和内容第一章
非结构数据化分析和应用导论第二章非结构数据化获取和表示第三章文本数据的表示和分析第四章图像数据的表示和分析第五章音乐数据的表示和分析第六章非结构数据化分析应用案例和挑战第一章非结构化数据分析概论第一部分背景篇-导论第1章非结构数据分析概论1.1非结构数据的概念1.2非结构数据的特点1.3管理视角的非结构数据分析1.4非结构数据分析的应用典例即评即测1.1非结构数据的概念
维基百科对数据驱动的定义:
数据驱动指的是流程中的行为是被数据驱动而不是被人的直觉和经验驱动的
表2流程驱动和数据驱动的不同点流程驱动数据驱动输入:人的经验、直觉输入:结构和非结构数据过程:文档设计,流程分析过程:数据建模,人工智能设计过程可解释,过程可视化模型训练过程不可见非自动化可自动化迭代慢学习迭代输出:规则体系输出:决策体系流程驱动和数据驱动的不同点1.4非结构数据分析的应用典例经济案例1:分析卫星图像衡量制造业活跃程度SpaceKnow公司的卫星图像感兴趣的区域SpaceKnow是一家美国公司,该公司基于卫星图像数据和机器学习算法,创建了经济学新概念
“中国卫星制造业指数”(ChinaSatelliteManufacturingIndex)—SMI,用于评估中国制造业活跃程度。数据源自22亿个卫星图像,反映了50万平方公里下6000个工业区里的商品库存、房地产以及表面材料等,通过AI算法,分析经济活动的某些特征。例如,一块原先被草覆盖的土地后来变成了水泥地面,可以说明这期间该地区制造业在扩张。
SpaceKnow的中国卫星制造业指数(CNSMI)SMI以50为分界线,低于50为收缩,高于50为扩张。金融案例:卫星图像用于原油储备监测OrbitalInsights分析储油罐卫星图像的影子变化,监测原油储备美国数据服务提供商OrbitalInsights对分析卫星图像的储油罐的影子变化,以监测原油储备。为减少蒸发储油罐上有个漂浮盖子,储油量高低不同盖子会随之上下浮动,导致反射在储油库墙上的月牙形的影子大小有变化,当储油罐满的,影子最小,当储油罐空的,影子最大。市场不透明是导致油价波动的主要因素之一,通过监控的原油储备情况,可为客户提供更精确的原油数据,帮助顾客做出更好的市场决策。金融案例:生物识别+金融
个人产生的数据如社交网络信息、产品评价、搜索记录、购物喜好等;商业过程数据如物流数据、支付数据等;如大型百货公司客流量、大型游乐场客流量等数据;传感器数据如利用卫星数据通过光感和热感采集钢厂、化工厂、原油等的开工、采集、运输情况;来自GPS定位、车辆轨迹和个人穿戴设备的另类数据。商业案例:Amazon新零售无人购物新零售是一种以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。无人零售业包括开放货架、自动贩卖机、无人便利店和无人超市AmazonGo无人超市是亚马逊推出的用户体验较好的自动化无人便利店,2018年1月正式向公众开放超市中有大量的图像和视频数据分析产品用于数据监控和场景测量,基于人工智能和数据分析,AmazonGo实现了即拿即走的无人零售。Amazon新零售无人购物购物流程
左边两张图被正确地预测为卧室;右边两张图被正确地预测为不是卧室医疗案例:首款人工智能医疗设备IDx-DR
多学科团队
中心医院治疗Viz智能护理协调的工作流程
文本文件是指以ASCII码方式存储的文件,英文、数字等字符存储的都是ASCII码英语文字是由26个字母拼组而成,用一个字节表示一个英文字符。汉字国标GB2312标准共收录6763个汉字,汉字存储的是机内码,编码采用两字节的低7位共14个二进制位表示。文件有多种格式存储:txt格式的文件大多数软件都可以查看,如记事本、浏览器等等。优势是体积小、存储简单方便,用记事本阅读,支持纯文字,不支持图像。
doc格式的文件是现在主流的文字编辑软件,应用最广泛的文本格式*.doc使用2003以前版本,自Word2007之后变为docx
html格式的文件是一种制作万维网浏览器页面的标准语言,它是用超文本标记语言编写生成的文件格式可以产生网页传递各类资讯的文件,消除了不同计算机之间信息交流的障碍。pdf格式的文件PDF是PortableDocumentFormat的简称,意为“可携带文档格式”,是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。
2.1.3文本标注
来自今日头条的新闻版块,提取了15个类别的新闻,包括旅游,教育,金融,军事等,主要用于短文本文本分类(4)清华新闻分类语料库根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成,共包含74万篇新闻文档,包括体育,财经,房产,家居,教育,科技,时尚,时政,游戏,娱乐14个候选分类类别。2.2图像数据获取
2.2.2图像的获取-设备获取可见光/红外热成像/显微/激光/电镜/等图像的获取手机/相机红外/热成像显微成像扫描电镜可见光/激光雷达/红外/热成像探地雷达成像2.2.2图像的获取-生成图像GAN可以创造非常逼真的假图像,其真实度人眼难以辨识出来。上图展示出多种形式图像的转变与生成。2.2.3面向任务的图像标注
目标检测标注
线和边缘标注2D包围框:在被检测的物体周围绘制矩形框,定义对象在图像中的位置,边框由矩形左上角的x、y轴坐标和右下角的x、y轴坐标来确定。优点和缺点:标注相对容易、快速。但不能提供重要的信息,如物体的方向,这对许多应用来说是至关重要的。多边形标记:针对形状不规则的物体,使用多边形标记。注释时只需标记物体的边缘,就能得到要检测物体的轮廓。
优点和缺点:多边形标记的优点是捕获了物体的精确尺寸,但非常耗时,如果物体的形状是复杂的,很难标注。线和边缘标记:线和样条线适用于多种用途,但它们主要用于训练机器识别车道和边界语义分割标注语义分割:语义分割是需要像素级标注,其中图像中的每个像素都被关联到一个类,每个像素都带有语义意义。实例分割:实例分割是图像分割的一种子类型,它在像素级别上标识图像中每个物体的每个实例。实例分割和语义分割是图像分割的两种粒度级别之一。全景分割:全景分割结合了语义分割和实例分割,所有像素都被分配一个类标签,所有目标实例都被唯一地分割。即同时实现对背景的语义分割和前景的实例分割图像分类标注LabelMe是麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发的图像标注工具,人们可以使用该工具创建定制化标注任务或执行图像标注,项目源代码已经开源。2.2.4图像数据库
视频储存格式常用的四种存储格式有:AVI格式MOV格式MPG格式FLV格式2.3.3视频数据标注人工标注员和自动化工具被结合起来用于标记视频素材中的目标对象。视频标签越准确,模型的表现就越好。常用的视频标注工具有CDVA(compactdescriptorforvideoanalysis),VoTT等国内有京东众智、百度众测等平台对标注任务进行外包。VoTT对视频进行标注的界面2.3.4视频数据库UCF101是从YouTube收集的具有101个操作类别的现实动作视频识别数据集。101个动作类别的13320个视频,具有相机运动、物体外观和姿势、物体比例、视点、杂乱背景、照明条件等变化的现实动作视频数据。UCF101数据集的动作类别包括:化眼妆、涂唇膏、射箭、婴儿爬行、平衡木、乐队游行、棒球、打篮球、扣篮、卧推、骑自行车、台球、吹干头发、吹蜡烛、下蹲、保龄球、拳击、出气筒、蛙泳、刷牙、挺举、悬崖跳水、保龄球、板球、潜水、打鼓、击剑、曲棍球、体操、飞盘、爬泳、高尔夫挥杆、理发、扔链球、锤击、倒立俯卧撑等等。AVA人类动作识别数据库
谷歌发布了数据集AVA(AtomicVisualActions),提供扩展视频序列中每个人的多个动作标签。从YouTube收集了大量“电影”和“电视”两个类别。每个视频分析其中15分钟的剪辑片段,这个片段均匀分割成300个不重叠小片段,每一段3秒钟。在每个3秒片段的中间帧,打标者从80个原子动作词汇中选择标签来描述人物的行为动作。行为分为三组:姿态/移动动作、人和物体的交互、人与人的交互2.4音频数据获取音频包括语音、唱歌、音乐等,由于空气震动产生的声波。除了空气以外,在固体和液体中,声音也是可以传播的。声音在计算机中是通过将连续的声波进行数字化来完成的。人和一些动物发声和听觉的频率范围2.4.1设备获取、网络下载和音频合成通过网络引擎搜索音频资源Window10自带的录音软件利用软件进行音频合成编辑
如图展示了电影《美丽人生》海报和用户在豆瓣APP上对电影进行的评价。网络社交圈子中,除了文字之外,还有丰富的表情包、新生的颜文字,通过卡通表情来叙述自己的态度。中英文混杂缩写DIY:DoItYourself的缩写,自己动手做的意思。例句:清欢太坏了,青眉电脑坏了找他修,他让青眉DIY。SOHO:SmallOfficeHomeOfficer的简称,意思是“在家办公”。
例句:《游侠秀秀》的作者小非是SOHO一族啊。BUG:原意是“臭虫”,后来把跟电脑有关的故障都称之为“BUG”。例句:每回侠客社区出现BUG,青眉都急得跳脚。I服了U:我服了你……周星星片子里的经典台词。例句:你居然能让清欢不对你说“不”,I服了U!EMO:“我抑郁了”,“我网抑云了”,“我颓了”“我傻了”谐音短语:数字谐音快速表达某些短语,如下:
频次编码CountVector:通过计数来生成词向量的。举例说明:包含2个文档的语料库:“我爱浙大”、“我爱中国,非常爱”。语料库中共有5个词出现,首先使用文本表示方法转换为词袋:(我,爱,浙大,中国,非常)则该语料库的这两个文档都使用维度为5的CountVector来表示:第一个文档中,“我”出现1次,计数为1;第二个文档中“爱”出现了2次,计数为2。以此类推:共现矩阵共现矩阵是一个对称矩阵,用来分析词与词之间基于上下文的相似性指在中心词的左右某个窗口大小的范围内,某两个词共同出现的次数如果窗口大小为1,则计算中心词与前后1个位置的词的共现次数对于语料库:“我爱浙大”、“我爱中国,非常爱”中的文档“我爱浙大”,滑动窗口大小为1,寻找每一个词前后的两个词如“爱”前后为“我”和“浙大”,在对应位置标注1即可得到共现矩阵为下:Index我爱浙大中国非常我01000爱10100浙大01000中国00000非常00000示例语料库文档“我爱浙大”的共现矩阵A/D转换器镜头CCD传感器滤波器CFA插值
图像的数字化描述是能够在计算机上存储和容易分析的图像形式可根据特性分为位图和矢量图。位图通常使用数字阵列来表示,常见的格式有BMP、JPEG、GIF等。用数字照相机得到的图像都是位图图像,位图图像由像素组成,每个像素都被分配一个特定位置和颜色值数字化描述方式,灰度图像、二值图像、彩色图像和比特平面分层图像等矢量图有矢量数据库表示,常见的是PNG图形位图的矩阵描述将一幅图像视为一个二维函数f(x,y)其中x和y是空间坐标,在x-y平面中的任意一对空间坐标(x,y)上的幅值f用来表示一幅图像具有两个连续变量x和y的连续图像函数,该函数可以是该点的灰度、亮度或者强度。灰度图像RGB彩色图像自然界几乎所有颜色都可以由红绿蓝三种颜色组合而成,称为RGB三原色彩色图像的每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来表示的红、绿、蓝每一种颜色各有256级亮度,256级的RGB色彩总共能组合出约1678万种色彩对于图像的每个像素,通过控制RGB三原色的合成比例,则可决定该像素的显示颜色
比特平面分层比特平面分层代替突出灰度级的范围,突出特定的比特对整个图像做出的贡献像素是比特组成的数字,一幅8比特的图像可以认为是8个1比特的平面构成平面1包含图像中所有像素的最低阶比特,平面8包含图像中所有像素的最高阶比特低阶的比特平面含有原图的灰度细节高阶的比特平面则包含了大多数的图像的数据可以使用高阶的几层比页面重建原图,减少图像存储量《蒙娜丽莎的微笑》图像的比特平面分层示例分层的作用:通过对特定位面提高亮度,改善图像质量分层观察图像进行图像差异化的描述分析较高位(如前4位)包含视觉重要数据较低位(如后4位)对图像小细节有作用可以分析每一位在图像中的相对重要性
彩色图像的比特平面分层彩色图像的比特面分层只是在红、蓝、绿三个分量上分别进行分层如图3.12中红色通道上的一个像素用8比特的字节表示,二进制数存储在不同的比特面层次的低层到高层中,则二进制11001010=十进制202最后彩色图像上该像素的幅度值为RGB三个彩色分量上8比特字节的组合
图像描述(ImageCaption)看图说话:输入是一幅图像,输出是对该幅图像文字描述3.3视频数据的描述视频的自然描述视频指连续的图像序列是人肉眼可观察到的连续画面经过捕捉和存储后,可重复播放的信息形式用帧、镜头、场景、故事单元等元素来描述视频的内部内容衡量视频的质量,用清晰度、分辨率、色彩空间以及峰值信噪比来量化视频表现的时序动作信息
视频数字化描述每个视频都是一个图像序列,其内容比一张图像丰富的多,表现力更强。视频具有层次化结构,由场景、镜头和帧三个逻辑单元组成。对视频的分析通常是基于视频帧,通过视频解码后得到的视频流中包含的I帧、B帧、P帧等。关键帧定义:把图像坐标系中每个“视频帧”都叠加在一起,这时镜头中视频帧的特征矢量会在空间中呈现出一个轨迹的状态,而与轨迹中特征值进行对应的“帧”即可称之为关键帧。在构成一段动画的若干帧中,起到决定性作用的往往是2-3帧。通常关键帧通常是1秒动画的第一帧和最后一帧,因此,提取视频的关键帧至关重要视频流中的I帧、B帧、P帧和关键帧的信息抽取
百度智能云媒体内容分析过程百度智能云媒体内容分析MCA(MediaContentAnalysis)是一款基于多维AI技术的计算型产品,为用户提供音视频及直播的内容分析能力。视频语音、文字、公众人物、物体、场景等多个维度进行识别后输出对视频的场景、公众人物、地点、实体和关键词的结构化标签信息提高搜索准确度和用户推荐视频的曝光量。
如下图示出简化的深度卷积神经网络结构,如何将红色虚线框中的黑盒打开,用可视化方式展示网络内部各种层级结构,对黑箱的CNN进行可解释对分析决策是非常重要的。
CNN特征图可视化
无监督学习决策树随机森林XGBoost线性回归逻辑回归线性判别分析k近邻法支持向量机感知器神经网络K均值聚类层次聚类法章节内容概述目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法
4.1.1模型评价准则
错误率和精度以二分类问题为例,将样本的真实类别和预测类别分为四种组合:真正例(TruePositive)、假正例(FalsePositive)、真反例(TrueNegative)和假反例(FalseNegative),假设这四种组合对应的样本个数分别为TP、FP、TN和FN,则TP+FP+TN+FN=N。查准率和召回率真实情况预测结果正例反例正例TPFN反例FPTN
受试者工作特征曲线
以TPR为纵轴,FPR为横轴即可画出ROC曲线,模型对应的ROC曲线下围成的面积(AreaUnderROCCurve,AUC)越大意味着模型更优。ROC曲线下围成的面积回归问题评价指标
信息增益率
基尼指数
随机森林为了克服决策树泛化能力弱的特点,LeoBreiman在2001年提出了随机森林(RandomForest)算法,结合多棵决策树进行预测。随机森林主要具有以下优点:(1)通过对训练样本和特征进行随机抽样,防止过拟合,提高模型的泛化能力;(2)多棵树的训练相互独立,可以通过并行计算,提高训练速度。但是它也存在以下缺点:部分决策树因为样本类别不平衡、重复抽样等原因预测表现比较差,会降低整个随机森林的预测表现。4.2.2XGBoost算法Chen
Tianqi在2016年提出了XGBoost算法,克服了随机森林算法的缺点。XGBoost(ExtremeGradientBoosting,极限梯度提升)算法属于集成学习算法,它是对Boosting算法和GradientBoosting算法的进一步改进。Boosting算法通过迭代优化,将多个弱学习器组合成一个强学习器,提高预测准确性。GradientBoosting算法是Boosting算法的改进,令损失函数在迭代过程中沿梯度方向下降。目标函数
目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.3.1基本线性模型
样本序号11.11.023.44.132.02.544.23.755.05.067.26.978.18.3逻辑回归
逻辑回归
Logistic分布的分布函数曲线和概率密度函数曲线逻辑回归
参数估计参数估计
4.3.2线性判别分析
两个类别投影后的效果距离计算
k与权值的关系4.3.3常用策略和方法
目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.4.1算法介绍k近邻法(K-nearestNeighbor,KNN)是一种常用的机器学习算法,属于监督学习。工作原理:输入训练样本后,定义某种特定的距离算法,在训练样本中寻找k个和待预测样本数据点最接近的样本,即找到测试样本点在训练样本点中的k个“邻居”,并利用这些邻居的表现预测测试样本的表现。k近邻法既可以用于分类问题,又可以用于回归问题。4.4.2距离度量方式
4.4.3近邻点搜索算法在应用k近邻算法时,最大挑战在于如何提高寻找训练样本中k个最近邻点的搜索速度。当特征空间的维数升高或者训练样本数据量过大时,这个问题变得非常重要。kdtree算法就是一种快速实现近邻点搜索的算法。在R2空间中根据以下数据集建立一个平衡kdtree:S={(1,1),(3,5),(4,2),(5,4),(6,0.5),(6.5,1),(7,3)}kdtree示意4.4.4KNN算例数据集:Sort_1000pics选择卡车、花朵、马和山峰共400张图片,将数据集随机分为训练集和测试集,比例为7:3,进行图片多分类识别
precisionrecallF1-scoresupport卡车0.860.970.9133花朵0.840.70.7630马0.651.00.7926山峰10.580.7331
Accuracy
0.81120Macroavg0.840.810.80120Weightedavg0.850.810.80120
算法表现:目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.5.1SVM算法介绍
二分类图示支持向量机基本原理示意4.5.2线性可分支持向量机训练数据集D中,有T个训练样本,每个训练样本由特征向量X和类别Y组成,写作:D={(x1,y1),(x2,y2),...,(xT,yT)}线性可分支持向量机中的样本可以被超平面完全分割,且能够完全分割的超平面可能不唯一,因此希望能够找到一个最佳的超平面,以获得最优的分类效果,使得出错概率最小。以二分类问题为例,对i=1,2,...,T,令yi∈{-1,+1},如果特征向量X只有A和B两个属性的话,存在如下超平面进行分割:多个分割超平面示意4.5.2线性可分支持向量机为了得到最优超平面,定义“带宽”。因此目标转化为寻找最大带宽的超平面。超平面可以描述为:该超平面可以将所有样本正确分类为+1和-1,正负临界平面定义如下:①正临界平面:②负临界平面:(a)小带宽
(b)大带宽正负临界超平面示意4.5.3线性支持向量机在线性可分支持向量机中,一个重要的假定是所有的样本均可被一个分割超平面分开,但在许多情况下,尽管可以找到一个超平面较好地对数据样本进行分类,却因为噪声和干扰的存在无法对所有点进行准确分类。线性不可分解决该问题的一个非常重要的方法是软间隔法,即允许支持向量机在部分数据的分类上不满足约束,即出现错误(线性可分支持向量机不允许出现错误),但是需要尽可能减少样本的错误4.5.3线性支持向量机在原优化问题上,对优化目标加入惩罚项:
更改后的目标函数对不满足约束的样本点进行了惩罚,当不满足约束的点越多时,惩罚项的值越大。同时惩罚系数C的选取也非常重要,在C不取趋于无穷大的值时,可以允许部分样本不满足约束。除了示性函数之外还有其他损失函数的表达形式,最常用的包括hinge损失、指数损失和对数损失等,其表达形式分别为:4.5.4非线性支持向量机在实际应用中,许多分类问题并非线性可分,难以找到能将大多数样本点正确分割的超平面。这类问题可以通过将数据投射到更高维空间,将原来的非线性问题转化为线性问题进行解决。无法线性分割的数据集示意数据投射到高维空间示意数据集:Sort_1000pics选择建筑和恐龙共200张图片,将数据集随机分为训练集和测试集,比例为7:3,进行图片二分类识别
precisionrecallF1-scoresupport建筑0.9710.9829恐龙10.970.9831
0.9860Macroavg0.980.980.9860Weightedavg0.980.980.9860算法:非线性SVM参数调整:线性核函数算法表现:4.5.5SVM算例目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.6.1算法介绍K均值聚类是一种使用广泛的非监督聚类方法。基本算法如下:其中,K是用户指定的参数,即期望得到的簇的个数。4.6.2二分K均值算法二分K均值算法是基本K均值算法的改进,它基于一种简单想法:为了得到K个簇,将所有点的集合分裂成两个簇,从这些簇中选取一个继续分裂,如此下去,直到产生K个簇,算法细节如下:目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.7.1算法介绍与K均值一样,层次聚类法是一类重要的聚类方法。与许多聚类方法相比,层次聚类法相对较老,但仍然被广泛使用。有两种产生层次聚类的基本方法:(1)凝聚聚类:从点作为个体簇开始,每一步合并两个最接近的簇。需要定义簇的邻近性概念。(2)分裂聚类:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。在这种情况下,需要确定每一步分裂哪个簇,以及如何分裂。4.7.2
凝聚层次聚类算法关键步骤是计算两个簇之间的邻近度MIN定义簇的邻近度为不同簇的两个最近的点之间的邻近度。MAX取不同簇中两个最远的点之间的邻近度作为簇的邻近度。组平均技术,它定义簇邻近度为不同簇的所有点对邻近度的平均值。本章小结本章对传统机器学习模型和分析方法进行了回顾,首先介绍了模型评价和选择方法,然后讲解了常用的机器学习模型,如决策树、随机森林、XGBoost、线性回归、逻辑回归、线性判别分析、k近邻法、K均值聚类、层次聚类等模型。这些模型和分析方法是非结构化数据分析的基础,同时在商业中也已具有广泛的应用。谢谢大家勤学/修德/明辨/笃实第五章现代模型与分析方法目录和内容5.1卷积神经网络5.2卷积神经网络CNN5.3RNN和LSTM5.4强化学习5.5贝叶斯图网络5.6自编码器5.7生成对抗网络机器学习深度学习监督学习无监督学习强化学习章节内容介绍深度学习原因:数据、算力和算法的发展范式:基于海量训练数据,利用深度模型自动提取特征特点:模型的深度增大,隐含层层数增多,模拟复杂数据映射过程代表算法:卷积神经网络、循环神经网络、生成对抗网络强化学习范式:让参与者在与环境的互动中进行目标导向型学习,通过探索与反馈找到