本文转载自公众号:东湖大数据交易中心。
大数据百人会线上沙龙第八期
很高兴有机会能与大家交流,今晚想聊三块内容:可视化以及可视分析、Quid简单介绍以及我们团队目前在可视方向所做的简单尝试。
我们可以把可视化理解成用一个映射连接两个集合,一个集合是数据与信息,另一个集合是可视化的几个元素,包括形状、位置、颜色、大小等等,当把数据信息与可视化元素两个集合用一个映射联系起来,这就是可视化的构建过程。
如果从形象到抽象这个维度上对于可视化做一个划分,一端是形象代表性的是科学可视化,其中是流场可视化、科学可视化等等,科研人员在研究过程中面对大量的流场数据和生物医学数据,没有办法形成形象的认知,而可视化能够通过视觉表达,把流场数据、生物数据形象的表达出来,帮助科研人员在科研过程中能够更好的认知与探索。
这四张图是最具代表性的信息图:拿破仑东征图、伦敦地铁图、最早的饼状图、疫情与水源的分布图,这些可视化图意义明确、效果明显,所以被誉为经典案例。另外一端是抽象,例如思维导图、知识地图都属于这端,他们将数据与信息抽象对应于点和线,利用相对位置、大小、颜色等抽象的视觉元素进行信息和数据的表达分析。
可视分析可以从这几个方面来理解:
第二是可视分析的目的是什么,我们希望通过可视分析系统知道我们不知道的,然后同时发现我们不知道我们不知道的。
第三点是实时性,要达到分析目的就需要在数据层面上、分析层面上、展现层面上做到及时反馈用户的意图。
更进一步理解可视分析,在很多情况下人们试图去理解周边的事物,大到投资决策,小到购买一部数码相机,这都是一种信息行为,人们需要对周围的信息进行收集和整理、综合评估,再根据先验的知识将收集的信息重新构建新的知识来支持决策,那么用可视化的方法,将整个过程构建起来,让用户进行数据收集整理,用多种方法进行分析,再将结果可视化的呈现出来,随着用户不断的去迭代,最终有新的发现来支持决策,同时这个过程也是意义构建的过程。
当然,这个过程当中最具挑战性的是不确定性,首先是数据的不确定性,因为在探寻一个新问题的时候,你不知道要收集多少数据才算够,也不知道收集来的数据到底是什么样的质量;其次是分析方法的不确定性,因为你不知道用什么样的分析方法才能得到想要的结果;最后是结果的不确定性,你用这些不确定的数据、不确定的方法显然是不能得到一个确定的答案,所以说这是一个不断迭代的循环,是一个不断探索发现的过程,而不是给出一个答案。
我们需要不断提高用户的自由度才能应对这个不确定性,包括数据的自由度、分析方法的自由度、展示和交互的自由度。一个可视分析系统最终的目的是帮助人们进行信息的认知,其实从这个角度上我们也可以认为这算是认知计算的范畴。
这是曹老师对于文本可视化的一个架构总结,数据从非结构化到结构化是一个重点,怎么样让用户在分析的过程中能够实时的通过界面与数据与分析展示方法,进行不断的互动。
首要做的是把这些非结构化数据通过一步步迭代变成干净数据、实体数据、图谱数据乃至加入语义,然后运用高阶科学例如社会计算的一些方法等等,让人们更好的认知、探索和发现,要实现这个目的只能通过人和机器结合的途径。
不同领域对于知识表示、知识表现的理解,左上角认知心理学研究的个体在心理和生理方面与知识的相互作用,最下面的是教育技术领域的知识可视化,思维导图、概念图或者知识地图都是属于这个领域,研究的是人和人之间利用形象化的知识表现促进知识流动,右上角是计算机领域的知识表示,研究的是人们怎么让机器理解知识。
其实教育技术领域的知识表示是可视化的部分,计算机领域的知识表示的数据部分,我们将数据信息知识抽象为实体,以及实体之间的关系然后对应于抽象的视觉元素,构建一套可视分析系统,可视分析这端面向人,关联数据面向机器,通过构造一个人机结合的系统帮助人们分析认知世界,从而更好的理解和影响物质世界。
美国的初创公司Quid成立于2010年,2015年进行了D轮融资,媒体称这家公司是量化分析公司,我想是他们是把无法量化的文本信息或者碎片化的信息量化出来了,Quid从文本到结构化数据再到可视化的过程,把非结构化数据进行一定程度的结构化然后加上分析方法再到可视化一条线贯穿下来。
抽取出来后将碎片化信息构建体系,进行聚类和可视化给用户全局的把握,然后再提供各类工具让用户基于数据与分析方法做更多的探索和发现。
Quid在线视频领域公司地图简单分析,这个复杂网络图,图中每个节点代表一个公司,计算公司之间的相似度,根据相似度建立节点与节点的链接构建起复杂网络,进行布局与聚类得到这个图,图中绝对位置不重要,重要的是点和点之间的相对位置,如果一些点聚集在一起证明他们的相似度比较高,聚类和聚类之间我们用不同颜色进行表示,节点大小用我们计算到的估计的公司市值来代表。
我们将公司、新闻、专利、文献这些公开信息爬去下来,然后根据实体、文档、事件、关系和属性进行结构化,然后让用户基于可是分析系统进行探索和发现。用户可以通过不同的数据,不同的方法去发现新的东西,然后再根据结论反馈到数据和方法上进行不断迭代。
这是我们初步总结的可能有用的统计方法,我们目前正在把它实现出来,放在前端展示,用户就可以采用这些方法对数据进行探索。
我们根据范式理论发展让用户更好掌握趋势的方法。“范式”大家可以简单理解成框架或者体系,也就是在大家认同的框架下对一些现象进行解释、研究、应用、开展经济活动。不仅科学有范式,技术也有范式,技术经济也有范式,这些都是一脉相承的。
表格里是未来导向、技术分析的一些方法,包括引言分析、专利分析的具体应用,可以对科学与技术范式的转移进行描述。我们希望结合行业数据发展出更多的方法对技术经济范式进行描述、或是预测。
我们目前处于技术经济范式转移的时期,从两个现象可以印证:1.从2015年到现在,大量的公司合并或是被收购;2.风险资本出海,技术经济范式在本国发展到一定程度是会向外扩散的,这也就是风险资本出海的本质。
这是我们构建的金融创业公司的相似度图谱,我们根据一千多家金融创业公司的标签去计算他们的相似度,构成一个复杂网络,然后对它进行布局和聚类划分。在这里我们用算法把细分领域直接划分出来。
最后给大家介绍四本书:第一本是复杂性科学的入门读物,后面三本分别是在讲科学范式,技术范式和技术经济范式。最后一本书在宏观角度上讲金融和产业资本在技术范式不断变化的过程中是怎样相互互动的,我认为对投资和创业都有一定启发。
Q:第张图中实体的关系、属性是如何建立的?
郝:关于实体与实体的关系如何得到,这需要分情况:1.如果爬去的数据是结构化的,比如说在网页上的呈现就是一张表,我们爬下它的数据就是结构化的。2.如果是文本数据,半结构化或者非结构化的数据,可能会需要用到自然语言处理中的命令实体识别,或者关系抽取。
当然我们现在爬去的数据大多都是结构化或者半结构化的,因为实体识别和关系抽取还没有办法解决所有的问题。
Q:可视化分析有什么工具吗?
郝:说到工具,其实是把实体或者关系抽取出来,或者是去做情感识别,这些是有一些API可以提供的。比如说:玻森数据、腾讯文治提供的服务可以解决一部分问题。
Q:之前有看到NLPIR在线系统(语义分析系统)和您讲的有什么区别?从知识图谱上看,关键词提取是一样的?
郝:我想应该这样去理解这个区别。我们现在的系统是构建给分析师用的,比如行业分析师。语义分析系统显然不是给分析师用的。然后你讲的关键词提取,是不是就是把实体提取出来,如果是这样的话,那就都是是一样的,都是把半结构化数据或者非结构化数据把它结构化,甚至加上一些语义变成知识图谱,这些东西不管是你提到的语义分析系统还是我们的系统中这都是一样的。
作者|吴金龙
责编|何永灿
对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。
对话系统技能进阶之路
数学
概率统计是机器学习的基础。常用的几个概率统计概念:随机变量、离散随机变量、连续随机变量、概率密度/分布(二项式分布、多项式分布、高斯分布、指指数族分布)、条件概率密度/分布、先验密度/分布、后验密度/分布、最大似然估计、最大后验估计。简单了解的话可以去翻翻经典的机器学习教材,比如《PatternRecognitionandMachineLearning》的前两章,《MachineLearning:AProbabilisticPerspective》的前两章。系统学习的话可以找本大学里概率统计里的教材。
常用的一些数学计算Python包:
机器学习和深度学习
AndrewNg的“MachineLearning”课程依旧是机器学习领域的入门神器。不要小瞧所谓的入门,真把这里面的知识理解透,完全可以去应聘算法工程师职位了。推荐几本公认的好教材:Hastie等人的《TheElementsofStatisticalLearning》,Bishop的《PatternRecognitionandMachineLearning》,Murphy的《MachineLearning:AProbabilisticPerspective》,以及周志华的西瓜书《机器学习》。深度学习资料推荐YoshuaBengio等人的《DeepLearning》,以及Tensorflow的官方教程。
常用的一些工具:
自然语言处理
信息检索方面,推荐Manning的经典书《IntroductiontoInformationRetrieval》(王斌老师翻译的中文版《信息检索导论》),以及斯坦福课程“CS276:InformationRetrievalandWebSearch”。
对话机器人
对话系统针对用户不同类型的问题,在技术上会使用不同的框架。下面介绍几种不同类型的对话机器人。
对话机器人创建平台
如果你只是想把一个功能较简单的对话机器人(Bot)应用于自己的产品,Bot创建平台是最好的选择。Bot创建平台帮助没有人工智能技术积累的用户和企业快速创建对话机器人,国外比较典型的Bot创建平台有Facebook的Wit.ai和Google的Dialogflow(前身为Api.ai),国内也有不少创业团队在做这方面的事,比如一个AI、知麻、如意等。
检索型单轮对话机器人
检索型单轮机器人(FQA-Bot)涉及到的技术和信息检索类似,流程图2所示。
因为query和候选答案包含的词都很少,所以会利用同义词和复述等技术对query和候选答案进行扩展和改写。词表示工具Word2vec、GloVe、Fasttext等可以获得每个词的向量表示,然后使用这些词向量计算每对词之间的相似性,获得同义词候选集。当然同义词也可以通过已经存在的结构化知识源如WordNet、HowNet等获得。复述可以使用一些半监督方法如DIRT在单语语料上进行构建,也可以使用双语语料进行构建。PPDB网站包含了很多从双语语料构建出来的复述数据集。
知识图谱型机器人
知识图谱型机器人(KG-Bot,也称为问答系统),利用知识图谱进行推理并回答一些事实型问题。知识图谱通常把知识表示成三元组——(主语、关系、宾语),其中关系表示主语和宾语之间存在的某种关系。
为了把用户query映射到知识图谱的三元组上,通常会使用到实体链接(把query中的实体对应到知识图谱中的实体)、关系抽取(识别query中包含的关系)和知识推理(query可能包含多个而不是单个关系,对应知识图谱中的一条路径,推理就是找出这条路径)等技术。
任务型多轮对话机器人
任务型多轮机器人(Task-Bot)通过多次与用户对话交互来辅助用户完成某项明确具体的任务,流程图见图3。
除了与语音交互的ASR和TTS部分,它包含以下几个流程:
闲聊型机器人
真实应用中,用户与系统交互的过程中不免会涉及到闲聊成分。闲聊功能可以让对话机器人更有情感和温度。闲聊机器人(Chitchat-Bot)通常使用机器翻译中的深度学习seq2seq框架来产生答复,如图4。
与机器翻译不同的是,对话中用户本次query提供的信息通常不足以产生合理的答复,对话的历史背景信息同样很重要。例如图4中的query:“今天心情极度不好!”,用户可能是因为前几天出游累的腰酸背痛才心情不好的,这时答复“出去玩玩吧”就不合情理。研究发现,标准的seq2seq+attention模型还容易产生安全而无用的答复,如“我不知道”,“好的”。
为了让产生的答复更多样化、更有信息量,很多学者做了诸多探索。JiweiLi等人的论文“DeepReinforcementLearningforDialogueGeneration”就建议在训练时考虑让答复引入新信息,保证语义连贯性等因素。IulianV.Serban等人的论文“BuildingEnd-To-EndDialogueSystemsUsingGenerativeHierarchicalNeuralNetworkModels”在产生答复时不只使用用户当前query的信息,还利用层级RNN把之前对话的背景信息也加入进来。JunYin等人的论文“NeuralGenerativeQuestionAnswering”在产生答复时融合外部的知识库信息。
上面的各种机器人都是为解决某类特定问题而被提出的,我们前面也分开介绍了各个机器人的主要组件。但这其中的不少组件在多种机器人里都是存在的。例如知识图谱在检索型、任务型和闲聊型机器人里也都会被使用。
真实应用中通常会包含多个不同类型的机器人,它们协同合作,解答用户不同类型的问题。我们把协调不同机器人工作的机器人称之为路由机器人(Route-Bot)。路由机器人根据历史背景和当前query,决定把问题发送给哪些机器人,以及最终使用哪些机器人的答复作为提供给用户的最终答复。图5为框架图。
对话机器人现状
对话机器人历史悠久,从1966年MIT的精神治疗师机器人ELIZA到现在已有半个世纪。但现代意义的机器人其实还很年轻。检索型单轮对话机器人得益于搜索引擎的商业成功和信息检索的快速发展,目前技术上已经比较成熟。最近学术界和工业界也积极探索深度学习技术如Word2vec、CNN和RNN等在检索型机器人中的使用,进一步提升了系统精度。虽然技术上较为成熟,但在实际应用中检索型机器人还存在不少其他问题。例如,很多企业历史上积累了大量非结构化数据,但这些数据并不能直接输进检索型机器人,而是需要事先通过人工整理。即便有些企业存在一些回答对的数据可以直接输入检索型机器人,但数量往往只有几十到几百条,非常少。可用数据的质量和数量限制了检索型机器人的精度和在工业界的广泛使用。
相较于检索型机器人,知识图谱型机器人更加年轻。大多数知识图谱型机器人还只能回答简单推理的事实类问题。这其中的一个原因是构建准确度高且覆盖面广的知识图谱极其困难,需要投入大量的人力处理数据。深度学习模型如MemoryNetworks等的引入可以绕过或解决这个难关吗?
任务型多轮对话机器人只有十来年的发展历史,目前已能较好地解决确定性高的多轮任务。但当前任务型机器人能正常工作的场景往往过于理想化,用户说的话大部分情形下都无法精确表达成act-slot-value三元组,所以在这个基础上构建的后续流程就变得很脆弱。很多学者提出了各种端到端的研究方案,试图提升任务型机器人的使用鲁棒性。但这些方案基本都需要利用海量的历史对话数据进行训练,而且效果也并未在真实复杂场景中得到过验证。
开域闲聊型机器人是目前学术界的宠儿,可能是因为可改进的地方实在太多吧。纯粹的生成式模型在答复格式比较确定的应用中效果已经不错,可以应用于生产环境;但在答复格式非常灵活的情况下,它生成的答复连通顺性都未必能保证,更不用说结果的合理性。生成模型的另一个问题是它的生成结果可控性较低,效果优化也并不容易。但这方面的学术进展非常快速,很多学者已经在探索深度增强学习、GAN等新算法框架在其上的使用效果。
虽然目前对话机器人能解决的问题非常有限,短期内不可能替代人完成较复杂的工作。但这并不意味着我们无法在生成环境中使用对话机器人。寻找到适宜的使用场景,对话机器人仍能大幅提升商业效率。截止到目前,爱因互动已经成功把对话机器人应用于智能投顾、保险、理财等销售转化场景,也在电商产品的对话式发现和推荐中验证了对话机器人的作用。
如果一个对话机器人与真人能顺利沟通且不被真人发现自己是机器人,那么就说这个机器人通过了图灵测试。当然目前的对话机器人技术离这个目标还很远,但我们正在逐渐接近这个目标。随着语音识别,NLP等技术的不断发展,随着万物互联时代的到来,对话机器人的舞台将会越来越大。
责编:何永灿
人工智能赛博物理操作系统
AI-CPSOS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPSOS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。
AI-CPSOS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPSOS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:
AI-CPSOS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPSOS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
AI-CPSOS形成的数字化+智能化力量通过三个方式激发经济增长:
给决策制定者和商业领袖的建议:
子曰:“君子和而不同,小人同而不和。”《论语·子路》云计算、大数据、物联网、区块链和人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业的人工智能赛博物理操作系统AI-CPSOS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能官AI-CPS
用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。
官方网站:AI-CPS.NET
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!