关键词:智能情报分析系统;情报分析;人工智能
中图分类号:TP18;G250文献标识码:ADOI:10.11968/tsyqb.1003-6938.2017117
Keywordsintelligenceanalysissystem;intelligenceanalysis;artificialintelligence
革命性的智能技術,一边撕裂旧世界,一边创造对未来的无限渴望。大数据在理念与技术方法上已触及到各行各业,而人工智能正在洗刷着传统的思维与产业形态。数据、计算能力和算法叠加后产生的能力差异,正快速形成组织机构之间不可逆且不可逾越的智能鸿沟。过去的两年人类见证了AlphaGo系列的成功,深度学习在图像识别、智能语音、机器翻译、智能控制等领域取得了长足进步,越来越多的领域开始涉及并运用深度学习等人工智能技术。未来,AI将不断扩大渗透领域,技术应用也将逐步走向成熟,全球经济将迎来“AI-first”突破,可解释性和透明度将逐步得到改善。
在海量数据急剧增长、软件工具日益丰富、竞争环境日趋激烈的今天,科学研究、国家发展与企业运营越来越强调数据与智能在分析过程中的作用。业务问题呈现出复杂化、多维化、关联化、实时化的特点,企业组织过去所依赖的基于局部数据、传统工具而进行的业务决策方式必将跌落鸿沟。如何在情报系统中更多地引入智能技术,提高情报分析的水平与质量,成为新时代情报发展的关键[1]。为了更好地实现情报信息的支持,需要借助于大数据产业情报平台或智能情报分析系统,通过系统快速准确地获取所需要的基础数据、动态信息以及最新情报,跟踪科技前沿,梳理发展脉络,把握问题关键,分析竞争格局与发展态势,仿真模拟以及未来分析,发现新颖点与新机会,从而发现其中的市场机会和风险预警,占据市场竞争中的优势或主导地位。
1智能与情报的关系
智能包括人类智能与人工智能。在现代情报分析中,既要有人类智能,如专家智慧、专业背景、师傅带徒弟与长期“工匠”的积累,又要有人工智能,利用神经网络、机器学习等智能算法对大规模的数据进行信息与知识的融合并使其转化为情报,加强情报分析的智能性,是智能情报的难点与重点。endprint
所谓“智能”,通常是指人们在认识与改造客观世界的活动中,由思维过程和脑力劳动所体现的能力,包括感知能力、思维能力和行为能力[2]。人类智能的核心在于知识,智能表现为知识获取能力、知识处理能力和知识运用能力。人们对人工智能有许多不同的观点和实现方法,包括符号主义、连接主义和行为主义等,或者叫做逻辑学派、仿生学派和生理学派。所谓“情报”,在《辞海》中将其释义为:军中集种种报告,并预见之机兆,定敌情如何,而报于上官者。目前,国内外学者关于情报概念的探讨主要有以下三种观点:(1)情报的信息论,认为情报是一种特定的信息[3],主要指可行动的信息;(2)情报的知识论,即情报是一种知识。英国情报学家布鲁克斯认为:情报是使人原有的知识结构发生变化的那一小部分知识[4]。钱学森[5]院士认为:情报是为了解决一个特定的问题所需要的、具有及时性和针对性的知识,是激活了、活化了的知识;(3)情报的认知论,即情报是一种认知。池建文[6]研究员认为:情报是关于他方事实的本来面貌和深层次原因的判断,是新信息与旧知识融合所形成的新认知。
新的时代特点与技术环境给情报工作带来了很大的变化,数据对象与规模不断扩大,技术方法持续更新,但是不管对象与技术方法如何变化,情报工作的宗旨从未有过根本性改变,情报工作的目的就是要保障决策、解决决策过程中信息不完备的问题[7]。从任务的类型来看,情报分为情报识别、情报跟踪、情报比较、情报评价与情报预测[8]。从各类信息源中快速识别有用的信息,及时准确地捕捉最新、最快的情报动态,持续地对关键技术问题、重要国家与机构进行定期或长期跟踪,把握最新进展与动向,梳理技术路线与演化规律,分析竞争关系与态势,预测事情、格局、科学技术发展的趋势与走向,以便提前布局、未雨绸缪。
2情报分析系统发展现状
情报分析系统是面向任务的,通过集成实现情报分析理论方法的技术完成特定的情报任务,技术实现方法种类和数量的选择与面向任务的研究对象、目的有关。情报分析系统发展至今,其智能水平早已不能满足应用需求。分析人员更倾向于系统能帮助发现未知的潜在模式,能从分析活动的各个环节上加以支持,提供一体化的解决方案,而非仅仅是零散的对若干分析功能的支持。这些需求也促进情报分析系统向着更智能的方向发展,主要包括对数据的深层发现、挖掘和对分析过程的智能支持等方面。情报分析系统呈现出计算性、融合性、工程化以及快速响应等特点。从行业实践来看,情报分析系统包括科技情报分析系统、企业竞争情报系统、公安情报分析系统等。
2.1情报分析系统理论研究
2.2现有情报分析系统的主要类型
中科院自动化研究所王飞跃团队融合社会科学、情报科学、信息科学等学科理论提出基于ACP方法的开源情报解析理论框架,并以天网(科情信息监测)、天眼(科情信息分析與挖掘)、天鹰(科情信息管理与决策支持)为指导流程,构建面向大数据和开源信息的科情监测与协作创新平台。在异构、多模态的科技情报资源之上,生成科情获取传感网络、科情语义网络、科研协作社会网络3个核心网络,实现智能采集、处理、分析与挖掘科技情报等功能[16]。由清华大学和北京搜狗公司合作开展的科技情报大数据挖掘及服务平台,以新一代科技情报分析与挖掘平台AMiner为基础,运用动态策略选择的语义集成方法和多维依赖关系的语义标注方法,建立了亿级节点规模的科技知识图谱。运用基于话题的影响力模型对异构科技情报网络进行深度挖掘,对科技信息网络中学者、学术活动和知识概念进行隐含语义建模,建立了超过2.3亿学术论文/专利和1.36亿学者的科技智库,提供面向科技文献、专利和科技新闻的语义搜索、语义分析、成果评价等知识服务[17]。endprint
(2)面向企业的竞争情报系统。竞争情报系统(CompetitiveIntelligenceSystem,CIS)是基于信息采集、全文检索、文本挖掘等核心技术,对企业自身、竞争对手和企业外部环境的情报信息进行收集、存储、处理、分析的应用管理系统,为企业提供战略决策支持,从而提高企业的核心竞争力。企业竞争情报系统是以人的智能为主导、以有形智能软件为技术载体,将实时资讯、经营数据监测、市场动态监测、竞争对手调研、行业分析研究等竞争情报内容服务,系统地集成为一个企业竞争情报整体解决方案,以人机协作工作体系和竞争情报管理体系,实现对企业所处整体竞争环境的全面监测、分析与掌控,以增强企业竞争力为目标的人机结合的企业竞争战略决策支持与咨询系统。典型的竞争情报系统有KnowledgeWorks、TextAnalyst,百度的eCIS、北京拓尔思公司的CIS系统、谷尼企业竞争情报系统、才思竞争情报系统等。
(3)基于大数据的公安情报系统。公安情报分析系统以公安情报分析业务为指导,实时汇总各类社会信息、公安信息、互联网信息等,通过分析模型、人群碰撞与分析精灵等工具,通过关联分析、可视化分析等方法,使社会各类基本信息产生有价值的情报信息,并智能化的产生研判结果。大数据公安情报分析系统一般具有可视化智能轨迹分析查询、异常活动人员研判分析、智能统计分析、警情动态监测及分析预警、智能情报检索、关联查询、碰撞比对,实现人、事、物、组织和地点等五要素的信息数据分析和研判,并在这些信息数据之间建立起内在关联,可帮助公安干警梳理各类分散的、独立的情报线索。典型的大数据公安情报系统有与美国CIA、FBI合作的大数据平台Palantir、浪潮大数据警务云平台、江苏中科惠软公司开发的智慧公安全网情报信息化作战平台等,北京拓尔思公司开发的大数据舆情分析平台TRSSMAS也有些类似功能。
情报分析系统的研究大部分是模型构建或系统设计,而实际构建并有良好运行结果的系统还比较少,也缺乏对系统运行效果的评估与评价。在模型构建或系统设计时多以系统论为指导。竞争情报系统的探讨比较充分,实际开发或应用的单位也更多一些,其次是以公安情报或反恐情报分析系统。
智能分析首先会在信息加工处理与分析阶段实现高度自动化与智能,如何在情报分析系统的输入端与输出端更多地引入自动化与智能化会是下一步发展的重点。智能情报分析系统应从情报需求特点出发,以科学技术与市场应用情报服务为导向,以技术跟踪、情报分析与智能预警技术为支撑,设计一套具有较强针对性和实用性,结合行为过程和技术过程,融合网络搜索、数据挖掘、信息分析、人工智能等多学科领域知识和方法,能够实时、长期、准确地对科技前沿、政策法规、社会网络活动、最新动态以及发展趋势进行跟踪、监测、采集、统计、分析和预警评价的科技情报服务体系。
3智能情报分析系统的功能结构
智能情报分析系统在资源方面具有数据集与知识库、模型库与方法库,在技术维度需要知识获取技术、知识表示与组织技术、自然语言处理技术、人机交互技术、新型计算机术与深度学习技术,在资源的基础上通过这一系列技术实现以下功能:情报需求智能感知,海量信息智能获取,多源信息动态融合、多维关联综合分析、分析结果智能解读、情报报告自动生成、面向场景适时服务。在资源、技术与功能之间通过智能分析引擎实现连接与驱动,智能分析引擎包括认知模型、业务逻辑规则系统、算法调度引擎、验证与评估器四个构件,是整个系统的核心与动力(见图1)。
3.1问题情境快速建模
3.2智能采集信息
3.3多源异构动态融合
3.4多维关联与可视化智能分析
智能情报分析系统可以从多源异构大数据中发现一些清晰的线索,弄清行业或学科发展的来龙去脉,利用论文、专利等数据快速绘制技术路线图、产品生命周期图、学科发展脉络图。把不同的数据组合起来,进行关联映射与分析,既可以形成一些群组,也可以发现一些有用的关系与模式,确定关键人物、事件、联系和模式,计算数据之间的共性与关联关系,运用关联规则、聚类分析、社会网络分析、向量空间模型等一系列分析方法,对于整个行业或问题所涉及到的整体全貌进行呈现。智能情报分析系统可以实现资源之间的相互链接与揭示、概念之间的关系发现,支持各种主题分析、聚类分析。
3.5分析结果智能解读
3.6情报报告辅助生成
不管专家撰写的情报报告还是智能情报分析系统生成的情报报告,其报告的内容一定是体现了智能成分(专家智慧或人工智能),其报告的核心与关键内容是一般人员或情报用户不能从其他方式或渠道直接获取的,这样的情报报告才会让情报用户眼前一亮,才会更好地吸引情报用户。要想产出有独特视角、独特观点和高质量的研究报告,必须依赖专家的特色理论以及专家对本专业领域情报信息敏锐的洞察力和分析力,不同的机构、不同的研究人员对同一数据资源可能会得出不同的分析结论[18],这种不同的结论对于多角度透视事物的本质,以及增加理性思考与判断都有很重要的作用。在用户建模、数据搜集与加载、多维分析与可视化展示、报告模板生成方面等有规律的地方可以快速生成,情报分析人员只需要适当的参与即可。
3.7面向场景适时服务
4智能情报分析系统的核心组件
智能情报分析系统需要以大量的数据为基础,融合大数据与人工智能技术,基于动态知识图谱和具体的业务场景模型,支持复杂业务问题的自动识别、判断并做出前瞻或实时决策的智能化产品系统。要实现情报系统的智能化,需要具备以下条件:海量的数据集与全领域知识库支撑,丰富的模型库与方法库、机器学习算法、高效的分析引擎与推理机。
4.1数据集与知识库
4.2模型库与方法库
在智能情报分析系统中不可缺少模型。模型是对现实世界与复杂问题的抽象,从抽象层次上描述系统的静态特征、动态行为和约束条件,主要包括业务模型、数据模型、算法模型与系统模型等。基于多维度的数据挖掘、统计分析,进行算法模型的建立和调优。要创建足够透明的深度学习模型以解释它们的预测,特别是当这些模型的结果被用来影响或告知人类决策时。
方法库有着对方法的详细的描述,包括方法的定义、分类、输入与输出、处理流程、应用范围、主要功能、优缺点等。基于流程的情报方法体系包括情报收集方法、信息融合方法、数据清洗方法、信息分析方法、情报研究方法以及情报传递方法等。其中信息分析方法包括计量分析方法、模式分析方法、关联分析方法、聚类分析方法、网络分析方法、演化分析方法、共现分析方法、异常分析方法等,从数据挖掘的角度又包括关联规则挖掘、分类与聚类、回归分析、连接分析、决策树、粗糙集、神经网络、遗传算法等。endprint
4.3机器学习算法
当前人工智能之所以如此火,与前几年对大数据的研究与重视分不开的,有了海量的数据基础,还需要一个好的学习机制与算法,能从大量的数据中进行学习,总结出规律与特征,通过不断地优化与迭代,逐步逼近目标,这就是机器学习。机器学习按照学习方法分为机械式学习、指导式学习、示例学习、类比学习与解释学习。根据学习能力分为有监督学习、无监督学习,以及介于两者之间的强化学习。其中,监督学习方法利用一组已知类别的样本调整分类器的参数不断优化并提高性能,主要包括卷积神经网络、Hopfield网络、径向基函数网络、贝叶斯学习、决策树、线性分类;无监督学习根据未标记过的训练样本解决模式识别中的各种问题,包括对抗生成网络、前馈神经网络、关联规则学习、分层聚类、聚类分析、k-最近邻算法;半监督学习包括生成模型、低密度分离、基于图形的方法、联合训练等方法。
4.4智能分析引擎
智能情报分析系统具有丰富的数据集与知识库,通过模型库与方法库进行分析,但调用何种模型与方法,执行效果如何等,需要有一个智能分析引擎进行调动与驱动。智能分析引擎是情报分析系统的关键与核心,由认知模型、业务逻辑规则系统、算法调度引擎、验证与评估器组成。
认知模型包括用户画像与场景分析引擎,通过分析情报用户的类型、调取情报用户静态属性以及监测情报用户动态信息,整合用户需求兴趣偏好信息,从不同维度为用户赋予合适的标签,提取用户的共性群体特征,并揭示情报用户的个体特征与偏好,准确地刻画出“千人千面”,以便准确地提供个性化服务与精准推荐。情报需求由情报需求类型、情报需求主题以及情报需求情境三个维度构成。
算法调度引擎就是要建立数据、问题方法之间的关系。情报分析方法众多,如何选择方法有时会成为一个问题,而使用智能agent,根据应用场景与问题的变化动态选择合适的研究方法,就是体现情报智能性的一个标志。验证与评估器主要负责对监控分析过程,对相应的执行阶段进行评估,根据评估结果给出下一步的动作,是继续分析还是回溯反馈等。
5智能情报分析系统的关键技术
智能情报分析系统除了分布式云计算技术、大规模并行计算技术、高维数据关联分析技术、数据可视化展示技术、用户画像与个性化推荐技术等通用大数据技术外,要使情报系统更好地运转,还需要知识获取技术、知识表示与组织技术、自然语言处理技术、人机交互技术以及新型计算技术。
5.1知识获取技术
知识库构建有四种方法:(1)知识工程师方法。由知识工程师编写领域知识规则录入知识库或者人工构建本体,是传统的知识获取方法;(2)资料转化方法。把主题词表、本体等转化为知识图谱,形成机器可读的知识。知识图谱本质上是一种语义网络,图中的结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系;(3)知识抽取方法。知识抽取是指从各种类型的数据和信息资源中获取各种知识的过程,从多种媒体资源(如文本、图像、视频、音频等)中抽取出知识,从数据集中发现重要模式的过程等[20]。通过知识抽取从多种数据源获得采用某种知识表示形式的,完整、正确、无歧义的知识元及其语义关系,进而作为后续知识融合的输入,这种知识抽取和组织完全依赖于对知识间的各种关系的认识、挖掘和组织;(4)知识发现方法。从大量的数据中发现数据之间的关联规则,并把知识表示成计算机可以理解、可以推理的本体,与深度学习等智能算法结合起来。知识抽取重在把人们已经显性表达出来的知识结构化、计算机化。知识发现重在发现对人们新颖的、事先未知的知识。
5.2知识表示与组织技术
如何表示并组织好知识,让计算机可以很好地识别与利用知识是智能情报分析系统的关键。知识图谱就是当代最通用的语义知识表示形式化框架。知识图谱的节点就是语义学里面说的“符号根基(symbolgrounding)”,即语言符号与真实或想象空间中的对象的对接,在计算机中体现为语言符号与数字化对象的对接。边则是语义学里面说的“角色指派(roleassignment)”,在计算机中体现为每个数字化对象与其他数字化对象之间的语义关系标签。
语义结构表示框架中,现有的知识图谱可以描述实体、关系、属性(状态)及其值这三类要素,但是对于情感、程度变化、因果条件、逻辑模态等,现有的知识图谱结构并不能很好地表达,需要进行改造建立事理图谱才能适应这些语义要素的表示。知识图谱研究对象为名词性实体及其关系,事理图谱研究对象是谓词性事件及其关系。知识图谱的主要形式是实体属性和关系,事理图谱则是事理逻辑关系以及概率转移信息。事件间的演化关系多数是不确定的,而实体之间的关系基本是稳定的。endprint
5.3人机交互技术
运用自然语言问答、大数据可视化、知识图谱化、地图GIS化等手段,提供大量方便的人机交互接口,实现人与机器的完美融合以及人与人之间的协同工作。智能情报分析系统对情报分析人员提供全文位的精准检索与面向问题的智能问答,支持面向文檔的主题检索、属性特征检索以及面向问题的语义检索,支持面向技术方案、产品市场、机构人员的精准检索。辅助情报分析人员快速准确地找到问题的关键,问题的支撑数据、基本面数据、核心情报数据。通过检索引擎,为情报人员提供从海量数据中寻找蛛丝马迹的服务。通过人机接口,提供语音输入,基本实现面向领域问题的人机对话等。通过可视化技术实时展示各种信息分析结果,包括知识图谱、社会网络关系、大数据分析结果等。通过集成研讨厅支持多面板同时展示,支持研讨厅大屏、办公电脑中屏以及移动端小屏多级展示,可以同时展示情报分析各要素及要素之间的关系,可以展示历史演进过程,可以对未来的场景以及场景变化进行仿真模拟。
5.4自然语言处理技术
智能情报分析系统所处理的数据对象很多是文本格式的,如论文、专利、新闻、政策等。智能情报分析系统的有些支撑资源也是文本格式的,如知识库;情报分析系统的自然语言检索接口、人机对话接口也是以自然语言为媒介的,而这些问题的解决都需要自然语言处理技术的支撑。自然语言处理已经成为一种应用赋能技术,随着实体知识库的构建、知识抽取和自动写作在特定领域的实用化和对话机器人从对接语料到对接知识图谱的换代,通过新一代人工智能创新创业团队,全面渗透到人工智能应用的各个角落。自然语言处理从浅层到深层面临范式转换,还处在对接情感计算与常识计算的战略性要地的关键位置。
自然语言处理技术的应用场景甚广,大致可分为分析型、生成型和交互型三类。舆情监控系统是典型的分析型系统;报告撰写系统是典型的生成型系统;各类聊天机器人是典型的交互型系统。从计算的角度,文本的向量化是跨越统计和联结两大阵营的。基于统计的向量化方法是潜在语义索引(LSI)模型,基于联结的向量化方法是词嵌入(Wordembedding)模型,前者具有保距离特性,后者具有保运算特性而且可与任务派生的优化目标深度耦合。目前,嵌入技术已经不局限于词,也可以整结构、整句嵌入了。但是总体上,当前技术能够大规模处理的,仍然只是具有“浅层句法”或者“简单标记”的NLP任务。更复杂语言现象的理解、更复杂语义关系的抽取,仍然任重道远[21]。
5.5新型计算技术
传统的计算更多地计算数据之间的共性与关联关系,如关联规则、聚类分析、社会网络分析、向量空间模型等都是计算数据对象之间的共性特点。这些计算得到了很好地发展与应用,技术进步与方法研究已相对比较成熟。在信息量巨大的情况下,找出一些共性与关联并不总是很有效,由文档间的共性关联计算转向差异性对比计算将成为一个新的尝试。通过差异性对比,识别出新需求、新产品、新理论、新方法、新技术、新方案会助力现代科技情报工作[22]。在未来趋势分析以及场景分析时,有些弱的信号也能逐步变强,成为事情的主导力量或因素,这要求对信号分析也要有深入研究与持续跟踪。语义计算、属性计算、情景计算、差异计算以及信号计算这些新型计算技术也将成为智能情报分析系统能否切合需求、发挥作用的关键技术。
6结语
随着数据累积量的不断加大与数据结构类型的复杂多样,新兴信息技术包括深度学习(如云计算机技术、深度学习算法、各类数据挖掘算法以及自然语言技术的提高)以及用户对情报需求的要求不断提高,情报系统必然会朝着智能方向发展,这既是时代特点的展现,也是行业发展的必然要求。按照图灵所提出的标准,情报用户对收到的情报报告难以判断出报告的撰写是由人还是由机器完成的,这份报告就成功地欺骗了人,实现了真正的智能。
但是,必须清楚地认识到,在情报系统方面实现人工智能还有很长的路要走。智能取代部分工作是发展的趋势,但不会是全部。与棋谱游戏、图像识别等当前流行的人工智能领域相比,情报分析领域的目标更加复杂,在机器学习运用方面也缺乏足够的情报案例训练数据,还有情报分析需要语义空间而不是特征空间,由于这些困难的存在,使得人工智能在情报领域的广泛应用充满了挑战。
情报行业必须认清情报分析系统智能化的趋势,需要勇于接受这个挑战,把握住历史发展的机遇,及时跟踪并运用大数据与智能技术,面向社会发展与应用需求,认真研究情报行业特点与规律,运用新的技术去解决行业共性与关键问题,扎实推进情报分析水平与服务。endprint
参考文献:
[1]徐宏宇.新智能时代颠覆情报的未来——访中科院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃[J].竞争情报,2017,13(4):4-7.
[2]林崇德,楊治良,黄希庭.心理学大辞典.上海:上海出版社,2003:1704.
[3]王崇德.关于情报学[J].情报理论与实践,1996(5):1-2.
[4]BrookesBC.Thefoundationsofinformationscience:PartI.Philosophicalaspects[J].JournalofInformationScienceandEngineering,1980(2):125-133.
[5]钱学森.科技情报工作的科学技术[J].情报理论与实践,1983,6(6):3-10.
[6]池建文.论情报的两个基本问题[J].情报学报,2006,25(S1):290-293.
[7]王忠军,于伟,杨晴.科技情报机构实践创新发展专家访谈[J].情报理论与实践,2017,40(12):145.
[8]王延飞,赵柯然,陈美华.情报研究中的治学思考[J].图书情报工作,2017,61(16):55-59.
[9]李广建,杨林.大数据视角下的情报研究与情报研究技术[J].图书与情报,2012(6):1-8.
[10]张志强.论科技情报研究新范式[J].情报学报,2012,31(8):788-797.
[11]贺德方.工程化思维下的科技情报研究范式——情报工程学探析[J].情报学报,2014,33(12):1-13.
[12]乔晓东,朱礼军,李颖,等.大数据时代的技术情报工程[J].情报学报,2014,33(12):38-53.
[13]苏新宁,朱晓峰.面向突发事件应急决策的快速响应情报体系构建[J].情报学报,2014,33(12):53-77.
[14]李纲,叶光辉.网络视角下的应急情报体系“智慧”建设主题探讨[J].情报理论与实践,2014,37(8):51-55.
[15]李纲,李阳.情报视角下的突发事件监测与识别研究[J].图书情报工作,2014,58(24):66-72.
[16]王飞跃.知识产生方式和科技决策支撑的重大变革——面向大数据和开源信息的科技态势解析与决策服务[J].中国科学院院刊,2012,27(5):527-537.
[18]化柏林.论情报的本质[J].情报理论与实践,2012,35(7):1-5.
[20]张智雄,吴振新,刘建华,等.当前知识抽取的主要技术方法解析[J].现代图书情报技术,2008(8):2-11.
_473283.
[22]化柏林.科技信息大数据在情报研究服务中的应用[J].图书情报工作,2017,61(16):150-156.
作者简介:化柏林,男,北京大学信息管理系助理教授,博士;李广建,男,北京大学信息管理系教授,博士生导师。endprint