NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
NLPIR所有功能模块全部备有对应的二次开发接口(动态链接库.dll,.so,及静态链接库等形式),平台的各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,Android,Maemo5,FreeBSD,麒麟等不同操作系统,开发者可使用Java,C/C++,C#,Python,Php,R等各类主流开发语言调用其所有功能。
2、NLPIR大数据搜索与挖掘在线平台功能介绍
本演示平台(点击左下角阅读原文链接可进入)支持Chrome、Firefox、IE(9+)、UC、360等主流浏览器。
2.1网络信息实时采集与正文提取
NLPIR/ICTCLAS中英文一体化分词可视化效果图
NLPIR/ICTCLAS分词系统可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。本系统还支持在线用户词典的输入,用户可以在右下方添加用户词及词性,如“中东呼吸综合征/bing”。
NLPIR/ICTCLAS分词系统,采用层叠隐马模型(算法细节请参照:张华平,高凯,黄河燕,赵燕平,《大数据搜索与挖掘》科学出版社。2014.5ISBN:978-7-03-040318-6),分词准确率接近98.23%,具备准确率高、速度快、可适应性强等优势。它能够真正理解中文,利用机器学习的方式解决歧义切分与词性标注歧义问题。
2.3基于角色标注的实体抽取
实体抽取图表展示效果(支持网络图与和炫图)
NLPIR实体抽取文本展示效果
2.4基于完美双数组TRIE树的词频统计
柱形图展现方式
折线图展现方式
本演示平台只展示了名词、动词、形容词三种开放词类的Top10结果。这类结果已经足够支持后面的文本向量化计算,并达到较好的效果。
基于我们的完美双数组TRIE树的专利算法(近期有进一步的优化),NLPIR的词频统计算法的效率较高,是常规算法的十倍以上。该算法的效率不会随着待统计结果数目的剧增而指数级增长,一般是呈亚线性增长。建议大家调用NLPIR/ICTCLAS开放的词频统计接口。
2.5基于深度机器学习的文本分类
NLPIR采用深度神经网络对分类体系进行了综合训练。演示平台目前训练的类别只是新闻的政治、经济、军事等。我们内置的算法支持类别自定义训练,该算法对常规文本的分类准确率较高,综合开放测试的F值接近86%。NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
2.6基于深度神经网络的文本情感分析
文本情感分析的饼图展示
NLPIR情感分析提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图)。情感分析主要采用了两种技术:
1.情感词的自动识别与权重自动计算,利用共现关系,采用Bootstrapping的策略,反复迭代,生成新的情感词及权重。
2.情感判别的深度神经网络:基于深度神经网络对情感词进行扩展计算,综合为最终的结果。
情感分析的漏斗视图
2.7基于上下文条件熵的关键词提取
三维词云图可视化效果
文本演示效果
1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档。
3、精准排序:关键词按照影响权重排序,可以输出权重值。
2.8基于POS-CBOW的word2vec语义扩展
语义关联扩展力导分布演示图
和弦演示图
POS-CBOW方法综合了词性、词的分布特点,采用word2vector改进模型,对5GB的新闻语料进行训练,自动提取出了语义关联关系。如果训练文本调整为专业领域的生语料,该模型同样可以产生专业领域的本体关联关系。
2.9基于全局结构预测模型的转移依存句法分析
NLPIR提出使用Yamada算法的结构化转移依存句法分析模型,在Yamada算法的基础上,加入全局的训练以及预测,优化了特征集合。该模型的精度(85.5%)接近于目前转移依存句法最好结果(86.0%),并且在所有精度85%以上的依存句法模型中,达到了最快的分析速度。
2.10简繁转化
根据中文简繁词库,对照抽取互译。
2.11基于隐马模型的自动注音
NLPIR根据词库,基于语意理解,对字词自行语音标注,准确率达99%。
2.12基于关键词提取的自动摘要
自动摘要中间件不仅可以针对一篇文档生成连贯流畅的摘要,还能够将具有相同主题的多篇文档去除冗余,并生成一篇简明扼要的摘要。用户可以自由设定摘要的长度、百分比等参数。其处理速度达到每秒钟20篇。
3.NLPIR大数据搜索与挖掘平台主要优势
NLPIR大数据搜索与挖掘共享平台的主要优势可以概括为以下三点:
3.1技术优势
NLPIR由多名专注于大数据科学研究与工程应用融合领域的博士硕士,不断创新,倾力打造十余年。并分别荣获了2010年钱伟长中文信息处理科学技术奖一等奖,2002年国内973评测综合第一名,2003年国际SIGHAN分词大赛综合第一名。综合平衡了效果与效率,实现了“又好又快”的技术追求。
3.2普适优势
NLPIR提供丰富的openAPI,可无缝地融合到客户的各类复杂操作系统之中,开发者可使用各类主流开发语言调用其所有功能。