AI与产品NLP技术及其在百度APP中的应用搜索引擎nlp

百度文心(ERNIE)是大规模语义理解技术与平台,依托百度深度学习平台飞桨打造,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级文本模型。

通过百度文心的NLP技术,现在的百度APP不仅是搜索引擎,还有各种生活化服务以及智能应用场景。

一、NLP及其任务介绍

要走进百度,我们先来了解一下NLP是什么?

NLP是NaturalLanguageProcessing的缩写,中文意思是自然语言处理,是人工智能和语言学领域的分支学科。

此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

通俗点理解,NLP就是让机器理解自然语言(人类的文字),然后让机器处理,并进行运用。

NLP应用非常广泛,例如搜索引擎,机器翻译,各种输入法如搜狗、微软、谷歌等以及带有语音识别的计算机和手机。

1.文本分类

文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。为了方便理解,我们用下面的方式介绍:

如上图是文本分类的几种应用案例。文本分类可以分为单标签分类、多标签分类和句对分类。

在情感分析的例子里,我们要判断一句话是消极的还是积极的,比如评价一个房子“房间太小,其他的都一般”,它要么属于消极要么属于积极,是一种二分类,也叫单标签分类。

还有一类问题是新闻主题分类,比如说“中美元首就经贸关系通话“,这个新闻标题同时属于时政、国际和财经三个类别,这三个类别是相互独立的,可以同时出现,所以是多标签分类。

2.文本匹配

如图两句话“喜欢打篮球的男生喜欢什么样的女生”和“爱打篮球的男生喜欢什么样的女生”这两句话基本意思是一样的,所以是相似的,标签Y为1。

若不相似,则为0。或者有一定的相似度,则在0-1之间打一个分。

文本聚类问题可以通过文本相似度问题进行处理。而相似度是两个文本之间语义层面距离的远近。

3.序列标注

序列标注的一个经典任务是命名实体识别。比如“海钓比赛地点在厦门与金门之间的海域”这句话,我们抽出两个实体,厦门和金门,这两个实体都是地址,我们就可以将其标注为地址,而其他词语标注为非地址,用O表示。

分词、词性标注、组块分析、语义角色标注、词槽挖掘都是典型的序列标注任务。

相信大家都做过阅读理解,阅读理解其实就可以理解为特殊的序列标注,X是2段文本(X1,X2),分别表示正文篇章和问题,Y是篇章中的一小段文本,表示对应问题的答案。

4.文本生成

最典型的文本生成问题是机器翻译。如图例,我输入的是一段英文,输出的是一段其他语言的文字,这两段文字的语言和词可能不是那么一一对应的,可能原语句宾语在前谓语在后,后面那段目标语句可能是宾语在后谓语在前。

文本摘要、标题生成、闲聊等都是典型的文本生成任务。

二、NLP应用

NLP典型应用场景有新闻咨询推荐、商品评价分析、智能客服对话、社交言论分析、金融风险洞察等,业务的需求千差万别,所以场景的需求都是定制化的需求。

企业级NLP应用要着重考虑三个指标,效率、效果和效能。

三、百度文心(ERNIE)

ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。

ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术,在国际权威的通用语言理解评估基准GLUE上,得分首次突破90分,获得全球第一。

1.ERNIRE2.0(持续学习语义理解框架)

ERNIE2.0的优点就在于持续学习,不断的基于海量的数据以及先验的知识集成到ERNIE模型中,不断的在不同任务中训练来提升模型的效果,而且还不会忘记。

在多任务学习或者持续学习中,模型特别容易发生灾难性遗忘。在一个场景下训练好了模型,在另一个模型下效果可能就不好了。甚至本来原来场景下效果比较好的模型,在新的场景下训练后,再去之前的场景下得到的效果是灾难性下降的。所以就需要多任务学习、持续性学习,使得模型有非常好的泛化能力和通用效果。

2.ERNIE3.0(基于知识增强的多范式统一预训练框架)

ERNIE3.0是基于知识增强的多范式统一预训练框架。

在ERNIE3.0中,自回归和自编码网络被创新型地融合在一起进行预训练,其中自编码网络采用ERNIE2.0的多任务学习增量式构建预训练任务,持续的进行语义理解学习。

同时,自编码网络创新性地增加了知识增强的预训练任务。自回归网络基于Tranformer-XL结构,支持长文本语言模型建模。

多范式的统一预训练模式使得ERNIE3.0能够在理解任务、生成任务和零样本学习任务上获取SOTA的表现。

ERNIE2.0的优点就在于基于同一个网络进行多种自然语言处理学习范式的统一学习,以及加入了大规模知识图谱类数据。

四、百度文心NLP技术在百度APP中的应用

百度文心NLP大模型体系涵盖基础大模型、任务大模型和行业大模型。

第三类是行业大模型,包括ERNIE健康、ERNIE金融等等。

在预训练模型探索好之后,文心会有一些轻量化技术帮助进行模型压缩、结构化搜索和模型蒸馏。使得原来非常大的、非常重的模型变成轻量级模型,从而更好的应用于生产实践。

使用百度文心NLP技术可以为产品赋能。比如百度的搜索引擎,新闻咨询推荐,人工智能客服,以及百度健康,百度律师等等都用到了百度文心的NLP技术。

1.百度搜索引擎

今天的用户完全可以直接输入任何想到的需求或者问题,甚至直接通过话筒向百度语音助手提问。

譬如用户可以搜“天气”、“日历”、“机票”、“汇率”这样的模糊需求,百度会直接在搜索结果呈现结果。

2.百度新闻

通过文本分类技术,可以将新闻进行分类显示;通过新闻摘要技术,可以准确的为针对待发布的新闻进行摘要,从而提高传统人工提炼摘要的效率。

3.百度问答

当我们在百度中搜索“花生发芽了还能吃吗”,得到的答案已不再是互联网上五花八门的原始网页答案,而是让人一目了然的汇总式答案摘要。

除了这样的“一问一答”,用户还可以与百度对话,问它一个又一个问题,NLP最终可以让用户使用自然语言进行搜索,并且采用多轮交互的方式来逐步澄清和满足需求,从而完成深度决策型的搜索任务。

4.百度健康

依托百度文心ERNIE先进的知识增强预训练语言模型打造,通过医疗知识增强技术进一步学习海量的医疗数据,精准地掌握了专业的医学知识。

同时,通过医疗问答匹配任务学习病患病状描述与医生专业治疗方案的对应关系,获得医疗实体知识之间的内在联系。

实现智能诊疗对话模型,智能分析预诊导诊,通过AI学习构建适合临床辅助诊断的体验流程,深度将筛查、自测、诊断等多环节嵌入到诊疗流程中,自然、及时、流畅的应答患者提问,极大的提升了诊疗效率。

五、小结

技术是百度的基因,技术和数据积累形成的用户、产品和品牌优势是百度的护城河。

NLP则是百度技术的基石,它赋予了百度技术“智能化”的基因,在过去智能化的搜索让百度越来越好用为其在中文搜索市场奠定了王者地位。

在未来智能化连接用户与服务成为百度与阿里腾讯等巨头最大的区隔时,NLP技术只会更加重要。

因此毫不夸张地说,NLP就是百度的技术基石。

本文由@灼华一品原创发布于人人都是产品经理。未经许可,禁止转载。

THE END
1.百度降医生糊弄患者黑猫投诉百度健康医生糊弄患者 黑猫消费者服务平台 已分配商家 百度健康 黑猫消费者服务平台审核通过12-18 21:25:53 洞察喵发起投诉12-18 19:48:29 我于2024年12月18日在百度健康问题购买了服务,医生不好好回答我提出的问题,糊弄患者,最后让我线下去医院,完全没有给我提供实质性的帮助,我需要退款https://tousu.sina.com.cn/complaint/view/17378469175?sld=b0792c247043e7bb059d2a4f800fd7fa
2.百度降黑猫投诉24小时只换来5句话!百度健康的问诊服务太让人失望了! 我于12月11日20:40,购买了百度健康的协和医院任彤医生的问诊服务,服务只有二十四小时,在问诊初期回答了三句话 再没有任何回答。第二天在客服的投诉下又回答了一句,根本不专业。没有实质性答复,到了下午一点多钟又回答了两句,服务一共24个小时,回答了五句http://ah.tousu.sina.cn/company/view/?couid=5075618359&vt=4
3.百度降的微博ü 简介: 健康所系,生命相托 ; 因为相信,所以坚定。 T 友情链接 百度健康问医生 百度健康糖尿病中心 更多a 微关系 他的关注(368) 老刀99 残酷的动物们 硬核大脑 此地无垠王垠 他的粉丝(30.8万) silcient 乐呵吱 刘玥干净又卫生 星月廿八 查看更多 a c +关注 百度健康 12月7日 20:47 来自https://www.weibo.com/u/5075618359
4.大数据时代下的人工智能医疗智慧医疗提高算法可信度的方法Enlitic利用深度学习从数十亿的临床案例中提炼出可操作的建议从而制定解决方案,帮助医生利用医学界的集体智慧,他们深度学习技术可以包含广泛的非结构化医疗数据,包括放射学和病理学图像、实验室结果(如血液测试和心电图)、基因组学、患者历史和电子健康记录等。他们开发的恶性肿瘤检测系统在一项临床试验中的准确度比专业的https://blog.csdn.net/wangzi11322/article/details/107844192
5.医生考试祝福语简短合集1、祝医生身体健康:愿医生拥有健康的身体,身体健康是一切美 好的开始,也是获得更大成就的基础。 2、祝医生技术无敌:愿医生在医术上能够精益求精,技术无双, 拥有一手好把戏,能够把病人的病痛快速治愈。 3、祝医生精力旺盛:愿医生始终拥有精力旺盛的状态,能够应付 繁重的工作,不断提升自己的专业水平,为更多病人提供最https://wenku.baidu.com/aggs/371b680102020740be1e9b3c.html
6.“强国医生”上线新服务“百度降”小程序带您体验极速义诊您可在健康频道和老年频道的置顶区找到“强国医生”专区,并点击进入“在线问诊”选择使用体验。 “百度健康”拥有丰富的专业医生资源,可为用户提供健康问题解答,让用户足不出户即可与医生进行1对1充分沟通。用户可提问全量科室关于疾病症状、报告解读、药品知识、健康生活等问题,“百度健康”借助精准的分科能力,帮助用户https://article.xuexi.cn/articles/index.html?art_id=5045050140054621321
7.国际国内公共卫生情报信息2023年第14期l 北京深化卫生专技人员职称制度改革 破除“唯学历”“唯论文”,引导医生专注临床 l 中华骨髓库非血缘造血干细胞捐献突破1.5万例 l 17部门联合发文 巩固提升地方病防治 l 共同呵护好孩子们的眼睛(今日谈) l 安徽推进基层医疗卫生体系健康发展 l 北京:114预约挂号平台覆盖270家医院 增加“京通”微信、支付宝、百https://www.pzhcdc.com/Article/View?id=7199