自然语言处理在财会领域的应用会计审计第一门户中国会计视野

数据有不同的类型。结构化数据以预定义的格式存在,通常易于进行分析。但企业的大多数数据都是非结构化的,存在于自由流动的人类语言(即自然语言)如英语中。人类能够很容易理解这种类型的数据,计算机如果不借助一定的技术帮助,理解起来会很困难。

就会计工作而言,发票文本、交易描述和书面沟通等就是非常典型的非结构化数据。借助于自然语言处理(NLP)等技术,之前由初级会计人员手工完成的一些工作可以自动化。不仅如此,NLP还可在会计更具战略性的工作方面提供支持。鉴于管理会计的职责是为内部决策提供支持,他们可充分运用分析技术来提供洞见。NLP以及人工智能(AI)和机器学习(ML)都是当下管理会计师可运用的大量技术中的新成员。

上述这些NLP技术可应用于多个管理会计场景,情感分析是其中一个很好的例子。财务是平衡计分卡的四个维度之一,企业之前往往将财务指标作为绩效评价的唯一指标,但现在正逐渐转向更为“平衡”评价方式,比如加入平衡计分卡的客户维度。在分析客户情感时,管理会计师可以应用NLP技术和预测性ML模型。

NLP技术在人类所说所写的内容和计算机可处理的内容之间搭建了桥梁。

可选工具

有一点我们要清楚,在基于电子表格(如微软Excel)的软件中,大部分ML分析的实施效果并不理想。尽管如此,在构建有效的预测模型时,仍有许多简单易用的工具可供选择。在工具的选择方面是非常灵活的,因为NLP分析可以在专有软件、统计语言或通用编程语言中运行(见“为什么学习编程?”)。事实上,选择哪种工具往往取决于个人偏好。接下来,我们将着重看看几个常用工具。Python。

Python是一个非常不错的选择,原因有二:

首先,Python拥有庞大的数据科学库,其开源性质意味着全球用户都可以开发和发布各种模块。常用的库包括用于一般ML任务的scikit-learn(),用于更复杂的NLP技术的NLTK()以及用于基础数学运算的SciPy(),用于深度学习的高级库则有Keras(Keras.io)、TensorFlow()和PyTorch()。

其次,Python是一种通用型语言,相对简单易学。其语法简洁易懂,可用于包括ML在内的一系列任务。在我个人的实际工作中,我使用Python来完成这些工作:自动下载发票,使用光学字符识别提取发票信息并对其进行预处理,然后运行ML模型。偶尔我还把它当计算器使用。

Python的缺点是编程语言比较难学(即使短于其他语言),编程知识有限的用户不太好理解,以及开源语言的安全性等问题(尽管这些问题可通过规划与尽职调查来解决)。

Alteryx最近发布了智能套件(bit.ly/3AIUf0J),其中包括一套有助于NPL和其他ML任务的工具,可大大提升Alteryx在NPL任务中的能力。Alteryx最大的劣势是成本高昂,每位用户必须按年支付使用费,而Python和R都可以免费使用。

流程

假设某企业定期收集客户评价,且所有评价都是以开放式问题形式收集的。

与之相反的是,在基于规则的方法下,算法只会查找客户提供的特定词汇(如“大”“好”“少”“坏”)。随着数据的变化性增加,这种基于规则的方法很快就会变得无效,因为几乎不可能提供足够多的规则去覆盖许多可能的变化,所以这一方法仅适用于充分标准化的基础数据。而如NPL之类的ML方法自身可形成对数据的理解,甚至可能创建在其他情况下几乎不可能编码的细微连接(如将不同时态的“improve”视为同义词)。

开发ML模型的一般流程如下:

■将数据转换成机器可以理解的形式。这个过程被称为“向量化”。

■将向量化数据分组为单独的聚类,这样具有相似特征的数据会组合在一起。从每个聚类中选择一些观测值来创建代表性数据样本。

■使用样本数据训练ML模型。

■根据需要调整模型,然后部署并持续更新,以获得情况变化时的最佳结果。

数据采集和预处理

理想的做法是获得尽可能多的数据,收集的客户评价最好不少于两年。使用相对较大的数据集有助于避免模型对训练数据过度拟合,或进行过于具体的调整。ML模型基于特定的数据样本进行训练,由于采样通常使用预定义的方法进行,一些偏差可能会导致训练数据出现异常值,或者数据特性/数据点可能无法代表更广泛的数据。如果模型与训练数据过于“吻合”,那么将训练结果推广应用到从未见过的数据上的空间就很小。

预处理是一个至关重要的步骤。数据科学领域的一个俗语是“垃圾进,垃圾出”,所有的ML算法都是使用数据进行训练的,所以干净、有用的数据是创建有价值的ML模型的必要条件。预处理指的是让数据“准备就绪”,以便ML模型有效地从中学习。该过程有时被称为数据暂存或数据清洗。

假设一家航空公司的客户评价包含语法错误,语句也不完整,比如很常见的一条:“飞机上的体验很棒。机组人员很有礼貌。食物很美味。会再次乘坐。”设想一下工作人员会怎样分析这条评价。他们可能不会注意任何停用词、标点符号或其他如“飞机”或“机组人员”之类的词汇,相反,会根据其对英语语言的了解,着重寻找那些代表乘客体验的关键字。“伟大”“礼貌”和“美味”这些词很显然代表满意,“会”(而不是否定的“不会”)和“再次”虽然指向不是特别明显,但也表示积极的反馈。

经过预处理,这几个关键词(标签)保留下来:很棒、体验、飞机、机组人员、礼貌、食物、美味、会再次乘坐。对于ML模型来说,这一短语都具有很大的信息价值,因为其包含了将“积极”类别的词汇与其他两个类别(“中性”和“消极”)的词汇区分开来的独特标签。这并不是说预处理后包含了所有有用的词,预处理永远无法使数据完全干净,但它可以使NPL模型再进一步,将特定的单词与其对应的标签联系起来。人类根据自己在生活中学习的自然语言知识,下意识地进行这种预处理,计算机则要求对这些数据进行清洗(当然,除非为其提供了自动预处理数据的模型)。

包含有用信息的预处理数据是训练任何ML模型的前提条件。根据我的经验,用Alteryx这样的工具清洗数据比用编程语言更容易。在使用Python训练模型之前,我经常使用Alteryx对数据进行处理。

向量化

数据经过预处理之后,还需将其转换成机器可以使用的格式。计算机不能理解自然语言数据,除非将这些数据转化为计算机可识别的某些数字编码。

向量化是用数字代表事件,有几种技术可用于向量化数据,其中最常见的两种工具如下:

untVectorizer。这是最简单易用的向量化程序。顾名思义,untVectorizer通过计算给定标签在文本中出现的次数来创建向量。短语“sheshellsoutforshellsnearTheshore”会被表示为“121111”,因为除“shell”以外的其他单词都只出现了一次。

TF-IDFvectorizer。TF-IDF代表“词频——逆文档频率”。这款工具基于这样一个假设:如果某个特定标签在一个短语中出现多次,但在其他短语中不常出现,那么它可能是对该短语的描述。TF-IDF通过统计分析生成向量。无论采用何种方法,基本动机都是将每条客户评价表示为一个带方向性的数字序列:一个向量。图1展示了一个向量矩阵。图中以颜色强调的向量表示上文提及的评价示例,在每个可用评价词语的旁边都有一个数字,表示该词语出现的次数。训练ML模型时,示例评价4被表示为一个“11111111”的八维向量(因为每个列出的标签在此评价中都只出现了一次),而评价6被表示为“01000000”(这表示只有“体验”在此评价中出现,这可能是一个负面评价)。

聚类

ML主要有三种类型:有监督学习、无监督学习和强化学习。有监督学习处理的是带有标签或“答案”的数据。在本文案例中,数据来自于客户评价,标签则是相应的情感标签。ML模型使用有监督学习来训练或“学习”数据与其相应标签之间的联系。无监督学习用于在没有任何外部标签的数据中寻找模式,这一能力在将数据分组为具有相似特征的数据集时特别方便,分组后这些数据集用于创建代表性的训练样本。强化学习是ML领域的最新创新,通过奖励系统创建模型。

创建向量数据的代表性样本时,我倾向于使用无监督ML技术,将相似类型的数据点分为不同的组。聚类是无监督学习的一种类型。

基于密度的带噪空间聚类(DBSCAN)是一种先进的聚类算法,基于所绘制图表的密度范围对数据进行聚类。DBSCAN的一大优点是可以发现异常值:与大多数其他聚类方法不同,该算法不需要将每个数据点分配给某个聚类。

我一般都优先使用k均值聚类算法,因为其较为简单,对计算能力的要求也比较低,除非要达成特定结果我才会选择其他算法。聚类数量取多少最合适,取决于客户评价的变化程度。将全部评价聚类后,就可以从每个聚类中挑选固定数量的评价来创建训练样本。这样做有两个好处:(1)训练数据包含的评价数量至少与聚类数量相同;(2)创建的样本包含所有聚类中的评价,因而更有代表性。将评价数据聚类甚至可以揭示三种情感的初始分组状况,从而可以看到分组情况。k均值聚类过程如图2所示。

模型训练

假设训练数据中包含了来自每个聚类的一条评价,则其包含的评价数有k条。这些评价应该已经预先被工作人员贴上了相应的情绪标签。这就提出一个重要的问题:哪种类型的ML模型最适合训练数据?这本身是本文的主题,总的来说有许多模型可供选择,且这些模型也存在种种变化。虽然客观信息可以指导选择,但选择时也要考虑主观因素。可供选择的技术模型包括k最近邻算法、朴素贝叶斯算法、逻辑回归算法、决策树算法,及更复杂的建模、集成和深度学习方法。其实无论选择何种技术,训练ML模型的过程都是相似的。假设ML模型已经选定,接下来便是进一步将训练数据集划分为两个独立的数据集,这就是所说的“分割训练集和测试集”,其中一个数据集要远大于另一个数据集,常用的划分比例为80:20或70:30。

然后,使用较大的数据集训练ML模型,即通过选定的软件将数据输入ML模型。该模型将数据集中的每条记录与相应的标签(情感)进行比较,从而形成将具体评价与相应标签联系起来的“知识”。

理想的状态是在ML模型的复杂性和通用性之间达成适当平衡,但这一点很难实现。模式必须具备一定的复杂性,既不能捕捉不到训练数据中的关系,也不能过于深入,导致无法将学习的知识应用于其他数据(通用性不强)。在ML术语中,这被称为偏差-方差权衡(bit.ly/3Ho8uuw)。

部署和迭代

在更大范围内运用ML模型并将其纳入生产流程是另一项工作,相较于数据科学,这与软件开发的关系更大。在实践中,需要组建专门的团队来致力于在整个企业部署ML模型。

部署模型后,非常重要的一点是践行“持续改进”理念,这是源于日本的一种有效的经营思想。ML模型的开发是一个迭代过程,即便完成初始部署后,也要不断引入更多数据、调整参数,甚至会根据会计环境的变化或企业业务选用其他模型。

对于那些希望学习更多ML建模知识的会计人员来说,他们首先应该熟悉中级统计学知识,因为几乎所有ML模型都有底层的统计算法;其次,阅读更多关于ML的书籍(可参考“MachineLearningforBeginners”一文,bit.ly/3HhbEjD);最后,了解实施ML的工具,这一点非常重要。从灵活性和数据科学库角度看,Python是ML最常用的编程语言,Alteryx也因其拖放界面而广为好评。随着AI日益成为一种生活方式,会计行业未来预计也将受到颠覆性影响。

上海市青浦区蟠龙路200号

021-69768000-68189

021-69768028

中国会计视野

ACCAConnect2CentralQuay89HydeparkStreetGlasgowUnitedKingdomG38BW

+44(0)1415822000

+44(0)1415822222

北京市朝阳区建国门外大街一号中国国际贸易中心1座3117-3120

100004

010-65186123/22

010-65269778

上海市淮海中路381号中环广场2929室

200020

(021)51535200

(021)51535208

广州天河北路183号大都会广场10楼1014-1016室

510620

020-87557932/33*805

020-87557935

上海市浦东新区陆家嘴环路1233号汇亚大厦1508A室

200120

+86(0)2161601558

+86(0)2161601568

北京市朝阳区东三环北路八号亮马河大厦二座二层V204室

+86(0)1065900751

+86(0)1065900588

深圳市福田区中心四路1号嘉里建设广场2座15楼49室

518048

+86(0)755-33043177

+86(0)755-33043175

重庆市渝中区邹容路68号大都会商厦1202室

400010

+86(0)2363713538

+86(0)2363816175

10ParagonDrive,Montvale,NewJersey07645,USA

(1)2015739000

(1)2014741606

北京市东城区东长安街1号东方广场东一座办公楼504-505室

100738

4000-462-262(常规咨询)

(8610)85911378(培训/市场合作)

(8610)82345674(Prometric预约考场热线)

(8610)85910819

北京市东城区东长安街1号东方广场C1座写字楼1103室

+86(0)10-85188622/23

上海市静安区北京西路968号嘉地中心办公楼1708单元

200041

+86(0)21-31007900

香港湾仔皇后大道东213号胡忠大厦27楼

+852-22877277

CharteredAccountants’Hall,MoorgatePlace,LondonEC2R6EA

+44(0)2079208100

上海市中山西路2230号上海立信会计学院2号楼14楼

400-820-2803

Level6,555LonsdaleSt,Melbourne

GPOBox1637,Melbourne,VIC3001

+61386653100

+61386653130

北京市朝阳区霄云路36号国航大厦1201室

100027

8610-844675708610-84467590

北京市东城区东长安街1号东方广场中2座办公楼3层307-308B室

(8610)85185575

中国上海市南京西路1168号中信泰富广场40楼4003-4004室

+862180119501

广州市天河区珠江新城花城大道85-87号高德置地广场A座2504

THE END
1.语料采集的数据可以用于哪些应用语料采集的数据可以用于哪些应用 语料采集的数据在自然语言处理(NLP)、机器学习和人工智能领域有着广泛的应用。通过精心收集和处理的语料,可以训练出性能优越的语言模型,这些模型进而支持多种高级应用和服务。以下是语料数据的主要应用场景及其具体用途: 1. 机器翻译https://fuxi.163.com/database/1331
2.人工智能自然语言处理技术原理介绍自然语言处理(Natural Language Processing,NLP)是人工智能领域中的一个重要分支,致力于让计算机能够理解、解释、处理和生成人类语言。NLP技术的应用范围涵盖了机器翻译、情感分析、语音识别、问答系统等多个领域,对于推动人机交互、信息检索和智能决策等方面发挥着关键作用。在本文中,我们将介绍自然语言处理技术的基本原理,https://zhuanlan.zhihu.com/p/669605397
3.解密自然语言理解:十大算法揭秘自动摘要是从文本中自动提取出关键信息,生成简洁准确的摘要。常用的自动摘要算法有基于统计的方法、图模型和深度学习等。自动摘要在新闻摘要、文档浏览和信息检索等方面具有广泛应用。结语 自然语言理解的十大算法涵盖了自然语言处理的核心任务,它们在各个领域和应用中发挥着重要作用。随着人工智能技术的不断发展,自然https://baijiahao.baidu.com/s?id=1781767515932608153&wfr=spider&for=pc
4.自然语言处理主要有哪些应用自然语言处理主要有哪些应用 描述 自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。 自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。 简单来说,自然语言理解就是希望机器像人一样,具备正常人的语言理解能力。https://m.elecfans.com/article/1703012.html
5.自然语言处理的应用领域有哪些自然语言处理的应用领域有哪些A.文档分类B.信息抽取C.文本挖掘D.舆情分析的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuati.com)是专业的大学职业搜题找答案,刷题练习的工具.一键将文档转化为在线题库手机刷题,以提高学习效率,是学习的生产力工具https://www.shuashuati.com/ti/6d8b38e20c4443d9b6971b93a37e6830.html?fm=bd3ef52088e511ec4aa01213e57bca92cb
6.什么是自然语言处理?NLP的主要应用有哪些?NLP 的主要应用有哪些? 自然语言处理(Natural Language Processing, NLP)是一种人工智能技术,旨在使计算机能够理解、处理和生成自然语言。自然语言是人类用于交流的主要手段,包括口语和书面语,它具有复杂的语法和语义规则。自然语言处理技术可以帮助计算机识别、理解和生成自然语言,从而实现自然语言与计算机之间的无缝交互。https://www.ctyun.cn/developer/article/411737844457541
7.自然语言处理(NLP)技术有哪些运用?自然语言处理应用一、自然语言处理(NLP)技术有哪些运用? 二、Python进行文本的情感分析 1、NLTK库: 2、TextBlob库: 三、错误排除 一、自然语言处理(NLP)技术有哪些运用? 自然语言处理(NLP)技术是一种人工智能领域的技术,用于使计算机能够理解和处理人类语言。以下是一些常见的自然语言处理技术的例子: https://blog.csdn.net/ChailangCompany/article/details/138570937
8.人工智能系统中自然语言处理(NLP)的应用有哪些在探讨人工智能的具体内容时,我们不可避免地会提到自然语言处理(NLP)。NLP作为人工智能的一个分支,其核心任务是使计算机能够理解和生成人类的语言。这一领域不仅涉及到了语音识别、文本分析,还包括了机器翻译、情感分析等多个方面。今天我们就来深入了解一下NLP在人工智能中的具体应用。 https://www.oxlrlndzq.com/shou-ji/490925.html
9.自然语言处理的应用包括哪些自然语言处理(NLP)的应用非常广泛,涉及多个领域。 以下是一些NLP的主要应用: 机器翻译:机器翻译是利用计算机将一种自然语言转换为另一种自然语言的过程。 这是NLP的一个重要应用,可以帮助人们快速地理解不同语言的内容。 垃圾邮件识别:通过NLP技术,可以训练模型来识别垃圾邮件,从而过滤掉不需要的信息,提高用户的工作效https://www.ai-indeed.com/encyclopedia/9100.html
10.人工智能有哪些具体应用人工智能的应用领域→十大品牌网人工智能有哪些具体应用 1、自然语言处理(Natural Language Processing, NLP) 利用AI技术处理和理解人类语言,包括语音识别、文本分析、情感分析、机器翻译等。 2、图像识别与计算机视觉(Image Recognition and Computer Vision) 通过图像处理和模式识别技术,实现图像和视频的分析、识别和理解,如人脸识别、目标检测、图像生成https://www.cnpp.cn/focus/29519.html
11.什么是自然语言处理(NLP)?常见的应用嘲有哪些?代码举例讲解常见的应用场景有哪些?代码举例讲解 发表于2023年9月8日2023年6月10日作者 IT之美 自然语言处理(NLP)是一门研究利用计算机来处理人类语言的技术。它的主要任务包括: 词法分析:将文本分割成词汇和标点符号。 语法分析:研究词汇和词汇组合的句法结构。 语义分析:解释句子和词汇的含义。http://www.itzhimei.com/?p=6530
12.python在数据分析中有哪些应用python在数据分析中主要有以下应用:一、数据提取;二、数据清洗;三、数据分析;四、机器学习;五、数据可视化;六、自然语言处理;七、数据建模和预测。Python作为一种高效且易于学习的编程语言,已经成为数据分析领域的一种主流工具。 一、数据提取 Python提供了很多用于数据提取的库和函数,其中比较常用的有pandas库中的lochttps://www.linkflowtech.com/news/1636
13.深度学习在自然语言处理中的7个应用·MachineLearning您是否有未列出的最喜欢的深度学习 NLP 应用程序? 请在下面的评论中告诉我。 1.文本分类 给定文本示例,预测预定义的类标签。 文本分类的目标是对文档的主题或主题进行分类。 第575 页,统计自然语言处理基础,1999。 一个流行的分类示例是情感分析,其中类标签表示源文本的情感基调,例如“_ 阳性”或“阴性 _”。https://www.kancloud.cn/apachecn/ml-mastery-zh/1952048
14.自然语言处理的应用前景自然语言处理(NLP)是人工智能技术的一个分支,它使计算机能够像人们一样理解、处理和生成语言,并且在商业中的应用正在迅速增长。 自然语言处理(NLP)的定义 自然语言处理(NLP)是人工智能技术的一个分支,它使计算机能够像人们一样理解、处理和生成语言,并且在商业中的应用正在迅速增长。 https://www.51cto.com/article/615174.html
15.深度学习在自然语言处理上的七大应用在这篇文章中,你将发现 7 种有趣的自然语言处理任务,其中深度学习方法正在取得一些进展。 概述 在此文中,我们将看看下面的 7 种自然语言处理问题。 文本分类 语言模型 语音识别 说明生成 机器翻译 文本摘要 问答系统 我尝试着重于你可能感兴趣的最终用户问题类型,而不是那些深度学习应用性能很好的学术或语言子问题https://36kr.com/p/1722157318145
16.一文看懂自然语言处理NLP(4个应用+5个难点+6个实现步骤)什么是自然语言处理 – NLP 每种动物都有自己的语言,机器也是! 自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。 人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。 不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间https://easyai.tech/ai-definition/nlp/