内容提要:近年来,人工智能技术得到了迅猛发展,在教育、医疗等多个领域都实现了令人瞩目的突破,推动了行业的革新。一批前沿科技公司将人工智能技术在税收征管领域不断进行尝试,取得了令人瞩目的成果。本文首先回顾了人工智能技术的发展历程,其次简要介绍了人工智能技术在多种垂直领域的典型应用场景,最后探讨了人工智能技术在税收征管领域的四种典型应用并对今后的发展提出了建议。
关键词:人工智能技术税收征管动态信用评分纳税人关系云图
人工智能(ArtificialIntelligence),作为计算机科学的一个重要分支,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能由不同的领域组成,如机器学习、计算机视觉、智能语音等,一个重要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。人工智能自问世以来,大致经历了三个时期:
1950-1970年代,被称为人工智能的“机器推理”时代。自从1956年人工智能概念被首次提出后,相继取得了一批显著的研究成果,如机器定理证明、跳棋程序等。这一时期一般认为只要机器被赋予逻辑推理能力就可以实现人工智能。不过此后人们发现,只是具备了逻辑推理能力,机器还远远达不到智能化的水平。
1970-1990年代,被称为人工智能的“知识工程”时代。这一时期,人们认为要让机器变得有智能,就应该设法让机器学习知识,于是专家系统成了重要的研究方向。后来人们发现,把知识归纳出来后再让计算机执行实现起来相对困难。
2000年至今,被称为人工智能的“机器学习”时代。在这一时期,大量的机器学习算法被提出并得到了广泛的应用,特别是深度学习技术的发展,人们希望计算机能够通过大量的数据分析,从而自动学习出知识并实现智能化水平。与此同时,计算机硬件性能也得到了大幅提升,大数据处理和分析技术得到了迅猛发展,使得人工智能技术在很多领域取得了较为成功的应用。
人工智能技术在教育、医疗、无人驾驶、电商零售、个人助理、家居等多个垂直领域取得了较为成功的应用。
人工智能与教育的结合,主要体现在教育机器人和智能教学方面,细分到教育的“教、学、考、评、管”等各个领域。比如机器人阅卷改卷功能,通过图文识别、海量文本检索技术,快速检索所有试卷与目标相似的文本,并迅速标注出可能存在问题的试卷。
在医疗领域,人工智能技术的应用主要集中在医疗机器人、智能药物研发、智能诊疗、智能影像识别、智能健康管理等。俄罗斯ExoAtlet公司生产的“智能外骨骼”产品,能够帮助下半身瘫痪的患者完成基本的行走、爬楼梯以及一些特殊的训练动作,也具有测量脉搏、电刺激、设定既定的行走模式等功能。
在无人驾驶领域,美国亚利桑那州已实现自动驾驶车队和普通车流一起行驶在道路上。在国内自动驾驶上路也已成为一种可能。虽然为了弥补人工智能的不足,企业常常采取幕后的人为干预措施。但无人驾驶在明天会继续前进,也是发展的趋势。
在零售领域,智能搜索、推荐、自助支付、库存盘点、智能物流等环节都逐渐融入数据化和智能化的平台。例如京东,其采用大量智能物流机器人进行协同和配合,通过大数据应用、深度学习等技术,在商品分拣、运输、出库等环节实现自动化。不可否认的是:人工智能将不可逆转地改变整个零售业的面貌以及价值链。
在个人助理领域,越来越多的“非人类”助手出现在我们周围,使我们的生活更加便捷。通过学习用户行为,“非人类”助手加速手机和其他设备的执行力,提升操作效率。比如苹果Siri、微软小娜等,随着聊天机器人日益发展成真正的智能助理,其可以帮助用户做很多事情。
家庭,是人类最重要的社交生活场所之一,也是人工智能应用较为广泛和影响度较高的领域。人工智能化的智能家居是一个完整的系统,通过语义分析等技术,实现智能家居设备之间的互联互通,让用户得到系统的整体智能生活体验。长虹、创维等品牌正乘着春风,借力打造智能家居。
伴随着税收大数据的深度分析和应用,包括北京罗格数据科技有限公司在内的一些前沿科技公司将自身人工智能技术的优势与对税收征管业务的理解进行了紧密结合,在税收风险管理、纳税服务等业务域进行了深度探索,打磨出了一批卓有成效的产品。下面对人工智能技术在税收领域的四种典型应用做一探讨。
01
纳税人全息画像技术
纳税人全息画像技术是指借助数据挖掘、机器学习等技术手段,在海量数据的支持下,将纳税人的多维度特征进行抽象概括,构建目标特征标签,再根据具体的应用场景将纳税人信息进行集成整合,从而刻画出纳税人基本情况、经济活动、纳税行为等全信息画像,从而服务于纳税信息分析、税收征管工作。
相较于传统的纳税人信息管理方式,纳税人全息画像技术具有以下明显的优势:
二是多维度刻画和优良的可扩展性。特征标签可以从多个维度对纳税人特征进行刻画,针对不同的应用场景,可以选取不同的特征标签,有利于加强针对性和聚焦重点。并且在新增应用场景时,可以根据基础特征信息,快速实现针对该应用场景的特征组建,提高效率。
纳税人全息画像技术主要分为三个步骤:
第一,对海量数据进行处理,构建目标特征;
第二,根据不同的应用场景,对特征进行集成整合;
第三,以易于理解的方式进行全息画像结果展示。
在对海量数据进行处理时,会涉及到非结构化数据的处理,针对非结构化数据,需要建立规则库,以此为基础对非结构化数据进行格式描述,以及转换规则的描述,从而实现非结构化数据统一的格式转换,并定期对规则库进行维护更新,以保证各非结构化数据正常处理。
在构建目标特征阶段,有两个关键点,即特征提取和特征选择。特征提取工作通常需要多领域知识相结合,经验上来讲,这些特征提取的越多越好,无需担心特征过多,后续基于一些规则可以对提取特征进行有效筛选。
特征选择的目标是寻找最优特征子集。在针对纳税人画像的建模中要考虑哪些特征适合于纳税人画像。可以选用深度学习来进行特征选择,深度学习具有自动学习特征的能力,从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练。
纳税人全息画像可以针对不同的应用场景进行特征的集成整合。应用场景可以根据需要进行选择,例如,划分为企业基础信息、财务状况、关联交易情况、外部环境信息、税务基本信息、纳税遵从行为、分税种缴纳情况等场景。据此,既可以对企业的经营环境、经营活动、纳税行为等进行全方位的画像描述,也可以针对其中某一个场景进行聚焦描述。最后,根据不同需求,选取相应的展现形式,对画像结果进行展示。
02
动态信用评分系统
全息画像是对纳税人的特征进行画像描述,而动态信用评分系统是建立在纳税人全息画像的基础之上。纳税人在不同的场景下呈现不同的特征,如果需要准确识别纳税人的风险点,并对其信用水平进行客观评价,就需要结合不同的应用场景,对纳税人在该场景下的行为进行预测。这种信用评分结果,根据外部条件的不同、应用场景的不同,对于同一纳税人来说,评分结果也可能产生变化。
传统的信用评分方法,往往忽略纳税人不同的基本特征以及多样的应用场景和外部环境,而是统一使用一个评判标准来对纳税人的信用进行评分,这种单一模块模型往往会导致模型在新应用场景下的失效。动态信用评分采用主题模块结构,根据不同应用场景设计相应主题。
相较于传统风险评分模型,动态信用评分模型的主要优势有:
评估维度丰富。多模块的设计,提供了多维度的信用评估,相比于传统评估方式,能从更多维度处理信息,精准还原纳税人风险画像。传统模型承载的信息量有限,模型技术无法处理高维度指标信息。
扩展性佳。基于主题模块结构的设计方式,具备良好的可扩展性,便于引入新的数据源和新的评估维度,为未来引入更多维度的数据与信息打下坚实基础。而传统模型如果需要扩充指标则需要对模型进行重建优化。
风险把握准。基于主题设计,使模型有了更强的针对性,能够提高对特定环境下风险识别能力。而传统模型往往是基于高泛化情景设立的,在向复杂场景推广时往往效果较差,或需要重建模型才能应用。
在模型实现方法上,动态信用评分建模将结合支持向量机、多目标线性规划、判别分析法、迭代决策树算法、神经网络模型等有效的机器学习方法与传统统计学方法,共同构建评估体系。
对于纳税人评分结果,我们可以通过建立风险预警与纳税税额预测模型,将其应用在日常的税收工作中。通过风险预警模型,我们可以及时发现纳税人群体中潜在的风险隐患,由稽查机关及时介入,确保税收工作正常进行。纳税税额预测模型通过预测未来的税收金额,在税收工作中能为税务机关提供有效的数据参考。
03
税务咨询智能问答系统
税务咨询智能问答系统,综合应用人工智能领域的自然语言处理、信息检索、机器学习及知识图谱等技术,属于一个限定领域的任务。应对税务咨询领域的智能问答需求,一种思路是建构一个基于常问问题集的问答系统,在已有的问题-答案对的集合中找到与用户提问相匹配的问题,并将其对应的答案直接返回给用户。这一解决方案根据用户的提问建立一个候选问题集,然后通过计算句子语义相似度,在候选问题集中找到相似的问句,并将答案返回给用户,并自动地更新和维护问答对数据库。显然,它允许用户用自然语言句子提问,也能够为用户返回一个简洁、准确的答案。此外,基于常问问题集的问答系统又可以作为整个问答系统的一个构成部分,如果用户的提问与以往的记录相符,可直接将对应的答案提交给用户,免去了重新组织答案的过程,可以提高系统的效率。
对于包括税务在内的领域应用来说,最有效的策略是将多种方法结合,同时利用先验的以及通过机器学习得到的知识,以优化生成的回答,得到较为完善的交互效果及体验。
04
纳税人关系云图
纳税人关系云图是反应股权关系和供应链关系的一个拓扑图,其中用节点来表示实体,关系用带权重和方向的边来表示。节点的颜色或者大小可以用来描述实体基于复杂网络算法得出的重要程度,又或者基于某种模型算出的风险程度,节点自身也可以添加重要的基本信息,比如注册资本、纳税情况等,这样就可以很直观的被非专业人士所理解而不需要花费大量的人力、物力。关联图谱的边除了可以表达纳税人两两之间有某种关系以外,边的长短、粗细也可以用来描绘纳税人群体的离散程度,边上的权重可以引入更复杂的多维度的关联信息,比如投资的金额、持股比例、交易类型、交易额度等信息。
反应供应链关系的关联云图,是以增值税发票信息为基础形成的。企业进行经济活动,在与其他经济体发生产品和资金的交换过程中,同时伴随着增值税发票的流动,对发票流动信息进行监控、归集和分析,就基本掌握了企业的日常经营情况及纳税情况。针对同行业供应链信息进行分析,能够从整体上掌握同行业企业在上下游交易过程中的地位,以及利润占比,从而对纳税风险控制指标有更为准确的把握,实现税务监控。
基于纳税人股权关系形成的关联云图,可以清晰的展示纳税人的关联关系,加上纳税人的交易信息,可以直观展示出纳税人的关联交易情况以及关联交易依赖度等。
基于纳税人关系云图,我们可以较全面的掌握纳税人的经济活动情况和外部关系,对经济业务的真实性、纳税申报的准确性及完整性、关联交易的合理性进行分析,从而实现税务风险的实时监控。
人工智能技术的迅猛发展,促使税收领域改革朝向纵深发展。人工智能赋能税收征管已经成为未来重要的发展趋势。我们要正视新技术给税收领域带来的变革,并在技术创新上不断探索,在应用场景上不断开拓,将新技术融入到更多的税务管理、税务服务场景中。从税务管理的角度来说,要实现高效、全面、细致的税收管控,从税务服务的角度来说,要实现效率高、针对性强、用户体验好的税收服务。相信人工智能技术的应用,将带来税务管理和服务在质量、效率上的全面提升。
(本文发表于《国际税收》2018年第五期)
罗格数据是一家专业从事税收大数据预测分析和决策管理的创新型公司。公司拥有一支专注、专业、高效、成熟的顶尖交叉学科业务和技术团队,通过对大数据和数学算法在风险控制、行为分析领域内的开创性使用,结合税务、金融等领域的丰富经验和专业能力,成为“互联网+税收大数据”的领跑者。
“罗格研究院”是罗格数据旗下专注大数据研究与咨询的专门机构。研究院将秉承“国内+海外、学术+实务、业务+技术”的跨界思维,围绕税务大数据的价值发现进行持续创新。罗格研究院目前研究领域涵盖“国际税收、税收大数据、互联网、区块链、人工智能”等。