数据挖掘技术在中医处方经验研究中的应用

摘要:传统的中医药科学在长期的医疗实践中积累了海量的处方数据,数据挖掘是目前最有效的数据分析手段之一,利用数据挖掘技术从这些海量数据中发现蕴含其中的中医药知识,是一项极有价值的研究工作。本文主要采用数据挖掘中的Apriori关联规则算法,对中医处方数据进行挖掘和总结:首先对采集的中医药数据进行数字特征化处理;然后对中医处方中药物的频繁项集和药物之间的关联关系进行研究,并获得了普通处方分析较难获得的用药规律及经验信息。研究成果对中医临床工作具有重要的指导意义。

1数据挖掘技术

1.1数据挖掘概述

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。从广义上说,数据挖掘是对数据库知识发现(KnowledgeDiscoveryinDatabases,KDD)的一个过程。作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的,数据源可以包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据[2]。

1.2中医药数据挖掘的意义

中医药领域的处方中通常包含大量的药物及其剂量组成,伴随着医院信息化建设的大力推进,这些药方多以数据库形式被保存,运用数据挖掘技术对中药数据进行科学分析,从而发现其中的配伍特点和规律成为很有现实意义的一项工作。

中医药数据挖掘的目的是通过对中医处方中的中药数据建立合适的模型,从而寻找药物之间的频繁模式和关联规则,可以实现中医用药经验的有效总结和传承。

1.3关联规则算法

数据挖掘有很多模式,常见有关联规则[3]、聚类算法[4]、分类算法[5]等。关联规则挖掘最初仅限于事务数据库的布尔型关联规则,近年来广泛应用于关系数据库[6]。关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。

关联规则就是支持度和信任度分别满足用户给定阈值的规则。Apriori[7]是关联规则模型中的经典算法。本文主要使用基于频繁项集的Apriori算法进行数据建模,用以发现中药配伍中的规律性。发现关联规则需要经历如下两个步骤:

步骤一:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;

步骤二:利用频繁项集构造出满足用户最小信任度的规则。

2数据特征化和预处理

2.1实验数据集

本文实验数据来自河北中医学院附属医院肾内科陈志强教授于2014年5月至2015年7月诊治的早中期慢性肾衰竭患者的病案。采集的病案内容包括患者姓名、性别、年龄、原发病、症状、体征、肾功能指标、中医证候、中药处方等。摘取其中的中药信息,按照《中药大辞典》[8]统一药物名称。

2.2数据特征化

统计数据集的全部223条中医处方,共出现中药194味,根据专业经验,我们选取频数在10%以上的中药(视为高频药物)进行数据挖掘。由于中药处方中的中药名称以中文形式表示,因此需要将其进行易于数据挖掘算法识别的数据特征化处理,方法如下:

(一)药物表的特征化方法

根据医务工作者的经验,将治疗该病症的常见中药分为活血化瘀通经类、清热祛湿泄浊类、行气燥湿化痰类、益气健脾温阳类、补益脾肾之阳类、滋养肝肾之阴类等六大类。将高频药物分别归于这六大类中,针对每大类建立相应的数据表。每条数据采用布尔常量的表示形式如图1所示。

其中,第一项表示病人编号,每一条记录表示一位病人的用药信息,编号之后的每一位布尔数据表示某味中药是否在该处方中出现,1表示出现,0表示未出现。

(二)类别表的特征化方法

为了进一步分析各大类之间的关联性,建立一个数据类别表(同一条处方中出现某一类药物中两味或两味以上,即判定使用了该类别中药)。每条记录表示一位病人用药的类别信息,其中第一项表示病人编号,编号之后的每一位表示该类别药物是否在该处方中使用,1表示使用,0表示未使用。

按照上述方法建成中药药物数据库,其中包括:包含所有药物的处方数据集、统计药物频次的药物计数数据集、由专业医生按照性味、功用划分的六种不同类别的高频药物数据集以及判断处方中是否使用某类药物的类别数据集。

3中医处方经验的挖掘方法

3.1对每一类药物中包含的各味中药进行关联规则建模

首先对数据库中的药物进行频数统计,即在处方中出现的次数;然后将数据库中所有同类别的药物按照其在整体处方中出现的频数降序排列。如果药物排列靠前说明其在处方中出现频率较高,为医生的常用中药,具有较高的参考价值。同时,参考专业医生的经验,本文将支持度和置信度的阈值均设置为10%,将其视为指导临床应用意义较大。对各类药物数据采用Apriori算法建模,生成每一类别中药间的关联规则。

3.2对六类药物之间进行关联性规则建模

逐条分析223条中药处方中所包含的药物类别(同一条处方中出现某一类药物两味或两味以上,即认定含有该类别中药),统计223条中药处方中每一类别药物的应用频数,将其在数据库中由高到低依次排列。根据专业医生的经验,设置支持度和置信度的阈值均为10%,将其视为指导临床应用意义较大。对类别数据采用Apriori算法建模,生成六类中药其类别之间的关联规则。

4关联性分析

4.1同类别中药的关联分析

将关联规则按照支持度降序排序,体现出常用药对以及多味中药同时出现的规律。以第一大类药物为例,通过对关联规则的统计分析发现:在此类中药处方中,三味中药同时出现的概率高达65%;四味中药中药同时出现的概率大约在31%左右;五味中药同时出现的概率减少到14%左右;六味中药同时出现的概率骤减到1%;而七味及以上中药同时出现的概率则为0。第一类药物的部分关联规则如表1。

对同一类药物,本文采用定向网络关系图表示药对之间的关系。连接两位中药之间的连线越粗,表明这个药对出现在处方中的频数越高;越细就表明这个药对出现在处方中的频率越低。图2所示为输出第一类药物中频数最高的中药与其它各味中药的关联关系的定向网络图。

结论分析:

纵观全部类别的所有频繁项集,发现在各类药物中,往往是同类别药物多味联用,以增强其功效;而在联用时,又会有一定的味数限制,数目通常为三味至五味为多。通过定向网络图可以分析出针对某一种药物与其它中药成对出现的规律:由处方中频数高的药物组成的药对,其之间的关联关系更为密切。

4.2不同类别药物之间的关联性分析

在223条有效的类别数据记录中,生成的规则总数为154条,为了便于结果分析,将其按照支持度降序排列。通过对关联规则的统计分析得出:前两类药的支持度高达95.5%;前三类药的支持度为89%;前四类药的支持度为70.9%;前五类药的支持度骤减到25.6%;而全部六类药的支持度仅为5.8%。现仅摘取前项含有前两类中药的关联规则见表2。

前四类中药之间的相互关系最为密切,其次是这四类中药分别与第五、六类之间的关系,而第五、六类中药之间关系的密切程度则大大降低。从关联规则的结果可以分析得出前四个类别的药物属于常用和联用的药物。

5结语

本文通过对中药数据集的特征化处理,采用基于频繁项集的Apriori经典关联规则算法,对中医处方中药物的频繁项集和药物之间的关联关系进行了有益的探索,发现了常用药物组合及配伍特点,获得了普通处方分析较难获得的处方经验信息。实验结果证明:使用关联规则对中药数据库建模,可以挖掘出中医在治疗某种疾病方面的用药特点,为研究临床用药规律提供了有效方法。

参考文献:

[1]ViktorMayer-SchonbergerKennethCukier盛杨燕,周涛译大数据时代[M].浙江人民出版社.2013.1

[2]jiaweihanMichelineKamberJianPei.数据挖掘概念与技术[M].范明孟晓峰译.机械工业出版社.2012:243

[3]毛宇星,陈彤兵,施伯乐.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2965-2980.

[4]陈克寒,韩盼盼,吴建.基于用户聚类的异构社交网络推荐算法[J]计算机学报,2013,36(2):350-359

[5]张琳,陈燕,李桃迎.决策树分类算法研究[J].2011,37(13):66-68

[6]杨秀萍.大数据下关联规则算法的改进及应用[J].计算机与现代化,2014,(12):23-27

[7]AGRWALR,SRIKANR.Fastalgorithmsforminingassociationrulesinlargedatabases[C]/Proceedingsofthe20thInternationalConferenceonVeryLargeDataBases.SanFrancisco:MorganKaufmannPublishers,1994:487—499.

[8]江苏新医学院.中药大辞典.上海:上海科学技术出版社,1986.

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn“数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。 算法创建的挖掘模型可以采用多种形式,这包括: https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.数据挖掘师在市场中的地位与未来的展望随着大数据技术的飞速发展,数据挖掘这一领域也迎来了前所未有的爆炸性增长。作为一名专业的数据分析人员,数据挖掘师不仅需要具备深厚的数学和统计学知识,还要有强大的编程能力以及对业务模式的深刻理解。在这个信息爆炸时代,能够从海量数据中提取有价值信息的人才是最宝贵的。 https://www.f3kg3td6j.cn/jun-lei-zi-xun/496259.html
3.数据挖掘的目的前面说了很多数据挖掘的应用范围,那么很多人会问:数据挖掘的目的是什么呢?我们总结数据挖掘主要有以下三个目的: (1)把握趋势和模式;通过分析网购交易的记录数据、呼叫中心内的投诉数据、顾客满意度的调查数据、购物数据等,可以把把握顾客的购买意愿和类型、投诉的种类等信息。数据挖掘工具(方法)中神经网络、购物篮分析https://www.cda.cn/view/118992.html
4.大数据挖掘价值洞察研究大数据挖掘价值-洞察研究 下载积分: 1388 内容提示: 大数据挖掘价值 第一部分 大数据挖掘概述 2 第二部分 大数据挖掘技术 4 第三部分 大数据挖掘应用场景 https://www.doc88.com/p-69619764087796.html
5.什么是数据挖掘,数据挖掘的知识介绍3.数据挖掘的目的 数据挖掘的主要目的是从数据中发现有用的信息,这些信息可以让人们对某个领域进行更深入的了解,并为相关决策提供支持。数据挖掘的目标通常包括以下几个方面: 分类:将数据划分为不同的类别,例如针对客户的购买记录进行分类,以便企业更好地管理和营销产品。 https://www.eefocus.com/baike/1339577.html
6.数据挖掘的主要目的是()。A.从大量数据中提取出有用的信息和知识B【答案解析】数据挖掘的主要目的是()。A.从大量数据中提取出有用的信息和知识B.通过多媒体技术实现信息检索C.对检索对象进行著录和分类,便于检索D.根据数据资料的外在特征实现信息检索https://www.cnitpm.com/st/5530614391.html
7.数据挖掘的主要任务有哪些数据挖掘的任务是一、数据挖掘的目的 数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。数据挖掘的目的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉及面很广的交叉学科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。它也常被称为“知识发现”。知识发现(KDD)被认为是从数据中发现https://blog.51cto.com/u_14224/8504263
8.数据挖掘技术的目的是什么帆软数字化转型知识库数据挖掘技术的目的在于发现数据中的模式、进行预测分析、提高决策支持、优化业务流程、发现异常行为、增强客户关系管理。这些目的是通过对大量数据进行深入分析和处理来实现的。以发现数据中的模式为例,这一目的不仅仅是简单地查看数据,而是通过复杂的算法和技术,从表面看似无关联的数据中提取出有价值的信息。例如,通过数https://www.fanruan.com/blog/article/588442/
9.数据挖掘的目的不在于数据采集策略,而在于对于已经存在的数据进行模型的数据挖掘的目的不在于数据采集策略,而在于对于已经存在的数据进行模型的发掘。 A.正确 B.错误 点击查看答案http://www.ppkao.com/wangke/daan/1a84d01b1be3444798ecd94a5916c6d5
10.量子计算潜在的革命性业务影响和通过量子计算获得业务优势的五步路线图1、确定挖掘目的 认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。 2、数据准备 数据准备又分为三个阶段: 1)数据的选择:搜索所有与目标对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据; https://www.elecfans.com/d/886841.html
11.大数据挖掘意义1、数据挖掘的目的和意义 2、数据挖掘的意义及价值 大数据挖掘是当今信息时代的一项重要技术,它的意义不仅仅局限于某个行业,而是在各个行业中都有着深远的影响和应用。 大数据挖掘在商业领域的意义非常重大。通过对大量的数据进行深入挖掘和分析,企业可以更好地了解市场需求和消费者行为,从而制定出更准确的营销策略和产http://chatgpt.cmpy.cn/article/5067927.html
12.数据挖掘的主要目的是知识发现,是从大型数据库中的数据中提取人们数据挖掘的主要目的是知识发现,是从大型数据库中的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息A.正确B.错误的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuati.com)是专业的大学职业搜题找答案,刷题练习的工具.一键将文档转化为在线题https://www.shuashuati.com/ti/d69258c621cd4ba4b5a50b5b4f3f2ff0.html?fm=bdbdsc284554346d188e066f7d53fb1167212
13.数据挖掘的过程张杰整理数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的,可实用的信息,并使用这些信息做出决策或丰富知识。下图描述了数据挖掘的主要步骤和过程。 数据挖掘过程中各步骤的大体内容如下: 第一步:确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应https://maimai.cn/article/detail?fid=1405334297&efid=7lwV824VMzvaUfEhWMvd3A
14.数据挖掘机器学习总结(通用6篇)数据挖掘机器学习总结(通用6篇) 紧张而又充实的学习生活结束了,想必你学习了很多新学习技巧,让我们好好总结一下,写一份学习总结吧。那么你知道学习总结该如何写吗?以下是小编为大家整理的数据挖掘机器学习总结(通用6篇),仅供参考,希望能够帮助到大家。 https://www.yjbys.com/zongjie/xuexi/697188.html
15.数据挖掘在医疗降领域的应用:如何通过数据改善患者护理和诊断在处理医疗数据时,数据挖掘的主要目的是利用算法模型来发现数据中的有用信息。这些信息可以用来提高对疾病的预防、诊断和治疗效果。通过挖掘数据中的隐藏模式,医疗机构能够更好地理解疾病趋势,优化资源分配,并个性化患者的治疗方案。 2.1.2 数据挖掘的常见方法 https://wenku.csdn.net/column/7mi3fdjitj
16.教案项目58旅游电子商务网络营销工程八:旅游数据挖掘(教案)章(节)/ 模块工程八内容旅游数据挖掘教学目的 与要求知识目标:理解数据挖掘的概念和内涵;理解机器学习、数据挖掘之 间的区别和联系;理解旅游数据挖掘的意义。技能目标:能够运用Python语言从旅游网站上提取有用信息,并保存 至本地存储;能够对中文文本进行文本分析,提取关键词,分析词频;能 够https://m.book118.com/html/2022/0720/8027022061004121.shtm