数据挖掘技术在中医处方经验研究中的应用

摘要:传统的中医药科学在长期的医疗实践中积累了海量的处方数据,数据挖掘是目前最有效的数据分析手段之一,利用数据挖掘技术从这些海量数据中发现蕴含其中的中医药知识,是一项极有价值的研究工作。本文主要采用数据挖掘中的Apriori关联规则算法,对中医处方数据进行挖掘和总结:首先对采集的中医药数据进行数字特征化处理;然后对中医处方中药物的频繁项集和药物之间的关联关系进行研究,并获得了普通处方分析较难获得的用药规律及经验信息。研究成果对中医临床工作具有重要的指导意义。

1数据挖掘技术

1.1数据挖掘概述

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。从广义上说,数据挖掘是对数据库知识发现(KnowledgeDiscoveryinDatabases,KDD)的一个过程。作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的,数据源可以包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据[2]。

1.2中医药数据挖掘的意义

中医药领域的处方中通常包含大量的药物及其剂量组成,伴随着医院信息化建设的大力推进,这些药方多以数据库形式被保存,运用数据挖掘技术对中药数据进行科学分析,从而发现其中的配伍特点和规律成为很有现实意义的一项工作。

中医药数据挖掘的目的是通过对中医处方中的中药数据建立合适的模型,从而寻找药物之间的频繁模式和关联规则,可以实现中医用药经验的有效总结和传承。

1.3关联规则算法

数据挖掘有很多模式,常见有关联规则[3]、聚类算法[4]、分类算法[5]等。关联规则挖掘最初仅限于事务数据库的布尔型关联规则,近年来广泛应用于关系数据库[6]。关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。

关联规则就是支持度和信任度分别满足用户给定阈值的规则。Apriori[7]是关联规则模型中的经典算法。本文主要使用基于频繁项集的Apriori算法进行数据建模,用以发现中药配伍中的规律性。发现关联规则需要经历如下两个步骤:

步骤一:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;

步骤二:利用频繁项集构造出满足用户最小信任度的规则。

2数据特征化和预处理

2.1实验数据集

本文实验数据来自河北中医学院附属医院肾内科陈志强教授于2014年5月至2015年7月诊治的早中期慢性肾衰竭患者的病案。采集的病案内容包括患者姓名、性别、年龄、原发病、症状、体征、肾功能指标、中医证候、中药处方等。摘取其中的中药信息,按照《中药大辞典》[8]统一药物名称。

2.2数据特征化

统计数据集的全部223条中医处方,共出现中药194味,根据专业经验,我们选取频数在10%以上的中药(视为高频药物)进行数据挖掘。由于中药处方中的中药名称以中文形式表示,因此需要将其进行易于数据挖掘算法识别的数据特征化处理,方法如下:

(一)药物表的特征化方法

根据医务工作者的经验,将治疗该病症的常见中药分为活血化瘀通经类、清热祛湿泄浊类、行气燥湿化痰类、益气健脾温阳类、补益脾肾之阳类、滋养肝肾之阴类等六大类。将高频药物分别归于这六大类中,针对每大类建立相应的数据表。每条数据采用布尔常量的表示形式如图1所示。

其中,第一项表示病人编号,每一条记录表示一位病人的用药信息,编号之后的每一位布尔数据表示某味中药是否在该处方中出现,1表示出现,0表示未出现。

(二)类别表的特征化方法

为了进一步分析各大类之间的关联性,建立一个数据类别表(同一条处方中出现某一类药物中两味或两味以上,即判定使用了该类别中药)。每条记录表示一位病人用药的类别信息,其中第一项表示病人编号,编号之后的每一位表示该类别药物是否在该处方中使用,1表示使用,0表示未使用。

按照上述方法建成中药药物数据库,其中包括:包含所有药物的处方数据集、统计药物频次的药物计数数据集、由专业医生按照性味、功用划分的六种不同类别的高频药物数据集以及判断处方中是否使用某类药物的类别数据集。

3中医处方经验的挖掘方法

3.1对每一类药物中包含的各味中药进行关联规则建模

首先对数据库中的药物进行频数统计,即在处方中出现的次数;然后将数据库中所有同类别的药物按照其在整体处方中出现的频数降序排列。如果药物排列靠前说明其在处方中出现频率较高,为医生的常用中药,具有较高的参考价值。同时,参考专业医生的经验,本文将支持度和置信度的阈值均设置为10%,将其视为指导临床应用意义较大。对各类药物数据采用Apriori算法建模,生成每一类别中药间的关联规则。

3.2对六类药物之间进行关联性规则建模

逐条分析223条中药处方中所包含的药物类别(同一条处方中出现某一类药物两味或两味以上,即认定含有该类别中药),统计223条中药处方中每一类别药物的应用频数,将其在数据库中由高到低依次排列。根据专业医生的经验,设置支持度和置信度的阈值均为10%,将其视为指导临床应用意义较大。对类别数据采用Apriori算法建模,生成六类中药其类别之间的关联规则。

4关联性分析

4.1同类别中药的关联分析

将关联规则按照支持度降序排序,体现出常用药对以及多味中药同时出现的规律。以第一大类药物为例,通过对关联规则的统计分析发现:在此类中药处方中,三味中药同时出现的概率高达65%;四味中药中药同时出现的概率大约在31%左右;五味中药同时出现的概率减少到14%左右;六味中药同时出现的概率骤减到1%;而七味及以上中药同时出现的概率则为0。第一类药物的部分关联规则如表1。

对同一类药物,本文采用定向网络关系图表示药对之间的关系。连接两位中药之间的连线越粗,表明这个药对出现在处方中的频数越高;越细就表明这个药对出现在处方中的频率越低。图2所示为输出第一类药物中频数最高的中药与其它各味中药的关联关系的定向网络图。

结论分析:

纵观全部类别的所有频繁项集,发现在各类药物中,往往是同类别药物多味联用,以增强其功效;而在联用时,又会有一定的味数限制,数目通常为三味至五味为多。通过定向网络图可以分析出针对某一种药物与其它中药成对出现的规律:由处方中频数高的药物组成的药对,其之间的关联关系更为密切。

4.2不同类别药物之间的关联性分析

在223条有效的类别数据记录中,生成的规则总数为154条,为了便于结果分析,将其按照支持度降序排列。通过对关联规则的统计分析得出:前两类药的支持度高达95.5%;前三类药的支持度为89%;前四类药的支持度为70.9%;前五类药的支持度骤减到25.6%;而全部六类药的支持度仅为5.8%。现仅摘取前项含有前两类中药的关联规则见表2。

前四类中药之间的相互关系最为密切,其次是这四类中药分别与第五、六类之间的关系,而第五、六类中药之间关系的密切程度则大大降低。从关联规则的结果可以分析得出前四个类别的药物属于常用和联用的药物。

5结语

本文通过对中药数据集的特征化处理,采用基于频繁项集的Apriori经典关联规则算法,对中医处方中药物的频繁项集和药物之间的关联关系进行了有益的探索,发现了常用药物组合及配伍特点,获得了普通处方分析较难获得的处方经验信息。实验结果证明:使用关联规则对中药数据库建模,可以挖掘出中医在治疗某种疾病方面的用药特点,为研究临床用药规律提供了有效方法。

参考文献:

[1]ViktorMayer-SchonbergerKennethCukier盛杨燕,周涛译大数据时代[M].浙江人民出版社.2013.1

[2]jiaweihanMichelineKamberJianPei.数据挖掘概念与技术[M].范明孟晓峰译.机械工业出版社.2012:243

[3]毛宇星,陈彤兵,施伯乐.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2965-2980.

[4]陈克寒,韩盼盼,吴建.基于用户聚类的异构社交网络推荐算法[J]计算机学报,2013,36(2):350-359

[5]张琳,陈燕,李桃迎.决策树分类算法研究[J].2011,37(13):66-68

[6]杨秀萍.大数据下关联规则算法的改进及应用[J].计算机与现代化,2014,(12):23-27

[7]AGRWALR,SRIKANR.Fastalgorithmsforminingassociationrulesinlargedatabases[C]/Proceedingsofthe20thInternationalConferenceonVeryLargeDataBases.SanFrancisco:MorganKaufmannPublishers,1994:487—499.

[8]江苏新医学院.中药大辞典.上海:上海科学技术出版社,1986.

THE END
1.干货,数据挖掘详细介绍数据挖掘是一种从大量数据中提取有用信息和知识的技术。它涉及到多个学科,包括数据库技术、统计学、机器学习、人工智能等。数据挖掘的目的是发现隐藏在数据中的模式、趋势和关联,从而帮助人们更好地理解数据,做出更准确的决策。数据挖掘的过程通常包括以下几个步骤:数据预处理:对收集到的数据进行清洗、整理、转换等https://baijiahao.baidu.com/s?id=1784612201456908507&wfr=spider&for=pc
2.数据挖掘技术的目的是什么帆软数字化转型知识库数据挖掘技术的目的在于发现数据中的模式、进行预测分析、提高决策支持、优化业务流程、发现异常行为、增强客户关系管理。这些目的是通过对大量数据进行深入分析和处理来实现的。以发现数据中的模式为例,这一目的不仅仅是简单地查看数据,而是通过复杂的算法和技术,从表面看似无关联的数据中提取出有价值的信息。例如,通过数https://www.fanruan.com/blog/article/588442/
3.数据挖掘的目的是什么数据挖掘的目的在于数据挖掘的目的是什么 数据挖掘的目的在于 1)数据挖掘的一种定义 是一项通过探測大量数据以发现有意义的模式和规则的业务流程。 数据挖掘是一种业务流程,它以其他业务流程产生的大量数据为输入,一般经过收集,清洗,整理。识别、分析和度量等加工,得到某种有意义的模式或规则作为输出。https://blog.51cto.com/u_13303/8789037
4.大数据与分析:数据挖掘概念及流程数据挖掘是一个从大量数据中提取有价值信息或模式的过程,它依赖于统计学、机器学习、数据库技术和人工智能等多个领域的知识和技术。以下是数据挖掘的概念及其流程的详细解释: 一、数据挖掘的概念 数据挖掘(Data Mining)是指通过特定的计算机算法对大量的数据进行自动分析,以揭示数据中的隐藏模式、未知的相关性和其他有https://blog.csdn.net/NSAcbba/article/details/143417836
5.数据挖掘的主要目的是()。A.从大量数据中提取出有用的信息和知识B【答案解析】数据挖掘的主要目的是()。A.从大量数据中提取出有用的信息和知识B.通过多媒体技术实现信息检索C.对检索对象进行著录和分类,便于检索D.根据数据资料的外在特征实现信息检索https://www.cnitpm.com/st/5530614391.html
6.什么是数据挖掘,数据挖掘的知识介绍3.数据挖掘的目的 数据挖掘的主要目的是从数据中发现有用的信息,这些信息可以让人们对某个领域进行更深入的了解,并为相关决策提供支持。数据挖掘的目标通常包括以下几个方面: 分类:将数据划分为不同的类别,例如针对客户的购买记录进行分类,以便企业更好地管理和营销产品。 https://www.eefocus.com/baike/1339577.html
7.基于.NET实现数据挖掘神经网络算法船长本篇我们将要总结的算法为:Microsoft 神经网络分析算法,此算法微软挖掘算法系列中最复杂也是应用场景最广泛的一个,简单点讲:就是模拟我们的大脑从茫茫的数据海洋中思考出有用的信息,来达到数据挖掘的目的。原理可以参考上篇。 应用场景介绍 关于Microsoft神经网络算法的应用场景还是蛮多的,在上一篇原理篇我们就介绍过,https://www.cnblogs.com/captain_ccc/articles/4093698.html
8.数据挖掘的主要目的是知识发现,是从大型数据库中的数据中提取人们数据挖掘的主要目的是知识发现,是从大型数据库中的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息A.正确B.错误的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuati.com)是专业的大学职业搜题找答案,刷题练习的工具.一键将文档转化为在线题https://www.shuashuati.com/ti/d69258c621cd4ba4b5a50b5b4f3f2ff0.html?fm=bdbdsc284554346d188e066f7d53fb1167212
9.4个步骤,构建一个有指导的数据挖掘模型腾讯云开发者社区数据挖掘的目的,就是从数据中找到更多的优质用户。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类https://cloud.tencent.com/developer/article/1041871
10.王胜捷生成式人工智能文本与数据挖掘的合理边界与侵权规制其中,仅有使用作品构成“表达性使用”时方产生侵权风险。然而,现行著作权法对于该问题规定的缺失以及适用困难使得生成式人工智能文本与数据挖掘行为采用何种制度进行规制成为学界的争议焦点。基于“促进创新和文化繁荣”与“保护作者著作权”的“二元阶层”立法目标,以“是否具有商业目的”为标准设立分阶段豁免制度能够有效https://www.jfdaily.com/sgh/detail?id=1421857
11.大数据挖掘意义1、数据挖掘的目的和意义 2、数据挖掘的意义及价值 大数据挖掘是当今信息时代的一项重要技术,它的意义不仅仅局限于某个行业,而是在各个行业中都有着深远的影响和应用。 大数据挖掘在商业领域的意义非常重大。通过对大量的数据进行深入挖掘和分析,企业可以更好地了解市场需求和消费者行为,从而制定出更准确的营销策略和产http://chatgpt.cmpy.cn/article/5067927.html
12.版权立法中文本数据挖掘侵权例外规则的构建版权资讯摘要:以计算机软件和大数据为支撑的文本数据挖掘技术已成为数字时代各行各业智能化发展的基础工具。文本数据挖掘首先需要收集、复制海量数据或作品等受著作权法保护的信息建立数据库。为学术研究目的而复制他人作品进行文本数据挖掘,在越来越多的法域被视为合理使用。我国著作权立法中应尽快确立以论文查重为代表的文本数据http://www.ccct.net.cn/html/bqzx/2023/0601/4369.html
13.数据挖掘论文首先,档案是较为重要的信息记录,甚至有些档案的重要性大到无价,因此对于此类的珍贵档案,相关的档案管理人员也是希望档案本身及其价值一直保持下去。不过越是珍贵的档案,其使用率自然也就越高,所以其安全性就很难得到保障,在档案管理中运用数据挖掘技术,可以让档案的信息数据得到分析统计,归纳总结,不必次次实物查阅,https://www.unjs.com/lunwen/f/20220924130749_5650839.html
14.商战数据挖掘:你需要了解的数据科学与分析思维第一个问题是:“用户是否能自然地分成不同群组?”这个分组任务并没有任何明确的目标或目的,而这种没有目标的数据挖掘问题就被称为无监督的数据挖掘问题。另一个非常相似的问题是:“能否找到在合约到期后极有可能不续约的那群用户?”此处出现了特定目标:客户在合约到期后会不会续约?在此问题中,我们是出于“基于https://www.ituring.com.cn/book/tupubarticle/28952
15.信息系统项目管理师高分考试答题技巧和复习重点大沈博客需求分析方法有: (1)结构化分析方法:包括面向数据流的结构化分析方法,面向数据流结构的Jackson方法和面向数据结构的结构化数据系统开发方法。 (2)面向对象的分析方法:从需求分析建立的模型的特性来分,需求分析方法又分为静态分析方法和动态分析方法。 结构化分析方法 https://ds.ink/2022/04/9432.html
16.数据挖掘的目的不在于数据采集策略,而在于对于已经存在的数据进行模型的数据挖掘的目的不在于数据采集策略,而在于对于已经存在的数据进行模型的发掘。 A.正确 B.错误 点击查看答案http://www.ppkao.com/wangke/daan/1a84d01b1be3444798ecd94a5916c6d5
17.数据挖掘的过程张杰整理数据挖掘过程中各步骤的大体内容如下: 第一步:确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。不能盲目的为了数据挖掘而数据挖掘。 第二步:数据准备。数据准备分为三个阶段。①数据的选择:搜索所有与目标对象有关的内部和外部数据信息,并从中选https://maimai.cn/article/detail?fid=1405334297&efid=7lwV824VMzvaUfEhWMvd3A