数据挖掘技术在中医处方经验研究中的应用

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。从广义上说,数据挖掘是对数据库知识发现(KnowledgeDiscoveryinDatabases,KDD)的一个过程。作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的,数据源可以包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据[2]。

1.2中医药数据挖掘的意义

中医药领域的处方中通常包含大量的药物及其剂量组成,伴随着医院信息化建设的大力推进,这些药方多以数据库形式被保存,运用数据挖掘技术对中药数据进行科学分析,从而发现其中的配伍特点和规律成为很有现实意义的一项工作。

数据挖掘有很多模式,常见有关联规则[3]、聚类算法[4]、分类算法[5]等。关联规则挖掘最初仅限于事务数据库的布尔型关联规则,近年来广泛应用于关系数据库[6]。关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。

关联规则就是支持度和信任度分别满足用户给定阈值的规则。Apriori[7]是关联规则模型中的经典算法。本文主要使用基于频繁项集的Apriori算法进行数据建模,用以发现中药配伍中的规律性。发现关联规则需要经历如下两个步骤:

步骤一:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;

步骤二:利用频繁项集构造出满足用户最小信任度的规则。

2数据特征化和预处理

2.1实验数据集

本文实验数据来自河北中医学院附属医院肾内科陈志强教授于2014年5月至2015年7月诊治的早中期慢性肾衰竭患者的病案。采集的病案内容包括患者姓名、性别、年龄、原发病、症状、体征、肾功能指标、中医证候、中药处方等。摘取其中的中药信息,按照《中药大辞典》[8]统一药物名称。

2.2数据特征化

统计数据集的全部223条中医处方,共出现中药194味,根据专业经验,我们选取频数在10%以上的中药(视为高频药物)进行数据挖掘。由于中药处方中的中药名称以中文形式表示,因此需要将其进行易于数据挖掘算法识别的数据特征化处理,方法如下:

(一)药物表的特征化方法

根据医务工作者的经验,将治疗该病症的常见中药分为活血化瘀通经类、清热祛湿泄浊类、行气燥湿化痰类、益气健脾温阳类、补益脾肾之阳类、滋养肝肾之阴类等六大类。将高频药物分别归于这六大类中,针对每大类建立相应的数据表。每条数据采用布尔常量的表示形式如图1所示。

其中,第一项表示病人编号,每一条记录表示一位病人的用药信息,编号之后的每一位布尔数据表示某味中药是否在该处方中出现,1表示出现,0表示未出现。

(二)类别表的特征化方法

为了进一步分析各大类之间的关联性,建立一个数据类别表(同一条处方中出现某一类药物中两味或两味以上,即判定使用了该类别中药)。每条记录表示一位病人用药的类别信息,其中第一项表示病人编号,编号之后的每一位表示该类别药物是否在该处方中使用,1表示使用,0表示未使用。

按照上述方法建成中药药物数据库,其中包括:包含所有药物的处方数据集、统计药物频次的药物计数数据集、由专业医生按照性味、功用划分的六种不同类别的高频药物数据集以及判断处方中是否使用某类药物的类别数据集。

3中医处方经验的挖掘方法

3.1对每一类药物中包含的各味中药进行关联规则建模

首先对数据库中的药物进行频数统计,即在处方中出现的次数;然后将数据库中所有同类别的药物按照其在整体处方中出现的频数降序排列。如果药物排列靠前说明其在处方中出现频率较高,为医生的常用中药,具有较高的参考价值。同时,参考专业医生的经验,本文将支持度和置信度的阈值均设置为10%,将其视为指导临床应用意义较大。对各类药物数据采用Apriori算法建模,生成每一类别中药间的关联规则。

3.2对六类药物之间进行关联性规则建模

逐条分析223条中药处方中所包含的药物类别(同一条处方中出现某一类药物两味或两味以上,即认定含有该类别中药),统计223条中药处方中每一类别药物的应用频数,将其在数据库中由高到低依次排列。根据专业医生的经验,设置支持度和置信度的阈值均为10%,将其视为指导临床应用意义较大。对类别数据采用Apriori算法建模,生成六类中药其类别之间的关联规则。

4关联性分析

4.1同类别中药的关联分析

将关联规则按照支持度降序排序,体现出常用药对以及多味中药同时出现的规律。以第一大类药物为例,通过对关联规则的统计分析发现:在此类中药处方中,三味中药同时出现的概率高达65%;四味中药中药同时出现的概率大约在31%左右;五味中药同时出现的概率减少到14%左右;六味中药同时出现的概率骤减到1%;而七味及以上中药同时出现的概率则为0。第一类药物的部分关联规则如表1。

对同一类药物,本文采用定向网络关系图表示药对之间的关系。连接两位中药之间的连线越粗,表明这个药对出现在处方中的频数越高;越细就表明这个药对出现在处方中的频率越低。图2所示为输出第一类药物中频数最高的中药与其它各味中药的关联关系的定向网络图。

结论分析:

纵观全部类别的所有频繁项集,发现在各类药物中,往往是同类别药物多味联用,以增强其功效;而在联用时,又会有一定的味数限制,数目通常为三味至五味为多。通过定向网络图可以分析出针对某一种药物与其它中药成对出现的规律:由处方中频数高的药物组成的药对,其之间的关联关系更为密切。

4.2不同类别药物之间的关联性分析

在223条有效的类别数据记录中,生成的规则总数为154条,为了便于结果分析,将其按照支持度降序排列。通过对关联规则的统计分析得出:前两类药的支持度高达95.5%;前三类药的支持度为89%;前四类药的支持度为70.9%;前五类药的支持度骤减到25.6%;而全部六类药的支持度仅为5.8%。现仅摘取前项含有前两类中药的关联规则见表2。

前四类中药之间的相互关系最为密切,其次是这四类中药分别与第五、六类之间的关系,而第五、六类中药之间关系的密切程度则大大降低。从关联规则的结果可以分析得出前四个类别的药物属于常用和联用的药物。

5结语

本文通过对中药数据集的特征化处理,采用基于频繁项集的Apriori经典关联规则算法,对中医处方中药物的频繁项集和药物之间的关联关系进行了有益的探索,发现了常用药物组合及配伍特点,获得了普通处方分析较难获得的处方经验信息。实验结果证明:使用关联规则对中药数据库建模,可以挖掘出中医在治疗某种疾病方面的用药特点,为研究临床用药规律提供了有效方法。

参考文献:

[1]ViktorMayer-SchonbergerKennethCukier盛杨燕,周涛译大数据时代[M].浙江人民出版社.2013.1

[2]jiaweihanMichelineKamberJianPei.数据挖掘概念与技术[M].范明孟晓峰译.机械工业出版社.2012:243

[3]毛宇星,陈彤兵,施伯乐.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2965-2980.

[4]陈克寒,韩盼盼,吴建.基于用户聚类的异构社交网络推荐算法[J]计算机学报,2013,36(2):350-359

[5]张琳,陈燕,李桃迎.决策树分类算法研究[J].2011,37(13):66-68

[6]杨秀萍.大数据下关联规则算法的改进及应用[J].计算机与现代化,2014,(12):23-27

[7]AGRWALR,SRIKANR.Fastalgorithmsforminingassociationrulesinlargedatabases[C]/Proceedingsofthe20thInternationalConferenceonVeryLargeDataBases.SanFrancisco:MorganKaufmannPublishers,1994:487—499.

[8]江苏新医学院.中药大辞典.上海:上海科学技术出版社,1986.

THE END
1.两部门发文打造“数智中医药”,将数字技术融入中医药传承创新“打造‘数智中医药’,要加强中医药行业数字基础设施建设,建立健全中医药数据标准规范,强化中医药数据治理基础。把长期以来积累的诊疗、服务数据利用好,才能充分发挥数据要素乘数效应,释放中医药数据价值。”北京中医药大学党委副书记张继旺说。 国家中医药管理局有关负责人介绍,《意见》突出强调“安全”“合规”。以开https://itc.zcmu.edu.cn/info/10002/87650.htm
2.(完整版)数据挖掘在中医药中应用经管文库(原现(完整版)数据挖掘在中医药中应用 https://bbs.pinggu.org/thread-13268524-1-1.html
3.中医药数据挖掘——整洁结构数据转换文章来自微信公众号/b站 誉川中医药 本期内容非常实用,以应用为主,暂时不讲解R基础,R基础后续再补。一般手工录入的处方/穴位数据多如下图图1所示,第一列为方剂ID,其余列都是中药: 图1 不规则的原始手工录入数据 对于上图所示数据,如果只做关联规则,还好。但如果涉及后续的聚类分析,相关性分析则会产生麻烦,因为https://zhuanlan.zhihu.com/p/670814780
4.中医数据挖掘库有哪些项目帆软数字化转型知识库中医数据挖掘库的项目主要包括:中药材数据库、古籍文献数据库、方剂数据库、临床病例数据库、药理数据库、基因组学数据库、网络药理学数据库、药物相互作用数据库、疾病-症状数据库、以及中医诊断系统等。这些项目通过收集、整理和分析大量中医药相关数据,以支持中医药的研究与发展。中药材数据库是其中的重要组成部分,它https://www.fanruan.com/blog/article/562160/
5.中医药数据挖掘系统中医药数据挖掘系统首页基于您的基层数据我们可以帮助您完成数据分析、挖掘、抽取、翻译等服务,为您的科研工作提更多供便利,北京元素领域信息技术有限公司http://www.tcmminer.com/
6.在中医药数据挖掘中,()是关键,()是保证百度试题 题目在中医药数据挖掘中,()是关键,()是保证 相关知识点: 试题来源: 解析 临床研究目标明确 数据质量反馈 收藏 https://easylearn.baidu.com/edu-page/tiangong/bgkdetail?id=df4293d0a58da0116c174972&fr=search
7.誉川中医药的个人空间誉川中医药个人主页中药复方网络药理学:TCMSP数据库(更新) 797611-7 01:03 硬控中医人的输入法 3万6-16 01:59 中医的基础问题得不到统一答案 1.1万4-18 07:38 中医药数据挖掘:功效分类统计 1.2万4-16 01:49 Quarto 写的中医药数据挖掘教案 51214-5 09:40 中医药数据挖掘:数据清洗之广安门医院病房中药数据提取 https://space.bilibili.com/412608068
8.数据挖掘技术在中医药研究中的应用近年来,数据挖掘技术引起了信息产业界的极大关注,其主要原因是先进的科学手 段为我们产生了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识。获取 的信息和知识可以广泛用于各种应用,包括商务生产、生产控制、市场分析、工程设计 和科学探索等。数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描http://chisc.net/doc/view/1288.html
9.数据挖掘技术在中医药领域研究中的应用数据挖掘技术在中医药领域研究中的应用,数据挖掘技术,中医药领域研究,管理质量,效果,目的:分析数据挖掘技术在中医药领域研究中的应用价值。方法:随机选择某县综合医院急诊科2021年7月—2022年6月收治的100例急诊患https://wap.cnki.net/touch/web/Journal/Article/ZYYG202222062.html
10.数据挖掘在中医药中应用PPT课件2.ppt数据挖掘在中医药中应用PPT课件2.ppt,* * * * * * * * * * * * * 诊断标准,排除病例,疗效判定 * * * * * * * * WEKA软件 中国中医研究院周雪忠等人开发的应用软件,此软件基于新西兰维克多大学研发的智能平台WEKA。 妇科医案数据挖掘 * WEKA 软件主界面及运行界面 https://m.book118.com/html/2022/0521/7155113121004123.shtm
11.中医药智能化装备开发与临床数据挖掘技术——朱垚团队围绕中医药大数据产业化开发与中盐金坛盐化有限责任公司、江苏随园文化发展有限公司、南京上元堂沉香生物科技有限公司、南京瀚章医药科技有限公司、南京润曼科技信息有限公司等企业建立了合作关系。 参展成果 1.中医临床教学科研一体化平台 2.智能无人诊所 3.中医药数据挖掘平台 https://jlzx.jspc.org.cn/abutment/expertteamdetail?id=94332
12.ChinJIntegrMed:中医药治疗胃食管返流病的机制——数据挖掘和目的:确定可能有益于胃食管反流病(GERD)患者的特效中药,并探讨其作用机制,为中医药(CM)治疗GERD的临床应用提供参考。 方法:在CNKI、中国科技期刊数据库、万方数据库和PubMed检索和选择了2011年10月1日至2021年10月1日关于CMs治疗GERD的国内外文献。从所有符合条件的文献中提取数据,建立GERD CMs数据库。使用数据挖https://www.medsci.cn/article/show_article.do?id=a8c6e3783838
13.综合新闻中国中医科学院10月31日-11月3日,由中国中医科学院中医药数据中心主办、南京中医药大学和《中华中医药学刊》杂志社承办的国家中医药管理局继续教育项目“国医大师经方验案数据挖掘研究理论、临床及应用培训班”在南京举办,吸引全国百余名学员,包括临床医生、科研人员、教师、研究生和大健康产业相关人员等,赴宁参加线下培训。 本次培https://www.cacms.ac.cn/comprehensive_news/p/2.html
14.中华中医药杂志2016年07期关键词:特发性肺纤维化治法方药数据挖掘聚类分析关联分析 乙型肝炎肝硬化患者血清五羟色胺水平及其与中医常见病性类证候要素的相关性探讨 作者:罗清香;薛晓琳;王天芳;吴秀艳;葛舰;赵丽红;李昕;李宁;李永纲 目的:比较代偿期与失代偿期乙型肝炎肝硬化患者血清五羟色胺(5-HT)的水平,探讨其与中医常见病性类证候要素的https://www.360qikan.com/zhzyy/201607/
15.上海中医药杂志关键词:肺癌; 肿瘤转移; 中医药疗法; 免疫治疗; 影像组学; 文献计量学; 可视化分析 4 | 0 | 0 <HTML><网络PDF> <引用本文><批量引用> 更新时间:2024-12-16 基于多元数据挖掘探析专利中药复方治疗痛风性关节炎的用药规律 钱爱, 黄传兵, 李明, 程园园, 朱雅文, 胡可心 https://shzyyzz.shzyyzz.com/
16.2022年江西中医药大学博士研究生招生简章考博英语摘要:2022年江西中医药大学博士研究生招生简章发布,包括招生人数及学习年限、报考条件、报名方式及现场确认、报考材料、考试安排及考核要求等详细说明。 本文资料:【2024年考博英语阅读理解精练模拟20篇-Passage 5-8】【考博作文写作常备句型】 一、培养目标 https://www.educity.cn/kbyy/2308254.html
17.数据挖掘技术在中药研究中的应用中医药|数据挖掘|知识发现 [摘要] 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可被理解的模式的非平凡过程。阐述了数据挖掘技术一些基本概念以及中医药信息的特点,并探讨了数据挖掘技术在中医药文献研究、药对配伍规律研究、中药谱效关系、药品不良反应评价https://www.tiprpress.com/zcy/article/abstract/20100551
18.中国医疗保健国际交流促进会循证医学分会2018年年会暨第4届华夏设置了系统评价/Meta分析培训班、高阶Meta分析培训班、临床数据挖掘培训班、临床研究方法学进展学习班、循证中医药论坛、医学实践与探索论坛、双心医学论坛、循证预防医学论坛、循证社会科学论坛等,期间还将会召开指南/共识研讨会、专著/教材编写会等。会议旨在为预防、临床、护理、药学、中医、药物经济学、医学情报学https://cebtm.znhospital.com/detail/125
19.中华中医药学会中医药期刊新冠肺炎文献汇总(2020年3月9~13日)【辨证防治】 3例新型冠状病毒肺炎的中医治疗体会 邴雅珺;孙涛;丁欢阳 【临床研究和病例分析】 探讨新型冠状病毒肺炎与SARS的临床表现、影像学特征及中医认识的异同 李浩然;熊轶敏 8《中医药信息》 【数据挖掘】 基于“有是症,选是穴”探讨艾灸干预新型冠状病毒肺炎(COVID-19)的思路和选穴分析 张佳乐;杨莉;鲜天https://www.thepaper.cn/newsDetail_forward_6543105