毛远丽教授谈机器学习技术在检验医学中的新应用|专家论坛机器学习恶性肿瘤数据库医学检验人工智能

随着医疗技术的发展,将机器学习技术深度融合至新一代的医疗诊断手段中,也无疑会使人工智能技术成为新的医疗诊断领域宠儿。

作者:李波毛远丽

机器学习(MachineLearning,ML)是一门多领域交叉学科技术,通过算法使得机器从大量数据中学习和发现规律,从而对新的样本或数据进行分析和研究的方法。从1949年的赫布理论诞生,机器学习技术经过数十年的蓬勃发展,在大数据时代的背景下,以深度学习为代表的新技术不断涌现,机器学习技术不断从理论走向了实践和应用。目前,机器学习技术在肿瘤学、病理学和部分罕见病的诊断中发挥着越来越重要的作用。

数据获取及机器学习的实现

(1)TCGA是由美国国立癌症研究所(NCI)和国家人类基因组研究所资助成立的肿瘤基因数据库。该数据库包含3万多份各类恶性肿瘤患者病例资料,所提供的数据包括患者的基本病例信息、预后情况、病理图谱、突变位点、表观遗传、基因表达谱及miRNA等;

获得可用于分析的数据后,即可采用数据分析软件进行后续的分析和建模。目前机器学习建模的主要工具是编程性的机器学习库,如R、Python以及深度学习库caffe、tensorflow等。本文以R语言平台为例描述机器学习的基本步骤及方法。进行机器学习主要包含数据分割、预处理、特征选择、重抽样进行模型调参、变量重要性估计、建立模型、验证及预测等步骤:

(1)数据处理是进行建模和分析的第一步,数据文件在R语言中通过缺失值处理、数据归一化后形成完整标准的数据表;

(3)数据分割的目的是按照比例将所有样本分为训练组和验证组;

(4)数据处理完成后,可以选择相应的机器学习算法建模,R语言中提供了众多的算法包,如Caret、RandomForest、Kernlab等。模型建立完成后,程序将自动进行训练和验证,并计算准确度、敏感度、特异度等数据对模型进行评价。建模步骤思维导图,以及机器学习的类型及算法,大家可以点击阅读原文,进专题查看。

机器学习算法在恶性肿瘤诊断中的应用

机器学习未来发展

从技术层面而言,机器学习存在最大的问题是过拟合现象,也就是建立的模型过度依赖对训练数据的拟合,而在新数据的推广使用中会出现准确率降低的情况,所以在测试模型中保持数据集的独立性非常重要,且在模型建立中尽可能获得更多的数据并保持数据集的更新。随着医疗技术的发展,将机器学习技术深度融合至新一代的医疗诊断手段中,也无疑会使人工智能技术成为新的医疗诊断领域宠儿。尽管目前看来人工智能技术在医疗诊断领域前景广阔,但作为一种相对超前和新颖的技术方法,临床的认可度仍需要得到加强,如何将传统医学诊断技术和人工智能技术有效地整合至临床实践中仍有不小的挑战。

参考文献

[1]IbrahimIM,AbdulazeezAM.Theroleofmachinelearningaalgorithmsfordiagnosingdiseases.Japaneseviralencephalitis[J].JAppliedSciTechnolTrends,2021:10-19.[2]MehrbakhshNA,NedaAB,SarminahS,etal.Diseasediagnosisusingmachinelearningtechniques:areviewandclassification[J].JSoftComputingandDecisionSupportSystems.2020:19-30.

[3]GokalpC,BulentGE.Classificationofbraintumorsbymachinelearningalgorithms,IEEE,2019.

[4]NareshK,NidhiM.Breastcancerdiagnosisusingadaptivevotingensemblemachinelearningalgorithm.IEEE,2018.

[5]NashatA.Ensemblemachinelearningforleukemiacancerdiagnosisbasedonmicroarraydatasets.IntJAppEngRes.2019,14(21):4077-4084.

[6]OyewoOA,BoyinbodeOK.Predictionofprostatecancerusingensembleofmachinelearningtechniques.IntJAdCompSciApplicat.2020,11(3).[7]NikitaBanerjeeSubhalaxmiDas.Predictionlungcancer–inmachinelearningperspective.IEEE,2020.

[8]VidyaM,MayaVK.Skincancerdetectionusingmachinelearningtechniques.IEEE,2020.

[9]EiryoK,JunyaT,NozomuY,etal.Applicationofartificialintelligenceforpreoperativediagnosticandprognosticpredictioninepithelialovariancancerbasedonbloodbiomarkers.ClinCancerRes.2019,15;25(10):3006-3015.

[10]HuiL,JianmeiL,YanhongX,etal.Colorectalcancerdetectedbymachinelearningmodelsusingconventionallaboratorytestdata.TechnolCancerResTreat.2021,20:15,330.

[11]XiaoliL,JilinL,GuanxiongZ,etal.Machinelearningapproachyieldsamultiparameterprognosticmarkerinlivercancer.CancerImmunolRes.2021Mar;9(3):337-347.

[12]SherryB,HarpreetK,RishemjitK,etal.Mexpressionbasedbiomarkersandmodelstoclassifyearlyandlate-stagesamplesofpapillarythyroidcarcinoma.PLoSOne.2020Apr23;15(4):e0231629.

-End-

题图|veer.com

排版|张宁

审校|方研

原文以《机器学习技术及其在恶性肿瘤诊断中的应用价值》为题发表在《临床实验室》杂志2022年8月刊专题“实验室自动化、数字化、智能化”-「专家论坛」版块

不感兴趣

看过了

取消

人点赞

人收藏

打赏

我有话说

0/500

同步到新浪微博

您的申请提交成功

您已认证成功,可享专属会员优惠,买1年送3个月!开通会员,资料、课程、直播、报告等海量内容免费看!

THE END
1.机器学习中常见4种学习方法13种算法一. 4大主要学习方法 1.1 监督式学习 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果https://blog.csdn.net/m0_51634403/article/details/128760229
2.在机器学习领域,有几种主要的学习方式在企业数据应用的场景下, 人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据, 目前半监督式学习是一个很热的话题。而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。 https://www.elecfans.com/d/1641474.html
3.网络工程专业人才培养方案(2022)5. 工具性知识。掌握数学、外语、计算机与信息技术应用、社会调查与研究方法、专业论文写作等知识。 6. 法律与管理知识。掌握从事网络工程专业所需的法律、法规、标准及工程管理、网络管理、经济决策知识。 (2)能力要求 1.工程知识学习能力。能够融会贯通数学、自然科学、工程基础和专业知识解决复杂网络工程问题的能力https://www.csust.edu.cn/jtxy/info/1148/20900.htm
4.机器学习与数据挖掘:方法和应用PDF扫描版[16MB]电子书下载机器学习与数据挖掘:方法和应用分为5个部分,共18章,较为全面地介绍了机器学习的基本概念,并讨论了数据挖掘和知识发现中的有关问题及多策略学习方法,具体地阐述了机器学习与数据挖掘在工程设计,文本、图像和音乐,网页分析、计算机病毒和计算机控制,医疗诊断、生物医疗信号分析和水质分析中的生物信号处理等方面的应用情况https://www.jb51.net/books/258508.html
5.《机器学习方法与岩土工程应用》(林沛元赵辰洋仉文岗薛亚东著当当网图书频道在线销售正版《机器学习方法与岩土工程应用》,作者:林沛元 赵辰洋 仉文岗 薛亚东 著,出版社:中国建筑工业出版社。最新《机器学习方法与岩土工程应用》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《机器学习方法与岩土工程应用》,就http://product.dangdang.com/29651077.html
6.机器学习方法在二进制分析中的应用与思考腾讯云开发者社区机器学习方法在二进制分析中的应用与思考 1. 二进制分析的现状 众所周知,程序语言从高层到底层约莫是源码,中间代码(IR),汇编码到二进制。在这过程中,一方面是为了解决跨平台所导致的问题,另一方面也是为了节省内存,编译器做了很多层次的优化。由此可见,从高层到低层的代码,信息缺失是非常严重的,从而导致从低层https://cloud.tencent.com/developer/article/1447653
7.使用AmazonSageMaker构建机器学习应用亚马逊AWS官方博客使用Amazon SageMaker 构建机器学习应用 随着社会的发展和科技进步,人工智能变得无处不在,然而,人工智能广泛应用仍然面临着巨大的挑战:一是掌握人工智能专业知识的人才不足;二是构建和扩展人工智能的技术产品有难度;三是在生产经营中部署人工智能应用费时且成本高。最终导致缺乏低成本、易使用、可扩展的人工智能产品和http://aws.amazon.com/cn/blogs/china/building-machine-learning-applications-with-amazon-sagemaker/
8.数字化观察(100)华夏银行吴永飞等:数字金融领域小样本学习技术然而,产业数字金融风控所使用的数据要素情况不同于以往,特别是对公客户场景化、生态化细分后,数据样本量很小,难以满足风控建模的需要;而小样本学习目前在机器学习与数据挖掘领域仍属世界性难题。本文从小样本学习技术创新入手,深入探索数字经济时代下面向产业数字金融的小样本学习应用研究与实践。https://bank.hexun.com/2022-05-31/206058282.html