《转》访中国科学院牛北方研究员设计与实现高性能的数据解读学习模型算法与软件,是逾越生命信息学“数据鸿沟”的主要手段

针对癌症基因组学、宏基因组学,特别是基于下一代高通量测序的“精准医学”数据解读算法与软件技术,牛北方博士已在高性能计算数据解读方面取得了有一定影响力的学术及应用研究成果。近日,转化医学网有幸邀请到牛北方博士接受专访,以下为专访内容:

铸就科研之路

牛北方博士,您是如何踏入高性能计算与生物信息学的交叉研究领域中的?

基于对代码编程的浓厚兴趣,我考取了中国科学院计算机网络信息中心的研究生并得以提前攻读计算机软件与理论博士学位。在攻读博士学位期间,我非常幸运的师从我国高性能计算领域的知名专家——迟学斌研究员。随着研究课题的开展,有幸参与的中国国家网格-生物信息学网格项目经历,给了我短暂师从中国生物信息学第一人——陈润生院士的机会,使我接触到了生物信息学这门令人着迷的学科,从此踏入了高性能计算与生物信息学的交叉研究领域。非常感谢两位恩师的教诲与指导,让我受益终身。

2012年,结束美国加州大学圣迭戈博士后研究后,牛北方博士受邀应聘于美国圣路易斯华盛顿大学医学院麦道基因组研究所,参与美国癌症基因组图谱计划(TCGA),请您简单介绍一下您在TCGA项目中取得的一些成果。

作为高性能计算技术与生物信息学交叉研究领域的专家,您认为高性能计算技术对于精准肿瘤学(PrecisionOncology)研究的价值主要体现在哪里?在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,有哪些技术难题有待突破?

在精准肿瘤学领域,人们从肿瘤基因组测序数据获得的有价值信息仍然十分有限,试图发现的肿瘤驱动基因突变不到基因组变异的2%,因此需要获得更多有价值的信息。而高性能计算技术可以解决超大规模数据的快速、准确解读带来的新挑战,为未来的肿瘤发病机制研究和临床应用奠定基础,将产生巨大的产业价值和新的产业链。作为生物信息学分支的肿瘤基因组信息学,在精准肿瘤学研究中具有核心的价值和地位。一个合理的预测是,生物信息学在精准医疗中的应用或将引爆生命科学研究的新变革。

在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,仍然存在许多技术壁垒。首先,生物数据尤其是多组学数据,其规模大、种类多、样本量小,如何在原有统计学基础上研究数据、高效的存储大规模数据、提高数据的处理速度等都是目前研究的热点和问题的关键,开发及优化针对新测序技术数据挖掘的大规模数据处理软件非常有必要。其次,目前尚缺乏针对中国特有的癌症样本二级数据库。我国亟需构建面向中国癌症样本的基因组、转录组、蛋白质组、临床医疗数据等在内的二级数据库。最后,目前多组学数据处理流程繁杂且不统一,如何简化分析流程、提高分析速度、建立通用的数据解析流程也是亟待解决的问题。因此,急需研发高性能数据分析的工作流软件系统,以简化计算流程,助力国家精准医学计划产生的大规模数据分析任务。

从科研者到创业者

牛北方博士,您开发了MSIsensor软件系统,并被成功应用于FDA首个批准的肿瘤多基因检测大Panel——MSK-IMPACT中,您如何看待中国肿瘤大Panel?

目前而言,美国FDA于2017、2018年连续批准了MSK和FoundationMedicine两款大Panel检测产品。令人欣慰的是,国内部分企业已经走在开发肿瘤大Panel产品的前沿。个人认为,国内肿瘤大Panel的产品应该踏实,稳步推进,彻底理解并借鉴FDA批准的两款大Panel产品的设计思路。当然,作为一名科技工作者,我将与其它科研人员一起,践行“健康中国”理念,为实现大Panel在我国行业规范标准的建立贡献自己的力量。

您在美国进修了博士后,后又在美国圣路易斯华盛顿大学做研究员,是何种情怀促使您选择回国发展?

2015年初,美国启动精准医疗计划,随后的3月中国科技部举办首届“国家精准医疗战略专家会议”,启动中国版“精准医疗计划”。精准医疗计划离不开大数据、基因检测技术、高性能计算技术……中国亟需各种复合型高科技人才。与此同时,数据安全日益重要,能否守住中国人基因数据,能否培养、引回国际一流的生物信息分析人才,或许将成为我国精准医疗计划成功的关键。另外,由于地域差异,美国肿瘤基因图谱并不能完全适用于中国人群,中国亟需构建中国肿瘤基因图谱计划。

祖国日益强大,国家是科研人员最强大的后盾。众所周知,多年前,我国的高性能计算并行机,连核心CPU都是国外生产的。现如今,我们已经拥有了完全自主生产的超级计算机,能够最大程度的保障科技成果落地及转化。相信我国的高性能计算、大数据技术能让科学研究走得更远,不仅局限在医疗行业,而且能够在国民经济的各个行业中都将发挥更大的作用。

另外,中国是人口大国,也是癌症大国,对于一名科研工作者而言,利用自己的微薄力量为中国肿瘤事业做贡献,某种层面上也是为全球科研在做贡献。如果不能将自身科研成果应用于人类健康,似乎自身的科研价值就没有完全体现。因此,我选择回国,投身到国家生物信息学与高性能计算技术交叉领域的研究中,也是情理之中。

选择加入求臻医学,不仅仅是由于某些理念“不谋而合”,研究方向完全匹配,更多是因为我在求臻医学看到了“中国肿瘤大Panel的希望”。随着自己对肿瘤认识的逐步加深,我开始重新理解精准医疗领域。目前,肿瘤精准医疗领域的一大痛点在于数据分析缺乏标准化。为早日实现肿瘤基因组大数据的标准化整合、共享和高效利用,推动科学研究和生物医药产业的协同发展。2018年,我受邀加入求臻医学,参与中国肿瘤图谱计划项目,推动泛肿瘤大Panel基因检测的标准化。

探索科技创新致力医学求臻

作为求臻医学首席信息官,您认为求臻医学在精准肿瘤学领域有哪些独特优势?

团队优势

求臻医学联合创始人、首席科学家李蔚教授来自美国三大基因组测序中心之一的贝勒医学院,李蔚教授和我都参与过TCGA泛癌种的分子分型工作,有着多年的肿瘤基因组数据分析工作和项目经验,为求臻医学精准肿瘤学检测产品的研发提供了一定的人才优势。求臻医学创立伊始,便汇聚高科技行业团队,以强有力的高素质人才支撑加速锻造科技创新凝聚力,其企业运营管理经验、技术、人才储备,在国内的基因检测产业界颇具特色。

技术优势

求臻医学与国内外科研团队合作成功研发了一系列拥有自主知识产权的分析软件,例如用于RNA-seq数据分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI检测的MSIsensor、ChosenDeepMSI等,尤其在肿瘤多基因检测大Panel方面独具优势。

另外,在大数据处理和流程封装方面,求臻医学采用了目前具有优势的Docker技术搭建Spark服务器集群,为医院等下游客户提供一站式的生物信息学解决方案,从而推动生物信息标准化流程的建立。

求臻医学基于全新的生物信息学分析和遗传咨询解读的标准化流程建立规范化肿瘤图谱,同时基于ChosenOne599?大Panel产品建设中国人群肿瘤数据库,探索开发出一套国人肿瘤数据共享及高效利用的管理机制,为我国科技创新和经济社会发展提供物质保障和服务支撑。

开放共赢的大格局

求臻医学的创始人团队具有开放共赢、致力于共同谱写中国精准医学新篇章的思想和开放大格局。求臻医学不仅在核心检测产品ChosenOne599?大Panel的信息学分析上具有独特、新颖的思路,同时还在研发过程中产出一批可以为整个国内基因检测行业开放使用的信息分析系统,求臻医学在不断突破技术的“天花板”。

最后,牛北方博士表示,他作为主要作者研发的几个软件系统在癌症基因检测领域应用广泛,将继续研发能够解决精准肿瘤学临床实际问题的检测信息系统及计算支撑体系,他将凭借自己在高性能计算领域内多年的肿瘤基因组数据分析工作和项目经验,追求求臻出品,必然是精品的思路,帮助求臻医学建立世界一流的研发团队,实现关键核心技术自主可控。

牛北方博士个人简介

牛北方,博士,中科院计算机网络信息中心研究员,博士生导师,中国科学院大学岗位教授,求臻医学首席信息官。主要从事高性能计算与生物信息学研究,特别是基于下一代高通量测序(NGS)的肿瘤“精准医学”数据处理算法与软件技术。迄今发表同行评审论文30余篇,包括Nature、NatureGenetics等期刊,总被引用近10000次,ESI高被引(1%)论文10篇,其中多项研究成果被媒体报道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌症基因检测软件的主要作者。其中的MSIsensor检测系统已作为该领域的核心方法,在国际上被多家科研单位、医疗机构和公司广泛使用,并被成功应用于FDA批准的首个基于NGS的癌症多基因检测试剂盒(MSK-IMPACT)。主持多项国家自然科学基金面上项目、国家重点研发计划课题、中科院信息化专项课题等。目前担任中国运筹学会计算生物学分会理事,中国计算机学会高性能计算专委与生物信息学专委委员等职,曾为美国癌症基因组图谱计划(TCGA)多个癌种基因组数据分析工作组成员,国际癌症基因组联盟(ICGC)泛癌种基因组数据分析工作组(PCAWG)成员。

THE END
1.小白必看!大学数学建模常用工具在数学建模中,选择合适的软件工具对于提高工作效率和质量至关重要。今天,小编给小伙伴们整理了在大学学习数学建模时会经常用到的一些工具,也是准备数模比赛时必备的一些软件,学会这几个软件后,可以大大提升效率! 编程类软件 1.MATLAB: 数学建模领域必需的软件之一,它将数值https://mp.weixin.qq.com/s?__biz=MzA3NzIxNDQ3MQ==&mid=2650327550&idx=3&sn=d192ca44327ae5c7ea311bd51457cdb9&chksm=8610ac41302d8abcb3e0c3b188b82eae3ddc4468caac51fbe82017852a9b9ee21d720928f094&scene=27
2.AI研报:关于人工智能算法在软件开发中的应用调研报告自动化代码生成是人工智能在软件开发中的一个重要应用领域。传统上,开发人员需要手动编写大量的代码,而人工智能可以通过学习现有代码库,自动生成新的代码片段。这不仅可以大大提高开发效率,还能降低代码错误率。例如,许多集成开发环境(IDE)已经集成了代码补全功能,它们基于机器学习算法分析上下文,为开发人员提供代码建议,极大https://www.hxsd.com/information/10168/
3.在没有机器学习算法之前,围棋游戏软件的人机对弈是什么原理?在没有现代机器学习算法之前,围棋游戏软件中的人机对弈主要依赖于经典的算法和技术手段。这些算法并不像今天的深度学习模型那样可以从大量数据中自我学习,而是根据棋局规则和预定的计算逻辑来决定下一步动作。围棋作为一种拥有极高复杂度的棋盘游戏,棋盘上的状态空间极其庞大。因此,早期的围棋游戏软件需要依赖特定的算法来https://www.jianshu.com/p/be08bf475592
4.MVP机器视觉算法平台软件以AI赋能智能制造试用软件平台需要填写下方表单信息,信息提交后我们会在3个工作日之内与您联系。试用有效期:3个月;试用权限:算法平台&深度学习训练平台 姓名 公司 电话 E-mail 省份 请选择省份 城市 请选择城市 区/县 请选择区/县 备注 我已阅读并同意隐私政策 提交https://www.irayple.com/cn/productPage/Arith
5.还在为入门鸿蒙效率慢而困惑?不妨试试开发学习神器不妨试试开发学习神器 - AI辅助编程 鸿蒙应用开发从入门到入行 鸿蒙开发神器 - AI辅助编程 CodeGenie介绍 目前有好几款AI插件可以装到DevEco上,出名的例如Copilot、通义灵码等。但是经过猫林老师截至到目前的测试。都没有特别适合鸿蒙开发,特别是Copilot还按月收费,对于大量希望转入鸿蒙开发的新入行者真是太不https://zhuanlan.zhihu.com/p/11517482681
6.算法工程师和软件开发工程师有什么区别算法工程师来自阿里 更新于 2024-11-20 查看更多岗位职责 岗位要求1.全日制本科,专科,电子信息工程,电气,自动化,计算机等相关专业优先;2.应届毕业生和具有相关工作经验者优先,有电子类产品开发,软件编写等经验;3、 具有一定相关项目经验和较好的学习能力;4.熟练掌握专业技术如Unix/Linux平台技术、Java EE核心技术等https://www.jobui.com/gangwei/pk/suanfagongchengshi-ruanjiankaifagongchengshi/
7.下载LeetCode算法学习安卓最新版v2.3.3.1下载LeetCode算法学习是上海市优浅花网络科技有限责任公司明确提出的一款自觉学习和技能提升服务平台。有着丰富多彩有用的干货,多种多样学习的方法为大伙儿共享。协助大伙儿轻轻松松拿下知名企业招聘面试。软件介绍 LeetCode算法学习介绍我们至爱的高品质技术性服务平台,要想学习培训和提高专业技能从心出发,充裕技术性干货等着https://www.duote.com/android/358231.html
8.机器学习算法在时间序列分析中的应用此外,机器学习算法在医学中的应用也日益普及,可以用于疾病预测和药物研发等领域。 机器学习算法可以有效地缩短时间序列数据处理的时间,而且可以提高预测的准确性。随着机器学习算法的发展,越来越多的人开始应用机器学习算法来做时间序列分析,目前已经出现了一些成熟的机器学习算法软件和平台。 此外,机器学习算法还可以结合https://wenku.baidu.com/view/0160496bdd80d4d8d15abe23482fb4daa58d1dcb.html
9.训练集越多机器学习算法效果越好训练集数量训练集越多机器学习算法效果越好 训练集数量 作者为Google 软件工程师,美国西北大学电子信息工程博士,擅长大规模分布式系统,编译器和数据库。 从谷歌的机器学习代码中得知,目前需要一万亿个训练样本 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练https://blog.51cto.com/u_16099273/9301910
10.朱大铭每年招收硕士生1-2名,从事基因组组装与分析算法与软件研究。 研究方向 擅长计算生物学/生物信息学问题的算法设计,生物信息学软件设计,算法、近似算法设计与计算复杂性证明。长期从事算法与计算复杂性研究,主要针对生物信息学,计算机网络及经典计算机科学问题开展算法研究。1990-1996年曾从事神经网络学习算法研究。 https://www.cs.sdu.edu.cn/info/1070/2797.htm
11.基于遗传算法解决物流运输中的VRP问题(源码+项目说明+文档)(C++项目不仅适合初学者学习和入门,也适合有一定基础的技术人员进行深入研究和实践。它既可以作为毕业设计、课程设计、大型作业或工程实训的一部分,也可以作为小型项目的启动点。总之,这是一个极具学习和实战价值的资源,能够帮助学习者提升算法设计和软件开发能力。 展开 https://download.csdn.net/download/2401_87429224/90102638
12.算法学习app免费下载算法详解app是一款手机学习算法的app,为用户详解各种算法原理,图文并茂,让你可以更好的理解和学习算法模型,对于对编程感兴趣的朋友来说非常不错。需要的用户赶快来下载吧。 功能介绍 算法详解app这款应用解释了一些算法的细节并且还有更加详细的演示功能,帮助使用者更好的理解特定的算法。 https://www.fxxz.com/azsoft/288531.html
13.编程竞赛宝典C++语言和算法入门为什么要学习算法 经常有人说:“我不学算法也照样可以编程开发软件。”那么,为什么还要学习算法呢? 首先,算法(Algorithm)一词源于算术(Algorism),具体地说,算法是一个由已知推求未知的运算过程。后来,人们把它推广到一般过程,即把进行某一工作的方法和步骤称为算法。一个程序要完成一个任务,其背后大多会涉及算法的https://www.epubit.com/bookDetails?id=UB77a9ce8133887
14.趣学算法(陈小玉著)带目录完整pdf[95MB]电子书下载趣学算法下载 投诉报错 书籍大小:95.7MB 书籍语言:简体中文 书籍类型:国产软件 书籍授权:免费软件 书籍类别:编程其它 应用平台:PDF 更新时间:2018-09-06 购买链接:京东异步社区 网友评分: 360通过腾讯通过金山通过 95.7MB 详情介绍 本书内容按照算法策略分为7章。 https://www.jb51.net/books/635507.html
15.年薪50万!北航合肥创新研究院招募研究员!澎湃号·政务3、研究面向特定领域应用的人工智能算法,包括大数据分析与管理、多媒体应用技术、视觉内容理解、自然语言理解、光学信息处理、机器学习、人工智能学习平台等方向(注:开展一个或多个应用方向研究); 4、负责带领团队成员进行核心算法设计和实现,并进行系统软件的开发与维护; https://www.thepaper.cn/newsDetail_forward_4985535
16.中国首个运筹学算法平台正式发布打破国外高价商业求解器垄断其中的重头戏,包括了由杉数科技牵头的机器学习算法求解器LEMO。LEMO采用了一系列国际最前沿的大规模凸优化与非凸优化技巧,目前对多个机器学习经典模型在单机上的求解速度已位居世界领先行列。LEMO结合了传统优化软件和深度学习软件的不同优点,支持机器学习的同时,可直接服务于运筹优化、数学规划、数值计算等更为广泛、https://www.guancha.cn/scroll-news/2017_10_18_431273.shtml
17.[深度学习工具]·极简安装Dlib人脸识别库腾讯云开发者社区Dlib是一个现代化的C ++工具箱,其中包含用于在C ++中创建复杂软件以解决实际问题的机器学习算法和工具。它广泛应用于工业界和学术界,包括机器人,嵌入式设备,移动电话和大型高性能计算环境。Dlib的开源许可证 允许您在任何应用程序中免费使用它。Dlib有很长的时间,包含很多模块,近几年作者主要关注在机器学习、深度学https://cloud.tencent.com/developer/article/1451393
18.BoostKit大数据业界趋势鲲鹏大数据组件增强特性和典型配置聚焦大数据查询效率低、性能优化难等挑战,提供大数据组件的开源使能和调优、IO智能预取等基础加速软件包、Spark算法加速库等应用加速软件包,开源openLooKeng查询引擎,提升大数据分析效率。 了解详细:https://www.hikunpeng.com/developer/boostkit/big-data 2、BoostKit分布式存储 https://developer.huawei.com/consumer/cn/blog/topic/03898238728230088
19.中国开发者真实现状:不爱跳槽月薪集中在8K本次报告中,我们发现,AI 领域开发者中软件工程师占比最高,为 38.3%,可见软件工程师在 AI 领域也占重要地位。其次,机器学习/深度学习算法工程师、计算机视觉/图像识别/图像处理工程师都是较为热门的岗位,分别占 19.9% 和 15.5%。 不过,此次调研中,在机器学习/深度学习/神经网络成为开发者最感兴趣的方向同时,有https://www.36kr.com/p/1164571992032388.html