《转》访中国科学院牛北方研究员设计与实现高性能的数据解读学习模型算法与软件,是逾越生命信息学“数据鸿沟”的主要手段

针对癌症基因组学、宏基因组学,特别是基于下一代高通量测序的“精准医学”数据解读算法与软件技术,牛北方博士已在高性能计算数据解读方面取得了有一定影响力的学术及应用研究成果。近日,转化医学网有幸邀请到牛北方博士接受专访,以下为专访内容:

铸就科研之路

牛北方博士,您是如何踏入高性能计算与生物信息学的交叉研究领域中的?

基于对代码编程的浓厚兴趣,我考取了中国科学院计算机网络信息中心的研究生并得以提前攻读计算机软件与理论博士学位。在攻读博士学位期间,我非常幸运的师从我国高性能计算领域的知名专家——迟学斌研究员。随着研究课题的开展,有幸参与的中国国家网格-生物信息学网格项目经历,给了我短暂师从中国生物信息学第一人——陈润生院士的机会,使我接触到了生物信息学这门令人着迷的学科,从此踏入了高性能计算与生物信息学的交叉研究领域。非常感谢两位恩师的教诲与指导,让我受益终身。

2012年,结束美国加州大学圣迭戈博士后研究后,牛北方博士受邀应聘于美国圣路易斯华盛顿大学医学院麦道基因组研究所,参与美国癌症基因组图谱计划(TCGA),请您简单介绍一下您在TCGA项目中取得的一些成果。

作为高性能计算技术与生物信息学交叉研究领域的专家,您认为高性能计算技术对于精准肿瘤学(PrecisionOncology)研究的价值主要体现在哪里?在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,有哪些技术难题有待突破?

在精准肿瘤学领域,人们从肿瘤基因组测序数据获得的有价值信息仍然十分有限,试图发现的肿瘤驱动基因突变不到基因组变异的2%,因此需要获得更多有价值的信息。而高性能计算技术可以解决超大规模数据的快速、准确解读带来的新挑战,为未来的肿瘤发病机制研究和临床应用奠定基础,将产生巨大的产业价值和新的产业链。作为生物信息学分支的肿瘤基因组信息学,在精准肿瘤学研究中具有核心的价值和地位。一个合理的预测是,生物信息学在精准医疗中的应用或将引爆生命科学研究的新变革。

在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,仍然存在许多技术壁垒。首先,生物数据尤其是多组学数据,其规模大、种类多、样本量小,如何在原有统计学基础上研究数据、高效的存储大规模数据、提高数据的处理速度等都是目前研究的热点和问题的关键,开发及优化针对新测序技术数据挖掘的大规模数据处理软件非常有必要。其次,目前尚缺乏针对中国特有的癌症样本二级数据库。我国亟需构建面向中国癌症样本的基因组、转录组、蛋白质组、临床医疗数据等在内的二级数据库。最后,目前多组学数据处理流程繁杂且不统一,如何简化分析流程、提高分析速度、建立通用的数据解析流程也是亟待解决的问题。因此,急需研发高性能数据分析的工作流软件系统,以简化计算流程,助力国家精准医学计划产生的大规模数据分析任务。

从科研者到创业者

牛北方博士,您开发了MSIsensor软件系统,并被成功应用于FDA首个批准的肿瘤多基因检测大Panel——MSK-IMPACT中,您如何看待中国肿瘤大Panel?

目前而言,美国FDA于2017、2018年连续批准了MSK和FoundationMedicine两款大Panel检测产品。令人欣慰的是,国内部分企业已经走在开发肿瘤大Panel产品的前沿。个人认为,国内肿瘤大Panel的产品应该踏实,稳步推进,彻底理解并借鉴FDA批准的两款大Panel产品的设计思路。当然,作为一名科技工作者,我将与其它科研人员一起,践行“健康中国”理念,为实现大Panel在我国行业规范标准的建立贡献自己的力量。

您在美国进修了博士后,后又在美国圣路易斯华盛顿大学做研究员,是何种情怀促使您选择回国发展?

2015年初,美国启动精准医疗计划,随后的3月中国科技部举办首届“国家精准医疗战略专家会议”,启动中国版“精准医疗计划”。精准医疗计划离不开大数据、基因检测技术、高性能计算技术……中国亟需各种复合型高科技人才。与此同时,数据安全日益重要,能否守住中国人基因数据,能否培养、引回国际一流的生物信息分析人才,或许将成为我国精准医疗计划成功的关键。另外,由于地域差异,美国肿瘤基因图谱并不能完全适用于中国人群,中国亟需构建中国肿瘤基因图谱计划。

祖国日益强大,国家是科研人员最强大的后盾。众所周知,多年前,我国的高性能计算并行机,连核心CPU都是国外生产的。现如今,我们已经拥有了完全自主生产的超级计算机,能够最大程度的保障科技成果落地及转化。相信我国的高性能计算、大数据技术能让科学研究走得更远,不仅局限在医疗行业,而且能够在国民经济的各个行业中都将发挥更大的作用。

另外,中国是人口大国,也是癌症大国,对于一名科研工作者而言,利用自己的微薄力量为中国肿瘤事业做贡献,某种层面上也是为全球科研在做贡献。如果不能将自身科研成果应用于人类健康,似乎自身的科研价值就没有完全体现。因此,我选择回国,投身到国家生物信息学与高性能计算技术交叉领域的研究中,也是情理之中。

选择加入求臻医学,不仅仅是由于某些理念“不谋而合”,研究方向完全匹配,更多是因为我在求臻医学看到了“中国肿瘤大Panel的希望”。随着自己对肿瘤认识的逐步加深,我开始重新理解精准医疗领域。目前,肿瘤精准医疗领域的一大痛点在于数据分析缺乏标准化。为早日实现肿瘤基因组大数据的标准化整合、共享和高效利用,推动科学研究和生物医药产业的协同发展。2018年,我受邀加入求臻医学,参与中国肿瘤图谱计划项目,推动泛肿瘤大Panel基因检测的标准化。

探索科技创新致力医学求臻

作为求臻医学首席信息官,您认为求臻医学在精准肿瘤学领域有哪些独特优势?

团队优势

求臻医学联合创始人、首席科学家李蔚教授来自美国三大基因组测序中心之一的贝勒医学院,李蔚教授和我都参与过TCGA泛癌种的分子分型工作,有着多年的肿瘤基因组数据分析工作和项目经验,为求臻医学精准肿瘤学检测产品的研发提供了一定的人才优势。求臻医学创立伊始,便汇聚高科技行业团队,以强有力的高素质人才支撑加速锻造科技创新凝聚力,其企业运营管理经验、技术、人才储备,在国内的基因检测产业界颇具特色。

技术优势

求臻医学与国内外科研团队合作成功研发了一系列拥有自主知识产权的分析软件,例如用于RNA-seq数据分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI检测的MSIsensor、ChosenDeepMSI等,尤其在肿瘤多基因检测大Panel方面独具优势。

另外,在大数据处理和流程封装方面,求臻医学采用了目前具有优势的Docker技术搭建Spark服务器集群,为医院等下游客户提供一站式的生物信息学解决方案,从而推动生物信息标准化流程的建立。

求臻医学基于全新的生物信息学分析和遗传咨询解读的标准化流程建立规范化肿瘤图谱,同时基于ChosenOne599?大Panel产品建设中国人群肿瘤数据库,探索开发出一套国人肿瘤数据共享及高效利用的管理机制,为我国科技创新和经济社会发展提供物质保障和服务支撑。

开放共赢的大格局

求臻医学的创始人团队具有开放共赢、致力于共同谱写中国精准医学新篇章的思想和开放大格局。求臻医学不仅在核心检测产品ChosenOne599?大Panel的信息学分析上具有独特、新颖的思路,同时还在研发过程中产出一批可以为整个国内基因检测行业开放使用的信息分析系统,求臻医学在不断突破技术的“天花板”。

最后,牛北方博士表示,他作为主要作者研发的几个软件系统在癌症基因检测领域应用广泛,将继续研发能够解决精准肿瘤学临床实际问题的检测信息系统及计算支撑体系,他将凭借自己在高性能计算领域内多年的肿瘤基因组数据分析工作和项目经验,追求求臻出品,必然是精品的思路,帮助求臻医学建立世界一流的研发团队,实现关键核心技术自主可控。

牛北方博士个人简介

牛北方,博士,中科院计算机网络信息中心研究员,博士生导师,中国科学院大学岗位教授,求臻医学首席信息官。主要从事高性能计算与生物信息学研究,特别是基于下一代高通量测序(NGS)的肿瘤“精准医学”数据处理算法与软件技术。迄今发表同行评审论文30余篇,包括Nature、NatureGenetics等期刊,总被引用近10000次,ESI高被引(1%)论文10篇,其中多项研究成果被媒体报道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌症基因检测软件的主要作者。其中的MSIsensor检测系统已作为该领域的核心方法,在国际上被多家科研单位、医疗机构和公司广泛使用,并被成功应用于FDA批准的首个基于NGS的癌症多基因检测试剂盒(MSK-IMPACT)。主持多项国家自然科学基金面上项目、国家重点研发计划课题、中科院信息化专项课题等。目前担任中国运筹学会计算生物学分会理事,中国计算机学会高性能计算专委与生物信息学专委委员等职,曾为美国癌症基因组图谱计划(TCGA)多个癌种基因组数据分析工作组成员,国际癌症基因组联盟(ICGC)泛癌种基因组数据分析工作组(PCAWG)成员。

THE END
1.计算机视觉开发者必备:十大顶尖工具深度解析Keras是一个运行在TensorFlow之上的高级神经网络API,它抽象了构建深度学习模型的复杂性,非常适合初学者。Keras允许开发者快速原型化模型,如图像分类、物体检测甚至更复杂的分割任务,而无需深入了解深度学习算法。 对于更有经验的开发者,Keras仍然是一个有用的工具,用于在深入定制之前快速原型化模型。Keras简化了流程,同时https://www.51cto.com/article/804373.html
2.有什么初学算法的书籍推荐?对于有编程基础的算法初学者,推荐以下这些书目作为参考学习:一、基础与进阶结合类 《算法设计与分析基础https://www.zhihu.com/question/662164077/answer/46580558637
3.2024年推荐算法效率开发必备工具榜单算法软件算法软件有哪些2024年推荐算法效率开发必备工具榜单_算法软件 基础能力:包含数理统计、机器学习、概率论以及深度学习等相关知识 编程能力:python、C++ or Java 以及基本的 Sql、linux、shell 命令 核心能力:对数据的敏感程度,对业务的理解程度以及 pipeline 的构建能力 这些能力都需要我们不断地学习并实践开发,好的工具可以使我们专注https://blog.csdn.net/2401_87225440/article/details/142346207
4.8款出色的AI数学工具Edu指南GeoGebra 是一个交互式数学软件套件,用于从小学到大学阶段的数学和科学学习和教学。GeoGebra 由 Markus Hohenwarter 于 2001 年在萨尔茨堡大学硕士论文中开发,现已发展成为动态数学软件的提供商,支持 STEM 教育和全球教学创新。 GeoGebra 将几何、代数、电子表格、图形、统计和微积分连接在一个易于使用的软件包中。不https://www.shangyexinzhi.com/article/22320560.html
5.编程学习有哪些APP推荐编程学习有哪些下载现在开源的编程内容越来越多,所以大家在手机上学习编程的渠道也越来越丰富,为了有效地提高大家学习的效率,今天小编给大家带来手机编程软件app有哪些,为大家推荐几款靠谱的手机编程学习类软件,让大家能够在手机上接受到更专业全面的教育,从而有效地提高大家对于计算机的编程热爱效果,帮助大家更好地了解计算机原理 09-https://www.wandoujia.com/bangdan/1319495/
6.自学软件开发步骤:开发软件需要学习什么?软件开发好不好学,软件开发需要学什么?软件开发是需要有一些天赋的,尤其是对于编程代码来说确实不太容易,可以选择自己喜比较喜欢的一门编程语言,比如说c语言,这些都是可以进行选择的。然后再进一步学习其他的软件编程语言,还有后台框架这一类的,要专攻一门。 http://www.apppark.cn/t-37110.html
7.算法工程师需要学什么(通用7篇)以上就是电气工程师要学的东西,想当电气工程师的小伙伴好好学习哦! 电气工程师要学什么_电气工程师需要学什么 http://cv.qiaobutang.com/knowledge/articles/56668af20cf21dd4319dc66f 篇2:算法工程师需要学什么 软件行业驰名招聘网站 想当一名软件工程师需要学什么呢? https://www.360wenmi.com/f/filew0a3us7m.html
8.软件开发需要学什么涉及软件:AndroidStudio Eclipse Xcode Web Storm 课程简介:程序设计基础:主要学习编程语言、数据结构和算法,其他还需要学习操作系统、计算机技术原理、数据库、图形学等方面的知识。不同方向所需的知识:Web开发方向要掌握前端后端开发以及Web开发框架,游戏开发方向要掌握游戏引擎的运用,大数据开发则要掌握Hadoop、Spark平台https://www.hxsd.tv/free/29160/
9.C++输麻了,我该何去何从呢!并且就算只学习不开发这些服务的代码,也会觉得靠近下层的服务相比具体业务的服务而言,更具有一些趣味性。大抵是相比调接口/查数据库的纯业务逻辑而言,能看到更多在数据结构和算法层面的选型,还是很有意思的。 大厂的C++后端开发,发展前景相比Java后端开发的优缺点?https://www.360doc.cn/mip/1105216854.html
10.算法工程师要学什么常见问题算法工程师要学什么 算法工程师必备七大技能:数据结构和算法编程语言数学基础算法设计与分析分布式系统机器学习和深度学习软件工程实践,助力解决计算机科学和工业中的复杂问题。 算法工程师必修技能 算法工程师是计算机科学领域的专业人员,负责设计、分析和实现高效算法来解决计算问题。要成为一名合格的算法工程师,需要掌握https://www.php.cn/faq/816502.html
11.在没有机器学习算法之前,围棋游戏软件的人机对弈是什么原理?在没有现代机器学习算法之前,围棋游戏软件中的人机对弈主要依赖于经典的算法和技术手段。这些算法并不像今天的深度学习模型那样可以从大量数据中自我学习,而是根据棋局规则和预定的计算逻辑来决定下一步动作。围棋作为一种拥有极高复杂度的棋盘游戏,棋盘上的状态空间极其庞大。因此,早期的围棋游戏软件需要依赖特定的算法来https://www.jianshu.com/p/be08bf475592
12.学软件设计的毕业后都干什么工作了学习软件设计需要掌握以下知识和技能: 1. 编程语言:掌握至少一种编程语言,如Java、Python、C++等语法、数据类型、控制流程和函数等基本概念 2. 数据结构和算法:了解常见的数据结构,如数组、链表、栈、队列、树、图等,以及常用的算法,如排序、搜索、图算法等。 https://www.hxsd.com/content/33986/
13.软件测试基础理论表情包版遇事不决,二八原则!吃软件测试这碗饭的,如果基础理论都不懂,说不过去吧? 欢迎点进来学习!助你月薪翻倍哦~ 前言 不管你从事了几年测试工作,或多或少都听过一个词:“二八原则” 热饭斗胆猜一下,一定是从领导或者前辈的口中听到的居多吧? 那么到底是什么是二八原则呢?我们先来看看百度百科怎么说。 https://cloud.tencent.com/developer/article/2007785
14.汽车行业车载智能计算平台深度研究:架构趋势格局2.1.1 是什么:硬件层面底层架构 L2 以上自动驾驶需要处理雷达及相机等传感器输入的数据,数据量指数级增长,因此需要基于深度学习的 AI 算法实现数据处理能力的飞跃。传统 ADAS 层面处理器计算单元 CPU 已无法满足 AI 算法需求,目前已开发 多种架构计算单元,主要分为通用型(CPU、GPU)和专用型(FPGA、ASIC)两大类。 https://www.dongchedi.com/article/7131900552548139560
15.ai论文写作带数据怎么做总的来说,在AI论文的撰写中,带数据是一个有利于提高论文可信度和实用性的方式。但是,在带数据撰写AI论文时,需要注意数据的来源、处理和呈现等方面,以确保论文的质量和可靠性。 三、ai论文写作带数据的软件 AI论文写作带数据的软件 当人们想到AI时,他们通常会想到一个自我学习的程序,它可以处理大量的数据并提供有https://tool.a5.cn/article/show/77516.html
16.科学网—Top52!顶级大数据分析学工具和软件Orange是面向新手和专家的开源数据可视化和数据分析软件,并提供了一个大型工具箱来创建交互式工作流来分析和可视化数据。Orange压缩包软件提供了不同的可视化,从散点图、条形图、树、树形图、到网络和热图。 44.Weka Weka这种开源软件是一个用于数据挖掘任务的机器学习算法集合。这些算法既可以直接应用于数据集,也可以https://blog.sciencenet.cn/blog-2636671-1387810.html
17.深度学习系列:解密最接近人脑的智能学习机器——深度学习及并行化Torch7是一个为机器学习算法提供广泛支持的科学计算框架,其中的神经网络工具包(Package)实现了均方标准差代价函数、非线性激活函数和梯度下降训练神经网络的算法等基础模块,可以方便地配置出目标多层神经网络开展训练实验[28]。 7.2 工业界平台 在工业界,Google、非死book、百度、腾讯等公司都实现了自己的软件框架: https://www.open-open.com/lib/view/open1420466730891.html
18.好用的软件推荐蜀山菜鸟预览功能是 macOS 下极其强大好用的一个功能,只需要选中文件,点击空格,在无需打开对应程序的情况下直接预览文件内容。 QuickLook 的开发也来源于此,为 Windows 也添加了这一功能。 https://pooi.moe/QuickLook/ 4. 录屏软件: obs studio 5. 代码算法学习http://visualgo.com/ https://www.cnblogs.com/hicpp/p/16476613.html