针对癌症基因组学、宏基因组学,特别是基于下一代高通量测序的“精准医学”数据解读算法与软件技术,牛北方博士已在高性能计算数据解读方面取得了有一定影响力的学术及应用研究成果。近日,转化医学网有幸邀请到牛北方博士接受专访,以下为专访内容:
铸就科研之路
牛北方博士,您是如何踏入高性能计算与生物信息学的交叉研究领域中的?
基于对代码编程的浓厚兴趣,我考取了中国科学院计算机网络信息中心的研究生并得以提前攻读计算机软件与理论博士学位。在攻读博士学位期间,我非常幸运的师从我国高性能计算领域的知名专家——迟学斌研究员。随着研究课题的开展,有幸参与的中国国家网格-生物信息学网格项目经历,给了我短暂师从中国生物信息学第一人——陈润生院士的机会,使我接触到了生物信息学这门令人着迷的学科,从此踏入了高性能计算与生物信息学的交叉研究领域。非常感谢两位恩师的教诲与指导,让我受益终身。
2012年,结束美国加州大学圣迭戈博士后研究后,牛北方博士受邀应聘于美国圣路易斯华盛顿大学医学院麦道基因组研究所,参与美国癌症基因组图谱计划(TCGA),请您简单介绍一下您在TCGA项目中取得的一些成果。
作为高性能计算技术与生物信息学交叉研究领域的专家,您认为高性能计算技术对于精准肿瘤学(PrecisionOncology)研究的价值主要体现在哪里?在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,有哪些技术难题有待突破?
在精准肿瘤学领域,人们从肿瘤基因组测序数据获得的有价值信息仍然十分有限,试图发现的肿瘤驱动基因突变不到基因组变异的2%,因此需要获得更多有价值的信息。而高性能计算技术可以解决超大规模数据的快速、准确解读带来的新挑战,为未来的肿瘤发病机制研究和临床应用奠定基础,将产生巨大的产业价值和新的产业链。作为生物信息学分支的肿瘤基因组信息学,在精准肿瘤学研究中具有核心的价值和地位。一个合理的预测是,生物信息学在精准医疗中的应用或将引爆生命科学研究的新变革。
在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,仍然存在许多技术壁垒。首先,生物数据尤其是多组学数据,其规模大、种类多、样本量小,如何在原有统计学基础上研究数据、高效的存储大规模数据、提高数据的处理速度等都是目前研究的热点和问题的关键,开发及优化针对新测序技术数据挖掘的大规模数据处理软件非常有必要。其次,目前尚缺乏针对中国特有的癌症样本二级数据库。我国亟需构建面向中国癌症样本的基因组、转录组、蛋白质组、临床医疗数据等在内的二级数据库。最后,目前多组学数据处理流程繁杂且不统一,如何简化分析流程、提高分析速度、建立通用的数据解析流程也是亟待解决的问题。因此,急需研发高性能数据分析的工作流软件系统,以简化计算流程,助力国家精准医学计划产生的大规模数据分析任务。
从科研者到创业者
牛北方博士,您开发了MSIsensor软件系统,并被成功应用于FDA首个批准的肿瘤多基因检测大Panel——MSK-IMPACT中,您如何看待中国肿瘤大Panel?
目前而言,美国FDA于2017、2018年连续批准了MSK和FoundationMedicine两款大Panel检测产品。令人欣慰的是,国内部分企业已经走在开发肿瘤大Panel产品的前沿。个人认为,国内肿瘤大Panel的产品应该踏实,稳步推进,彻底理解并借鉴FDA批准的两款大Panel产品的设计思路。当然,作为一名科技工作者,我将与其它科研人员一起,践行“健康中国”理念,为实现大Panel在我国行业规范标准的建立贡献自己的力量。
您在美国进修了博士后,后又在美国圣路易斯华盛顿大学做研究员,是何种情怀促使您选择回国发展?
2015年初,美国启动精准医疗计划,随后的3月中国科技部举办首届“国家精准医疗战略专家会议”,启动中国版“精准医疗计划”。精准医疗计划离不开大数据、基因检测技术、高性能计算技术……中国亟需各种复合型高科技人才。与此同时,数据安全日益重要,能否守住中国人基因数据,能否培养、引回国际一流的生物信息分析人才,或许将成为我国精准医疗计划成功的关键。另外,由于地域差异,美国肿瘤基因图谱并不能完全适用于中国人群,中国亟需构建中国肿瘤基因图谱计划。
祖国日益强大,国家是科研人员最强大的后盾。众所周知,多年前,我国的高性能计算并行机,连核心CPU都是国外生产的。现如今,我们已经拥有了完全自主生产的超级计算机,能够最大程度的保障科技成果落地及转化。相信我国的高性能计算、大数据技术能让科学研究走得更远,不仅局限在医疗行业,而且能够在国民经济的各个行业中都将发挥更大的作用。
另外,中国是人口大国,也是癌症大国,对于一名科研工作者而言,利用自己的微薄力量为中国肿瘤事业做贡献,某种层面上也是为全球科研在做贡献。如果不能将自身科研成果应用于人类健康,似乎自身的科研价值就没有完全体现。因此,我选择回国,投身到国家生物信息学与高性能计算技术交叉领域的研究中,也是情理之中。
选择加入求臻医学,不仅仅是由于某些理念“不谋而合”,研究方向完全匹配,更多是因为我在求臻医学看到了“中国肿瘤大Panel的希望”。随着自己对肿瘤认识的逐步加深,我开始重新理解精准医疗领域。目前,肿瘤精准医疗领域的一大痛点在于数据分析缺乏标准化。为早日实现肿瘤基因组大数据的标准化整合、共享和高效利用,推动科学研究和生物医药产业的协同发展。2018年,我受邀加入求臻医学,参与中国肿瘤图谱计划项目,推动泛肿瘤大Panel基因检测的标准化。
探索科技创新致力医学求臻
作为求臻医学首席信息官,您认为求臻医学在精准肿瘤学领域有哪些独特优势?
团队优势
求臻医学联合创始人、首席科学家李蔚教授来自美国三大基因组测序中心之一的贝勒医学院,李蔚教授和我都参与过TCGA泛癌种的分子分型工作,有着多年的肿瘤基因组数据分析工作和项目经验,为求臻医学精准肿瘤学检测产品的研发提供了一定的人才优势。求臻医学创立伊始,便汇聚高科技行业团队,以强有力的高素质人才支撑加速锻造科技创新凝聚力,其企业运营管理经验、技术、人才储备,在国内的基因检测产业界颇具特色。
技术优势
求臻医学与国内外科研团队合作成功研发了一系列拥有自主知识产权的分析软件,例如用于RNA-seq数据分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI检测的MSIsensor、ChosenDeepMSI等,尤其在肿瘤多基因检测大Panel方面独具优势。
另外,在大数据处理和流程封装方面,求臻医学采用了目前具有优势的Docker技术搭建Spark服务器集群,为医院等下游客户提供一站式的生物信息学解决方案,从而推动生物信息标准化流程的建立。
求臻医学基于全新的生物信息学分析和遗传咨询解读的标准化流程建立规范化肿瘤图谱,同时基于ChosenOne599?大Panel产品建设中国人群肿瘤数据库,探索开发出一套国人肿瘤数据共享及高效利用的管理机制,为我国科技创新和经济社会发展提供物质保障和服务支撑。
开放共赢的大格局
求臻医学的创始人团队具有开放共赢、致力于共同谱写中国精准医学新篇章的思想和开放大格局。求臻医学不仅在核心检测产品ChosenOne599?大Panel的信息学分析上具有独特、新颖的思路,同时还在研发过程中产出一批可以为整个国内基因检测行业开放使用的信息分析系统,求臻医学在不断突破技术的“天花板”。
最后,牛北方博士表示,他作为主要作者研发的几个软件系统在癌症基因检测领域应用广泛,将继续研发能够解决精准肿瘤学临床实际问题的检测信息系统及计算支撑体系,他将凭借自己在高性能计算领域内多年的肿瘤基因组数据分析工作和项目经验,追求求臻出品,必然是精品的思路,帮助求臻医学建立世界一流的研发团队,实现关键核心技术自主可控。
牛北方博士个人简介
牛北方,博士,中科院计算机网络信息中心研究员,博士生导师,中国科学院大学岗位教授,求臻医学首席信息官。主要从事高性能计算与生物信息学研究,特别是基于下一代高通量测序(NGS)的肿瘤“精准医学”数据处理算法与软件技术。迄今发表同行评审论文30余篇,包括Nature、NatureGenetics等期刊,总被引用近10000次,ESI高被引(1%)论文10篇,其中多项研究成果被媒体报道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌症基因检测软件的主要作者。其中的MSIsensor检测系统已作为该领域的核心方法,在国际上被多家科研单位、医疗机构和公司广泛使用,并被成功应用于FDA批准的首个基于NGS的癌症多基因检测试剂盒(MSK-IMPACT)。主持多项国家自然科学基金面上项目、国家重点研发计划课题、中科院信息化专项课题等。目前担任中国运筹学会计算生物学分会理事,中国计算机学会高性能计算专委与生物信息学专委委员等职,曾为美国癌症基因组图谱计划(TCGA)多个癌种基因组数据分析工作组成员,国际癌症基因组联盟(ICGC)泛癌种基因组数据分析工作组(PCAWG)成员。