《转》访中国科学院牛北方研究员设计与实现高性能的数据解读学习模型算法与软件,是逾越生命信息学“数据鸿沟”的主要手段

针对癌症基因组学、宏基因组学,特别是基于下一代高通量测序的“精准医学”数据解读算法与软件技术,牛北方博士已在高性能计算数据解读方面取得了有一定影响力的学术及应用研究成果。近日,转化医学网有幸邀请到牛北方博士接受专访,以下为专访内容:

铸就科研之路

牛北方博士,您是如何踏入高性能计算与生物信息学的交叉研究领域中的?

基于对代码编程的浓厚兴趣,我考取了中国科学院计算机网络信息中心的研究生并得以提前攻读计算机软件与理论博士学位。在攻读博士学位期间,我非常幸运的师从我国高性能计算领域的知名专家——迟学斌研究员。随着研究课题的开展,有幸参与的中国国家网格-生物信息学网格项目经历,给了我短暂师从中国生物信息学第一人——陈润生院士的机会,使我接触到了生物信息学这门令人着迷的学科,从此踏入了高性能计算与生物信息学的交叉研究领域。非常感谢两位恩师的教诲与指导,让我受益终身。

2012年,结束美国加州大学圣迭戈博士后研究后,牛北方博士受邀应聘于美国圣路易斯华盛顿大学医学院麦道基因组研究所,参与美国癌症基因组图谱计划(TCGA),请您简单介绍一下您在TCGA项目中取得的一些成果。

作为高性能计算技术与生物信息学交叉研究领域的专家,您认为高性能计算技术对于精准肿瘤学(PrecisionOncology)研究的价值主要体现在哪里?在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,有哪些技术难题有待突破?

在精准肿瘤学领域,人们从肿瘤基因组测序数据获得的有价值信息仍然十分有限,试图发现的肿瘤驱动基因突变不到基因组变异的2%,因此需要获得更多有价值的信息。而高性能计算技术可以解决超大规模数据的快速、准确解读带来的新挑战,为未来的肿瘤发病机制研究和临床应用奠定基础,将产生巨大的产业价值和新的产业链。作为生物信息学分支的肿瘤基因组信息学,在精准肿瘤学研究中具有核心的价值和地位。一个合理的预测是,生物信息学在精准医疗中的应用或将引爆生命科学研究的新变革。

在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,仍然存在许多技术壁垒。首先,生物数据尤其是多组学数据,其规模大、种类多、样本量小,如何在原有统计学基础上研究数据、高效的存储大规模数据、提高数据的处理速度等都是目前研究的热点和问题的关键,开发及优化针对新测序技术数据挖掘的大规模数据处理软件非常有必要。其次,目前尚缺乏针对中国特有的癌症样本二级数据库。我国亟需构建面向中国癌症样本的基因组、转录组、蛋白质组、临床医疗数据等在内的二级数据库。最后,目前多组学数据处理流程繁杂且不统一,如何简化分析流程、提高分析速度、建立通用的数据解析流程也是亟待解决的问题。因此,急需研发高性能数据分析的工作流软件系统,以简化计算流程,助力国家精准医学计划产生的大规模数据分析任务。

从科研者到创业者

牛北方博士,您开发了MSIsensor软件系统,并被成功应用于FDA首个批准的肿瘤多基因检测大Panel——MSK-IMPACT中,您如何看待中国肿瘤大Panel?

目前而言,美国FDA于2017、2018年连续批准了MSK和FoundationMedicine两款大Panel检测产品。令人欣慰的是,国内部分企业已经走在开发肿瘤大Panel产品的前沿。个人认为,国内肿瘤大Panel的产品应该踏实,稳步推进,彻底理解并借鉴FDA批准的两款大Panel产品的设计思路。当然,作为一名科技工作者,我将与其它科研人员一起,践行“健康中国”理念,为实现大Panel在我国行业规范标准的建立贡献自己的力量。

您在美国进修了博士后,后又在美国圣路易斯华盛顿大学做研究员,是何种情怀促使您选择回国发展?

2015年初,美国启动精准医疗计划,随后的3月中国科技部举办首届“国家精准医疗战略专家会议”,启动中国版“精准医疗计划”。精准医疗计划离不开大数据、基因检测技术、高性能计算技术……中国亟需各种复合型高科技人才。与此同时,数据安全日益重要,能否守住中国人基因数据,能否培养、引回国际一流的生物信息分析人才,或许将成为我国精准医疗计划成功的关键。另外,由于地域差异,美国肿瘤基因图谱并不能完全适用于中国人群,中国亟需构建中国肿瘤基因图谱计划。

祖国日益强大,国家是科研人员最强大的后盾。众所周知,多年前,我国的高性能计算并行机,连核心CPU都是国外生产的。现如今,我们已经拥有了完全自主生产的超级计算机,能够最大程度的保障科技成果落地及转化。相信我国的高性能计算、大数据技术能让科学研究走得更远,不仅局限在医疗行业,而且能够在国民经济的各个行业中都将发挥更大的作用。

另外,中国是人口大国,也是癌症大国,对于一名科研工作者而言,利用自己的微薄力量为中国肿瘤事业做贡献,某种层面上也是为全球科研在做贡献。如果不能将自身科研成果应用于人类健康,似乎自身的科研价值就没有完全体现。因此,我选择回国,投身到国家生物信息学与高性能计算技术交叉领域的研究中,也是情理之中。

选择加入求臻医学,不仅仅是由于某些理念“不谋而合”,研究方向完全匹配,更多是因为我在求臻医学看到了“中国肿瘤大Panel的希望”。随着自己对肿瘤认识的逐步加深,我开始重新理解精准医疗领域。目前,肿瘤精准医疗领域的一大痛点在于数据分析缺乏标准化。为早日实现肿瘤基因组大数据的标准化整合、共享和高效利用,推动科学研究和生物医药产业的协同发展。2018年,我受邀加入求臻医学,参与中国肿瘤图谱计划项目,推动泛肿瘤大Panel基因检测的标准化。

探索科技创新致力医学求臻

作为求臻医学首席信息官,您认为求臻医学在精准肿瘤学领域有哪些独特优势?

团队优势

求臻医学联合创始人、首席科学家李蔚教授来自美国三大基因组测序中心之一的贝勒医学院,李蔚教授和我都参与过TCGA泛癌种的分子分型工作,有着多年的肿瘤基因组数据分析工作和项目经验,为求臻医学精准肿瘤学检测产品的研发提供了一定的人才优势。求臻医学创立伊始,便汇聚高科技行业团队,以强有力的高素质人才支撑加速锻造科技创新凝聚力,其企业运营管理经验、技术、人才储备,在国内的基因检测产业界颇具特色。

技术优势

求臻医学与国内外科研团队合作成功研发了一系列拥有自主知识产权的分析软件,例如用于RNA-seq数据分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI检测的MSIsensor、ChosenDeepMSI等,尤其在肿瘤多基因检测大Panel方面独具优势。

另外,在大数据处理和流程封装方面,求臻医学采用了目前具有优势的Docker技术搭建Spark服务器集群,为医院等下游客户提供一站式的生物信息学解决方案,从而推动生物信息标准化流程的建立。

求臻医学基于全新的生物信息学分析和遗传咨询解读的标准化流程建立规范化肿瘤图谱,同时基于ChosenOne599?大Panel产品建设中国人群肿瘤数据库,探索开发出一套国人肿瘤数据共享及高效利用的管理机制,为我国科技创新和经济社会发展提供物质保障和服务支撑。

开放共赢的大格局

求臻医学的创始人团队具有开放共赢、致力于共同谱写中国精准医学新篇章的思想和开放大格局。求臻医学不仅在核心检测产品ChosenOne599?大Panel的信息学分析上具有独特、新颖的思路,同时还在研发过程中产出一批可以为整个国内基因检测行业开放使用的信息分析系统,求臻医学在不断突破技术的“天花板”。

最后,牛北方博士表示,他作为主要作者研发的几个软件系统在癌症基因检测领域应用广泛,将继续研发能够解决精准肿瘤学临床实际问题的检测信息系统及计算支撑体系,他将凭借自己在高性能计算领域内多年的肿瘤基因组数据分析工作和项目经验,追求求臻出品,必然是精品的思路,帮助求臻医学建立世界一流的研发团队,实现关键核心技术自主可控。

牛北方博士个人简介

牛北方,博士,中科院计算机网络信息中心研究员,博士生导师,中国科学院大学岗位教授,求臻医学首席信息官。主要从事高性能计算与生物信息学研究,特别是基于下一代高通量测序(NGS)的肿瘤“精准医学”数据处理算法与软件技术。迄今发表同行评审论文30余篇,包括Nature、NatureGenetics等期刊,总被引用近10000次,ESI高被引(1%)论文10篇,其中多项研究成果被媒体报道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌症基因检测软件的主要作者。其中的MSIsensor检测系统已作为该领域的核心方法,在国际上被多家科研单位、医疗机构和公司广泛使用,并被成功应用于FDA批准的首个基于NGS的癌症多基因检测试剂盒(MSK-IMPACT)。主持多项国家自然科学基金面上项目、国家重点研发计划课题、中科院信息化专项课题等。目前担任中国运筹学会计算生物学分会理事,中国计算机学会高性能计算专委与生物信息学专委委员等职,曾为美国癌症基因组图谱计划(TCGA)多个癌种基因组数据分析工作组成员,国际癌症基因组联盟(ICGC)泛癌种基因组数据分析工作组(PCAWG)成员。

THE END
1.大数据算法一文掌握大数据算法之:大数据算法设计技术。大数据算法设计技术是处理和分析大规模数据集的关键。 通过采用精确算法设计方法、并行算法、近似算法、随机化算法、外存算法和现代优化算法等多种技术手段,可以从海量数据中提取有价值的信息。 在技术融合,交叉融合的当下, 掌握大数据算法,应用于工作中,是必不可少的一环。 我是小鱼: CSDN 博客专家; 阿里云 专家博https://blog.csdn.net/wuyoudeyuer/article/details/143093042
2.数据分析算法怎么做帆软数字化转型知识库袋装法是通过在数据上进行自助采样,训练多个模型,并将它们的预测结果进行平均;提升法是通过迭代地训练多个弱模型,每次训练时关注前一次模型的错误,逐步提高模型的性能;堆叠法是通过训练多个基础模型,并使用一个元模型对基础模型的预测结果进行组合。 总结,数据分析算法的关键步骤包括数据预处理、特征工程、模型选择与评估https://www.fanruan.com/blog/article/647171/
3.服务计算的思考腾讯云开发者社区重新审视服务范式与交付技术的叠加,尽管 Web 服务可能仍然与开发各种应用程序相关,但需要关注它们的底层服务需求。特别是,发展一种新的服务范式,其中包括可国际数据中心确定的四种技术,同时引进新技术,而不是强调扩大现有的网络服务标准和技术。 服务计算的一个目标是利用服务范式的功能和非功能组件的力量和简单性来构建https://cloud.tencent.com/developer/article/2185472
4.大数据算法模型架构图mob64ca12d9e536的技术博客数据存储:将数据存放在高效的存储系统中,如Hadoop、Spark或云服务。 数据处理:使用分布式计算框架进行数据清洗、转换和分析。 算法模型:在处理后的数据上应用机器学习或深度学习算法,生成可用的模型。 可视化:通过可视化工具展示数据分析结果,以便做出决策。 https://blog.51cto.com/u_16213339/12183691
5.数据统计服务(文末有算法)总点击数数据有误 从后台下载的数据,总点击数是 487 (后台是501),总花费77.92(后台是100,扣除佣金后是80)。 What:平台坑我的广告费 ? 3,算法:从奖励切入上让更多人转发和点击 参考数值:80% 的用户每分享一条朋友圈带来的点击 ≤12 个。 目的 https://www.jianshu.com/p/8793bcb8dcbb
6.栅格型空间数据服务体系结构与算法研究【摘要】:本文研究栅格型空间数据的服务体系结构与算法,侧重于地形服务器系统(Terrain Server Systems,TSS)的内容,其重点是管理海量地形和地表形态数据(多源遥感影像、数字正射影像和数字高程模型)和提供高速率数据服务。本文着重在系统体系结构、数据管理模型、数据分布方法以及服务器设计等方面进行研究,设计并实现了一个https://cdmd.cnki.com.cn/Article/CDMD-90008-2003111949.htm
7.好未来数据中台学而思网校户外广告投放实战初探通过丰富的,多样的潜客预估解决方案,支撑线下全场景业务的数据服务,合理资源配置。 投放平台技术简图 其中,我们这次网校户外投放方案的流量方为分众的传统媒体方,业务方为网校市场营销部的伙伴。 2)数据算法目标(点位目标人群分析) 问题抽象 利用现有数据资源,主要包括三个方面: https://maimai.cn/article/detail?fid=1603796396&efid=kBihX09ni6AbD-UcFzv3bw
8.数据服务方案为充分发挥数据价值,提高企业决策水平,本方案旨在制定一套合法合规的数据服务方案,以满足企业在数据采集、存储、处理、分析和应用等方面的需求。 二、目标 1. 确保数据服务全过程合法合规,遵循国家相关法律法规和政策要求。 2. 构建完善的数据服务体系,提高数据质量和数据利用效率。 3. 满足企业内部及外部客户的数据https://wenku.baidu.com/view/5615f3e5f4ec4afe04a1b0717fd5360cbb1a8d2a.html
9.谈谈哪些数据属于重要数据以及典型的数据安全法规和实践●涉及敏感物品的生产和交易以及可能被外国政府用来对中国实施制裁的重要设备的配备和使用;●为政府机关、军工企业等敏感重要机构提供服务过程中产生的,不宜公开的;●涉及未公开的政府数据、工作秘密、情报数据以及执法和司法数据;●可能影响中国政治、领土、军事、经济、文化、社会、科技、生态、资源、核设施、海外利益http://www.360doc.com/content/22/0518/10/78237952_1031891703.shtml
10.2023年重大网络安全政策法规盘点规定明确国家和地方网信部门统筹协调深度合成服务的治理和相关监督管理职责,国务院电信主管部门、公安部门以及地方相关部门的监督管理职责。 中国信通院《数据安全产品与服务图谱(2.0)》发布 《图谱》2.0在原图谱框架的基础上实现了更具体系化、层次化的升级迭代,旨在进一步打通供需双方对当前主流数据安全产品与服务的认知,https://www.eet-china.com/mp/a273064.html
11.[广东]2022年中国银行中银信息技术服务(深圳)社会招聘公告1.参与并负责银行数据平台管理,包括需求管理、数据管理、权限管理), 以及数据平台和应用的系统分析、设计、开发、维护,或者为数据平台建立框架、开发标准、企业级数据模型和方法论; 2.参与并负责大数据相关分布式平台部署以及数据服务应用实现。 (八)高级算法工程师(风控方向) http://www.yinhangzhaopin.com/zgyhzp/2022-06-06/128776.htm
12.金蝶云星空数据智能云数据智能软件数据分析平台金蝶云星空数据智能云是运用大数据与AI技术相结合的数据智能软件,通过数据分析、移动分析和AI大数据服务,满足企业的各类用数需求,提升企业智能化决策水平。https://www.kingdee.com/products/galaxy_data_service.html
13.邦信阳律师事务所11. 杭州市就《杭州市数据流通交易促进条例》公开征求意见 二、新闻与交易 1. 北京2024年将推动高级别自动驾驶示范区扩展至通州顺义 2. 网信办发布第二批应用程序分发平台备案编号 3. 工信部公布49个网络安全保险典型服务方案 4. 国家网信办发布第五批深度合成服务算法备案信息 https://www.boss-young.com/newsDetail?id=1f3da092-63ff-4eeb-0d79-08dc7407aea5
14.时空计算服务华为云Stack8.3.0解决方案描述03智能计算服务,在数据管理服务的基础上,实现影像的批量处理分析,在线提供多源遥感卫星影像数据服务、遥感数据生产处理服务、遥感智能解译分析服务以及数据共享云服务等。 GeoGenius平台预集成了多个即开即用的遥感AI智能分析算法服务,将复杂、耗时的生产环节编排成可自动化执行的生产流程,实现大规模影像数据的快速自动化生产,https://support.huawei.com/enterprise/zh/doc/EDOC1100328015/89e607b1
15.复杂能源系统智能计算教育部工程研究中心智慧能源系统包含了众多领域的物理设备,数据采集向多样化发展,且数据量呈指数级增长。常规的数据服务平台已无法满足对数据进行快速准确处理的要求,亟需构建云端–边缘端协同的数字孪生服务平台。边缘端需要利用智能设备进行一部分本地计算,云端则要求将各设备的数据整合后进行运算。通过建立“数据链”、通用算法库和模型库https://esic.ncepu.edu.cn/rdzt/zt2/a6806a4d78bc4da6a0c9e5ec4b4cbb84.htm
16.2023年中国移动互联网大事记(46月20日,国家互联网信息办公室发布境内深度合成服务算法备案清单,其中包括美团在线智能客服算法、快手短视频生成合成算法、百度文生图内容生成算法、百度PLATO大模型算法、天猫小蜜智能客服算法等41则深度合成服务算法备案信息。 23.中国移动正式发布6G公共试验验证平台 http://m2.people.cn/news/default.html?s=MV8xXzQwMDMwNTc0XzI0NDU2MF8xNjg4NzE3MzM1