《转》访中国科学院牛北方研究员设计与实现高性能的数据解读学习模型算法与软件,是逾越生命信息学“数据鸿沟”的主要手段

针对癌症基因组学、宏基因组学,特别是基于下一代高通量测序的“精准医学”数据解读算法与软件技术,牛北方博士已在高性能计算数据解读方面取得了有一定影响力的学术及应用研究成果。近日,转化医学网有幸邀请到牛北方博士接受专访,以下为专访内容:

铸就科研之路

牛北方博士,您是如何踏入高性能计算与生物信息学的交叉研究领域中的?

基于对代码编程的浓厚兴趣,我考取了中国科学院计算机网络信息中心的研究生并得以提前攻读计算机软件与理论博士学位。在攻读博士学位期间,我非常幸运的师从我国高性能计算领域的知名专家——迟学斌研究员。随着研究课题的开展,有幸参与的中国国家网格-生物信息学网格项目经历,给了我短暂师从中国生物信息学第一人——陈润生院士的机会,使我接触到了生物信息学这门令人着迷的学科,从此踏入了高性能计算与生物信息学的交叉研究领域。非常感谢两位恩师的教诲与指导,让我受益终身。

2012年,结束美国加州大学圣迭戈博士后研究后,牛北方博士受邀应聘于美国圣路易斯华盛顿大学医学院麦道基因组研究所,参与美国癌症基因组图谱计划(TCGA),请您简单介绍一下您在TCGA项目中取得的一些成果。

作为高性能计算技术与生物信息学交叉研究领域的专家,您认为高性能计算技术对于精准肿瘤学(PrecisionOncology)研究的价值主要体现在哪里?在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,有哪些技术难题有待突破?

在精准肿瘤学领域,人们从肿瘤基因组测序数据获得的有价值信息仍然十分有限,试图发现的肿瘤驱动基因突变不到基因组变异的2%,因此需要获得更多有价值的信息。而高性能计算技术可以解决超大规模数据的快速、准确解读带来的新挑战,为未来的肿瘤发病机制研究和临床应用奠定基础,将产生巨大的产业价值和新的产业链。作为生物信息学分支的肿瘤基因组信息学,在精准肿瘤学研究中具有核心的价值和地位。一个合理的预测是,生物信息学在精准医疗中的应用或将引爆生命科学研究的新变革。

在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,仍然存在许多技术壁垒。首先,生物数据尤其是多组学数据,其规模大、种类多、样本量小,如何在原有统计学基础上研究数据、高效的存储大规模数据、提高数据的处理速度等都是目前研究的热点和问题的关键,开发及优化针对新测序技术数据挖掘的大规模数据处理软件非常有必要。其次,目前尚缺乏针对中国特有的癌症样本二级数据库。我国亟需构建面向中国癌症样本的基因组、转录组、蛋白质组、临床医疗数据等在内的二级数据库。最后,目前多组学数据处理流程繁杂且不统一,如何简化分析流程、提高分析速度、建立通用的数据解析流程也是亟待解决的问题。因此,急需研发高性能数据分析的工作流软件系统,以简化计算流程,助力国家精准医学计划产生的大规模数据分析任务。

从科研者到创业者

牛北方博士,您开发了MSIsensor软件系统,并被成功应用于FDA首个批准的肿瘤多基因检测大Panel——MSK-IMPACT中,您如何看待中国肿瘤大Panel?

目前而言,美国FDA于2017、2018年连续批准了MSK和FoundationMedicine两款大Panel检测产品。令人欣慰的是,国内部分企业已经走在开发肿瘤大Panel产品的前沿。个人认为,国内肿瘤大Panel的产品应该踏实,稳步推进,彻底理解并借鉴FDA批准的两款大Panel产品的设计思路。当然,作为一名科技工作者,我将与其它科研人员一起,践行“健康中国”理念,为实现大Panel在我国行业规范标准的建立贡献自己的力量。

您在美国进修了博士后,后又在美国圣路易斯华盛顿大学做研究员,是何种情怀促使您选择回国发展?

2015年初,美国启动精准医疗计划,随后的3月中国科技部举办首届“国家精准医疗战略专家会议”,启动中国版“精准医疗计划”。精准医疗计划离不开大数据、基因检测技术、高性能计算技术……中国亟需各种复合型高科技人才。与此同时,数据安全日益重要,能否守住中国人基因数据,能否培养、引回国际一流的生物信息分析人才,或许将成为我国精准医疗计划成功的关键。另外,由于地域差异,美国肿瘤基因图谱并不能完全适用于中国人群,中国亟需构建中国肿瘤基因图谱计划。

祖国日益强大,国家是科研人员最强大的后盾。众所周知,多年前,我国的高性能计算并行机,连核心CPU都是国外生产的。现如今,我们已经拥有了完全自主生产的超级计算机,能够最大程度的保障科技成果落地及转化。相信我国的高性能计算、大数据技术能让科学研究走得更远,不仅局限在医疗行业,而且能够在国民经济的各个行业中都将发挥更大的作用。

另外,中国是人口大国,也是癌症大国,对于一名科研工作者而言,利用自己的微薄力量为中国肿瘤事业做贡献,某种层面上也是为全球科研在做贡献。如果不能将自身科研成果应用于人类健康,似乎自身的科研价值就没有完全体现。因此,我选择回国,投身到国家生物信息学与高性能计算技术交叉领域的研究中,也是情理之中。

选择加入求臻医学,不仅仅是由于某些理念“不谋而合”,研究方向完全匹配,更多是因为我在求臻医学看到了“中国肿瘤大Panel的希望”。随着自己对肿瘤认识的逐步加深,我开始重新理解精准医疗领域。目前,肿瘤精准医疗领域的一大痛点在于数据分析缺乏标准化。为早日实现肿瘤基因组大数据的标准化整合、共享和高效利用,推动科学研究和生物医药产业的协同发展。2018年,我受邀加入求臻医学,参与中国肿瘤图谱计划项目,推动泛肿瘤大Panel基因检测的标准化。

探索科技创新致力医学求臻

作为求臻医学首席信息官,您认为求臻医学在精准肿瘤学领域有哪些独特优势?

团队优势

求臻医学联合创始人、首席科学家李蔚教授来自美国三大基因组测序中心之一的贝勒医学院,李蔚教授和我都参与过TCGA泛癌种的分子分型工作,有着多年的肿瘤基因组数据分析工作和项目经验,为求臻医学精准肿瘤学检测产品的研发提供了一定的人才优势。求臻医学创立伊始,便汇聚高科技行业团队,以强有力的高素质人才支撑加速锻造科技创新凝聚力,其企业运营管理经验、技术、人才储备,在国内的基因检测产业界颇具特色。

技术优势

求臻医学与国内外科研团队合作成功研发了一系列拥有自主知识产权的分析软件,例如用于RNA-seq数据分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI检测的MSIsensor、ChosenDeepMSI等,尤其在肿瘤多基因检测大Panel方面独具优势。

另外,在大数据处理和流程封装方面,求臻医学采用了目前具有优势的Docker技术搭建Spark服务器集群,为医院等下游客户提供一站式的生物信息学解决方案,从而推动生物信息标准化流程的建立。

求臻医学基于全新的生物信息学分析和遗传咨询解读的标准化流程建立规范化肿瘤图谱,同时基于ChosenOne599?大Panel产品建设中国人群肿瘤数据库,探索开发出一套国人肿瘤数据共享及高效利用的管理机制,为我国科技创新和经济社会发展提供物质保障和服务支撑。

开放共赢的大格局

求臻医学的创始人团队具有开放共赢、致力于共同谱写中国精准医学新篇章的思想和开放大格局。求臻医学不仅在核心检测产品ChosenOne599?大Panel的信息学分析上具有独特、新颖的思路,同时还在研发过程中产出一批可以为整个国内基因检测行业开放使用的信息分析系统,求臻医学在不断突破技术的“天花板”。

最后,牛北方博士表示,他作为主要作者研发的几个软件系统在癌症基因检测领域应用广泛,将继续研发能够解决精准肿瘤学临床实际问题的检测信息系统及计算支撑体系,他将凭借自己在高性能计算领域内多年的肿瘤基因组数据分析工作和项目经验,追求求臻出品,必然是精品的思路,帮助求臻医学建立世界一流的研发团队,实现关键核心技术自主可控。

牛北方博士个人简介

牛北方,博士,中科院计算机网络信息中心研究员,博士生导师,中国科学院大学岗位教授,求臻医学首席信息官。主要从事高性能计算与生物信息学研究,特别是基于下一代高通量测序(NGS)的肿瘤“精准医学”数据处理算法与软件技术。迄今发表同行评审论文30余篇,包括Nature、NatureGenetics等期刊,总被引用近10000次,ESI高被引(1%)论文10篇,其中多项研究成果被媒体报道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌症基因检测软件的主要作者。其中的MSIsensor检测系统已作为该领域的核心方法,在国际上被多家科研单位、医疗机构和公司广泛使用,并被成功应用于FDA批准的首个基于NGS的癌症多基因检测试剂盒(MSK-IMPACT)。主持多项国家自然科学基金面上项目、国家重点研发计划课题、中科院信息化专项课题等。目前担任中国运筹学会计算生物学分会理事,中国计算机学会高性能计算专委与生物信息学专委委员等职,曾为美国癌症基因组图谱计划(TCGA)多个癌种基因组数据分析工作组成员,国际癌症基因组联盟(ICGC)泛癌种基因组数据分析工作组(PCAWG)成员。

THE END
1.编程学习有哪些APP推荐编程学习有哪些下载现在开源的编程内容越来越多,所以大家在手机上学习编程的渠道也越来越丰富,为了有效地提高大家学习的效率,今天小编给大家带来手机编程软件app有哪些,为大家推荐几款靠谱的手机编程学习类软件,让大家能够在手机上接受到更专业全面的教育,从而有效地提高大家对于计算机的编程热爱效果,帮助大家更好地了解计算机原理 09-https://www.wandoujia.com/bangdan/1319495/
2.数学计算器软件有哪些?数学计算器app推荐通过编辑你的函数,带入各种坐标值,为你显现出该函数的图案,让你在学习的时候可以有更加直观的感受。欢迎下载!geogebra 点击下载 PhotoMath学习神器 29.4M / 2023-11-09 / v8.32.0 官方iPhone版 photomath是一款数学解题神器,通过软件你只需要将摄像头扫描下数学题,便可以立刻显示出答案,Photomath可以通过帮助用户http://www.downcc.com/k/shuxuejisuanqi/
3.手机编程软件app下载安装手机编程工具大全3322软件站为用户整理了手机编程工具大全,包括c4droid、Python编译器、Pydroid3等多款好用的编程app。这些软件可以帮助用户在手机上直接编辑运行C/C++程序,并且支持代码高亮、语法检查等功能。为了帮助喜爱编程的小伙伴进行学习,还有Java编程狮、Python编程狮、扇贝编程、猿编程、编程狮app等。这些应用提供了很多免费教程和https://m.32r.com/zt/sjbcgj/
4.六款免费学习编程的app(非常详细),零基础入门到精通,看这一篇就够了想学编程,这几款免费学编程的软件可以了解一下! 1.C语言编辑器 C语言编辑器是一款非常精简的app,主要为C语言初学者提供核心的功能,能够随手验证一些小程序。 2. python编辑器 专业的编程内容设计,多种多样的语言选择,拥有完美的脚本,强大的功能,没有任何广告,能快速编写以及快速提示、自由复制等等。 https://blog.csdn.net/SpringJavaMyBatis/article/details/143502540
5.一文详细介绍最新的几款AI辅助编程工具,这些信息差你都知道吗大家好,这里是架构工具栈!点击上方关注,添加“星标”,一起学习大厂前沿架构! AI 辅助编程 关于AI辅助编程,最近咨询的小伙伴太多了,很多小伙伴一头雾水,不知道哪些可以免费使用,哪些需要付费使用,今天作个简单的盘点,跟大家分享一下最近体验过的几款AI产品。 https://zhuanlan.zhihu.com/p/673883104
6.计算机算法与问题求解用什么软件好MATLAB:作为一款强大的商业数学软件,MATLAB不仅支持算法开发,还具备出色的数据可视化、数据分析及数值计算能力。其丰富的运算符和库函数,使得算法实现更为简洁高效。此外,MATLAB还支持面向对象编程,并且具有良好的可移植性。 Python:Python以其简洁的语法和强大的库支持,在数据分析、机器学习等领域广受欢迎。对于算法求解https://agents.baidu.com/content/question/9c57223c5efdbbac5f313fd7
7.8款出色的AI数学工具Edu指南Socratic 于 2018 年被 Google 收购,已成为学生在数学、科学、文学和社会研究等广泛学科中寻求快速、可靠答案和深入解释的学习伴侣。通过利用先进的 AI 算法,该应用程序可以识别每个问题背后的核心概念,并从网络上的可信来源策划最相关的内容。 Socratic 的主要特点: https://www.shangyexinzhi.com/article/22320560.html
8.2021年度软件中心支持服务(机器学习算法及专业模型应用)项目”公中国银行软件中心“2020-2021年度软件中心支持服务(机器学习算法及专业模型应用)项目”公开邀请公告。https://www.boc.cn/aboutboc/bi6/202007/t20200703_18086660.html
9.算法学习app免费下载算法详解app是一款手机学习算法的app,为用户详解各种算法原理,图文并茂,让你可以更好的理解和学习算法模型,对于对编程感兴趣的朋友来说非常不错。需要的用户赶快来下载吧。 功能介绍 算法详解app这款应用解释了一些算法的细节并且还有更加详细的演示功能,帮助使用者更好的理解特定的算法。 https://www.fxxz.com/azsoft/288531.html
10.趣学算法(陈小玉著)带目录完整pdf[95MB]电子书下载趣学算法下载 投诉报错 书籍大小:95.7MB 书籍语言:简体中文 书籍类型:国产软件 书籍授权:免费软件 书籍类别:编程其它 应用平台:PDF 更新时间:2018-09-06 购买链接:京东异步社区 网友评分: 360通过腾讯通过金山通过 95.7MB 详情介绍 本书内容按照算法策略分为7章。 https://www.jb51.net/books/635507.html
11.360WiFi官网1、负责360免费WiFi安卓客户端的研发 任职资格: 1. 扎实的计算机基础知识,丰富的实际代码编写经验 2. 良好的数据结构和算法基础 3、熟悉 Java/C++,Android SDK/NDK 4、有 Android 商业软件的开发经验 5、如果你研究阅读过 Android 系统的源代码,会有加分 https://wifi.360.cn/help/joinus/
12.AI研报:关于人工智能算法在软件开发中的应用调研报告自动化代码生成是人工智能在软件开发中的一个重要应用领域。传统上,开发人员需要手动编写大量的代码,而人工智能可以通过学习现有代码库,自动生成新的代码片段。这不仅可以大大提高开发效率,还能降低代码错误率。例如,许多集成开发环境(IDE)已经集成了代码补全功能,它们基于机器学习算法分析上下文,为开发人员提供代码建议,极大https://www.hxsd.com/information/10168/
13.强!本科生在Nature(IF=36)发表文章,爆炸性信息!通过对这些深度学习在基因组学中的应用案例进行深度讲解和实操,让学员能够掌握深度学习分析高维基因组学、转录组学、蛋白组学等多组学数据流程,系统学习深度学习及基因组学理论知识及熟悉软件代码实操,熟练掌握这些前沿的分析工具的使用以及研究创新深度学习算法解决生物学及临床疾病问题与需求。https://new.qq.com/rain/a/20230324A01B9Z00
14.淮北高新区企业2022年2月招聘信息3、熟悉数字图像处理技术,有扎实的数字图像处理算法知识; 4、熟悉OpenCV,或熟悉Halcon或VisionPro等视觉软件库;了解机器视觉成像原理; 5、熟悉深度学习算法更佳, 6、熟悉图像的特征检测、模式识别等相关算法; 7、有强烈责任心,团队协作能力,以及独立解决问题的能力; https://gxq.huaibei.gov.cn/qyfw/qyzp/57001281.html
15.MVP机器视觉算法平台软件以AI赋能智能制造试用软件平台需要填写下方表单信息,信息提交后我们会在3个工作日之内与您联系。试用有效期:3个月;试用权限:算法平台&深度学习训练平台 姓名 公司 电话 E-mail 省份 请选择省份 城市 请选择城市 区/县 请选择区/县 备注 我已阅读并同意隐私政策 提交https://www.irayple.com/cn/productPage/Arith
16.中国首个运筹学算法平台正式发布打破国外高价商业求解器垄断技术人员可以从LEAVES平台上免费下载各个求解器,按照自身需求进行调整与使用。 LEAVES本身也可以看作是任何与运筹学建模、优化算法相关的软件展示平台。其中的重头戏,包括了由杉数科技牵头的机器学习算法求解器LEMO。LEMO采用了一系列国际最前沿的大规模凸优化与非凸优化技巧,目前对多个机器学习经典模型在单机上的求解速度https://www.guancha.cn/scroll-news/2017_10_18_431273.shtml
17.年薪50万!北航合肥创新研究院招募研究员!澎湃号·政务3、研究面向特定领域应用的人工智能算法,包括大数据分析与管理、多媒体应用技术、视觉内容理解、自然语言理解、光学信息处理、机器学习、人工智能学习平台等方向(注:开展一个或多个应用方向研究); 4、负责带领团队成员进行核心算法设计和实现,并进行系统软件的开发与维护; https://www.thepaper.cn/newsDetail_forward_4985535
18.中国开发者真实现状:不爱跳槽月薪集中在8K本次报告中,我们发现,AI 领域开发者中软件工程师占比最高,为 38.3%,可见软件工程师在 AI 领域也占重要地位。其次,机器学习/深度学习算法工程师、计算机视觉/图像识别/图像处理工程师都是较为热门的岗位,分别占 19.9% 和 15.5%。 不过,此次调研中,在机器学习/深度学习/神经网络成为开发者最感兴趣的方向同时,有https://www.36kr.com/p/1164571992032388.html
19.主流机器学习和数据挖掘软件包PurStarMahout是Hadoop大数据平台上的开源机器学习软件包。Mahout提供了在大规模集群上对大数据进行深度分析的能力。主流的数据挖掘和机器学习算法不断在Mahout平台上实现,包括聚类、分类、协同过滤(Collaborative Filtering,用于推荐)以及频繁集挖掘等众多的算法。 早期版本的Mahout使用MapReduce计算模型实现机器学习和数据挖掘算法。由https://www.cnblogs.com/purstar/p/14161970.html
20.训练集越多机器学习算法效果越好训练集数量训练集越多机器学习算法效果越好 训练集数量 作者为Google 软件工程师,美国西北大学电子信息工程博士,擅长大规模分布式系统,编译器和数据库。 从谷歌的机器学习代码中得知,目前需要一万亿个训练样本 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练https://blog.51cto.com/u_16099273/9301910
21.深度学习在人类基因组学中的应用:下一代测序数据的综述基因组学中的深度学习工具/软件/流程 图2 多个基因组学领域(例如变异调用和注释、疾病变异预测、基因表达和调控、表观遗传学和药物基因组学)充分利用高通量数据的生成,并利用深度学习算法的强大功能进行复杂预测(图2)。DNA/RNA测序技术和机器学习算法特别是深度学习的现代演进开辟了一个新的研究篇章,能够将大型生物数https://cloud.tencent.com/developer/article/2326627
22.数据治理新要求个人介绍:OPPO互联网应用研发平台及推搜算法部总经理,有超过14年的互联网广告研发经验,主导OPPO广告播放系统、搜索引擎等多项研发建设,也同时负责厂商应用体系数据搭建等工作。目前负责OPPO软件商店、游戏中心等研发工作,同时负责推搜部门整体技术探索及应用。 https://hub.baai.ac.cn/view/32749
23.数学的论文优秀(15篇)低年级的小组合作学习中,处理好学生的个性独立意识和集体合作意识、教师与学生的关系,才能有效的培养学生的独立思考能力,激发学生的竞争意识。 1.处理好师生的之间的关系 教学过程中的最重要的活动就是以学生为主的多动。所以,小组合作学习应该以学生的主体意识为出发点,把整个教学当作一部戏剧,教师作为“导演”,学生https://www.yjbys.com/biyelunwen/fanwen/shuxue/734624.html