零氪科技创始人张天泽:医疗大数据难点重重,高质量数据就是壁垒 指导  凯文撰写  李喆摘要:医疗行业信息化程度高,但存在大量非结构化数据,如何以低成本方式获得高质量临床数据是关键... 

医疗大数据一直是大数据应用领域的重要细分赛道,大数据与医疗结合,不仅仅会提升临床诊疗效果,还会对保险、药品研发等多个医疗健康领域产生深远影响,因此医疗大数据想象空间巨大。。

根据国务院40号文件,到2020年,全国医疗及健康行业市场规模会达到8万亿人民币,整个医疗行业信息化投入占比在1%左右,当硬件、基础软件完成采购后,预算会向大数据倾斜,因此未来医疗大数据领域至少是个千亿级市场。

医疗领域主要分为三类数据,生活数据、健康数据和临床数据。这其中临床数据最为关键,数据维度最多、质量最高,其他两类数据存在两大问题:数据采集质量难以保障,数据维度单一,只能作为交叉验证的辅助。

因此,外部数据源很难对医疗大数据产生正向推动作用,获取临床数据成为关键,而临床数据基本都掌握在各大医院手中,这就使得医疗大数据成为一个进入门槛很高的领域,所有大数据公司必须通过服务医院来获取数据。

由于中国医疗资源极其不平衡,顶级三甲医院掌握着绝大多数优质患者数据,特别是在一些癌症病例,一个医院很可能掌握全国90%的某种肺癌患者数据。这就使得服务中小医院价值非常有限,只有服务顶级医院才能获取优质数据。

获取医院客户只是刚刚开始。医疗行业是信息化程度很高,但数据化程度很低的领域,绝大多数医院已经实现了HIS系统全覆盖,通过HIS系统可以采集到不少患者数据。但由于患者信息的底层逻辑不清晰,使得这类患者数据多数为非结构化的文档数据,没办法直接做数据分析与应用,因此数据清洗是医疗大数据的另一个难点。

传统做法是由CRO(临床研究机构)派人到现场采集临床数据,这类数据的获取成本极高,单个患者的病例数据成本超过1000美金。

综上所述,爱分析认为,医疗大数据处于极为早期阶段,帮助行业客户打好数据基础是第一步,整个行业还处于数据化阶段,高质量数据目前还是非常重要的竞争壁垒。

因此,对医疗大数据公司而言,获取标杆客户和降低数据清洗成本是两个关键因素,能够拥有或接触大量优质临床数据是目前最重要壁垒。

目前,国外已经跑出不少医疗大数据公司。Inovalon于2015年登陆纳斯达克,市值20亿美金;电子病历Flatiron去年完成1.75亿美金C轮融资。

国内市场尽管处于早期阶段,但仍然出现了碳云智能、零氪科技、医渡云、推想科技等多家医疗大数据公司,其中2014年成立的零氪科技发展势头凶猛。

尽管成立不到三年,零氪科技的团队规模已经超过800人,服务于包括北京协和、四川华西、中南湘雅等全国顶尖医院在内的400家医院,建立结构化电子病历,辅助医生进行临床科研和诊疗,同时建立一支200人的患者随访团队,帮助医院了解患者离院状况。

零氪科技将大量人力投入到数据采集和清洗工作,100人研发团队主要利用机器学习技术实现医疗数据的结构化,300人的临床团队主要在客户现场进行数据标注和收集HIS系统外的数据。

再加上患者随访团队,零氪科技实现临床数据的闭环,建立起患者的多维度数据,为下一步应用奠定基础。

零氪科技为大医院和中小医院提供不同服务,大型医院的科研需求旺盛,零氪科技主要通过HUBBLE和EDC系统辅助医生做临床研究。同时,将部分研究成果沉淀在产品中,这些研究成果可以为中小医院提供辅助诊疗支持,这部分业务多数以SaaS形式实现。

就目前而言,零氪科技的主要业务仍然是帮助大型医院做数据采集、数据结构化等,辅助管理、辅助科研、辅助诊疗的HUBBLE系统刚刚上线,辅助诊疗的产品同样刚刚起步。不过,通过三年积累,零氪科技已经获取不少肿瘤医院客户,建立肿瘤患者数据库,数据基础已经打牢,业务即将进入爆发阶段。

医疗是高信息化、低数据化的行业

爱分析:大数据、AI技术发展对医疗行业将起到哪些作用?

张天泽:需求是牵引方,技术是驱动方。如果团队只有技术基因,往往不知道产业需求是什么,做产业转化很困难。因此,医疗行业是个强业务导向行业,业务占六七,技术占三四。

互联网经常讲“试错”,但医学底层逻辑是不能证明对,就不能做,不能拿患者来“试错”,非常强调需求牵引。

爱分析:医疗行业有大量数据,为什么这些数据没有被使用起来?

张天泽:医疗和金融有很相似的地方,每次决策都围绕数据开展。尤其是西医分科治学后,医学已经完全被数据驱动。

例如,CFDA审查药品完全靠数据评价药品有效性,人社部用HUR(药物经济效率)来评价药品该不该报销,卫计委用临床路径来评价这种治疗路径对患者受益是不是最多和普适性是否足够高。

不同在于,金融行业每个动作所产生的数据都是结构化的,而医疗行业产生的都是非结构化数据,只能算是电子化信息。患者产生的信息都是“黑盒”,底层逻辑不清楚,没办法用几个指标“刻画”一次治疗,医生只能用开放式方法记录这次治疗情况。

所以,医疗行业产生的都是大量文档,而且很多以图片形式存在,比如影像、病理资料。有些看似结构化而实际以非结构化存储的数据,如药品使用情况。

因此,HIS系统已经很普遍的情况下,产生的仍然是大量非结构化的业务数据。

数据质量、密度和获取成本是重要指标,其他领域数据价值有限

爱分析:既然数据这么重要,什么样才算有价值数据?

张天泽:有三个存在先后顺序的指标,依次满足才是高质量数据。

第一,数据质量。数据质量就是数据的真实性、准确性、颗粒度是否够细。真正能做临床研究、药品评价的才是最高级别的数据。

不同质量级别的数据能满足需求是不同的,并非只唯数据量论,100倍低质量等级的数据也无法满足高级别数据的需求。

数据质量决定了所能提供的业务范围,决定能否做咨询、解决方案。

数据质量如何评价呢?用GCP(药物临床实验质量管理规范)就能评价,一致率、准确率、颗粒度是否够细,有没有原件,这些都是GCP对好数据定的标准。

第二,数据的密度。比如说,十万例数据如果是包含有门诊、挂号,体检等多个类别的数据,这样意义不大,但如果这10万例数据全部是肺癌,更或是非小细胞肺癌,那这个体量的数据基本就可以回答人类对非小细胞肺癌的近乎全部问题了,价值巨大。

数据密度背后的逻辑是分科治学。单点突破能够提供巨大的医学、社会和商业价值。

第三,获取这类高质量数据的成本。过去主要是CRO用数据,受药企委托采集数据,获得患者的用药数据。

以前获取一例病历数据的成本在1000-10000美金,因此,需要考虑采集成本,能否提升效率。如果是百倍效率提升,那这个模式就有颠覆性。

爱分析:单个医院在某种病例上的数据密度高么?

张天泽:假设我们跟协和合作,因为协和是顶级医院,看起来如果帮助协和把数据都处理好,就能把人类医学问题解决了,因为相当于可以洗出来所有数据。但实际情况是,不同医院在筛选病人时都有自己的特点,在肺癌领域,协和面对的可能只是一类病人,所以单个医院的疾病谱是不全的。

所以,一直做医疗大数据有两类观点。第一类是做大医院,与单个大医院合作,帮助他们把所有数据都处理了;第二类是做单病,同一种病跟全国的医院合作,重点解决同一类问题。

第一种做法效率很低,因为不研究这类病的业务,就没办法把这类病需要的结果都找出来,所以,一个医院的数据很难清洗完全。同时,攒的数据不够多,密度不够大。一个大医院能拥有几千万病例,但真正到一个垂类时数据不多,而且这类数据即使汇聚十年数据,他的疾病谱也不完整。

爱分析:医疗这个行业是不是不需要外部数据,只需要依赖客户自身的数据?

张天泽:对,医疗数据就分三类,最浅的是生活数据,第二类是健康数据,第三类是医学数据。这里面数据颗粒度和可信度是完全不同的,医院数据是最可信的,每一个检查检验都通过了CFDA设备检测。

用腕表、血糖监护等移动设备收集的是院外健康数据,这些数据可信度存疑,往往是比较松散,交叉数据不够多,数据种类比较单一。医疗数据的特点是必须多个维度,只看到一个侧面的数据是远远不够的。

生活数据如饮食量、走路步数等,可以用于交叉匹配,单独使用价值很低。

因此,这个行业的特点是,带着场外资源进场很难会比现有公司做的更好。

机器学习+人工标注是主流数据清洗方式

爱分析:目前主要有哪几种采集数据的形式?

张天泽:其实就是清洗数据方式不同。第一类是用机器洗数据,搜索引擎方式做分词;第二类是用人工洗数据,派人到现场录,跟以前CRO类似。第三类是人工做标注,然后再用机器做机器学习,两项结合,才能产生有质量数据。

机器洗数据,最大挑战是病历书写太不规范,不能遍历所有医生的表达方式和习惯。就连在数据规范做的最好的美国,Google都承认算法是永远写不出医学数据背后的业务特征。所以Google投资了第三类公司FlatironHealth。做法是先做标注,标注后用机器学习继承人对病历的书写,始终保持人来标注数据,而不会全部交给机器。

第二类方式,一方面,采集数据的成本会随着团队规模越大而越来越高,主要是因为管理成本增加;另一方面,最初是与头部医院合作,数据密度大,当与腰部医院合作时,数据密度小,效率会降低。

我们现在用第三类方式,随着规模扩大,每份病历的成本在不断减低,而且数据质量最高。

爱分析:做数据清洗时,人工标注工作会不会考虑外包出去?

张天泽:不会,人工标注是强业务导向,这些人需要能看懂病理报告,市场上都找不到像这样的一百人团队做业务标注的。

辅助头部医院科研,辅助腰部医院诊疗

爱分析:零氪科技(LinkDoc)有哪些核心技术,能够解决什么问题?

张天泽:第一个问题是临床医生做科研的时候,有大量患者和病历,怎么把非结构化的HIS数据,变成充分结构化、质量高、成本低的数据。LinkDoc自主研发的结构化引擎DRESS,关于其核心算法,我们和北美最好的肿瘤医学院FredHutchinson已经共同发文——用AI技术驱动把非结构化数据变成结构化,配套一些做标注、质量控制的系统。主要解决临床科研问题,只有这个数据才能做后续业务。

形成假设后,需要用小样本数据来验证假设,做项目制数据管理。这时候,是我们的EDC系统专门做数据采集和数据分析,就是按项目分析小样本数据。围绕具体项目,用医学统计方式解决问题。

产生大量学术观点后,学术观点的博弈就变成了指南,指导医生治疗。所以,在临床阶段,我们的AI系统会变成辅助诊断的模块和插件。在患者治疗时,这种相应的提示和预警会弹出来。

临床AI一直有两种方式,一种是主动式的,主动去问,系统才会反馈,另一种是被动式,持续在后台工作,遇到问题自动弹出。

爱分析:头部医院和腰部医院的需求应该有差异,LinkDoc主要服务哪类医院?

爱分析:从头部医院获取的数据价值是如何提供给其他医院的?

张天泽:谁的数据归谁用,这是底层逻辑。每家医院加工自己的数据、管理数据、使用数据,整体数据背后的认知和解决方案是可以回归到临床,让其他医院的医生去使用,包括并发症预测、肺癌手术方案预测等。

爱分析:给其他医院提供的是SaaS产品还是本地软件?

张天泽:是SaaS产品,这里面的辅助决策和诊断,不是稳定模型。最大难度在于颗粒度不细,只有通过SaaS才能非常精细化解决个人问题。实时不断刷新、使颗粒度变细,还能个性化针对性解决问题,这是只有SaaS能做。

先发优势明显,数据采集和清洗需要大量人力

爱分析:如果医院选择LinkDoc产品后,很难会去选择第二家公司的产品么?

张天泽:很难,这个行业不是可以被补贴出来,不会被营销所打动。医生和患者不会被低补贴所打动,高补贴又很难持续,这个行业完全是价值驱动的。

爱分析:目前LinkDoc团队规模大体是什么样?

张天泽:我们总部有300人,客户现场临床有300人,还有200人做患者随访。

爱分析:临床那个团队现在主要工作是什么?

张天泽:HIS系统对接后仍然有很大挑战,大量工作是为了确保临床采集质量高、合规。首先是数据合规性,包含现场脱敏、患者知情告知的签署等;其次是数据完整性,HIS系统能采集到的数据是不完全的,我们还需要做一些采集工作,纸质文件的拍照上传等。

爱分析:组建200人团队做患者随访是处于哪些考虑?

张天泽:到患者出院时,只是完成了上半场,没有后面患者康复情况、有没有继续治疗等结果。临床的操作数据是只有输入没有输出的,这样无法指导后续决策的。

没有随访是整个行业问题,所以,我们建立了随访中心,帮助各个医院把随访结果收集上来,医生可以借此来写论文。

THE END
1.机器学习面临的三个关键数据挑战当前,关于捕获哪些元数据没有行业标准。然而,元数据与数据本身一样重要。当您具有填充了不同元数据字段的相同类型的数据时,如何关联和过滤数据? 如果以浮标为例,初始数据传感器每十分钟收集一次水温,而较新的浮标每三分钟收集一次水温。关联数据的唯一方法是通过元数据在捕获时公开。当科学家进行历史分析时,他们需要元https://www.528045.com/article/7f423917e5.html
2.排序不完全成功的原因是什么?这种问题如何影响数据处理?在数据处理的领域中,排序不完全成功是一个较为常见但又颇为关键的问题。造成排序不完全成功的原因多种多样。首先,数据的复杂性和多样性是一个重要因素。当数据包含多种类型、格式不一致或者存在大量的缺失值时,排序算法可能无法准确地处理和比较这些数据,从而导致排序结果不完全准确。 https://funds.hexun.com/2024-12-18/216258656.html
3.四不像正版资料,构建解答解释落实m418.39.40看点在数据分析的世界里,我们经常会遇到各种看似杂乱无章的数据,这些数据就像“四不像”一样,难以直接归类和解释,正是这些“四不像”的数据,往往蕴含着最有价值的信息,本文将深入探讨如何构建、解答和落实这些“四不像”的正版资料,以期为数据分析师提供一套实用的方法论。 https://www.yzcjl.cn/post/5569.html
4.四不像正版资料,综合解答解释落实1b93.47.84最新我们时常会遇到一些难以直接归类或解释的数据集,这些数据被形象地称为“四不像”数据,它们既不完全符合传统的结构化数据特征,也不具备典型的非结构化数据模式,同时在半结构化数据的范畴内也显得格格不入,甚至超越了多结构化数据的复杂度,本文旨在深入探讨这类特殊数据的处理策略,提供综合解答,并确保解决方案的有效落实https://vip.cshuijitang.cn/post/2894.html
5.数据分析面临的挑战是什么会计实务答:提高数据分析效率的关键在于建立一套完善的数据管理和清洗流程。通过自动化工具和算法,可以快速识别和处理数据中的错误和不一致,从而提高数据质量。同时,利用先进的分析技术和工具,如大数据平台和云服务,可以加速数据处理和分析的过程,提高整体效率。 在数据安全方面,企业应采取哪些措施来保护用户隐私? https://www.chinaacc.com/kuaijishiwu/krky/zh20241216112531.shtml
6.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!文章介绍了两种新的决策树框架LDATree和FoLDTree,它们结合了不相关线性判别分析(ULDA)和前向ULDA。这些方法能够高效地进行斜切分,处理缺失值,支持特征选择,并提供类标签和概率作为模型输出。通过在模拟和真实数据集上的评估,LDATree和FoLDTree在准确率上与随机森林相当,显示出作为传统单树方法的稳健替代方案的潜力。 https://www.bilibili.com/read/cv40067807
7.数据孤岛“孤”在哪里?不同部门或系统可能采用不同的数据格式来存储和处理数据,造成了数据格式多样杂乱。https://www.zhihu.com/question/440784592/answer/57419373127
8.清博智能王欢:实时接入结构化数据的大语言模型是如何练成的?结构化数据和非结构化数据有何不同? 王欢:非结构化数据,比如说你现在访问的网页,你只看正文部分它就是文本,它的内容就是原始正文。搜素引擎看的就是原始正文,给它训练的数据也是原始正文。 结构化数据不仅知道它的原始正文信息,还对这些信息做了结构化处理,包括发布提及的地域信息、文本分词信息、内容分类以及正负https://m.cls.cn/detail/1388555
9.2022年中国知识图谱行业研究报告澎湃号·湃客澎湃新闻同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业务中,收集碎片化信息,处理非结构化数据,挖掘信息间的潜在联系,还原完整的、有价值的信息。然而,信息的关联关系挖掘是一项工作量巨大且复杂的工程。https://www.thepaper.cn/newsDetail_forward_19458208
10.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html
11.RPA机器人在处理非结构化数据时,有哪些挑战和解决方案?强化异常处理能力: 开发健全的异常处理机制,包括自动化的错误恢复和报警系统,以确保RPA在面对非结构化数据处理中的异常情况时能够迅速应对。 综上所述,虽然RPA在处理非结构化数据时面临诸多挑战,但通过结合先进技术、进行数据预处理、持续监控与调整以及强化异常处理能力等措施,我们可以有效地提升RPA在这方面的性能。https://www.ai-indeed.com/encyclopedia/9960.html
12.数据治理新要求2018 年初加入度小满金融开始组建数据智能部,从0到1建设度小满金融的智能引擎的核心算法,深耕计算机视觉、自然语言处理、图模型、机器学习、因果推断等技术能力,多篇文章被EMNLP、ACL、CIKM等国际顶会收录,“智能化征信解读中台”工程荣获吴文俊人工智能科技进步奖。相关技术广泛应用于度小满营销、经营、风控、反欺诈全流程https://hub.baai.ac.cn/view/32749
13.0.技术知识介绍:工业级知识图谱方法与实践1.3.1 非结构化数据的知识建模 1.候选术语抽取[目的是过去更多、更全的术语] 2.术语过滤[剔除低质量候选术语] 领域术语与普通词汇有不同特征,可以采用统计信息和语义信息过滤噪声,常见方法:互信息(MI)、词频逆文档频率(TF-TDF),术语相关频率(RTF)等定量刻画统计特征,或者用词向量方式捕捉术语之间的语义相关度刻画https://download.csdn.net/blog/column/12167028/126426906
14.大数据一般用什么数据库大数据领域的数据库通常使用开源软件,如Hadoop、Cassandra等,相比于传统的商业关系型数据库,成本更低。 综上所述,大数据领域的数据库相对于传统的关系型数据库,具有更好的可扩展性、高可用性、更快的处理速度、更好的适应非结构化数据和更低的成本等优势。https://www.linkflowtech.com/news/2745
15.非结构化数据灾难恢复方法有哪些?非结构化信息数据恢复主要针对3种不同的故障类型进行恢复工作,其基本原理是利用日志文件、副本来对系统中的非结构化信息进行恢复。 1.事务故障恢复 对于事务故障,利用保存在磁盘上逻辑日志以及物理日志中关于故障事务的信息,来撤销故障事务对非结构化信息所产生的影响。其具体的恢复步骤如下: https://www.qinfeng.gov.cn/info/4283/194279.htm
16.研究生开题报告模板这些非结构化数据库因为可扩展性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解决https://www.yjbys.com/file/yanjiushengkaitibaogaomoban.html
17.大数据中非结构化数据的挖掘:文本一、 点击流中的非结构化文本数据都有哪些? 首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的数据,包括原始LOG日志以及已经被结构化入库中的部分数据,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data。当然,有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如https://www.51cto.com/article/432085.html