需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体包括:
利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本;
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果;
在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体;
对所述待挖掘医疗数据进行自然语言处理以及数据结构化处理,得到结构化医疗文本;
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期;
对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期;
若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图3示意性示出根据本发明示例实施例的一种对待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。
图4示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。
图5示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
通过网络接口接入临床试验管理系统的方案,在上述方案中属于技术层面最为高效的解决方案。但是由于在项目过程中存在临床试验申办方、研究机构、服务提供方之间多种网络的交互,涉及到异构网络系统兼容性、数据访问权限、(敏感)数据安全性等问题,对外网络接口基本所有医院目前都不对外提供,并且在可预见的未来短期内依然不会对外开放。
同时,由于临床试验项目的原始数据主要存在于医院his系统及临床实验中心系统中,因此可以直接从his系统中获取临床试验数据。并且,本发明示例实施例依托于dpap(dataprocess&applicationplatform,医学数据智能平台)数据集实现对临床试验数据挖掘、处理;其中,his系统中存放的患者电子数据;且患者电子数据以二维表形式存放。
以下,对步骤s110-步骤s130进行解释以及说明。
在步骤s220中,利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。
在本示例实施例中,当得到上述数据挖掘模型以后,可以直接将待挖掘医疗数据输入至该数据挖掘模型中,即可以得到上述事件实体以及与事件实体对应的日期实体。
进一步的,为了可以更进一步的对事件实体以及日期实体的挖掘过程进行解释以及说明,以下将结合图3-图5对事件实体以及与事件实体对应的日期实体的挖掘过程进行进一步的解释以及说明。
具体的,参考图3所示,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体可以包括步骤s310-步骤s340。其中:
在步骤s310中,利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本。
以下,将对步骤s310-步骤s340以及与其对应的步骤进行解释以及说明。首先,临床试验的关键事件信息主要是存放在临床试验管理系统中,但是如上文所述由于临床试验的严谨性,一般his系统中对应的上级查房记录、出入院记录等医生手书的自由文本中会有一定的文字描述,这就给实际临床试验项目数据挖掘提供必备的基础。具体文字描述(待挖掘医疗数据)举例如下:
“***主治医师查房:考虑患者初步符合a*****研究入组要求,**主治医师于2015-9-25与其沟通病情并充分介绍该项研究内容后,患者表示理解无疑问后同意参加a*****研究,由于患者无阅读能力,由**为中立见证人,**主治医师为患者及中立见证人讲解此知情同意书,由其女儿代签署a*****研究知情同意书(版本日期:2015年3月17日),**作为中立见证人签字,将一份三方均签字和签日期的知情同意书给受试者保留,同时研究者留存一份放入文件夹。”
其中,“实体描述距离得分”指某个具体实体到达同一句子中一类实体的文本文字距离之和的均值倒数,即如果某个实体离指定的一类实体越远,那么两者之间的关系越疏离,如以某个日期实体描述距离得分公式为:
图4示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。参考图4所示,该对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还可以包括步骤s410-步骤s430。其中:
在步骤s410中,在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果。
在步骤s420中,在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体。
以下,将对步骤s410-步骤s430进行解释以及说明。具体的,his系统中所记录的患者某次就诊是属于受试者访视行为还是患者常规就诊的一个重要判断依据就是本次就诊是否处方了临床试验药物。即,如果患者某次就诊被处方了临床试验药物,那么本次就诊大概率是临床试验访视。就目前医院存放临床试验药物处方信息的位置主要包括:his系统和临床试验管理系统。如上文所述,目前临床试验管理系统由于各种原因基本不对外提供网络接口,所以目前可行方案只能是从his系统里面挖掘临床试验药物处方信息。并且,在受试者实际访视过程中,只要是经过医院挂号而进行规范就诊步流程的临床试验访视,his系统均有相应的数据记录。同时其结构化的处方信息一般存储于就诊医嘱,而非结构化的处方信息一般存储于诊疗记录等自由文本中。
图5示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。参考图5所示,该对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还可以包括步骤s510-步骤s530。其中:
在步骤s510中,在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期。
在步骤s520中,对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期。
在步骤s530中,若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。
以下,将对步骤s510-步骤s530进行解释以及说明。具体的,根据临床试验方案,一般临床实验项目在受试者访视日期前后会做相应的检查检验项目,用于进行研究分析,如上述表1所示的临床试验需要在每个访视周期的第1天,在第一、第二访视周期的第14天、第21天需要做血液学、血生化等实验室检验。
具体的,访视日期反馈预估主要是通过本次挖掘得到的访视方式日期反馈给数据挖掘算法,并根据临床试验方案中的访视周期长度预估下一次的访视日期,以此规避那些对应可能出现的临床试验数据在his系统里面遗失的情况。正常而言,如果临床试验数据在his系统里面出现遗失的情况,已经完全超出esource框架数据挖掘能力范围,完全需要进行人为干预,但是出于对esource框架的自动化追求,本发明通过进行访视日期反馈预估进行填补一部分遗失的访视日期。
访视日期反馈预估主要步骤如下:(1)根据本次访视日期反馈给算法,并加上正常访视周期估算下次访视日期;(2)如果估算得到的下次访视日期出现在周末或者节假日,那么根据自适应窗口长度进行访视日期调整;(3)比较估算访视日期和实际访视日期的差异,学习crc在遇到周末节假日等医院不上班情况,并学习crc对计划方式日期调整的行为习惯,提高估算准确度。其中,节假日日期于每年12月中旬通过网页抓取、数据挖掘实现;机器学习准则采用公式:
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830以及显示单元840。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(rom)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。