访视时间表生成方法及装置存储介质电子设备与流程

需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素:

利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。

在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体包括:

利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本;

在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:

在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果;

在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体;

对所述待挖掘医疗数据进行自然语言处理以及数据结构化处理,得到结构化医疗文本;

在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期;

对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期;

若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。

根据本公开的一个方面,提供一种电子设备,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图3示意性示出根据本发明示例实施例的一种对待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。

图4示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。

图5示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

通过网络接口接入临床试验管理系统的方案,在上述方案中属于技术层面最为高效的解决方案。但是由于在项目过程中存在临床试验申办方、研究机构、服务提供方之间多种网络的交互,涉及到异构网络系统兼容性、数据访问权限、(敏感)数据安全性等问题,对外网络接口基本所有医院目前都不对外提供,并且在可预见的未来短期内依然不会对外开放。

同时,由于临床试验项目的原始数据主要存在于医院his系统及临床实验中心系统中,因此可以直接从his系统中获取临床试验数据。并且,本发明示例实施例依托于dpap(dataprocess&applicationplatform,医学数据智能平台)数据集实现对临床试验数据挖掘、处理;其中,his系统中存放的患者电子数据;且患者电子数据以二维表形式存放。

以下,对步骤s110-步骤s130进行解释以及说明。

在步骤s220中,利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。

在本示例实施例中,当得到上述数据挖掘模型以后,可以直接将待挖掘医疗数据输入至该数据挖掘模型中,即可以得到上述事件实体以及与事件实体对应的日期实体。

进一步的,为了可以更进一步的对事件实体以及日期实体的挖掘过程进行解释以及说明,以下将结合图3-图5对事件实体以及与事件实体对应的日期实体的挖掘过程进行进一步的解释以及说明。

具体的,参考图3所示,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体可以包括步骤s310-步骤s340。其中:

在步骤s310中,利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本。

以下,将对步骤s310-步骤s340以及与其对应的步骤进行解释以及说明。首先,临床试验的关键事件信息主要是存放在临床试验管理系统中,但是如上文所述由于临床试验的严谨性,一般his系统中对应的上级查房记录、出入院记录等医生手书的自由文本中会有一定的文字描述,这就给实际临床试验项目数据挖掘提供必备的基础。具体文字描述(待挖掘医疗数据)举例如下:

“***主治医师查房:考虑患者初步符合a*****研究入组要求,**主治医师于2015-9-25与其沟通病情并充分介绍该项研究内容后,患者表示理解无疑问后同意参加a*****研究,由于患者无阅读能力,由**为中立见证人,**主治医师为患者及中立见证人讲解此知情同意书,由其女儿代签署a*****研究知情同意书(版本日期:2015年3月17日),**作为中立见证人签字,将一份三方均签字和签日期的知情同意书给受试者保留,同时研究者留存一份放入文件夹。”

其中,“实体描述距离得分”指某个具体实体到达同一句子中一类实体的文本文字距离之和的均值倒数,即如果某个实体离指定的一类实体越远,那么两者之间的关系越疏离,如以某个日期实体描述距离得分公式为:

图4示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。参考图4所示,该对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还可以包括步骤s410-步骤s430。其中:

在步骤s410中,在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果。

在步骤s420中,在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体。

以下,将对步骤s410-步骤s430进行解释以及说明。具体的,his系统中所记录的患者某次就诊是属于受试者访视行为还是患者常规就诊的一个重要判断依据就是本次就诊是否处方了临床试验药物。即,如果患者某次就诊被处方了临床试验药物,那么本次就诊大概率是临床试验访视。就目前医院存放临床试验药物处方信息的位置主要包括:his系统和临床试验管理系统。如上文所述,目前临床试验管理系统由于各种原因基本不对外提供网络接口,所以目前可行方案只能是从his系统里面挖掘临床试验药物处方信息。并且,在受试者实际访视过程中,只要是经过医院挂号而进行规范就诊步流程的临床试验访视,his系统均有相应的数据记录。同时其结构化的处方信息一般存储于就诊医嘱,而非结构化的处方信息一般存储于诊疗记录等自由文本中。

图5示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。参考图5所示,该对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还可以包括步骤s510-步骤s530。其中:

在步骤s510中,在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期。

在步骤s520中,对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期。

在步骤s530中,若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。

以下,将对步骤s510-步骤s530进行解释以及说明。具体的,根据临床试验方案,一般临床实验项目在受试者访视日期前后会做相应的检查检验项目,用于进行研究分析,如上述表1所示的临床试验需要在每个访视周期的第1天,在第一、第二访视周期的第14天、第21天需要做血液学、血生化等实验室检验。

具体的,访视日期反馈预估主要是通过本次挖掘得到的访视方式日期反馈给数据挖掘算法,并根据临床试验方案中的访视周期长度预估下一次的访视日期,以此规避那些对应可能出现的临床试验数据在his系统里面遗失的情况。正常而言,如果临床试验数据在his系统里面出现遗失的情况,已经完全超出esource框架数据挖掘能力范围,完全需要进行人为干预,但是出于对esource框架的自动化追求,本发明通过进行访视日期反馈预估进行填补一部分遗失的访视日期。

访视日期反馈预估主要步骤如下:(1)根据本次访视日期反馈给算法,并加上正常访视周期估算下次访视日期;(2)如果估算得到的下次访视日期出现在周末或者节假日,那么根据自适应窗口长度进行访视日期调整;(3)比较估算访视日期和实际访视日期的差异,学习crc在遇到周末节假日等医院不上班情况,并学习crc对计划方式日期调整的行为习惯,提高估算准确度。其中,节假日日期于每年12月中旬通过网页抓取、数据挖掘实现;机器学习准则采用公式:

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830以及显示单元840。

存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(rom)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

THE END
1.数据挖掘概念(AnalysisServices与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。 该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: 您在查找什么?您要尝试找到什么类型的关系? https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.深度学习数据挖掘的关系mob64ca12f66e6c的技术博客下图是深度学习模型与数据挖掘过程的序列图: 结尾 以上便是有关深度学习与数据挖掘之间关系的基本流程及其代码实现。在整个过程中,深度学习能够为我们提供强大的预测能力,而数据挖掘则提供了将这些预测结果转化为实际知识的能力。希望这篇文章能够帮助你理解二者之间的关系,并给你在未来的学习和工作中提供指导。通过不断https://blog.51cto.com/u_16213457/12827856
3.数据仓库与数据挖掘实验报告,演示范文聚类分析挖掘过程图解26 3.2 数据集挖掘结果https://www.360wenmi.com/f/file815v1res.html
4.CNN深入浅出讲解卷积神经网络(介绍结构原理)全连接层往往在分类问题中用作网络的最后层,作用主要为将数据矩阵进行全连接,然后按照分类数量输出数据,在回归问题中,全连接层则可以省略,但是我们需要增加卷积层来对数据进行逆卷积操作。 3、CNN的训练过程图解 ?图7 CNN的训练过程图解 前向传播阶段: https://blog.csdn.net/kevinjin2011/article/details/124944728
5.scikitlearn中的无监督聚类算法fifbroK 均值聚类(K-Means Clustering)是最基础和最经典的基于划分的聚类算法,是十大经典数据挖掘算法之一。它的基本思想是,通过迭代方式寻找K个簇的一种划分方案,使得聚类结果对应的代价函数最小。特别地,代价函数可以定义为各个样本距离所属簇中心点的误差平方和(SSE)。 https://www.cnblogs.com/xc-family/p/11006525.html
6.图解机器学习KNN算法及其应用实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击这里获取本文[40]图解机器学习 | KNN算法及其应用『房屋出租价格预测数据集』 ?ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub 5.1 分类过程 已知的数据集中,每个已出租住房都有房间数量、厕所数量、容纳人数等字段,并有对应https://www.showmeai.tech/article-detail/187
7.mes系统图解零代码企业数字化知识站MES系统能够采集生产过程中的各种数据,如设备运行数据、生产进度数据、质量数据、库存数据等,并进行数据处理和分析,提供各种数据报表和分析结果,帮助管理层了解生产现场的情况,做出相应的决策。数据采集与分析模块还可以进行数据挖掘,发现生产过程中的潜在问题,找出问题的根本原因,进行持续改进。通过数据采集与分析,MES系统https://www.jiandaoyun.com/blog/article/513306/
8.CAUP70年袁烽孙童悦:数字包豪斯——同济建筑的建构教育与实践在这个过程中,数据信息在模拟与现实之间构建了沟通的桥梁。通过数字孪生技术与智能建造机器人,设计师能够以一种高自由度、高精度、高效率的方式,达成设计方案和建造结果之间的无缝衔接(见图8)[49]。 8.数字包豪斯建筑设计智能链方法图解 这一套智能链设计与建造流程,在乌镇“互联网之光”博览中心的项目中得到了https://caup.tongji.edu.cn/b6/91/c33419a308881/page.htm
9.会计档案电子化的发展历程5. 云计算和大数据时代:近年来,云计算技术和大数据分析的广泛应用,使得企业能够更好地利用电子化的会计档案进行数据挖掘和分析,为业务决策提供更有力的支持。 总的来说,会计档案电子化的发展历程与信息技术的进步、法规标准的制定以及商业需求的不断演进密切相关。未来随着人工智能、区块链等新型技术的应用,会计档案的https://www.huatuxx.com/xinwen/12747.html
10.www.tjxuansheng.com/yyys/19790361.htm客户航司真实的使用体验、详尽的运行数据、各环节的反馈等,均有助于飞机的创新和完善。同时,航司运营服务带给旅客的全方位体验,也将参与一款飞机在大众眼中的形象塑造。!$| 更何况,很多卖家的申诉过程也说不上顺利,他们大多在申诉的过程中感受到孤立无援,发起申诉像是主动走进一个"自证陷阱"。&“/ http://www.tjxuansheng.com/yyys/19790361.htm
11.FCS24大模型生成式信息抽取综述受约束的自回归生成(Constrained decoding generation):指的是在生成文本时,遵循特定的约束或规则的过程。 小样本学习(Few-shot learning):小样本学习仅能访问少量带标注的示例,因此面临诸如过拟合以及难以捕捉复杂关系等挑战。 监督微调(Supervised fine-tuning):利用所有训练数据对大语言模型进行微调是最常见且最有前景https://zhuanlan.zhihu.com/p/12045694510
12.内蒙古科技大学研究生招生专业课考试大纲内蒙古科技大学2019年研究生招生专业课考试大纲 学院代码:001 学院:材料与冶金学院 联系电话:0472-5951571学院代码:002 学院:矿业研究学院 联系电话:0472-5954307https://www.xuanxiao100.cn/xuanxiao/1114055.html
13.Python3Gdal手把手教你给Anaconda的Python安装GdalGDAL库由OGR和GDAL项目合并而来,OGR主要用于空间要素矢量矢量数据的解析,GDAL主要用于空间栅格数据的读写。 该库在C/C++/python/ruby/VB/java/C#(这个暂时不完全支持)下都能用。 电脑环境准备 Anaconda版本: Python版本: Gdal安装过程 1.首先打开Anaconda Prompt: https://cloud.tencent.com/developer/article/1621201
14.AndroidContentProvider的启动过程[图解]Android源码分析——ContentProvider的启动过程 ContentProvider的启动过程ContentProvider的启动过程一.query方法调用AMS ContextWrapper.java中getContentResolver方法的ContentProvider用于进程内和进程间的数据共享。 当ContentProvider没有启动,调用其增删查改中的任意一个方法,都会启动ContentProvider。一.query方法 https://www.pianshen.com/article/70621376230/
15.教学评价系统范文12篇(全文)根据前面的分析可知,整个数据挖掘过程主要同由三个阶段组成:数据准备数据预处理、结果的分析和解释。如下图7所示。数据准备这一步骤很重要,它决定着数据挖掘的成功对于数据挖掘的成功,数据准备大致分为3步:数据集成、数据选择、数据整合。知识析取是数据挖掘的技术核心,它是在确定挖掘任务的基础上,将准备好的数据进行https://www.99xueshu.com/w/ikey2hgovcxk.html
16.详解SQLServer2008R2数据库SSAS建模及扩展能力mssql2008SQLServer 2008 R2数据库中提供的SSAS建模工具包括包括SQL Server Management Studio 和Business Intelligence Development Studio,那么建模的过程是怎样的呢?本文我们就来介绍这些,接下来就让我们来一起了解一下SQLServer 2008 R2数据库的建模工具和关键过程以及数据挖掘、权限和访问接口等的知识吧。 https://www.jb51.net/article/71205.htm
17.软考高级——信息系统项目管理师(第4版)思维导图模板数字化管理。数字化管理是企业通过打通核心数据链,贯通制造全场景、全过程,基于数据的广泛汇聚、集成优化和价值挖掘, T化、剧新门千里北业战略决策、产品研发、生产制造、经营管理、市场服务等业务活动,构建数据驱动的高效运营管理新模式。 车联网 车联网是新一代网络通信技术与汽车、电子、道路交通运输等领域深度融合https://www.processon.com/view/654c455f8f11b40fe56ece43
18.数据挖掘的步骤包括什么数据挖掘是一个通过特定算法对大量数据进行处理和分析,以发现数据中的模式、趋势或关联性的过程。下面详细介绍数据挖掘的步骤包括什么? 1、数据收集 首先,需要收集与待挖掘主题相关的数据。可能涉及从各种来源(如数据库、文件、网络等)获取数据,并将其清洗、整合到一个统一的格式中。 https://www.pxwy.cn/news-id-81213.html
19.数据挖掘的六大过程数据挖掘的六大过程通常包括:数据清洗、数据集成、数据选择、数据变换、数据挖掘、模式评估。 这六个过程构成了一个系统而复杂的工作流程,旨在从大量数据中提取有用的模式和知识,支持决策和预测。 以下是每个过程的详细解释: 一、数据清洗 定义:数据清洗是对原始数据进行预处理的过程,旨在解决数据缺失、不一致、噪声等https://www.ai-indeed.com/encyclopedia/10656.html