基于高通量实验数据挖掘进行关键RNA功能挖掘的方法与流程

本发明涉及生物信息学,具体涉及基于高通量实验数据挖掘进行关键rna功能挖掘的方法。

背景技术:

人类基因组dna核苷酸序列中约93%能被转录为rna,其中仅2%的转录产物被翻译为蛋白质,余下98%属于非编码rna(ncrna)。随着microrna的研究进展,揭示了ncrna在人类基因转录后调节、细胞生长、分化、增殖中起着相当重要的作用。ncrna的研究热度最高的主要是microrna、circrna、lncrna。在肿瘤研究领域,mrna和ncrna的研究同样重要。近年来,生物信息方案层出不穷,在研究mrna和ncrna功能上,共表达关系和蛋白互作网络日益受到广泛应用。

临床肿瘤研究面临的一些难点:1)临床样品难以收集到足够的大规模数量,不利于统计和建模;2)有不少现有方法基于tcga等数据集,但是这些数据集存在不完全开放的问题,要下载原始数据需要非常多的权限,一般研究者们都没法申请到这些权限,以至于只能下载三级数据(处理并校正过的数据,非原始数据)等,不适合与tcga以外的临床数据进行联合分析;3)目前大型癌症lncrna表达谱分析发现各种肿瘤类型之间表现出转录水平的差异,显示出lncrna在疾病研究中巨大的挖掘潜力,lncrna可以被视做肿瘤组织中转录过程的“暗物质”,但是lncrna已知功能极少,欠缺比较全面的数据库帮助揭示功能机制,以至于经常遇到找到明显差异lncrna却不知道如何继续往下研究的问题。而经常遇到的问题还有,显著差异lncrna并不止一个,有很多个,研究者通常在这种情况下,希望先用生物信息的方法排除一些,并对重要性有排序,这样就可以在往下进行细胞功能研究的时候不至于茫无目标,像大海捞针一样。

如何从已有公开实验数据,特别是公开的高通量实验数据中挖掘出关键rna功能,是一项非常重要且有意义的工作。

技术实现要素:

本发明的目的在于克服现有技术的至少一个不足,提供一种基于高通量实验数据挖掘进行关键rna功能挖掘的方法。

本发明所采取的技术方案是:

基于高通量实验数据挖掘进行关键rna功能挖掘的方法,包括如下步骤:

s1)收集肿瘤高通量实验数据并进行背景处理及数据清洗,得到肿瘤rna表达数据;

s2)对肿瘤rna表达数据进行归一化处理;

s3)基于归一化处理后的数据,进行基因差异表达分析及数据集过滤;

获得共表达关系权重评分sco:

在一些实例中,背景处理及数据清洗的操作包括:先使用工具对rna芯片数据进行背景信号,过滤掉芯片杂交信号中属于非特异性的背景噪音部分,完成背景处理后,对于负值和噪声信号,使用变异系数法和k邻近法进行数据清洗。

在一些实例中,使用r软件的affy/limmapackage工具对rna芯片数据进行背景信号。

在一些实例中,收集肿瘤高通量实验数据还包括将基因探针表达值转换为rna表达值,得到更全面的rna数据库,具体包括对基因探针进行基因组定位,并把rna序列映射到基因组上,通过位置叠加的关系,与整合的rna数据库进行交叠,找出基因探针对应的rna并将基因探针的表达值转化为rna表达值。

在一些实例中,转换rna表达值的原则如下:

1)如果一个探针只与一个rna转录本发生重叠,则rna转录本表达值=探针表达值;

2)如果一个探针与两个以上rna转录本发生重叠,且所处的正负链方向一致,则rna转录本1表达值(1v2)=探针表达值,rna转录本2表达值(1v2)=探针表达值;

3)如果一个rna转录本与两个以上探针发生重叠且基因组距离小于1000bp,则rna转录本表达值(2v1)=(探针1表达值+探针2表达值)*50%;

4)如果rna转录本表达值同时存在1v2和2v1的情况,则需要计算综合的rna转录本表达值=rna转录本表达值(2v1)-rna转录本表达值(1v2),作为最终的rna转录本表达值;

5)如果转换后的rna转录本表达值存在负值,则采用k邻近法进行数值校正。

在一些实例中,基因差异表达分析及数据集过滤具体包括:根据研究目的或实验设计,对多组样本两两之间进行对比,获取差异rna列表。

在一些实例中,临床检测样品数据量少于15对在选出初步的差异基因后,加入类似的伴随数据集进行对比,获取差异rna列表;所述伴随数据集为过滤得到的数据集,其过滤原则包括:1)与研究的临床特征相符;2)control/test的对照设计一致;3)根据临床数据集里rna表达量,找出初步差异rna,用这个初步差异rna的集合去计算候选已发表数据集中的相应rna的表达值标准差;如果标准差小于0.2,则认为初步筛选出来的差异rna在候选已发表数据集中不具备相似特性,不能入选伴随数据集,不能与临床检测样品一起进行分析。

在一些实例中,rna蛋白互作用网络分析使用的数据库基于多个开放蛋白互作数据库建立,即对多个数据库中的数据进行合并去冗余,并把多个数据库的综合评分相乘得到最终sppi。

在一些实例中,整合的数据库包括:igdb.nsclc数据库、scop数据库、dip数据库、string数据库、spike数据库、reactome数据库、pfam数据库、pdb数据库、mint数据库、intact数据库、hprd数据库、biogrid数据库。

在一些实例中,根据连坐法形成最终的rna共表达功能网络。

在一些实例中,所述肿瘤为肺癌。

本发明的有益效果是:

本发明一些实例的方法,对于标本收集难度大的肿瘤,例如小细胞肺癌,可以在公共数据库资源的基础上,借助本分析方法,增加样品量,使临床研究更有统计意义,同时让一些疾病临床基因模型建立成为可能,具有其创新性。

附图说明

图1是rna共表达功能网络分析方法的基本步骤;

图3是实施例1中rnaseq测序结果总结;

图4是实施例1中显著差异基因的表达量热图分析(红色为高表达,绿色为低表达);

图5是差异基因rp11-434d9.1的rna基因功能富集关系和生物通路富集评关系这两部分评分的计算结果;

图6是差异基因rp11-434d9.1的rna-蛋白互作关系网络;

图7是last1在以下细胞系的qpcr检测结果:a)last1过表达的a549细胞系;b)last1低表达的a549细胞系;

图9是实施例2的差异基因火山图(logfc即log2foldchange,指示正常肺组织和肿瘤样品之间每个基因表达的倍数变化);

图10是上调差异rna进行表达量的关联分析;

图11是上调差异rna的基因功能富集权重分析和生物通路关系权重分析;

图12是下调差异rna进行表达量的关联分析;

图13是下调差异rna的基因功能富集权重分析和生物通路关系权重分析;

图14是6个重要的转录调控因子富集信息;

图15是分析得到的基因-蛋白互作调控网络。

具体实施方式

下面以肺癌为例,示意性说明基于肿瘤高通量实验数据进行关键rna功能挖掘的方法。

rna共表达功能网络分析方法的基本步骤如图1所示,具体包括:

1、高通量实验数据收集、预处理和表达量计算

rna差异表达分析可以建立在rna芯片或rna-seq获得的原始实验数据上进行。对于由rna芯片或rna-seq获得的原始实验数据,需要先进行以下原始信号处理:

1)对于由rna芯片获得的原始实验数据,需要先进行以下原始信号处理:

a)背景处理和数据清洗:先使用工具对rna芯片数据进行背景信号,过滤掉芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景,但此法存在芯片不同区域背景扣减不均匀的缺点。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均吸光值作为背景。完成背景处理后,对于负值和噪声信号,使用变异系数法和k邻近法进行数据清洗。本步骤可使用的工具例如r软件的affy/limmapackage。

b)提取探针的表达值和探针表达值的归一化:经过背景处理和数据清洗处理后的修正值反映了基因表达的水平。然而在芯片试验中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果之前必需将其归一化(normalization,也称作标准化),从而调整由于基因芯片技术引起的误差。本步骤可以采用平均数、中位数标准化方法进行归一化。

c)探针表达值转换为rna表达值(探针注释):传统芯片探针注释是使用芯片厂家提供的注释信息,或者使用r软件的bioconductor工具库进行注释,其原理都是使用芯片开发时候厂家定下来的探针序列和基因对应关系进行注释。本方法特意本步骤引入新的注释方法,希望不要漏掉可能重要的新rna。传统的芯片分析方法里面,每个探针都有确定的固定对应的基因名。但是随着rna数据库的更新,有很多未知探针,现在已经可以对应到新发现的rna数据库中。如果只是使用传统的分析方法,可能会漏掉很多重要的新rna。因此发明人重新整合了一个新的更加全面的rna数据库。

重新整合的rna数据库包括:

1)lncrnadb:提供有生物学功能的长链非编码rna的全面注释。这是长链非编码rna研究领域的权威johnmattick实验室构建的网站。

3)refseq

6)noncode:noncode提供对长链非编码rna的全面注释,包括表达和ncfans计算机软件预测的lncrna功能。这是非编码rna研究的知名数据库

7)humanbodymaplincrnas,

9)lugend:肺癌基因数据库(lungcancergenedatabase)是一个经过整理和集成的基于web的数据库,用于存储人类肺癌基因的基因和基因组位点。lugend涵盖了与肺癌的许多分子和遗传事件有关的基因,包括文献中发表的染色体位置,突变和表达。

同时,有些探针会于多个rna发生重叠,发明人也需要对此类探针的表达量进行评估。因此发明人通过芯片探针重注释策略,对每个芯片探针进行基因组定位,并把rna序列映射到基因组上,通过位置叠加的关系,与发明人重新整合的rna数据库进行交叠,找出rna所对应的芯片探针。

位置叠加转换rna表达值的原则如下:

i)如果一个探针只与一个rna转录本发生重叠,则rna转录本表达值=探针表达值;

ii)如果一个探针与两个以上rna转录本发生重叠,且所处的正负链方向一致,则rna转录本1表达值(1v2)=探针表达值,rna转录本2表达值(1v2)=探针表达值;

iii)如果一个rna转录本与两个以上探针发生重叠且基因组距离小于1000bp,则rna转录本表达值(2v1)=(探针1表达值+探针2表达值)*50%;

iv)如果rna转录本表达值同时存在1v2和2v1的情况,则需要计算综合的rna转录本表达值=rna转录本表达值(2v1)-rna转录本表达值(1v2),作为最终的rna转录本表达值。

v)但如果转换后的rna转录本表达值存在负值,则采用k邻近法进行数值校正。

2)对于由rna-seq获得的原始实验数据,需要先进行以下原始信号处理

a)去除测序数据中的接头,使用fastx_toolkit里面的fastx_clipper工具;

b)去除测序数据中的低质量reads,使用fastx_toolkit里面的fastq_quality_filter工具;

c)数据比对,使用tophat、bowtie、hisat2、bwa之类的工具都可以;

d)计算rna表达值,可以使用的工具有htseq-count或stringtie、bedtools、gfold等。

2、基因表达量差异分析及基因数据集过滤

4、获得共表达关系权重评分sco

5、进行rna的基因功能富集权重评分sgo

6、进行rna的生物通路关系权重评分skegg

7、进行rna的蛋白互作关系权重评分sppi

本步骤进行计算的蛋白互作数据库是整合多种开放的蛋白互作数据库所建立的。多个数据库中的数据进行合并去冗余,并把多个数据库的综合评分相乘得到最终sppi。整合的数据库包括以下:

1)igdb.nsclc数据库:非小细胞肺癌综合基因组数据库(integratedgenomicdatabaseofnon-smallcelllungcarcinoma)旨在促进和确定已鉴定的肺癌基因和microrna的优先级,以进行肺肿瘤发生的病理学和机制研究以及开发新的临床干预策略。

2)scop数据库:蛋白质结构分类数据库(structuralclassificationofprotein,scop)是对已知蛋白质结构进行分类的数据库,根据不同蛋白质的氨基酸组成以及三级结构的相似性,描述已知结构蛋白质的功能及进化关系。scop数据库的构建除了使用计算机程序外,主要依赖人工验证。

3)dip数据库:蛋白相互作用数据库(databaseofinteractingprotein,dip)研究生物反应机制的重要工具,收集了经实验验证的来自文献报道的蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询dip数据库。

4)string数据库:string数据库是一个搜索已知蛋白质之间和预测蛋白质之间相互作用的数据库,该数据库可应用于2031个物种,包含960万种蛋白和1380万中蛋白质之间的相互作用。它除了包含有实验数据、从pubmed摘要中文本挖掘的结果和综合其他数据库数据外,还有利用生物信息学的方法预测的结果。

7)pfam数据库:pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族。

8)pdb数据库:pdb蛋白质结构数据库(proteindatabank,简称pdb),是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通过x射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。

9)mint数据库:mint(molecularinteractiondatabase)是一个蛋白质相互作用的数据库,该数据库中的蛋白相互作用都是由专家审核过的有实验证据支持的,目前该数据库涵盖了607个物种,共117001个蛋白相互作用关系。

10)intact数据库:intact数据库是一个存储和分析生物分子间相互作用的公共数据库,主要记录蛋白质相互作用及试验方法、实验条件和相互作用数据库,数据主要来自文献的人工检验或用户提交。

11)hprd数据库:hprd,全名是人类蛋白质参考数据库(humanproteinreferencedatabase)。该数据库是目前最大的人类蛋白相互作用数据库,包含30000多个蛋白质和41000对条相互作用信息。除了包含蛋白相互作用信息,hprd还囊括了蛋白注释、亚细胞定位、结构域、转录后修饰和信号通路合集等多种功能。

12)biogrid数据库:生物通用交互数据集库(biogrid)是一个公共数据库,用于存档和传播来自模型生物和人类的遗传和蛋白质相互作用数据。biogrid目前拥有超过1500000种来自高通量数据集和个人重点研究的互动,这些研究来自于初级文献中的63000多份出版物。

8、疾病-rna关系评分sdisease:用到的数据库涉及以下。在不同数据库出现的次数越多,在同一个疾病描述中共同出现的rna,其疾病关联评分越高。

2)omim

3)ncbiclinvar数据库

4)hlungdb:非小细胞肺癌综合基因组数据库(integratedgenomicdatabaseofnon-smallcelllungcarcinoma)旨在促进和确定已鉴定的肺癌基因和microrna的优先级,以进行肺肿瘤发生的病理学和机制研究以及开发新的临床干预策略。

9、调控因子tf关系评分stf

10、关系综合评分score

下面结合实例,进一步说明本发明的技术方案。

实施例1:

1)样品收集:以临床上已经确诊病理并能获得石蜡组织的肺腺癌患者为研究对象,入组病人100例。基于高通量转录组测序(rna-seq)方法分别对组织样本(癌和癌旁,共200个样品)进行转录组测序和生物信息分析。研究对象均选自如thoraciccancer9(2018)1680–1686的表1所示,样品筛选要求如下:肺腺癌,有确诊信息,有完整临床随访信息。

2)rna测序数据预处理:使用fastx_toolkit里面的fastx_clipper工具去除测序接头,使用fastx_toolkit里面的fastq_quality_filter工具去除低质量的测序reads,然后使用tophat进行数据比对,参考基因组为humanhg19。从而计算得到每个样品的原始测序reads和比对上的测序reads数,测序原始数据预处理结果总结如图3,从图中可知:每个样品的平均测序量>12mreads,比对上的reads>8.5mreads,比对率>70%。临床数据>15pairs,因此不需要选择伴随数据集。

3)差异基因分析和共表达关系权重分析:使用htseq-count计算rna表达量,对定量后的rna进行差异比较分析,对显著差异基因(p<0.01)绘制表达关系图如图4(红色为高表达,绿色为低表达)。

4)本次分析中用到的评分标准包括:rna基因功能富集关系评分、生物通路富集评分、蛋白互作关系评分。下面是以其中一个差异基因rp11-434d9.1为例,展示rna基因功能富集关系和生物通路富集评关系这两部分评分的计算结果(图5)。

实施例2

3)数据预处理:本次分析用到的软件为subread,samtools,bamtools,参数为默认值。

4)rna表达量计算:发明人使用htseq-counts软件分析了rna-seq数据的原始计数,bedtools和counts软件featurecounts以计算表达值。

6)上调差异rna的共表达矩阵分析、基因功能富集分析和生物通路富集分析。

a)根据logfc进行排序,logfc越大且pvalue越小,则差异越显著。以下展示前100个显著差异的上调差异rna。

c)上调差异rna的基因功能富集权重分析和生物通路关系权重分析(图11)7)下调差异rna的共表达矩阵分析、基因功能富集分析和生物通路富集分析。

a)根据logfc进行排序,logfc越小且pvalue越小,则下调差异越显著。以下展示前100个显著差异的下调差异rna。

c)下调差异rna的基因功能富集权重分析和生物通路关系权重分析(图13)。

8)调控因子tf关系分析:对上调和下调的显著差异rna均进行tf关系分析,使用到的数据库是transcfac转录因子数据库,分析得到6个重要的转录调控因子富集信息(图14)。

9)疾病-rna关系权重分析:本步骤分析发现ezh2、tacc3在多个肺癌数据库中出现,出现频次为7。

10)综合以上结果筛选出细胞周期和神经系统发育这2条(同时也是“p-值”最显著的)通路的rna基因进行深入研究,由此发现:

a)细胞周期通路异常激活:细胞周期通路研究中发现,基因cdc7、e2f1、cdc6、cdk1、e2f2、pkmyt1、cdc20、espl1、mcm4、cdc25a、ccne2、cdkn2a、plk1、cdkn2c、bub1、orc6、orc1、brsk1等82个基因显著富集在kegg细胞周期通路。

b)神经系统发育通路异常激活:神经系统发育通路研究中发现,prox1、aspm、drd2、sox4、e2f1、brsk1、insm1、cdk5r1、phgdh、ush1c、fzd3、tacc3、stmn1、aurka、stil、kif14、dnmt3a、ezh2等92个基因显著富集在kegg细胞周期通路。

实施例2中,临床样品数量较少,使用本分析方法,查询到伴随数据集,包括86个可一起用于该案例同步分析的数据。这种加入类似的伴随数据集的方法,使用明确的过滤原则,使得初步筛选出来的差异rna在候选伴随数据集中具备相似特性,从而增加了临床研究的统计意义。

以上是对本发明所作的进一步详细说明,不可视为对本发明的具体实施的局限。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的简单推演或替换,都在本发明的保护范围之内。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn数据挖掘中的功能选择 缺少值(Analysis Services – 数据挖掘) 嵌套表(Analysis Services – 数据挖掘) Learn 早期版本 SQL SQL Server 2008 逻辑体系结构(Analysis Services - 数据挖掘) 使用英语阅读 保存 添加到集合 添加到计划 通过 Facebookx.com 共享LinkedIn电子邮件 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.数据挖掘机器之心然而,在工业界,媒体和研究环境中,术语数据挖掘通常用于指整个知识发现过程,尽管这有时会带来一些歧义在这里我们采用广义的数据挖掘功能:数据挖掘是从大量数据中发现感兴趣的模式和知识的过程。数据源可以包括数据库,数据仓库,Web,其他信息存储库或动态流入系统的数据。https://www.jiqizhixin.com/graph/technologies/7904de1e-5ab5-4f0a-aa60-693cb2978766
3.数据挖掘的主要功能是什么帆软数字化转型知识库数据挖掘的主要功能包括模式识别、预测分析、分类和聚类、关联规则挖掘、异常检测、回归分析、时间序列分析。其中,模式识别是数据挖掘的重要功能之一。模式识别可以通过分析大量数据来发现隐藏的模式和关系,从而帮助企业和组织做出更明智的决策。例如,零售业可以通过模式识别分析客户的购买行为,进而调整库存和促销策略,提高销售https://www.fanruan.com/blog/article/592659/
4.详解数据挖掘的技术工具与用例作为一种特定类型的机器学习模型,神经网络通常能够与AI、以及深度学习协同使用。由于该网络具有类似于人脑中神经元的不同功能层,因此它被誉为目前最精确的机器学习模型之一。(12) 可视化 数据可视化可以在数据挖掘的过程中,为用户提供可查看到的数据视图。目前,数据可视化可用于实时数据流的传输场景中,以不同的颜色http://baijiahao.baidu.com/s?id=1700329520071050950&wfr=spider&for=pc
5.阐述数据挖掘的功能。阐述数据挖掘的功能。的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuati.com)是专业的大学职业搜题找答案,刷题练习的工具.一键将文档转化为在线题库手机刷题,以提高学习效率,是学习的生产力工具https://www.shuashuati.com/ti/26b5bf9929034724bc32223409ff1dbd.html
6.数据挖掘有哪些功能导读随着大数据发展越来越好,数据挖掘成为了未来发展的一大趋势,数据挖掘和分析技术在各行业发挥着重要作用,小编为大家整理了数据挖掘的具体功能介绍,一起来看看吧。 数据挖掘有哪些功能: 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五https://www.baijiao.org/school/zhengzhouxinyingdajiaoyu/news/14499.html
7.数据仓库和数据挖掘12篇(全文)目前, 在数据挖掘领域, 数据挖掘功能所发现的模式类型主要包括以下几类:⑴关联分析 (association analysis) 发现两个或两个以上变量的取值之间存在某种规律性。⑵聚类分析 (clustering) 把数据按照相似性归纳成若干类别, 同一类中的数据彼此相似, 不同类中的数据相异。⑶分类 (classification) 就是找出一个类别的概念https://www.99xueshu.com/w/ikeyy9nb2adc.html
8.数据挖掘主要包含哪些功能,带来了什么影响?51CTO博客数据挖掘主要包含哪些功能,带来了什么影响? 当今信息科技异常发达,因此,有许多的事务数据大量地被收集到数据库中,但这些数据如果不使用的话,那搜集这些数据又显得相当没有意义。就目前而言,数据的搜集方法已经相当成熟,而数据挖掘的技术正可以帮助分析这些数据。https://blog.51cto.com/u_13973070/6205705
9.单细胞分析的相关数据库教程ArrayExpress数据库中最新上线了关于单细胞数据挖掘的网页工具名为 Single Cell Expression Atlas,https://www.ebi.ac.uk/gxa/sc/release-notes.html.,大概看下它的内容,最近的更新包含了52个study,数万个细胞的测序结果。 数据挖掘功能 按数据集进行挖掘,可视化,可以选择自己感兴趣的数据集,物种等,获取基本信息 http://m.yunbios.net/Database-on-single-cell-analysis.html
10.大连理工大学学科评价中心数据库与数据平台简介其主要可以实现基础数据功能、数据挖掘功能和权重设置功能。基础数据功能主要是学科总览和学科水平展示;数据挖掘功能主要包括学科研究方向分析、高层次人才分析、学科诊断性分析、学科发展趋势分析;权重设置功能包括学科权重设置和高层次人才权重设置。 2.1数据平台基础数据功能http://xkpj.dlut.edu.cn/info/1072/1599.htm
11.何谓数据挖掘?它有哪些方面的功能?何谓数据挖掘?它有哪些方面的功能?点击查看答案 你可能感兴趣的试题 第1题:最佳的公共关系状态是()A.高知名度、高美誉度B.高美誉度、低知名度C.低知名度、低美誉度D.低美誉度最佳的公共关系状态是()A.高知名度、高美誉度B.高美誉度、低知名度C.低知名度、低美誉度D.低美誉度、高知名度 答案解析与讨论https://www.netkao.com/shiti/825383/2520537goih8tt93u.html
12.版权立法中文本数据挖掘侵权例外规则的构建版权资讯数字技术的开发和运用成为人们适应时代剧变的必然选择,其中,利用计算机软件技术对海量作品、数据等内容进行统计和分析,以得出有用信息的文本数据挖掘(Text & data mining,简称TDM),已成为智能社会推动产业和科技文化发展的基础工具。 一、文本数据挖掘的复合功能及其著作权侵权风险http://www.ccct.net.cn/html/bqzx/2023/0601/4369.html
13.数据挖掘论文4.DBMiner是由DBMiner Technology公司开发的,它提供多种数据挖掘算法,包括发现驱动的OLAP分析、关联、分类和聚类。特色是它的基于数据立方体的联机分析挖掘,它包含多种有效的频繁模式挖掘功能和集成的可视化分类方法 四、数据挖掘与管理会计 1.提供有力的决策支持 https://www.unjs.com/lunwen/f/20220924130749_5650839.html
14.物联网原理及应用期末复习免挂指南(大概率不直接考)二维码定义:二维条码/二维码是用某种特定的几何图形按一定规律在平面(二维方向上)分布的黑白相间的图形记录数据符号信息的; 二维码具有条码技术的一些共性:每种码制有其特定的字符集;每个字符占有一定的宽度;具有一定的校验功能等。同时还具有对不同行的信息自动识别功能、及处理图形旋转变化点。 https://www.jianshu.com/p/33aa0cb1147c
15.这个新功能,能精准预测数据,全程只要2分钟!所以,帆软FineBI于2018年12月15日上线了新的数据挖掘功能——智能时序预测! 更为惊喜的是,我们将这样一套算法“黑盒”化,不需要任何算法知识就能上手,只需要选择要预测的数据,且能适应各种时间预测的场景。从目前大量实践测试的数据来看,这套模型预测的准确率优于R语言自带autoarima函数与国际先进专业数据挖掘工具https://maimai.cn/article/detail?fid=1085015763&efid=c1UWAKDcRiZc5H1Mok9uOQ
16.数据可视化有哪些功能4.比较数据; 5.突出重点; 6.决策支持; 7.呈现多维数据; 8.实时监控; 9.数据分享和传播; 10.可视化数据挖掘; 11.用户定制化; 12.多平台支持。数据可视化具有丰富的功能和优势,可以帮助人们更好地理解和分析数据,从而进行更准确和有效的决策和规划。 https://www.linkflowtech.com/news/3070