在线分割时间序列数据算法

4、几种主要分割算法的缺点,我们研究出了一种新的方法。滑动窗口算法的主要问题是他不能查看历史数据,对它的离线部分缺乏总体观。自底向上和自上而下方法能得出较好的结果,但是是离线的,而且需要最整个数据集进行扫描。这是不切实际。因为在数据挖掘背景下,数据可以达到TB级别或者以持续不断的数据流形式输入。因此我们提出一种新的方法,它同时保留了滑动窗口的在线特性以及自底向上算法的优越性。我们给这种算法取名叫滑动窗口自底向上算法。II4.1滑动窗口自底向上分割算法滑动窗口自底向上算法保留一个小的缓冲区,缓冲区的大小需要一开始设定以便有足够的数据来创建大概56个分段。自底向上应用于缓冲区的数据,

5、最左端的分段被报告出来。己经被报告过的数据将从缓冲区删除,然后读入更多的数据点。数据点读入的数量取决于输入数据的结构。这个过程由基于滑动窗口算法的Best_Line函数实现。然后在缓冲区中,对这些数据点再使用自底向上算法。只要有数据到达,就会不断重复上述步骤。这个算法的灵感源于此:Best_line函数找到符合一个使用滑动窗口的分段并把它放入缓冲区。当数据通过缓冲区时,再对它们使用自底向上算法来改善这个分割。因为这种报告算法是对整个数据半全局的。当数据从缓冲区离开的时候,分割点通常和自底向上算法的批处理版本是一样的。算法的伪代码如下表AlgorithmSeg_TS=SWAB

6、(max_error,seg_num)/seg_numisinteger,about5or6.readindatapointstofillw/wisthebuffer/Enoughtoapproximateseg_numofsegments.lower_bound-(sizeof同/2;upper_bound=2*(sizeofw);whiledataatinputT=Bottom_Up(w,max_error)/CalltheclassicBottom-Upalgorithm.Seg_TS=

7、CONCAT(SEG_TS,T(l);/Slidingwindowtotheright.w二TAKEOUTS广);/DeleteswpointsinT(1)fromw.ifdataatinput/AddpointsfromBEST_LINE()tow.w-CONCAT(w,BESTLINE(maxerror);12/Checkupperandlowerbound,adjustifnecessary.else/Flushapproximatedsegmentsfrombuffer.Seg_TS=CO

8、NCAT(SEG_TS,(T-T(l)end;end;FunctionS二BESTLINE(maxerror)/returnsSpoints.whileerrormax_error/nextpotentialsegment.readinoneadditionaldatapoint,d,intoSS=CONCAT(S,由;error=approx_segment(S);endwhile;returnS;使用缓冲区允许我们得到一个半全局的数据观。然而,利用窗口大小的高低界限也是非常重要的。一个任意增长的缓冲区会使这种算法回到单纯的自底

11、行线性扩展,而且只需要一定的空间来产生出高质量的数据近似。14参考文献1Agrawal,R.,Faloutsos,C.,&Swami,A.(1993).Efficientsimilaritysearchinsequencedatabases.Proceedingsofthe4theConferenceonFoundationsofDataOrganizationandAlgorithms._2Agrawal,R.,Lin,K.I.,Sawhney,H.S.,&Shim,K.(1995).Fastsimilaritysearc

12、hinthepresenceofnoise,scaling,andtranslationintimes-seriesdatabases.Proceedingsof21thInternationalConferenceonVeryLargeDataBases,pp490-50.3Agrawal,R.,Psaila,G.,Wimmers,E.L.,&Zait,M.(1995).Queryingshapesofhistories.Proceedingsofthe21stInternationalConferenceon

13、VeryLargeDatabases.4Chan,K.&Fu,W.(1999).Efficienttimeseriesmatchingbywavelets.Proceedingsofthe15theIEEEInternationalConferenceonDataEngineering.5Das,G.,Lin,K.Mannila,H.,Renganathan,G.,&Smyth,P.(1998).Rulediscoveryfromtimeseries.Proceedingsothe3rdIn

14、ternationalConferenceofKnowledgeDiscoveryandDataMining,pp1622.6Douglas,D.H.&Peucker,T.K.(1973).AlgorithmsfortheReductionoftheNumberofPointsRequiredtoRepresentaDigitizedLineorIts15Caricature.CanadianCartographer,Vol.10,No.2,December.Pp.112-122._7Duda,R.0

15、.andHart,P.E.1973.PatternClassificationandSceneAnalysis.Wiley,NewYork.8Ge,X.&SmythP.(2001).SegmentalSemi-MarkovModelsforEndpointDetectioninPlasmaEtching.ToappearinIEEETransactionsonSemiconductorEngineering._9Heckbert,P.S.&Garland,M.(1997).Surveyofpolygona

16、lsurfacesimplificationalgorithms,MultiresolutionSurfaceModelingCourse.Proceedingsofthe24thInternationalConferenceonComputerGraphicsandInteractiveTechniques.Hunter,J.&McIntosh,N.(1999).Knowledge-basedeventdetectionincomplextimeseriesdata.ArtificialIntelligenceinMedi

17、cine,pp.271-280.Springer.Ishijima,M.,etal.(1983).Scan-AlongPolygonalApproximationforDataCompressionofElectrocardiograms.IEEETransactionsonBiomedicalEngineering.BME-30(11):723-729.Koski,A.,Juhola,M.&Meriste,M.(1995).SyntacticRecognitionofECGSignalsByAttributedF

18、initeAutomata.PatternRecognition,28(12),pp.1927-1940.16Keogh,E,.Chakrabarti,K,.Pazzani,M.&Mehrotra(2000).Dimensionalityreductionforfastsimilaritysearchinlargetimeseriesdatabases.JournalofKnowledgeandInformationSystems.Keogh,E.&Pazzani,M.(1999).Relevancefeedbac

19、kretrievaloftimeseriesdata.Proceedingsofthe22thAnnualInternationalACM-SIGIRConferenceonResearchandDevelopmentinInformationRetrieval.15Keogh,E.,&Pazzani,M.(1998).Anenhancedrepresentationoftimeserieswhichallowsfastandaccurateclassification,clusteringandrelevan

20、cefeedback.Proceedingsofthe4thInternationalConferenceofKnowledgeDiscoveryandDataMining,pp239一241,AAAIPress.16Keogh,E.,&Smyth,P.(1997).Aprobabilisticapproachtofastpatternmatchingintimeseriesdatabases.Proceedingsofthe3rdInternationalConferenceofKnowledgeDisco

21、veryandDataMining,pp24-20._17Lavrenko,V.,Schmill,M.,Lawrie,D.,Ogilvie,P.,Jensen,D.,&Allan,J.(2000).MiningofConcurentTextandTimeSeries.Proceedingsofthe6thInternationalConferenceonKnowledgeDiscoveryandDataMining,pp.37-44.17Li,C,.Yu,P.&CastelliV.(1998).

22、MALM:Aframeworkforminingsequencedatabaseatmultipleabstractionlevels.Proceedingsofthe9thInternationalConferenceonInformationandKnowledgeManagement.pp267-272.McKee,J.J.,Evans,N.E.,&Owens,F.J.(1994).EfficientimplementationoftheFan/SAPA-2algorithmusingfixedpoi

23、ntarithmetic.Automedica.Vol.16,pp109-117.Osaki,R.,Shimada,M.,&Uehara,K.(1999).ExtractionofPrimitiveMotionforHumanMotionRecognition.The2ndInternationalConferenceonDiscoveryScience,pp.351-352.Park,S.,Kim,S.W.,&Chu,W.W.(2001).Segment-BasedApproachforSubsequen

24、ceSearchesinSequenceDatabases,ToappearinProceedingsofthe16thACMSymposiumonAppliedComputing.Park,S.&Lee,D.,&Chu,W.W.(1999).FastRetrievalofSimilarSubsequencesinLongSequenceDatabases”,Proceedingsofthe3rdIEEEKnowledgeandDataEngineeringExchangeWorkshop.Pavlid

25、is,T.(1976).Waveformsegmentationthroughfunctionalapproximation.IEEETransactionsonComputers.Perng,C.,Wang,H.,Zhang,S.,&Parker,S.(2000).Landmarks:18anewmodelforsimilarity-basedpatternqueryingintimeseriesdatabases.Proceedingsof16lhInternationalConferenceonData

26、Engineering.Qu,Y.,Wang,C.&Wang,S.(1998).Supportingfastsearchintimeseriesformovementpatternsinmultiplesscales.Proceedingsofthe7thInternationalConferenceonInformationandKnowledgeManagement.Ramer,U.(1972).Aniterativeprocedureforthepolygonalapproximationofplanar

27、curves.ComputerGraphicsandImageProcessing.1:pp.244-256.Shatkay,H.(1995).ApproximateQueriesandRepresentationsforLargeDataSequences.TechnicalReportcs-9503,DepartmentofComputerScience,BrownUniversity.Shatkay,IL,&Zdonik,S.(1996).Approximatequeriesandrepresentationsf

28、orlargedatasequences.Proceedingsofthe12thIEEEInternationalConferenceonDataEngineering,pp546-553.Sugiura,N.&Ogden,R.T.(1994).TestingChangepointswithLinearTrendCommunicationsinStatisticsB:SimulationandComputation.23:287-322.30Vullings,H.J.L.M.,Verhaegen,M.H.

31、UsingTime-Warping.Proceedingsofthe2ndInternationalSymposiumonIntelligentDataAnalysis.31Wang,C.&Wang,S.(2000).SupportingcontentbasedsearchesontimeSeriesviaapproximation.Proceedingsofthe12thInternationalConferenceonScientificandStatisticalDatabaseManagement.20再本文中

32、,我们评价文献中三种主要的分割方法,并且对来自金融医疗科学的数据集一个考察评估。这些实验的主要结果表明,只有在线算法得到了很差的近似数据,而批处理算法得到了高质量的结果和一一这些结果促使我们介绍一种新的在线算法,它能够又在线,又产出高质量的数据近似.本文接下来的主体结构如下:在第二节中,我们将对文献中已有的算法进行总体评价,解释它们的主要方法以及各种各样数据挖掘者的改变和扩展。在第三节中,我们将详细地考究、比较这些算法。我们会证明最受数据挖掘者欢迎的方法实际上产生相当糟糕的数据近似。这些糟糕的结果将激励我们寻求一种新的算法,而我们将在第四节中介绍和评估这种算法。第五节将做一个总结

35、之下,线性回归则产生了不连贯的图像。线性插补的美观的结果、较低的计算复杂度使它成为了计算机图形应用的选择。然而,按照欧几里得距离理论,线性插补得到的近似线段的质量通常比回归方法得到的要差。所有的分割算法都需要一些方法来为评估它应用于一个潜在分段的质量。通常采用的测量依据是平方和,或者残留的错误。这通最适线段和实际数据点的垂直差异,计算它们并且总和。另外一种常用的拟合优度的测量依据是最适线段和垂直方向上最远数据点的距离。以前,我们正如以前,我们一直保持我们的算法的描述,一般足以涵盖任何错误措施。特别地,伪代码函数calculate_error(T)可以被当做使用了任何的平方和,

37、:anchor+i)max_errori=i+1;end;Seg_TS=concat(Seg_TS,create_segment(Tanchor:anchor+(i-1);anchor=anchor+i;end;滑动窗口算法的优势在于它的简单,直观性,还有特别是因为它是一种在线算法。也有以此算法为基础的很多不同的变换和优化。Koskietal提出可以通过把变量i的增量由1变为“长度k的跳跃”来加速这种算法12o取决于使用的误差测量,可能还有其他的优化手段。Bulllingsetal提出因为残留的误差即使加入更多的数据点也不会增长,所以我们不必测出从2

39、指定的阈值,如果不是,算法将递归地进行分割子序列直到所有的分段的拟合误差都小于阈值。算法的伪代码如下表所示:AlgorithmSeg_TS=Top_Down(T,max_error)best_so_far=inf:fori=2tolength(T)-2/Findbestplacetodivide.improvement_in_approximation二improvement_splitting_here(T,i);ifimprovement_in_approximationmax_errorSegTS二TopDown(T1:b

40、reakpoint);end;/Recursivelysplittherightsegmentifnecessary.ifcalculate_error(Tbreakpoint+1:length(T))max_errorSegTS=TopDown(Tbreakpoint+1:length(T);end;在数十年前,自上而下算法的变种(包括二维情况)就被独立地应用于各个领域。在制图学,出名的有Douglas-Peucker算法,在图像处理方面,出名的有Ramers算法。大多数的机械学习与数据挖掘领域的研究者。在机器学习和数据挖掘领域,大多数的研究

THE END
1.机器学习:算法分类自然语言处理属于机器学习的哪类算法机器学习算法可以根据不同的标准进行分类,主要包括按学习方式、任务类型和应用领域等。以下是一些常见的分类方式: 1. 按学习方式分类 1.1 监督学习 (Supervised Learning) 定义:使用已标记的数据进行训练,每个输入数据都有对应的输出标签。模型学习输入与输出之间的映射关系。 https://blog.csdn.net/Wei_sx/article/details/144310042
2.太全了从入门到精通一口气学完回归算法聚类算法决策树随机随机森林是由多个决策树组成的模型,它能够处理高维数据,并提高预测的准确性。神经网络则是模仿人脑结构的算法,它们能够处理复杂的非线性关系。贝叶斯算法基于概率论,提供了一种解释性更强的模型。 最后,支持向量机是一种专门用于二分类问题的算法,它在处理小样本问题时表现出色。这十大算法各有千秋,通过学习它们,我们https://www.94cto.com/search/content/id/34247
3.人工智能基础知识速成机器学习和深度学习作为人工智能技术的重要分支,已经在各个领域展现出了巨大的潜力和价值。随着数据量的不断增加和算法的不断改进,相信机器学习和深度学习在未来会有更广泛和更深远的应用。希望通过本文的介绍,读者能对机器学习和深度学习有一个更全面和深入的理解。https://www.jianshu.com/p/131df4472d07
4.人工智能的算法:定义应用与常见类型随着科技的快速发展,人工智能(AI)已经成为我们生活中不可或缺的一部分。然而,很多人对AI的工作原理并不十分了解。那么,什么是人工智能的算法呢?它又有哪些常见的应用呢?让我们一起来探讨一下。一、人工智能算法的定义 简单来说,人工智能的算法是一种用于模拟人类智能行为的数学模型。这些算法通过处理和分析https://baijiahao.baidu.com/s?id=1792293245254107147&wfr=spider&for=pc
5.美国留学gpa算法标准有哪些美国留学同学们您是否也想知道美国留学gpa算法标准有哪些,这个问题的分析和解答呢?相信你通过以下的文章内容就会有更深入的了解,话不多说,接下来就跟着中国教育在线小编一起看看吧。 (1)未加权算法: 由于不同高中有不同的GPA计分方式,如4分制、5分制、6分制、百分制、等级制等,对此,美国大学理事会College Board曾发布https://www.eol.cn/liuxue/wenda/mg20231026282207.html
6.机器学习召回率计算常见的召回算法有哪些机器学习召回率计算 常见的召回算法有哪些 本文是对七月在线课程召回算法进阶的一个简单笔记记录。 本笔记主要围绕课上所讲常见召回方式、协同过滤、关联商品召回、基于图的Swing召回算法、Embedding召回(item2vec|node2vec)、YutubeDNN 、动态多兴趣挖掘模型MIND、多路召回融合。https://blog.51cto.com/u_16213680/10407033
7.西安退休金的算法是怎么样的,有哪些新规定(二)达到法定退休年龄;(三)累计缴纳基本养老保险费满十五年。二、西安退休金的算法:达到法定退休年龄,https://www.64365.com/ask/3461603.aspx
8.C#刷遍Leetcode面试题系列连载(1)入门与工具简介刷LeetCode有哪些好处? 计算机中有很多抽象的数据结构,比如: List、Stack(栈)、Linked List(链表)、Hash Table(哈希表)、Heap(堆)、Tree等等,而LeetCode 上的大量高质量算法题基本上涵盖了所有这些数据结构的应用。怎么将这些题抽象成数学模型,转化为具体数据结构的应用,则是我们需要提升的地方,而这恰恰帮我们极大https://www.shangyexinzhi.com/article/details/id-258758
9.ai绘画生成器在线网站有哪些ai绘画生成器在线网站推荐ai绘画生成器在线网站有哪些,人工智能绘画的优势在于它可以快速地创作出大量的艺术作品,为艺术家提供更多的灵感、创意和想法。利用机器学习算法,AI能够从大量的图像数据中学习,不断优化自己的绘画技能和艺术创造力,帮助创作者实现更多的想法和梦想。此外,人工智能绘画还可以为艺术品的保护、修复和数字化保存提供更好的方https://www.dadighost.com/help/58227.html
10.大白大白算法在线测试(综合)登录入口APP下载IOS/安卓通用版/? 2024年11月09日 14:07:03?HOT?【大白大白算法在线测试免登陆版】支持:64/128bit系统类型:大白大白算法在线测试(综合)登录入口APP下载IOS/安卓通用版/手机APP下载v61.5.38(安全平台)官方入口为用户提供腾讯软件下载推荐、腾讯软件有哪些,下载腾讯软件地址、腾讯游戏软件、腾讯社https://www.shiwaiyun.com/article/post/182193.html
11.喻玲:算法消费者价格歧视反垄断法属性的误读及辨明而痛打大数据“杀熟”、叫停算法歧视一时被炒作得甚嚣尘上,确有专家支持和研究支撑,并非空穴来风,这些研究侧重于对ACPD行为公平性的讨论,回应了“公众叫停该行为”的现实需求。然而细观研究内容:一则仅以在线零售市场为研究对象,未全面分析定价算法在不同场景的竞争效果;二则仅以消费者剩余为考量因素推导出“总体https://lawscience.ecupl.edu.cn/2020/0930/c1779a171695/page.htm
12.有哪些常见的图片格式?图片格式详细介绍及图片格式转换方法数字图像处理是指通过离线或在线资源(如编辑软件和网络应用程序)来处理图像。而图片格式转换过程旨在提高图片质量或借助算法从图片中提取更多的有效信息。本文将详细介绍常见的图片格式、各自的使用场合以及图片格式转换方法。 常见的图片格式类型 图片格式的选择多种多样,不同的图片格式都是为不同的特定场景而开发出来的https://www.digitaling.com/articles/834637.html
13.多台平行批处理机在线排序和带有运输时间的在线排序具体地,本论文主要结果如下: 1.在第二章中,我们考虑了m台批无界平行分批处理机在线排序问题。目标函数是最小化最大完工时间。我们证明了该问题所有在线算法的竞争比的下界是1+α_m,其中,α_m是方程α_m~2+mα_m-1=0的正根,并且给出了一个最好可能的在线算法。同时,我们还考虑了此问题的稠密算法:证明https://wap.cnki.net/touch/web/Dissertation/Article/-2010043431.html
14.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客假设1:数据覆盖情况。在线算法更优的原因是其覆盖的数据比离线数据集更多样化(即随时间变化采样自不同的学习器策略)。 假设2:次优的离线数据集。离线算法处于劣势,因为其初始的偏好数据集是由一个次优的策略生成的。如果使用有更高绝对质量的响应训练离线算法,则性能会更好。 https://www.thepaper.cn/newsDetail_forward_27434433
15.双向板的计算方法选手册算法可行?yjk提供的三种算法有何差异双向板的计算方法选手册算法可行?yjk提供的三种算法有何差异? 0人已收藏 0人已打赏 免费 0人已点赞 分享 举报 全部回复(1 ) 只看楼主 我来说两句 抢板凳 大猫go 沙发 手册算法是指按建筑结构静力计算手册中板的弹性薄板算法;塑性计算方法是按照建筑结构静力计算手册中板的极限平衡法计算四边支承板;有限https://bbs.co188.com/thread-10190043-1-1.html
16.SHA256SHA512SHA3RIPEMD哈希加密算法介绍 在线哈希Hash加密算法提供MD5加密、SHA-1加密、SHA-2加密、SHA-256加密、SHA-512加密、SHA-3加密、RIPEMD-160加密等各种在线加密工具。 MD5哈希加密算法 MD5即Message-Digest Algorithm 5(信息-摘要算法 5),用于确保信息传输完整一致。是计算机广泛使用的散列算法之一(又译摘要算法、哈希算法),主流编https://tool.ip138.com/hash/