浅谈对历史频谱数据的数据挖掘

国家新闻出版广电总局五五三台自1955年建立伊始就承担着我国广播监测的繁重任务,60多年来频谱负荷收测一直是我台的主要工作之一,经过台内几代收测人员的辛勤劳动,我台现存放着自上世纪50年代至今的海量频谱原始数据,包括国内中央台广播数据,以及大量我台能够收测到的海外对华广播及途径我台的海外广播,所涉电台、语种数目都极其庞大。通过合理利用这些数据,我们将能够得以从中窥探出世界广播发展、变革的轨迹,进而对我国目前的频谱资源管理提供有价值的信息和解决方案。然而,要达到这一目标,首先要解决如何从巨大体量的数据中挖掘有用信息和知识这一难题。

一、基于大数据的数据挖掘技术

(一)大数据的定义

(二)基于大数据的数据挖掘技术

二、对历史频谱数据的数据挖掘

(一)频谱资源和频谱资源管理

无线电频谱是一种非常宝贵且有限的自然资源,是属于国家的重要战略性资源。近年来,无线电频谱需求不断增加,频率冲突越来越严峻,给频谱资源的监测和管理带来了新的困难与挑战,对无线电频谱的监测与管理是有效使用无线电资源的前提,因此,如何开展对信道和频段使用情况的有效监测,记录全频段和全时段内所有信号的基础数据,掌握用频变化,评估信道占用度和利用率,把握频谱的整体使用情况,提高频谱感知与管理能力成为亟需解决的问题。

频谱资源管理是指对无线电频谱资源的使用进行规划与控制的活动,而无线电频率管理是无线电频谱管理的核心。为了对频谱资源进行合理的管理,我们不但必须掌握现阶段的用频情况,也需要对以往的频谱数据进行分析,掌握一段时期内的用频变化,以此来对下个阶段的无线电频率划分进行决策。

(二)历史频谱数据挖掘的过程模型

对于数据挖掘项目首先要建立过程模型,这里运用美国SPSS公司提出的5A模型,即评价需求(Assess)、存取数据(Access)、完备分析(Analyze)、模型演示(Act)、结果展现(Automate),来对历史频谱数据挖掘进行过程分析。

1.评价需求

通过对海量历史频谱监测数据的深入挖掘与分析,采用形式多样、丰富的统计方法,我们可以以文本、图片等多种形式提供直观、有效、全面的历年频谱资源展示,从而为目前的频谱资源管理提供综合性决策依据。我台频谱负荷收测主要涉及中短波广播业务,故此项目主要针对中短波广播频段频谱数据进行数据挖掘。

2.存取数据

利用Hadoop数据挖掘构架实现海量数据的快速存取,主要包括了大规模数据分析工具Pig、数据仓库工具Hive、分布式编程框架MapReduce、数据状态存储HCatalog、分布式数据库Hbase以及分布式文件系统HDFS等。

3.对历史频谱数据的分析

(1)频谱占用度分析

(2)已知电台分析

已知电台分析是以已知晓的各国际国内电台作为分类,在横向、纵向上对该台在我收测点附近的,可收测到的播音情况进行统计分析。通过电台分析,可以得知某一电台的播音总体变化,包括用频变化(点阵图或柱状图显示)、历年频时数变化(折线图显示)等等。同时,按照国家、地区、使用语言(节目内容)等对电台进行分类。建立数据字典,将某一台曾使用过的台名、归属、发射地进行统一录入,方便在统计分析数据时保持完整性。

(3)使用语言分析

使用语言分析是对已知电台所播的语言种类进行统计分析。通过对各台各频率使用语言的统计筛选,可以对以我国作为主要播向区的电台频率做进一步分析,包括用频变化(点阵图或柱状图显示)、频时总数变化(折线图显示)、发射方向图展示等等,对我们把握此类电台频率的整体变化趋势有着重要的作用。

(4)未知电台、语言分析

我台的历年频谱数据中,包括了一部分未知电台以及未知语言的频率。这一部分频率在频谱负荷表中以“?”表示,大多为能够收听到播音但无法通过播音内容或国际资料确定电台归属或播音语言的频率。对该类频率,可以通过对已知电台频率的数据分析,判断其可能的归属及播音语言。

4.频谱资源挖掘模型

数据挖掘的任务模式按照功能类型可以分成描述型和预测型两类,描述型任务一般用来刻画数据的常用特征,预测型任务则通过分析目标对象的模式和规律,对未来趋势做出合理判断。在频谱数据任务中,对历史频谱数据的分析可以归为描述型,而通过对未来频谱资源分配走向的分析则应归为预测型。

将任务进行分类后,需要将各个任务归纳入某一模型类型中。数据挖掘模型可以概括为三大类:聚类、分类、关联。聚类分析旨在发现不同的簇间的差异性;分类是将历史数据按照用户的需求进行区分;关联分析则是重在挖掘两个不同关键词的内在共性。对历史频谱数据的数据挖掘可以归为分类模型。

5.数据结果可视化展现

项目最终能够通过快捷全面的前端展示平台,快速显示历史频谱数据挖掘结果,以及对未来各电台频率变化走势的分析结果,让数据以更为灵活、直观、可视化的方式表达出来。展示平台主要应能实现:3D频谱、频谱数据地域性展示、统计数据多样化展示等。

三、结束语

无线广播频谱监测与管理系统通过对大量实测数据的分析,能够直观的向用户展示各项历史数据、频谱占用情况、非法电台等大数据背后的信息,这些对频谱资源的分析、合理利用正是我们搭建无线广播频谱监测与管理系统的最终目标。而如何在庞大的数据中更高效地进行对数据的甄别、挖掘,从而向用户提出有用、合理的频谱资源问题的解决方案,是我们亟待解决的问题。

THE END
1.什么是数据挖掘?——数据挖掘的过程,方法和实例什么是数据挖掘?——数据挖掘的过程,方法和实例 数据挖掘是指从大量的数据中发现有价值的模式、规律和知识,以支持决策和预测分析的过程。通过数据挖掘,我们可以从海量数据中发现隐藏的关联性和趋势,为企业和组织提供宝贵的商业洞察力。下面将介绍数据挖掘的过程、方法和实例。https://www.jiandaoyun.com/fe/sjwjsjwjdg/
2.数据挖掘的步骤包括什么数据挖掘是一个通过特定算法对大量数据进行处理和分析,以发现数据中的模式、趋势或关联性的过程。下面详细介绍数据挖掘的步骤包括什么? 1、数据收集 首先,需要收集与待挖掘主题相关的数据。可能涉及从各种来源(如数据库、文件、网络等)获取数据,并将其清洗、整合到一个统一的格式中。 https://www.pxwy.cn/news-id-81213.html
3.什么是可视化数据挖掘技术数据挖掘过程中,可视化技术主要体现在可以通过图形的方式表达,人们可以直观看到具体情况。这些图形可以展示数据的来源、数据挖掘过程以及人们想要的结果。当用户需要某些数据时,可以通过可视化的方式进行观察,获取所需信息。由于算法的问题,数据挖掘过程中易出现错误率问题。https://www.linkflowtech.com/news/2005
4.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
5.数据挖掘的六个步骤有哪些帆软数字化转型知识库数据挖掘的六个步骤分别是:问题定义、数据收集与准备、数据清洗、数据转换与特征选择、模型建立与评估、结果解释与部署。其中问题定义是数据挖掘过程的首要步骤,直接影响整个项目的成功与否。问题定义涉及明确业务目标、研究目标和所需的数据类型。只有在问题定义清晰的情况下,后续的每一步骤才能有的放矢,确保数据挖掘的结https://www.fanruan.com/blog/article/594251/
6.数据分析的过程主要包含这7个方面数据分析的过程是循序渐进的过程,主要包括如下7个方面。 一个完整的数据分析的过程,应该包括数据采集、数据存储、数据提取、数据挖掘、数据分析、数据展现、数据应用七个方面。今天我们就来从这几个角度着手,简要介绍一下数据分析的过程。 1. 数据采集 数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条https://www.jiushuyun.com/hywz/2061.html
7.什么是数据挖掘和KDD·MachineLearningMastery博客文章翻译什么是数据挖掘和KDD 我对流程很感兴趣。我想知道做事的好方法,即使是最好的办法,如果可能的话。即使您没有技能或深刻理解,过程也可以帮到您。它可以引领方式,技能和深刻的理解可以遵循。至少,我用它来推动我的大部分工作。 我认为研究数据挖掘是有用的,因为它是一个从数据中发现的过程。在这篇文章中,您将从https://www.kancloud.cn/apachecn/ml-mastery-zh/1951996
8.数据挖掘论文范文8篇(全文)(2) 挖掘数据算法的选择问题; (3) 软件的开发者该如何选择数据。 1 在软件工程中数据挖掘的主要任务 在数据挖掘技术中, 软件工程数据挖掘是其中之一, 其挖掘的过程与传统数据的挖掘无异。通常包括三个阶段:第一阶段, 数据的预处理;第二阶段, 数据的挖掘;第三阶段, 对结果的评估。第一阶段的主要任务有对数据https://www.99xueshu.com/w/filedo12vrm4.html
9.保姆式GEO数据挖掘演示写在前面 模拟1000行代码不如实操训练,重现文章中的数据才是学习GEO数据挖掘的最好途径,基于以上精神,我们就来重现一下高分文章的数据挖掘过程。 至于为什么选择这篇文章,是因为我还是个GEO数据挖掘的小白https://m.wang1314.com/doc/webapp/topic/20967139.html
10.终于有人把数据挖掘讲明白了图1 数据挖掘过程 2数据挖掘的内容 2.1 关联规则挖掘 从大规模数据中挖掘对象之间的隐含关系称为关联分析(Associate Analysis)或者关联规则挖掘(Associate Rule Mining),它可以揭示数据中隐藏的关联模式,帮助人们进行市场运作、决策支持等。 考察一些涉及许多物品的事务。事务1中出现了物品甲,事务2中出现了物品乙,事务3https://www.51cto.com/article/698009.html
11.数据分析报告(精选15篇)⑤假设数据模型。 ⑥ 实际数据挖掘工作(data mining)。 ⑦ 测试和验证挖掘结果(testing and verfication)。 ⑧ 解释和应用(interpretation and use)。 由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化https://www.ruiwen.com/fenxibaogao/8204699.html
12.数据挖掘实质上是一个深层次的()过程,即从大量的数据中抽取出潜在数据挖掘实质上是一个深层次的()过程,即从大量的数据中抽取出潜在的、有价值的知识、模型或规则的过程。A、数据搜集B、B.数据转换C、数据集合D、数据分析正确答案:数据分析 点击查看答案进入小程序搜题你可能喜欢依据继续使用假设中的各种具体评估方法分别去评估某一具体资产,其结果可能是()。 点击查看答案进入小https://m.ppkao.com/wangke/daan/8109fe8deb1748c6bb0757f3f1961075
13.数据挖掘:实用案例分析完整pdf扫描版[103MB]电子书下载2.3.1 什么是关联规则 2.3.2 关联规则算法 2.4 时序模式 2.4.1 什么是时序模式 2.4.2 时间序列的组合成分 2.4.3 时间序列的组合模型 2.4.4 时序算法 2.5 偏差检测 2.6 本章小结 第3章 数据挖掘建模 3.1 数据挖掘的过程 3.2 数据挖掘建模过程 3.2.1 定义挖掘目标 https://www.jb51.net/books/629234.html
14.数据仓库与数据挖掘技术—数据挖掘分类及过程模型数据挖掘:首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。然后选择算法 结果解释与评估:对发现的模式进行可视化,或者把结果转换为用户容易理解的其他表示形式 Fayyad过程模型从某种意义上来说是面向理论,偏向技术的模型,而不是面向工程、面向应用的模型。虽然有模型的评估,但侧重https://www.jianshu.com/p/da25173289b9
15.一文搞懂!商业数据分析全流程为了使数据挖掘过程更加规范化、系统化,出现了一些数据挖掘流程模型,CRISP-DM即是其中的一种优秀代表。CRISP-DM全称为CRoss Industry Standard Process for Data Mining(跨行业数据挖掘标准流程),如图1.2所示,这个流程模型将整个数据挖掘过程划分为六个主要阶段:业务理解、数据理解、数据准备、模型建立、模型评估和结果部https://www.niaogebiji.com/article-606353-1.html
16.基于MapReduce的增量数据挖掘研究AET摘要: 频繁项集挖掘是数据挖掘过程中的重要部分,传统数据挖掘算法中常用Apriori算法和FP增长算法来挖掘频繁项集。在实际应用中,传统算法往往不能用于频繁更新的数据库,采用IMBT数据结构能从不断更新的数据库中挖掘频繁项集,但是这将导致存储空间不足和运行效率低下的问题。基于MapReduce的增量数据挖掘能够有效解决这些http://www.chinaaet.com/article/218164
17.数据分析报告范文(通用13篇)⑤假设数据模型。 ⑥ 实际数据挖掘工作(data mining)。 ⑦ 测试和验证挖掘结果(testing and verfication)。 ⑧ 解释和应用(interpretation and use)。 由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化https://www.unjs.com/fanwenku/260833.html
18.《python数据分析与挖掘实战》笔记第3章腾讯云开发者社区各因素之间有什么样的关联性? 3.1、数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行https://cloud.tencent.com/developer/article/1796257