浅谈对历史频谱数据的数据挖掘|数据挖掘的过程模型_在线学习

国家新闻出版广电总局五五三台自1955年建立伊始就承担着我国广播监测的繁重任务，60多年来频谱负荷收测一直是我台的主要工作之一，经过台内几代收测人员的辛勤劳动，我台现存放着自上世纪50年代至今的海量频谱原始数据，包括国内中央台广播数据，以及大量我台能够收测到的海外对华广播及途径我台的海外广播，所涉电台、语种数目都极其庞大。通过合理利用这些数据，我们将能够得以从中窥探出世界广播发展、变革的轨迹，进而对我国目前的频谱资源管理提供有价值的信息和解决方案。然而，要达到这一目标，首先要解决如何从巨大体量的数据中挖掘有用信息和知识这一难题。

一、基于大数据的数据挖掘技术

（一）大数据的定义

（二）基于大数据的数据挖掘技术

二、对历史频谱数据的数据挖掘

（一）频谱资源和频谱资源管理

无线电频谱是一种非常宝贵且有限的自然资源，是属于国家的重要战略性资源。近年来，无线电频谱需求不断增加，频率冲突越来越严峻，给频谱资源的监测和管理带来了新的困难与挑战，对无线电频谱的监测与管理是有效使用无线电资源的前提，因此，如何开展对信道和频段使用情况的有效监测，记录全频段和全时段内所有信号的基础数据，掌握用频变化，评估信道占用度和利用率，把握频谱的整体使用情况，提高频谱感知与管理能力成为亟需解决的问题。

频谱资源管理是指对无线电频谱资源的使用进行规划与控制的活动，而无线电频率管理是无线电频谱管理的核心。为了对频谱资源进行合理的管理，我们不但必须掌握现阶段的用频情况，也需要对以往的频谱数据进行分析，掌握一段时期内的用频变化，以此来对下个阶段的无线电频率划分进行决策。

（二）历史频谱数据挖掘的过程模型

对于数据挖掘项目首先要建立过程模型，这里运用美国SPSS公司提出的5A模型，即评价需求（Assess）、存取数据（Access）、完备分析（Analyze）、模型演示（Act）、结果展现（Automate）,来对历史频谱数据挖掘进行过程分析。

1.评价需求

通过对海量历史频谱监测数据的深入挖掘与分析，采用形式多样、丰富的统计方法，我们可以以文本、图片等多种形式提供直观、有效、全面的历年频谱资源展示，从而为目前的频谱资源管理提供综合性决策依据。我台频谱负荷收测主要涉及中短波广播业务，故此项目主要针对中短波广播频段频谱数据进行数据挖掘。

2.存取数据

利用Hadoop数据挖掘构架实现海量数据的快速存取，主要包括了大规模数据分析工具Pig、数据仓库工具Hive、分布式编程框架MapReduce、数据状态存储HCatalog、分布式数据库Hbase以及分布式文件系统HDFS等。

3.对历史频谱数据的分析

（1）频谱占用度分析

（2）已知电台分析

已知电台分析是以已知晓的各国际国内电台作为分类，在横向、纵向上对该台在我收测点附近的，可收测到的播音情况进行统计分析。通过电台分析，可以得知某一电台的播音总体变化，包括用频变化（点阵图或柱状图显示）、历年频时数变化（折线图显示）等等。同时，按照国家、地区、使用语言（节目内容）等对电台进行分类。建立数据字典，将某一台曾使用过的台名、归属、发射地进行统一录入，方便在统计分析数据时保持完整性。

（3）使用语言分析

使用语言分析是对已知电台所播的语言种类进行统计分析。通过对各台各频率使用语言的统计筛选，可以对以我国作为主要播向区的电台频率做进一步分析，包括用频变化（点阵图或柱状图显示）、频时总数变化（折线图显示）、发射方向图展示等等，对我们把握此类电台频率的整体变化趋势有着重要的作用。

（4）未知电台、语言分析

我台的历年频谱数据中，包括了一部分未知电台以及未知语言的频率。这一部分频率在频谱负荷表中以“？”表示，大多为能够收听到播音但无法通过播音内容或国际资料确定电台归属或播音语言的频率。对该类频率，可以通过对已知电台频率的数据分析，判断其可能的归属及播音语言。

4.频谱资源挖掘模型

数据挖掘的任务模式按照功能类型可以分成描述型和预测型两类，描述型任务一般用来刻画数据的常用特征，预测型任务则通过分析目标对象的模式和规律，对未来趋势做出合理判断。在频谱数据任务中，对历史频谱数据的分析可以归为描述型，而通过对未来频谱资源分配走向的分析则应归为预测型。

将任务进行分类后，需要将各个任务归纳入某一模型类型中。数据挖掘模型可以概括为三大类：聚类、分类、关联。聚类分析旨在发现不同的簇间的差异性；分类是将历史数据按照用户的需求进行区分；关联分析则是重在挖掘两个不同关键词的内在共性。对历史频谱数据的数据挖掘可以归为分类模型。

5.数据结果可视化展现

项目最终能够通过快捷全面的前端展示平台，快速显示历史频谱数据挖掘结果，以及对未来各电台频率变化走势的分析结果，让数据以更为灵活、直观、可视化的方式表达出来。展示平台主要应能实现：3D频谱、频谱数据地域性展示、统计数据多样化展示等。

三、结束语

无线广播频谱监测与管理系统通过对大量实测数据的分析，能够直观的向用户展示各项历史数据、频谱占用情况、非法电台等大数据背后的信息，这些对频谱资源的分析、合理利用正是我们搭建无线广播频谱监测与管理系统的最终目标。而如何在庞大的数据中更高效地进行对数据的甄别、挖掘，从而向用户提出有用、合理的频谱资源问题的解决方案，是我们亟待解决的问题。

THE END

浅谈对历史频谱数据的数据挖掘

数据挖掘模型和挖掘步骤技术方案

数据挖掘的常见方法mysql教程

数据挖掘的步骤有哪些？

数据挖掘流程一般包含六个步骤

浅谈对历史频谱数据的数据挖掘

数据挖掘

数据挖掘原理与算法课程学习(1)Junn9527

数据挖掘的过程有哪些明月说数据

生产物流概念(精选5篇)

统计学：二十一世纪的挑战和机遇

UG二次开发工具的使用.docx

数据建模的方法模型规范和工具,数据挖掘,BI,商务智能,数据分析,数据建模,Hadoop,云计算,可视化,大数据,规范,模型,商业,时间,实践,信息,信,CIO之家

数据挖掘系列：什么是逻辑回归训练模型？

郝祥军等｜AI重塑知识观：数据科学影响下的知识创造与教育发展方法论认识论科学方法