大数据技术下的公共资源交易信息安全风险

目前,我国公共资源主要通过信息化手段完成交易活动,各地公共资源交易管理和服务机构基本都搭建了电子交易平台,以数字化交易、信息化公开为主导的交易理念成为公共资源交易管理者的共识。然而凡事都有两面性,公共资源交易对电子化、信息化的高度依赖对其安全防护产生了巨大的冲击。特别是近年来,随着大数据技术的出现,信息安全风险形势日益严峻,由于大数据技术是一种功能强大的分析算法,它可以从海量的信息中发现期望的数据,并对这些数据进行智能分类,提取有价值的片段,给出高度精准的趋势判断甚至是预测结果,如果被一些别有用心的不法分子利用这种利器在公共资源交易活动中肆意滥用,势必破坏正常的交易秩序,危及电子交易平台正常运行,其风险后果不容小觑。

二、大数据技术对公共资源交易信息安全构成的风险

1.利用数据挖掘技术拼接出专家评委库

所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。

利用数据挖掘技术对公共资源交易电子平台进行有目的的定向挖掘,可以获取十分精准有效的信息。比如,在政府采购活动中,根据《政府采购评审专家管理办法》的要求,在评审活动完成后要公开评审专家名单。这就给大数据挖掘技术提供了用武之地,只需要积累足够数量的交易项目样本,对评审专家名单进行逐一提取去重(聚类方法),就能拟合出一份较为详尽的评委库名单,加之我国一些地区的评审专家库补充、调整周期长,评委库成员相对稳定,尤其是部分稀缺专业专家人数较少,用大数据技术进行拼接、积累更加方便。

2019年8月份,温州泰顺县公安局公布了一起特大串通投标案,侦查人员发现有5家投标企业的标书做工粗糙,标书报价清单的字体、大小,甚至排版、设置换行都一致,报价还非常接近,经查是犯罪嫌疑人罗某在招标信息发布以后,通过系统查询,发现几家拥有资质的公司,从中选择了四家经常有来往的公司,联系共同参与投标。尽管这些操作还属于最基础、最原始的数据挖掘动作,但是其效率可见一斑。

以中国政府采购网、广西壮族自治区公共资源交易网站公示的政府采购类项目为例,利用RapidMiner对评审专家邓某某参与过的8个项目进行定向挖掘,数据分析结果见表1。

表1的数据可以推测出专家的所在专业(结合项目属性)、参与评审项目的频次(结合评审周期),如果数据样本足够大,则完全可能拼接出全体评审专家名单。笔者对广西某市2018年政府采购评审专家进行数据采集,大约只需要抓取23次项目公示信息,进行简单地去重分析整理,不到一小时就可以顺利拼接出全部46人的名单。

当然,不少地方在征集政府采购评委库阶段就主动公开了评审专家名单,用数据挖掘的方法拼接出专家库评委信息意义不大(本例是用以说明数据挖掘技术的应用场景)。但是这项技术同样可以适用在其他不宜公开的专业交易领域,这样原本应当保密的信息就大白于天下,对于公共资源交易管理或者运行服务机构的数据安全工作产生不小的压力。

2.利用数据清洗技术预测出投标人名单

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。它可以发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。数据清洗的基本原理是利用数理统计或预定义的清理规则将“脏数据”转化为满足数据质量要求的数据,即过滤那些不符合要求的数据。

众所周知,一个地区的投标活动,固然没有“一一对应”的必然规律可循,但是分析该地区企业的投标习惯,还是能够掌握其大方向。如利用OpenRefine可以对企业的参与度、活跃度进行数据清洗,大致推测出项目潜在参与竞标企业的具体名单,这给少数不良企业组织围标、串标创造了便利。例如,我国一些公共资源交易电子化程度较高的省市,多年前就建立了以招标投标诚信库为主要依托的招标管理模式,其基本思路是建立起由行业主管(监督)部门为主导的招标投标诚信库。投标前,投标企业必须把营业执照、人员资质证书和工程业绩(合同、竣工验收证明)等材料传送到诚信库系统中并全部对外公示(向全社会公开),投标时,投标文件必须从经公示过后的诚信库中提取(否则不作为评标依据)。这种做法引入了社会监督力量,减少了评委的评审压力(实际上评委仅对投标方案进行技术性评审),实践证明,这是一种行之有效的招标投标管理手段。然而利用最新的数据清洗技术,却能够快速对这些公开信息进行过滤,从而获知本来应当保密的投标信息。

以数据清洗工具OpenRefine为例,它可以实现数据排序、自动查找重复条目并完成数据记录。OpenRefine的真正能力体现在facets身上。Facets类似于一款电子表格过滤器,能够轻松找出其中的空白单元格与重复数据,并掌握特定数值在数据中的出现频率。

下面这个例子就是利用OpenRefine工具,对南方某县建设工程诚信库进行数据清洗以后预测潜在投标人的过程,大致可以分为四个阶段:

②标准化过程:利用Python等工具对诚信库内符合招标条件要求的企业进行筛选(重点侦测招标信息发布以后新增企业的入库和管理人员备案情况),初步列出符合招标文件所需条件的所有企业的大名单;

③降维过程:分析当地投标企业参与类似项目历次的概率情况,主要目的是尽量减少数据脱脏的工作量,使预测结果不受大幅度扰动;

④脱脏预测过程:对符合条件的企业进行置信度检验(即排除不可能参与此次投标的企业),拟合出潜在的投标企业名单。

笔者利用这种方法对该县交易平台房屋建筑企业诚信库数据做过抓取测试,一些个性化要求比较明显的招标项目(即资质要求比较高、业绩程度比较好,潜在投标企业相对固定),最高一次预测结果与实际投标验证的契合程度超过了73%(即预测出的投标人名单中有七成以上单位最终参与了投标),这是一个惊人的数字,应当引起管理者的高度重视。

3.利用数据沉淀技术判断出投标习惯

数据沉淀又叫做资料探勘。一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。它与数据挖掘最大的区别在于,沉淀技术能将离散化的数据根据关联规则进行聚类,而不仅仅停留在“挖掘”阶段,能智能化自动形成有价值的分析报告。实际上,数据挖掘、数据清洗和数据沉淀三者是一个有机的整体,它们相互配合能够发挥巨大的功效。数据沉淀可以理解为数据挖掘的智能化高级阶段。它们三者的关系可以用“采矿”过程做形象的比喻。数据挖掘好比是一辆大功率的“挖掘机”在数据矿山挖掘有价值的矿石,通过数据清洗这张“滤网”去粗取精进行初次加工,筛选出含量高、品相好的半成品,最后再利用数据沉淀这台“自动分拣机”,把不同品质的数据矿产分类、存储。只要构建出面向需求的数理模型,数据沉淀的直接结果就可以用于判断投标企业的报价习惯,确定报价合理区间以及分析评委的评分倾向等。

4.利用数据劫持技术窃取投标文件

数据劫持(或者可以说是HTTP劫持),一般是指来自网站的服务器的数据在到达用户浏览器的途中,其数据被劫持并遭到篡改,这种情况一般出现在以HTTP协议传输数据的网站上,因为这些数据是明文传送的。广义上讲,数据劫持是数据嗅探的变种形式之一,它属于网络犯罪的常见类型。利用数据劫持技术可以窃取包括投标文件在内的大量保密信息。

2017年5月12日,WannaCry勒索病毒肆虐全球。全球150多个国家近20万台计算机被WannaCry感染,造成超过80亿美元的损失。人们对于数据被劫持进而被勒索直到今天仍心有余悸。公共资源交易领域也发生过一起类似案件。2018年4月,泸州市公安局网安支队发现一网民频繁在网上联系黑客入侵网站,经侦查发现,这是一个专业从事入侵政府公共资源交易网站的犯罪团伙,是一起典型的利用数据劫持为入侵手段的串通招标投标案,黑客们入侵四川、重庆、贵州、广东等地公共资源交易网站,获取网站投标文件和评标专家名单,肆意篡改数据,还控制网站评标专家抽取。

5.其他与大数据有关的变种攻击手段

除了前面提到的几类方法,大数据还有其他丰富的技术分支(有些技术不是大数据的专属分支,可以看作是大数据时代的衍生技术),它们都会对公共资源交易电子平台构成不同程度地威胁,如利用SQL注入攻击数据库,只要是B/S模式应用开发的数据库,如果没有对用户输入数据的合法性进行判断,则用户就可以提交数据库查询代码,根据程序返回的结果,获得某些他想得知的数据,这就是所谓的SQLInjection,即SQL注入。再如,利用DNS欺骗实施网络钓鱼,一个常用的办法是在网页进行挂马诈骗,诱使用户递交重要的个人信息。还有DDoS攻击也是常见的威胁之一,DDoS攻击可以通过利用服务器上的漏洞,采用大数据并发送访问的方式消耗服务器上的资源(如带宽、内存、硬盘等)造成网络拥堵或无法正常访问。表2列举了部分大数据技术下公共资源交易信息安全风险的主要类型。

三、结语

笔者提出的以上这些常见的大数据技术,尚属于比较基础的技术手段,即便是这样,利用它们寻找电子交易平台的漏洞还是绰绰有余,这也表明公共资源交易信息安全防控尚未引起各方面的重视。数据库安全厂商Sentrigo的CTOSlavikMarkovich认为,通常情况下,数据库的配置是很脆弱的,以至于很容易就可以利用其漏洞,并不需要缓冲区溢出或SQL注入攻击,因为这种数据库的初始配置总体上就是不安全的。数据科学家公认,大数据技术拥有超出想象的强大威力,作为一门新兴学科,发展速度可谓一日千里,当前以深度神经网络等新兴技术为代表的大数据分析技术已经开始登场,它是一种更先进的人工智能技术,具有自身自行处理、分布存储和高度容错等特性,非常适合处理非线性的模糊、不完整、不严密的数据,可用来处理离散问题模型,如果和机器学习、深度学习、云计算、边缘计算等人工智能工具结合,将产生更加巨大的动能。公共资源交易数据作为宝贵的数据资源,一旦成为一些不法分子觊觎的“香饽饽”,利用大数据技术武器达到其非法的目的,势必对现有的交易秩序产生十分负面的影响。

数据开放共享、信息公开透明是公共资源交易活动的基本要求和发展方向。我国公共资源交易运行和服务机构掌握着绝大多数交易数据资源,但法律法规的缺位导致数据共享的范围边界仍未明晰,很多数据有意公开但不敢公开,从而产生信息孤岛和数据壁垒,而有的数据公开了以后又要面临诸如大数据技术的冲击和威胁,因此既要防止应当公开的信息公开不彻底,又要防止公开的信息公开后被技术手段所非法利用,这些要引起公共资源交易管理部门的高度重视。

THE END
1.数据挖掘概念与流程综上所述,数据挖掘常用算法种类繁多,各有优缺点。在实际应用中,需要根据具体问题和数据特征选择合适的算法进行建模和分析。 三、数据挖掘常用工具概述 数据挖掘是一个涉及多个领域和技术的过程,其常用工具也种类繁多。以下是对数据挖掘常用工具的概述: 一、编程语言类工具 https://blog.csdn.net/LekYgn/article/details/143495020
2.数据挖掘步骤:从数据准备到结果解读!数据挖掘是一个从大量数据中提取有用信息和知识的过程,它可以帮助我们更好地理解业务,预测未来趋势,并做出更明智的决策。本文将介绍数据挖掘的步骤,从数据准备到结果解读,帮助你更好地理解和应用数据挖掘技术。想要了解更多数据分析知识可以通过考数据分析师掌握,看看你是否具备数据分析师考试资格。考试考证资格免费https://baijiahao.baidu.com/s?id=1783952876201025555&wfr=spider&for=pc
3.什么是可视化数据挖掘技术传统数据挖掘技术中,主要通过自动挖掘的方式,在一定程度上提高了工作效率,但用户不能参与其中,导致得到的数据错误率较高。为了解决这一问题,可以应用可视化数据挖掘方式,让用户全程参与数据挖掘过程,保证数据的有效性。当出现问题时,用户可以调整数据挖掘过程,更好地获取有用信息。 https://www.linkflowtech.com/news/2005
4.数据挖掘的技术线路数据挖掘的六大过程知识表示:使用可视化和知识表示技术,向用户提供挖掘知识 (crisp-dm)数据挖掘6个阶段:业务理解,数据理解,数据准备,建模,模型评估和模型发布 OLTP(online transaction processing):主要是生产型数据处理,一般常见于数据产生,故它是实时数据处理系统,比如一笔交易完成,则在数据库系统中立刻记录下来,故在构建数据库是需要考https://blog.51cto.com/u_19261/7340974
5.数据仓库与数据挖掘技术—数据挖掘分类及过程模型数据挖掘:首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。然后选择算法 结果解释与评估:对发现的模式进行可视化,或者把结果转换为用户容易理解的其他表示形式 Fayyad过程模型从某种意义上来说是面向理论,偏向技术的模型,而不是面向工程、面向应用的模型。虽然有模型的评估,但侧重https://www.jianshu.com/p/da25173289b9
6.湿式硫酸制酸过程数据挖掘技术开发与应用湿式硫酸制酸过程数据挖掘技术开发与应用 张荣 开通知网号 【摘要】: 株冶的整个WSA(Wet gas Sulfuric Acid湿式硫酸)流程为典型的WSA湿法制酸流程,三段转化、熔盐换热、采用普通空气作为冷凝介质冷凝成酸。由于净化工段采用负压操作,在目前负压风机基本满负荷工作的情况下,通过动力波洗涤器的烟气压降成为限制烟气处理能力https://cdmd.cnki.com.cn/Article/CDMD-10532-1011264344.htm
7.数据挖掘论文其次,对档案进行鉴定与甄别,这也是档案工作中较困难的过程,过去做好这方面的工作主要依靠管理档案管理员自己的能力和水平,主观上的因素影响很大,但是数据挖掘技术可以及时对档案进行编码和收集,对档案进行数字化的管理和规划,解放人力资源,提升档案利用的服务水平。第三,数据挖掘技术可以减少档案的收集和保管成本,根据https://www.unjs.com/lunwen/f/20220924130749_5650839.html
8.数据资产价值挖掘的主要方法和技术信息技术信息技术数据挖掘技术 机器学习与数据挖掘 未来展望 一、数据资产的定义与价值 1. 数据资产的内涵 数据资产是指组织在经营过程中收集、存储、管理和使用的各种数据,包括结构化数据(如数据库、电子表格等)和非结构化数据(如文本、图像、音视频等)。这些数据蕴含着巨大的商业价值,已经成为现代企业不可或缺的战略资源。 https://www.zgcsswdx.cn/info/10361.html
9.7种常用的数据挖掘技术分享开源地理空间基金会中文分会开放摘要: 随着信息领域的进步,技术在各个领域产生了大量数据库。因此更加需要存储和操作重要数据,以便以后用于决策和改进业务活动。本文我们将分享7种数据挖掘技术,体验在数据化运营商业实践中的风采。 什么是数据挖掘? 数据挖掘是从海量数据中提取有用信息和模式的过程。它包括 https://www.osgeo.cn/post/14c56
10.数据分析报告范文(精选10篇)三、 利用数据挖掘技术解决问题 1、设计数据挖掘算法; 决策树; 数据关联; 神经元算法; 2、对挖掘结果进行深入解释和分析 由此可以看见在不不同的产地,由于地理因素和特产药品的原因,在药品相关的植物盛产区,进货比较便宜。 可以分析出,不同的消费人群对于同类的药品的购买需求,对于同样的功能的药,药存储不同价格的https://mip.wenshubang.com/baogao/155767.html
11.数据挖掘的主要技术主要有这些,看完就知道数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。 通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。 那数据挖掘的主要技术有哪些呢,今天就跟大家谈谈数据挖掘的主要技术有哪些: 1、模式跟踪 模式跟踪是数据挖掘的一项基本技术。模式跟踪旨在通过识别和监视数据https://www.fanruan.com/bw/faeggrg
12.数据分析报告(精选15篇)由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。 https://www.ruiwen.com/fenxibaogao/8204699.html
13.天津大学首批10门研究生课程登陆“学堂在线”平台课程介绍:主要介绍数据分析与数据挖掘的基本概念和方法。使学习者熟悉数据挖掘的过程,掌握数据分析与数据挖掘过程中常用的算法模型及数据处理方式,为相关研究打下数据处理基础。 课程链接:https://next.xuetangx.com/course/tjnu08091002372/1497582 光电检测技术 http://www.tju.edu.cn/info/1026/2531.htm
14.跟我一起数据挖掘(20)——网站日志挖掘腾讯云开发者社区Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。 1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站https://cloud.tencent.com/developer/article/1066751
15.生物信息学:数据管理与前沿研究数据挖掘技术在生物信息学中同样具有重要地位。通过数据挖掘,研究人员可以从海量生物数据中发现隐藏的有用信息和知识。 预约飞书咨询顾问,领取定制解决方案 → 数据库知识发现(KDD) 知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中挖掘有价值信息的过程。KDD包括数据清理、数据集成、数据选择、数据转换、https://www.feishu.cn/content/bioinformatics
16.两种重要的知识管理技术:数据挖掘和知识发现知识管理知识管理是知识有效利用的手段,数据挖掘是知识管理的基础,是深层次的数据分析。知识发现作为知识管理的高级阶段,是实现数据转化为知识的必然过程。通过与传统管理技术的比较,针对两种主要的知识管理技术——数据挖掘、知识发现的特点和应用进行了探讨。 1引言 https://articles.e-works.net.cn/km/article71041.htm
17.计算机系统应用本文对机动车检测机构(以下简称车检机构)检测计算机系统规划、设计及检测数据值转换应用进行分析列举,为车检机构优化计算机联网系统,简化检测数据传输提供参考。 随着自动化检测技术在机动车检测行业的应用,检测计算机系统作为车检自动化技术的主要组成部分,在车检行业的使用越来越广泛,其不仅是提供科学、准确的检测数据的https://www.yjbys.com/file/jisuanjixitongyingyong.html
18.计算机数据库论文15篇优秀无论在学习或是工作中,大家都写过论文吧,论文是学术界进行成果交流的工具。那要怎么写好论文呢?以下是小编为大家整理的计算机数据库论文,希望对大家有所帮助。 计算机数据库论文1 【摘要】计算机数据库技术是在目前这个信息时代应用最为管饭的计算机技术之一,是计算机信息技术的发展核心和基础。数据库技术的应用,提高https://m.fwsir.com/ligong/html/ligong_20230721071337_3075651.html