“大数据自动挖掘”才是现在这些大数据的真正意义互联网数据资讯网199IT中文互联网数据研究资讯中心

现在大数据火得不行,几乎人人都在说大数据,但到底什么是大数据,恐怕没有多少人知道,鱼目混珠的人太多。

大数据不是指很多很多数据。

所以不是存储了很多数据就是在搞大数据了,因为“大数据”只是个简称,说全一点应是“大数据挖掘”,没经过挖掘的大数据只是没有开采出来的原油,一点用处都没有。

大数据也不是指一般意义上的数据挖掘。

有很多人以前是搞数据分析或数据挖掘的,当《大数据时代》这本书一问世、大数据开始火的时候,他们摇身一变就成了搞大数据的专家了。如果真是这样,就根本没必要提大数据这事儿,因为它本来就一直存在着,只不过换个说法。就好像我们没必要今天突然提出个说法“饮H2O”来代替“喝水”。嗯,对,那叫玩概念。

“大数据挖掘”其实还没有说全,再说完整点,应该是“大数据自动挖掘”。

以前的数据分析或挖掘,是指人通过数据去进行分析,挖掘出一些规律性的东西以供以后使用。

但面对大数据,由于不光是数据量太大,而且往往包括数据的维度也很多,人已不可能去处理这样海量的数据,甚至是如何处理都不知道,这时必须用电脑来自动处理,挖掘出数据中的规律。

但是目前电脑还不能像人那样进行严密、复杂的逻辑思维,因此它们也无法用我们人的思维模式去分析数据,人可能只要较少的数据就能分析出其中的规律,数据多了反而没有办法,所以我们人类都是采用抽样分析。

电脑则正好相反,无法根据少量数据去分析出规律,但它有一个优势,那就是运算速度非常快,因此有可能处理海量数据以后找出其中的规律。

由于电脑还不能进行复杂的逻辑思维,所以它的处理方法很简单,就是进行简单的统计运算,也就是“硬算”,统计出在什么情况会出什么样的结果,然后当类似的情况再出现时,它就会告诉我们可能会出现某种结果了。

由这里也可看大数据的另一个特点,即大数据主要是进行预测,告诉你未来将会出现什么样的结果。而不是只分析出过去的走势和现状,未来还是要由人去判断。

为什么这种简单的方法会有效呢?这就回到“大数据”这个词上来了,那就是因为数据量非常大,统计出来的结果就往往是正确的。

大家一定都知道这个例子,扔硬币来统计正、反面出现的机率,如果只扔10次,也许正面出现9次,以此来得出结论肯定是错的;但如果你扔10万次、100万次,甚至更多,那你统计出来的结果基本是正确的,正、反面出现的机率一定是各50%。

是的,大数据自动挖掘就是依据这一原理。

这实际是人们根据电脑的优势,找出了一个全新的数据分析、挖掘方式,与传统的方式完全不同,所以传统那些搞数据分析或挖掘的专家并不能称作为搞大数据的。

不过你一定要小心,冷不防你就会碰上一个这样的专家,他们甚至可能是来自某名牌大学的知名教授之类。进到书店你也会看到许多讲大数据的书,封面无一例外都有很大的“大数据”三个字,但其实都是在讲传统、人工的数据分析方式,和大数据一点边都不沾。当然,这里不包括《大数据时代》这本书。

另外,传统搞神经网络、深度学习等人工智能的,也基本不算大数据,因为这里面还是很多人为因素,包括建模型、对程序进行训练等,这里人仍需要对所分析的业务逻辑非常熟悉才能做,目前这种方法也难以达到实用的效果。而大数据只是让电脑根据一些简单却巧妙的算法,去进行大量数据的统计,找出连人都想不到的规律。大数据在这里基本是与业务逻辑无关的,人不需要知道这是什么业务,比如分析移动互联网行业的数据,他不需要知道这个行业的来龙去脉、当前状况等,他只需要对大量历史数据进行统计,就能够找出其未来的走势。

说到这,你一定很想问,那就找不到一个真正搞大数据的了?

先来讲个小故事:

80年代有俩计算机呆子在IBM做翻译系统。当时的砖家都在探索语言之间的内在联系,语法、句法神马的。俩呆子路数不同,他们把能找到的各种语言相对应的文献全部做成数据,旁人批评“这种计算机蛮力不算科学”,后来他俩被一个对冲基金老板招走了。现这俩呆子是复兴科技co-CEO,老板是JimSimons。

复兴科技co-CEO每位年收入大概是1亿美元,比华尔街各大行CEO的年收入要高一些,关键是这两位几乎名不见经传。他们老板JamesSimons比较有名,是位数学家,跟陈省身一起写过定理,跟杨振宁是同事,年收入超过10亿美元,现在退休做慈善。清华有Chern-Simons楼,是杨振宁拉Simons掏钱修的。

这里关键的是很多人批评“这种计算机蛮力不算科学”(这些人肯定都是砖家,否则估计也没资格批评),还有就是金融学家们完全不明白他们在干什么。

这说明了什么?说明了在国外发达国家赞成这种方式的人很少,知道怎么用这种方式的人就更少了,那么各位可以想像下在中国能有多少人知道这种方法该怎么做。

在中国,如果谁用这种非主流的野路子做事,别说评专家、教授了,更别说什么收入上亿了,你估计不被饿死的机率有多大。

也许有人要问了,搞语言方面的去搞数字,这靠谱吗?用大数据的思路,你别管原因,那两个复兴科技的呆子已经告诉你结果了。

非要知道原因,也可以跟你说说:

好了,有点跑题,不好意思。不过你现在知道什么是真正的“大数据”了吧。首先记得大数据是用来进行预测的,即直接告诉你未来的结果,另外就是牢牢记住7个字“大数据自动挖掘”,那就谁也忽悠不了你了。

THE END
1.挖掘数据的平台有哪些软件帆软数字化转型知识库Apache Spark:Apache Spark是一款开源大数据处理框架,提供了强大的数据挖掘功能。通过Spark MLlib,用户可以进行机器学习和数据挖掘任务,支持大规模分布式计算。Spark适合需要处理海量数据的企业,能够实现高效的数据分析。 数据挖掘软件的选择应该考虑哪些因素? 在选择数据挖掘软件时,需要综合考虑多个因素,以确保选择的工具能够https://www.fanruan.com/blog/article/569354/
2.大数据领域的12大工具(非常详细)零基础入门到精通,收藏这一篇就够了三、大数据工具:数据挖掘 一旦数据经过清理和准备,你可以通过数据挖掘开始搜索数据了。这时你执行这个实际的过程:发现数据、做出决定和进行预测。 数据挖掘是大数据流程的真正核心。数据挖掘解决方案通常底层很复杂,但竭力提供 一种外观漂亮、对用户友好的用户界面,说起来容易做起来难。数据挖掘工具面临的另一个挑战是:它https://blog.csdn.net/leah126/article/details/140177666
3.长尾关键词挖掘站长工具智能改写5118通过对排名各类大数据挖掘,提供关键词挖掘,行业词库,站群权重监控,关键词排名监控,指数词,流量词挖掘工具等排名工作人员必备百度站长工具平台https://www.5118.com/
4.OpenFEA可视化大数据分析挖掘工具开源项目OpenFEA 可视化大数据分析挖掘工具 作品详情 一、简介 FEA是一站式大数据敏捷分析中间件,融合了内存计算、机器学习、交互分析、可视化分析等技术,涵盖数据收集、数据探索、构建模型、发布模型、可视化展示、分析门户等功能,无需复杂编程即可快速实现大数据分析及构建态势感知系统。FEA,让大数据分析变的简单。更多介绍请访问https://www.proginn.com/w/1497610
5.关键词搜索引擎工具关键词挖掘查询5118通过对排名各类大数据挖掘,提供关键词挖掘,行业词库,站群权重监控,关键词排名监控,指数词,流量词挖掘工具等排名工作人员必备百度站长工具平台媒体运营数据分析 进入网站 收藏 手机查看5118营销大数据是一个全面的搜索引擎优化(SEO)和新媒体运营管理工具,它提供了大数据挖掘、关键词挖掘、行业词库、站群权重监控、关键词https://www.colostar.cn/links/13107.html
6.一文告诉你SEO站长综合查询工具5118功能使用大全!看5118标题描述,关键词挖掘、长尾词挖掘、网站关键词查询,是不是你觉得5118就只是一个关键词工具?与什么大数据,用户需求,新媒体有什么关系,别急,慢慢看。 5118自我介绍是,通过对排名各类大数据挖掘,提供关键词挖掘,行业词库,站群权重监控,关键词排名监控,指数词,流量词挖掘工具等排名工作人员必备站长工具平台。 https://www.niaogebiji.com/article-62840-1.html
7.大数据的就业发展前景8篇(全文)大数据专业人才就业薪资 1、基础人才-数据分析师 北京数据分析平均工资: 10630/月,取自 15526 份样本,较年,增长 9.4%。 数据分析师岗位职责 业务类别:技术 业务方向:数据分析 工作职责: 1. 根据公司产品和业务需求,利用数据挖掘等工具对多种数据源进行诊断分析,建设征信分析模型并优化,为公司征信运营决策、产品设计https://www.99xueshu.com/w/fileq36tge8g.html
8.大数据分析挖掘与可视化工具比对.pptx大数据应用基础(微课版)_课件1-3《项目一 认知大数据系统》 大数据技术及大数据处理流程实训三 大数据分析、挖掘与可视化工具比对.pptx 19页 内容提供方:balala11 大小:3.63 MB 字数:约3.78千字 发布时间:2022-09-05发布于山东 浏览人气:87 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (https://m.book118.com/html/2022/0902/5034340123004332.shtm
9.《轻松学大数据挖掘:算法嘲与数据产品》(汪榕)简介轻松学大数据挖掘:算法、场景与数据产品 不依赖工具包,结合场景个性化构建业务模型。初学者的入门枕边书,传统挖掘者的进阶之路。 作者:汪榕出版社:电子工业出版社出版时间:2018年01月 手机专享价 ¥ 当当价 降价通知 ¥44.20 定价 ¥59.00 电子书价 ¥33.78 http://product.dangdang.com/25206035.html
10.大数据实战能力提升入门视频培训教程第4章: 大数据挖掘实战:技术工具与应用案例分析 第1节 大数据分类技术解析 第1节 分类模型概述 视频 第2节 逻辑回归算法详解:从原理到实现 视频 实验 第3节 支持向量机算法详解:从原理到实现 视频 实验 第4节 决策树模型:基于树结构的分类与回归算法 视频 实验 第5节 朴素贝叶斯分类器:基于概率模型的分类http://edu.cstor.cn/class/280
11.一文告诉你SEO站长综合查询工具5118功能使用大全看5118标题描述,关键词挖掘、长尾词挖掘、网站关键词查询,是不是你觉得5118就只是一个关键词工具?与什么大数据,用户需求,新媒体有什么关系,别急,慢慢看。 5118自我介绍是,通过对排名各类大数据挖掘,提供关键词挖掘,行业词库,站群权重监控,关键词排名监控,指数词,流量词挖掘工具等排名工作人员必备站长工具平台。 https://maimai.cn/article/detail?fid=1478604359&efid=esCEpTriNXVtVxwn2Dx1rA
12.大数据分析工具的种类及其应用数据挖掘工具:数据挖掘工具主要用于从大量数据中挖掘出隐藏的模式和规律。这些工具可以帮助人们发现数据中的关联性,预测趋势和未来的发展方向。一些常见的数据挖掘工具包括RapidMiner、KNIME、SAS等。 大数据处理工具:大数据处理工具主要用于处理大规模的数据。它们通常具有并行计算的能力,可以在多台计算机上同时运行以处理大量https://www.parllay.cn/resources/36584.html
13.常用的大数据工具有哪些?1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。3、DB2https://zhidao.baidu.com/question/715281352765528085.html
14.技术丨工业大数据挖掘的利器——SparkMLlib为此,我们发现Spark MLlib是一款非常优秀的工业大数据挖掘工具,拥有顶尖的数据处理、数据挖掘课数据可视化,是数据从业者必备的一把利器。Spark是一个开源集群运算框架,擅长迭代计算。最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在http://www.world2078.com/h-nd-655.html
15.大数据的分析工具有哪些3.Hive;4.Tableau;5.Python;6.阿里云大数据;7.腾讯云大数据;8.百度大数据;9.华为云大数据;10.科大讯飞。越来越多的企业和组织开始探索如何利用海量数据,用于处理、分析、可视化和挖掘数据中蕴含的价值,来提高决策效率和质量。 一、大数据的分析工具介绍 https://www.linkflowtech.com/news/1784
16.全球100款大数据工具汇总,总有你需要的探码科技自主研发的DYSON智能分析系统,可以完整的实现大数据的采集、分析、处理。DYSON智能分析系统专业针对互联网数据抓取、处理、分析,挖掘。可以灵活迅速地抓取网页上散乱分布的信息,并通过强大的处理功能,准确挖掘出所需数据,是目前使用人数最多的网页采集工具. https://mse.xauat.edu.cn/info/1017/1662.htm
17.15个热门开源免费的数据挖掘数据分析数据质量管理工具借此机会,今天小编给大家15个热门开源免费的数据挖掘、数据分析、数据质量管理工具,值得学习收藏,让正在从事大数据小伙们有头绪和对数据挖掘、数据分析思路,希望对更多粉丝们有所帮助。同时祝福大家一切顺利,心想事成,永远开心快乐,身体健康,愿你的生活更加充实,愿你的未来更加辉煌。接下来小编给大家介绍一些开源免费的数https://www.51cto.com/article/777596.html