..::刘品新:论大数据证据

中国社会科学院国际法研究所是中国国际法学的研究重镇。她的前身是中国社会科学院国际法研究中心、中国社会科学院法学研究所国际法研究室和最早时的中国社会科学院法学研究所国际法组。

【摘要】大数据开启了证据法制建设的时代转型。将形形色色的大数据材料用作证据以证明案情,是当下司法实践无法回避的一道题目。该现象的背后存在着重要的价值论和方法论基础。概要地说,大数据证据以海量电子数据凝练的规律性认识发挥证明作用,其主要以分析结果或报告的形式呈现。对于这一证据如何定位,各国法律界存在着不同的理论争论和实务处理,主要包括鉴定意见说、专家辅助人意见说、证人证言说等。考虑到大数据证据具有专业性和科学性,中国现实的便宜选择是将其纳入鉴定意见的证据法定形式。对于这一证据如何审查判断,我国应当聚焦真实性与关联性规则进行创新。具体来说,针对海量数据本身的真实性问题,要建设以“大”真实性为主的真实性规则;针对大数据分析结果的真实性问题,要构建判断机器算法是否可信的真实性规则;针对大数据分析结果所揭示的关联性结论,要构建基于整体数据与具体数据分层的关联性规则,特别是探索超越人类经验判断的关联性规则。

【关键词】大数据;大数据证据;鉴定意见;机器证言;证据规则

一、引言

“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……”这是2013年英国学者维克托对大数据改变社会所做的预言。近年来,世界范围内司法领域确实发生了巨变,突出表现为基于机器算法、机器人和高级人工智能等新兴科技的各种大数据材料涌向法庭。

美国实务中已出现了将汽车事件数据记录系统数据、谷歌地球卫星图像和GPS坐标数据、“查找我的iPhone”功能数据等用作证据的案例。这些材料的特点是数据量巨大,并可被编译为分析报告。如汽车事件数据记录系统(EDR)是专门记录汽车行驶数据的系统,它通常可以在撞车发生前、中、后,按照秒级自动提取车辆运行、系统状态、司机指令、撞车特征等各种数据,以在需要时还原汽车事件真相。我国的司法舞台也上演着同样的故事。早期,海量的通信数据、资金流数据、账户信息、网页数据、网络舆情信息、GIS地理信息及专业数据库的数据被运用于侦查活动中,成为侦查信息化转型的一道道亮丽风景。新近,人们又接续看到将“舆情分析报告”、“百度指数”、“淘宝客反作弊系统数据”、“轨迹大数据”、“公安大数据平台数据”、“证券交易监控系统数据”、“大数据资金分析报告”等用于证明的情景,同时遇到控辩双方产生争议及裁判者任意裁决的种种问题。这些都需要我们针对性地进行制度建设。本文尝试对大数据证据的基础问题作出回应,以期推动实务发展和法制变革。

二、大数据用作证据的理论基础

大数据材料具有“容量大”、“种类多”、“价值密度低”等特点,尤以“容量大”为基础特征。笔者调研e租宝案件发现,该案在侦查阶段收集的海量数据包括:(1)e租宝及芝麻金融数据;(2)集团OA系统中关于会议、财务、合同的数据;(3)关于公司及其产品介绍的电子数据;(4)涉案人员的手机数据等。它们的数据体量大到难以想象的程度。其中,“e租宝及芝麻金融数据”至少包括从4000多家银行、247家第三方支付平台、164家保险公司、114家券商汇总的1万多个账户的几十亿条资金交易流水信息,“集团OA系统中关于会议、财务、合同的数据”主要是部署在阿里云平台的、涉及200多台服务器的数据。全案数据的总量达到30TB左右。这些海量的数据交由司法人员一条一条地筛选使用根本不现实,但可以借助数据统计、数据碰撞、数据挖掘与机器学习等方法形成分析报告,用作办案支撑。这一现象不是特例,随着司法实践的发展,各种类似的报告还会花样翻新。那么,面对大数据材料,我们是抱陈守旧地将之局限于作为侦查线索,还是将其延展一步用作审判环节的证据?这就需要从基础理论层面进行考量。

(一)大数据用作证据的价值论

其次,这符合降低司法证明难度的导向。证据是一种稀缺的资源,证据短缺是人类司法的永恒规律。千百年来人类一直在寻找有效化解证明难题的方法,其中包括对新型证明方法的探索与推广。当代,我国面临着惩治以网络犯罪为代表的新型犯罪的艰巨任务,不同层面的法律规范一直千方百计地试图降低证明难度,包括更多引入“综合认定”、“综合评估”的规则,甚至尝试推出含有“证明责任移转”意味的条款。学理上也提出了“底线证明法”、“抽样取证法”、“等约计量法”等建议。若能从直接扩充证据范围的角度进行制度建设,即引入大数据以证明案情,将具有更为深远的意义。实践中,我国许多案件虽未将大数据列明为证据,但仍技巧性地发挥出它的证明作用。这在很大程度上是受制于旧观念,却也反证了司法证明中存在着大量的需求。

最后,大数据用作证据具有独到的价值。每一份具体的传统证据反映的是案件中具体的人、事、物、时、空等信息;与之不同的是,大数据反映的是案件整体或作为其很大一部分的人、事、物、时、空等信息。这一差异在涉众型犯罪案件中尤为明显。调研发现,涉众型犯罪案件中难以通过传统证据证明的案件事实,都有可能通过大数据材料找到便捷的解题之策。比如,在证明涉众型犯罪案件的组织架构时,传统上调查工商注册材料等证明方法面临着工作量巨大、材料真假难辨的困扰,而海量资金流数据等能够像DNA一样将涉众型犯罪中不同涉案人员识别并关联起来,揭示不同人员在犯罪组织中的具体角色;又如,在证明涉众型犯罪行为人主观故意时,传统的证明方法主要是通过口供或者“通过客观行为推断主观明知”,易遇到嫌疑人以不知情为由进行辩解的挑战,而利用数据挖掘方法则能发现行为人存在着规避打击的习惯做法,从而以犯罪习惯证明其主观故意。目前这样的探索取得了初步成功,表明以大数据化解司法证明难题之路,值得进行实践推广和理论提升。

(二)大数据用作证据的方法论

三、大数据证据的法律地位

从技术原理上讲,大数据变身证据通常要经过三个环节:第一步是汇总数据并进行数据清洗,第二步是建构分析模型或机器算法,第三步是进行运算形成分析结论。这一过程结束后,就会产生大数据证据。为论述的便利,本文将“大数据证据”限定为基于海量电子数据形成的分析结果或报告。在这个定义中,海量的电子数据是“源”,分析得出的结果或报告是“果”。直接起证明作用的往往是“果”——大数据分析结果或报告。当然,在特殊情况下,从海量电子数据中“淘”出来某一条或多条数据也可能起到证明作用。这一条或多条数据也可以被理解为“果”。对于如何为大数据证据赋予合理地位,目前共有如下几种选择方案。

(一)鉴定意见

一种主流观点认为,大数据证据应当作为鉴定意见使用。有论者针对“资金大数据分析结论”提出,“最好把资金大数据分析纳入司法鉴定范畴。这有利于司法实践的展开,在法律上也可以找到依据。”在组织传销案件、非法吸收公众存款案件、集资诈骗案件中,确实出现了很多这样的新型鉴定意见书。如在王某某等组织、领导传销活动罪一案中,司法鉴定机构对“××平台后台数据库”进行了检验分析,得出的鉴定意见为:该网站注册账户1×××个,成功激活1×××个;缴纳会费账户1×××个,空单账户1××个……根据推荐与被推荐的层级关系,共计22级;收取会员投资共计26××××××元;除被告人所有的账户外,还有1×××个会员账户共计17××××××元投资款没有返还。”

然而,鉴定意见本意是由鉴定机构的鉴定人对专业问题做出的专业判断。将大数据证据纳入司法鉴定的范围,必然会遭遇诸多挑战。首先,法条上语焉不详,导致该做法的合法性存疑。我国公安部《公安机关鉴定规则》、司法部《司法鉴定执业分类规定(试行)》、最高人民检察院《人民检察院鉴定规则(试行)》均未将大数据鉴定明确纳入司法鉴定的业务范围。其次,在鉴定方法、鉴定主体等具体细节方面存有障碍。就鉴定方法来说,鉴定机构出具的现有“大数据分析鉴定意见书”显示,采取的鉴定方法通常是《电子物证数据搜索检验规程》《数字化设备证据数据发现提取固定方法》,而其实际检验过程同这两个方法并不完全对应;就鉴定主体来说,“大数据分析鉴定意见书”在很大程度上是由机器算法给出实质判断——不同于以往专家借助仪器设备做出判断,这对于以由专家做出判断的司法鉴定体制是一个过于超前的突破。

(二)专家辅助人意见

2016年最高人民法院、最高人民检察院、公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》,该法第16条规定:“对扣押的原始存储介质或者提取的电子数据,可以通过恢复、破解、统计、关联、比对等方式进行检查。”这一法律条文规制的范围已超越司法鉴定工作,而更多的是专家辅助办案活动。其中的关键词“统计”、“关联”、“比对”等通常理解可用于大数据分析。2018年最高人民检察院发布司法解释明确,各级人民检察院可以指派、聘请有专门知识的人,运用专门知识参与办案活动,协助解决专门性问题或者提出意见。专家辅助人意见是一种比鉴定意见更加宽泛的概念。任何有专门知识的人参与办案,提出的意见都是专家辅助人意见。那么,大数据证据可否作为“专家辅助人意见”(或“有专门知识的人意见”)提交呢?

这种观点比较接近于前述“鉴定意见说”,但在很大程度上还属于一种学术观念,因为诉讼法中并不存在“专家辅助人意见”这一证据形式,故若延伸至司法层面仍需要进一步定位。最高人民法院《关于适用<中华人民共和国民事诉讼法>的解释》第122条第2款规定:“具有专门知识的人在法庭上就专业问题提出的意见,视为当事人的陈述。”《关于适用<中华人民共和国刑事诉讼法>的解释》第87条第1款规定:“对案件中的专门性问题需要鉴定,但没有法定司法鉴定机构,或者法律、司法解释规定可以进行检验的,可以指派、聘请有专门知识的人进行检验,检验报告可以作为定罪量刑的参考。”这说明,大数据证据相应地可以作为“准当事人陈述”或“定罪量刑的参考”。当然,关于该问题现阶段还存在着广泛争议,我国有必要通过立法明确“专家辅助人意见”的证据地位。

(三)证人证言

不过,在我国司法实践中,已经出现以大数据证据辅助或质疑证人证言的例子。在程某某贪污罪一案中,湖北省住建厅2016年通过大数据对比有重大案情发现,控方在庭审中将此内容纳入证人朱某的证言予以举证。本案中将大数据证据转化为证人证言使用。在赵某某组织、领导传销活动罪一案中,为质疑证人胡某,控方询问“通过大数据查找你的下线人数为291人,你怎么解释?”胡某回答“我一共发展了10多个,剩下的那些下线都是多个人发展的,具体多少数我不知道。”这则是将大数据证据作为一种质证方式。

(四)其他证据

前述各种做法均体现了现阶段的实务探索或理论思考。在具体案件的语境中,每一种处理均有一定的合理性;在具体探讨的学理上,每一种观点均能自圆其说。经分析可知,上述探索和思考呈现出一定的共性规律。剖析其中的规律,能够为大数据证据的合理定位提供一份答案。

问题之一,单独讨论大数据证据的证据地位还是结合其他证据一起考虑。当下的实践中是两种情况并存的。但笔者认为,考虑大数据证据的地位,归根到底,还是要讨论其单独发挥作用时的定位问题,故应当限于前一种情况。在第二种情况下,大数据证据就是简单用作其他证据的支持或反驳材料,这只能算为讨论问题提供了素材,其处理结果并不具有参考价值。

问题之二,在现有证据形式的法律框架内还是不限于法律框架进行讨论。理想的学术研究是应然层面的讨论,相应地对大数据证据的定位也就不能局限于我国法定的八种证据形式。换言之,既可以在在物证、书证、证人证言等法定证据的框架内将大数据证据对号入座,也可以呼吁未来将大数据证据单列出来作为一种新的证据形式。而后一种选择有赖于司法案例和实践经验的丰富,更有赖于学术理念和司法观念的与时俱进。我国学者张建伟指出,“未来的证据法当中,大数据分析报告有必要单列出来作为独立的证据种类。”这种未来之策是有道理的。而现实的研究从实然层面讨论,多数人认为大数据证据的定位应该放入我国现行的法定证据形式。这也是实务部门容易接受的做法,如有些裁判文书将大数据证据列入物证、书证、鉴定意见的范围,有的将其转化为证人证言。就我国现有法律框架而言,实务中最常见的做法、学理上最流行的观点当属“鉴定意见论”。

笔者也认同现阶段的这一便宜选择。大数据证据无疑是一种专业性或科学性很强的证据,其结论部分的意见表达是普通人无从凭借常识就能理解的。而在我国现行法律框架中,只有鉴定意见与之相符。前述少数案例中裁判文书将大数据证据列为物证、书证或证人证言等,多少有些生搬硬套的感觉。将大数据证据纳入鉴定意见之列,既具有形式上的亲缘性、可比性,也满足司法追求经济性的原则,司法人员可以相对容易地援引鉴定意见的审查判断规则去处理大数据证据的效力。诚然,严格地讲,大数据证据同一般意义上的鉴定意见也存在前述一些差异,这有待于设立其采用规则时进行必要的调整。

四、大数据证据规则的建设

大数据证据并不是普通司法人员能够解读的,甚至不是具有专门知识的人能够辨析的,其极致形态是机器学习的产物。大数据证据如何适用证据规则?回答这个问题,要厘清传统证据规则用于规范大数据证据的审查判断方面已经和可能遇到的挑战,应当全面审视“大数据证据+证据规则”的问题与出路,特别是聚焦大数据证据在真实性与关联性的审查判断方面出现的特殊难题,并进行特色证据规则的创新。

从学理上讲,数据源的真实性审查包括整体数据的真实性和具体数据的真实性。前一层含义是指大数据作为一个整体数据集的真实性;也就是说,赖以做出大数据分析报告的数据(通常呈现为一份或多份数据库文件)必须是客观形成及收集的真实文件。至于该份或多份数据库文件中每一条记录或信息是否属实,则是后一层含义。简言之,两者分别指向宏观真实性与微观真实性。

形象地说,宏观真实性可称为“大”真实性,微观真实性可称为“小”真实性。大数据证据的真实性规则应当是以“大”真实性为主、兼涉“小”真实性的规则。“大”真实性审查要严格,“小”真实性审查则不能僵化,两个部分合为一个整体。

(二)构建针对机器算法是否可信的大数据分析结果真实性规则

关于大数据分析结果的质疑,主要指向结论的可靠性。人类经验表明,数据越多越大,得出结论越可靠。我国有学者指出,“数据之大,充分抵消了少数个体的特殊性,类似于在众多裁判中去掉最高分和最低分。显然,裁判越多,打分的结果就越接近运动员的真实水平。”但这里的特殊性在于,大数据分析结果是由机器算法得出的,有的机器算法还涉及数据模型。人们提出此类质疑,实质针对的是机器算法等分析方案的可信度。当下许多设计者将机器算法与数据模型视为核心的商业秘密,并不愿公开细节。由此,人们对机器算法之参数是否正确及数据模型之逻辑合理与否,难免心怀疑虑。

一种观念认为,既然基于机器学习的大数据证据被作为证据提交法庭,那就应当要求设计者公开技术方案。如果不公开,大数据证据就难以满足真实性标准。反过来,“如果设计者能够保证机器算法的透明度,那么该工具就更容易被法庭接受,而且这些计算的透明度也会同时提高刑事司法系统的透明度。”这一看法过于武断。洛斯教授指出,“像基于复杂、不透明算法的谷歌地球卫星图像分析报告,往往就被认为含有相当准确的信息而具有高度的证明力。持异议的当事人不能仅仅说,自己无从获取有关的源代码,而要求法庭对该证据予以排除”。在我国,人们也不会仅仅因为不了解技术原理而否认各种基于GPS、基站、IP地址的轨迹分析报告的证据价值。

即便要公开机器算法,“算法透明也不能保证软件得到有效的审查”。由于部分机器算法是机器学习的产物,人类的专家并不能有效解释或说明。“源代码是冗长的,像TrueAllele软件有170,000行代码。只要案件中持异议的当事人(或公众)可以自由不受限地接触、测试该软件,只要该软件客观上是扎实开发并经过标准检测的,那么获得软件源代码本身就不那么紧要了”。况且,司法人员绝大多数都是技术外行,如何进行关于数据模型与机器算法的准确裁断?又如何进一步去评价其中哪些因素可能影响到机器结论?

笔者认为,解决大数据分析结果可靠性难题,需要法律界与科技界的协同探索。当前实践中试行的一种技术方案是,由法庭组织司法鉴定机构或行业组织的专业人员进行黑箱测试。黑箱测试是在已知产品所应具有功能的前提下,通过测试来检测每个功能能否正常的一种测试方法。在测试时,把软件程序看作一个不能打开的黑盒子,在完全不考虑其内部结构和内部特性的情况下,在软件程序接口进行测试。例如,笔者所在团队在协助办理一起组织传销犯罪案件中,为借助某个大数据分析平台对后台数据库中海量的会员数据、资金数据等进行分析,通过模拟数据反复启动对该大数据分析平台的多轮黑箱测试,抽样验证过关后再用于检验鉴定,得出了传销犯罪的组织层级、成员关系等。

另一种是值得推行的法律方案,是由法庭组织控辩双方进行对抗。“就像法官判断一个新的、复杂的科学流程是否满足多伯特标准,需要组织听证会听取各方专家意见一样,法官在评估一个(机器)算法的方法论与可靠性时,同样可以召集听证会听取双方专家的作证意见。”为了使得这样的庭上对抗富有效率,法庭还应给出庭发表意见的双方专家提供必要的条件。具体来说,“控辩双方都可以审查可公开的机器(程序)代码、设计不同的输入指令、机器运行的不同参数,特别是测试与案件中当事人说法吻合的材料看看机器会产生什么样的报告”。这说明,面对大数据证据,司法领域的经典对抗制仍是一把金钥匙,可以帮助人们解开评价大数据证据之机器算法是否可靠的难题。

这里试举笔者调研的许某某诉淘宝(中国)软件有限公司、杭州阿里科技有限公司网络服务合同纠纷一案进行说明。为了维护淘宝客推广秩序,被告(淘宝)开发出反作弊系统,它可以通过抓取异常推广数据识别淘宝客的不正当推广行为。被告(淘宝)指称,原告的淘宝客PID在2013年3月、4月、5月的推广数据被反作弊系统抓取存在明显异常,三个月内共劫持淘宝流量626次、天猫流量4952次。法庭上,原告对被告(淘宝)通过机器算法——反作弊系统抓取淘宝客异常推广行为的做法表示强烈不服,双方产生了激烈的争议。那么,怎么处理这一争议呢?对抗式庭审是必不可少的,专业测试也极具价值。在该案中,被告(淘宝)提供了上海××计算机司法鉴定所出具的司法鉴定意见书一份,用以证明淘宝客反作弊系统异常检测方法的科学性、合理性及劫持流量的方法、统计依据的事实。该案虽然回避了公布淘宝反作弊算法模型的问题,但同样通过庭上对抗的方式解决了大数据分析结果的真实性认定。当然,假如该鉴定所能够进行技术上的黑箱测试,则司法裁判更具有公信力。

(三)探索超越人类经验判断的大数据证据关联性规则

人们对这一规律的认识需要一个过程。我国在以前治理网络犯罪,面对网络犯罪呈现的“事-机-人”特殊规律,经常遭遇无法依靠电子证据证明实际作案人的难题。从人类的因果逻辑认识上看,电子证据是由机器产生的,根据从中的信息只能追查到涉案机器,根本追不到作案人。但是,随着轨迹大数据分析技术出现,人们可以将得出的机器轨迹同行为人的轨迹进行匹配,实现关联性证明方面的认识跃升。如在徐某某、卢某走私、贩卖、运输、制造毒品一案中,控方举出的证据既包括几名被告人的住宿证明,也包括反映其驾驶车辆活动轨迹的智能轨迹分析材料。两者相一致,就将贩毒的犯罪行为与具体的被告人关联起来了。

五、余论

“凡是过去,皆为序曲”。莎士比亚道出了历史与当下的关系。大数据证据是电子证据迭代的产物。相比早期一条一条的电子数据而言,大数据证据以其数据量大为新特色,且可以其中隐藏其中的规律来证明案件事实。这已然是一种质的变化。现阶段通过大数据证据化解各种证明难题现已初露端倪,且还会有更长远的发展。在司法实践探索的基础上,承认大数据证据的法律地位并进行证据规则建设,就成为当务之急。

作者:刘品新,中国人民大学刑事法律科学研究中心研究员,中国人民大学法学院教授,博士生导师。

THE END
1.大数据分析中的算法(2024年春季)内容包括凸优化的一些典型算法、流形优化、非线性规划等等 典型任务参考:Software implementaion for the proximal gradient methods 编程语言: C++ 提供助研岗位,具体待遇面谈 “大数据分析中的算法”教材编写草稿 将课程PPT扩展成更加详细的文字版本,添加具体的问题介绍,典型算法介绍,典型的理论结果,详细的案例分析http://faculty.bicmr.pku.edu.cn/~wenzw/bigdata2024.html
2.基于机器学习的大数据分析:算法和应用研究机器学习在大数据分析中的作用主要体现在提高数据处理速度、精确度和自动化程度。 机器学习在大数据分析中的作用 1. 数据处理速度的提高:大数据量导致传统的数据处理和分析方法效率低下,而机器学习算法可以并行处理大规模数据,显著加快分析速度。例如,使用分布式计算框架如Apache Spark,可以在集群中同时处理大量数据。 2.https://aiqicha.baidu.com/qifuknowledge/detail?id=10211250840
3.大数据分析中常用的算法有哪些?大数据分析是指通过处理和分析大规模数据集来提取有价值的信息和洞察力,以支持决策和解决问题。在大数据分析中,有许多常用的算法被广泛应用。以下是一些常见的大数据分析算法: 线性回归:线性回归是一种基本的统计分析方法,用于建立一个线性模型来描述变量之间的关系。在大数据分析中,线性回归经常用于预测和关联分析,例如预https://www.cda.cn/view/203010.html
4.生活中大数据分析案例以及背后的技术原理比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。 四、大数据分析工具https://www.163.com/dy/article/CQE9PCAI0518JEIM.html
5.工业大数据分析综述:模型与算法.docx工业大数据分析综述:模型与算法 浏览:198 随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基https://download.csdn.net/download/weixin_57147647/22790389
6.大数据分析是什么通过大数据分析算法,应该对于数据进行一定的推断,这样的数据才更有指导性。 在大数据时代,大数据分析价值不可估量。在防伪行业中,大数据分析可为企业实现更优质的服务;在企业中,大数据分析为企业决策者以及监管部门提供决策参考,也可帮助企业更准确找到自身定位和发展方向。https://www.linkflowtech.com/news/2090
7.大数据:分类算法深度解析大数据分类算法深度解析 在大数据时代,处理海量数据并从中提取有用信息变得至关重要。分类算法是机器学习领域的核心,它们在大数据分析、模式识别和决策支持等方面发挥着关键作用。本文将深度解析大数据分类算法,包括其基本原理、常见算法、应用场景以及未来发展方向。 http://www.360doc.com/content/24/0112/20/78411425_1110858832.shtml
8.大数据分析各种算法大数据分析常用算法其中,T(n) 表示代码执行的时间,即我们平时所说的时间复杂度;n 表示数据规模的大小;f(n) 表示每行代码执行的次数总和。公式中的 O,表示代码的执行时间 T(n) 与 f(n) 表达式成正比。 二、时间复杂度 时间复杂度的概念很好理解,就是算法的执行效率,粗略地讲,就是算法代码执行的时间。下面我们直接来分析一段https://blog.51cto.com/u_13633/9262829
9.大数据分析的常用算法大数据处理算法研究与实现.pdf大数据分析的常用算法大数据处理算法研究与 实现 大数据处理算法研究与实现 摘要:在适应了不同的环境的企业的发展的条下,提供有包括 企业或具有确定相对运动的构的组合等在互联网上注册的名称, 是互联网比较重要的部分、成套的设备、系统控制在内的完整的 网络平台服务。构建有自己的电子商务寄放平台,大数据是我国 重要https://m.book118.com/html/2021/0812/8007117002003133.shtm
10.不懂这25个名词,好意思说你懂大数据?01 算法(Algorithm) 算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。 02 分析(Analyticsanalyze) https://gxq.guiyang.gov.cn/zjgxq/zjgxqxyzs/zjgxqxyzsdsjqy/201710/t20171013_17120534.html
11.智能运维大数据的终极宝典(附图表解析)机器之心经典的大数据并行化系统(Map-reduce)要求重新编写分析程序,但通用平台算法库(如MLib/Mahout)对工业分析的分析函数(比如,信号处理、系统辨识)支持有限。而在很多工业分析场景中,记录间存在着时序关系,并行化分组通常是有明确业务语义的字段(比如,风功率曲线计算是按照风机、月份进行并行化),而不是记录条数。因此,工业https://www.jiqizhixin.com/articles/2019-04-12-3
12.Python金融大数据分析(第2版)全本书评在线阅读Python金融大数据分析(第2版)电子书 Python已成为数据驱动AI、金融优先选择的编程语言。现在,一些大型的投资银行和对冲资金均使用Python及其生态系统来构建核心交易与风险管理系统。在本书中,作者向发人员和量化分析人员介绍了使用Python程序库与工具,完成金融数据科学、算法交易和计算金融任务的方法。 Python与金融:http://e.dangdang.com/products/1901219305.html
13.胡焕庸线存在性的大数据分析——中国人口分布特征的生态学及新摘要: 基于大数据分析思路和数据挖掘工具,在县级尺度上,利用2010年第六次人口普查数据,计算各县的平均人口密度,以及合成海拔(地带性因素)、环境脆弱性、人生气候指数、农业生产潜力、适宜水资源偏离度、交通便捷性、区位指数等,克鲁格曼Krugman所谓的区域地理本性特征,对胡焕庸线的存在的地理基础和生态学基础进行了分析。https://www.ecologica.cn/stxb/ch/html/2019/14/stxb201812212776.htm
14.数据分析常用算法钻取分析大型管理模型所谓专题大数据分析,是指对特定的一些规模巨大的数据进行分析。大数据常用来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。常见特征是数据量大、类型繁多、价值密度低、速度快、时效低。比较常见的专题大数据分析有:市场购物篮分析、重力模型、推荐算法、价格敏感度分析、客户分组分析等数据分析常https://www.fanruan.com/bw/lzsjf
15.BoostKit大数据业界趋势鲲鹏大数据组件增强特性和典型配置聚焦大数据查询效率低、性能优化难等挑战,提供大数据组件的开源使能和调优、IO智能预取等基础加速软件包、Spark算法加速库等应用加速软件包,开源openLooKeng查询引擎,提升大数据分析效率。 了解详细:https://www.hikunpeng.com/developer/boostkit/big-data 2、BoostKit分布式存储 https://developer.huawei.com/consumer/cn/blog/topic/03898238728230088
16.如何对大数据进行分析和处理?大数据分析的理论核心就是数据挖掘算法。各类数据挖掘算法必须基于不同的数据类型和格式才能更加纯粹的呈现出数据原本的特点。只有用数据挖掘算法深入到数据的内部,才能挖掘出数据更深层的价值。大数据的存在是为了减少各种结论得出的时间,如果不能用算法提高大数据处理数据的效率,那么大数据的存在价值便也就没有那么高了。https://m.elecfans.com/article/1993430.html
17.国家基金委八大学部公布“优先发展领域及主要研究方向”资讯中心主要研究方向:大数据的复杂性与可计算性理论及简约计算理论;大数据内容共享、安全保障与隐私保护;低能耗、高效大数据获取机制与器件技术;异质跨媒体大数据编码压缩方法;大数据环境下的高效存储访问方法;大数据的关联分析与价值挖掘算法;面向大数据的深度学习理论与方法;大数据的模型表征与可视化技术;大数据分析理解的算法工具与https://www.instrument.com.cn/news/20200306/523285.shtml
18.大数据和高科技抗疫目前最全报告!200个案例归纳战“疫”武器附本节主要结合具体案例,介绍了算法算力、人工智能和智能问诊等技术在疾病研究、辅助诊断和线上问诊的具体应用。 1)算法算力辅助疾病研究:从科研的角度来看,人工智能、大数据等技术正在病毒结构分析、疫苗研发中崭露头角。 1 月 30 日,百度研究院向各基因检测机构、防疫中心及全世界科学研究中心免费开放线性时间算法 Linhttps://zhidx.com/p/197832.html
19.我参与「第四届青训营」笔记创作活动的第13天大数据作业每行的数据在文件中是连续存储的 典型系统:关系型数据库、Key-value数据库 列存 每列的数据在文件中是连续存储的 典型系统:大数据分析系统(SQL-on-Hadoop,数据湖分析)、数据仓库(ClickHouse等) 行存列存总结 行存储适用于OLTP,列存储适用于OLAP 列存格式中常见的编码和压缩算法 https://juejin.cn/post/7130921560205951006
20.人工智能快速发展趋势下,中国该如何应对?格灵深瞳成立于2013年,专注于人工智能领域,致力于将先进的计算机视觉、大数据分析、机器人和人机交互技术与应用场景深度融合,以“让计算机看懂世界,让AI造福人类”为愿景,为智慧金融、体育健康、轨交运维、城市管理、商业零售、元宇宙等领域提供人工智能产品及解决方案。 https://developer.aliyun.com/article/1179745
21.大数据处理:百分点实时计算架构和算法要真正实现大数据实时计算,光有框架是不行的,还必须针对特定业务开发特定的处理流程和算法。相比较离线计算而言,实时计算在算法方面需要考虑的更多,这是因为实时计算能够用到的存储资源远不如离线,而且处理过程的时间限制要比离线计算严格,这都要求实时计算算法必须做相当多的优化。在这一节中,笔者将以海量计数问题为例https://cda.pinggu.org/view/17576.html