远见个人信息保护法将出台揭开数据算法的神秘“面纱”

如今,大数据算法已深入每个人的生活:无论是电商平台,还是新闻客户端和短视频平台,大数据都能根据每个人的特点实现“千人千面”推送;在一些金融平台,科技金融公司也会用安全系统对用户进行“数字画像”,以此确定放款额度和利息。

但有时,大数据也让人有“被监视”的感觉,手机放在身边,刚和朋友说几句话,APP就会推送相应的内容,让人不寒而栗。此外,“大数据杀熟”也一直是备受争议和诟病的问题。

几年来,从网络安全法到时下备受瞩目的个人信息保护法草案、数据安全法草案,关于信息安全的立法进程不断完善和推进,数据算法的合理使用会服务人、更懂人,但是滥用则会侵犯人和控制人。算法到底是什么?怎样平衡安全和服务的边界?个人信息保护法又将怎样保护公民?

主持人:王思远总台央广经济之声【远见】栏目制作人

对话嘉宾:余弦资深安全技术专家、白帽黑客、漫雾科技创始人

数据安全法,明确“数字主权”,刹住数据越权乱象

思远:关于大数据的话题屡见不鲜,但很多时候是偏负面的,比如打车、住酒店时的“大数据杀熟”;外卖小哥被“困在系统里”。这些让算法变得很神秘和冰冷,作为从业者,你怎么用最通俗的理解去解释算法

余弦:简单说,“算法”就是用很多机器、服务器去尽可能模拟人类的思维、行为。大家会把算法简单理解为“人工智能”,但跟人类的思维和行为比,还有非常大差距。在长远的未来看,算法会让我们有更精准的感知和更好的应用场景;但当下还是早期,有时算法会比较“粗暴”。

思远:算法有时会给人两个极端的感觉。一面像是AlphaGo,特定的领域和规则下,表现远远优于人类;另一面,它又缺少人类的温度和感情。

余弦:技术的应用一定要看场景,比如AlphaGo下棋非常厉害,但只局限于此,下棋只是非常小的场景。单一场景内,模型的搭建是很简单的,在特定领域有小维度边界时,算法还能做到速度、储存量、运算能力上超过人类,但真的能够像人类似的万事俱通,在不同的领域都有自己的一套智慧和解决问题的方式,算法还差得非常远。

思远:2020年10月21日开始,个人信息保护法草案正式进入审议——千呼万唤始出来,无论是行业还是用户,都很需要。从业者需要知道数据使用和隐私保护的边界,用户希望技术服务人而不是侵犯人。个人信息保护法,整体从哪些方面保护人的权利?

现在的大数据乱象是伴随新事物而诞生,法律不能盲目制定,有一个过程。2017年6月1日起,网络安全法实施,其对网络个人数据已经有了一些定义;像民法总则、民法典等,也有关于个人信息、数据安全的规定。从国家层面,立法过程中也参考了海外,包括像欧盟通用的数据保护条例。无论是已经颁布的,还是探讨中的草案,我们都该重视它。

作为服务者,也要弄清自己的责任,比如数据储存在服务器里,但如果因为服务器漏洞被入侵的“黑客”偷走了,怎么界定责任?互联网厂商承不承担责任?法律上关于这种界定会越来越多,当下不能说法律很完善,但至少有了这几部法律的帮助,是很好的促进。

“爬虫学得好,牢饭吃到饱”?——论技术的价值观

思远:如果说算法是底层的逻辑和系统,那么大数据就是养料和细胞。从PC时代,到移动时代,再到物联网时代,算法都离不开“爬虫技术”,简单说就是通过网络勾连,实现数据的收集、分析和再组合,实现特定的目的。但“爬虫”经常会爬到隐私,听说圈里有一句话叫“爬虫学得好,牢饭吃到饱”?

余弦:在安全行业,尤其是前两年做“爬虫”生意的一些企业,都因此而触碰了法律被制裁。“爬虫”技术本身没有好与坏的说法,就像菜刀可以做菜,也可以犯罪。

思远:技术是中立的,但取决于人的价值观。

余弦:“爬虫”分为两种场景。第一种是专门做“爬虫”,故意去爬服务器的敏感数据,就是主观作恶。另一种是不小心把数据拿了回来。比如把个人的社保医疗隐私不小心爬回来了,但看到这个信息还挺有价值的,可能会二次利用。同时,这些社保医疗机构网站有漏洞,有没有责任呢?这就像是主动入室盗窃和主人没锁好门导致误闯民宅。不同情况,有不同的认定和处理,这是法律需要界定的。

场景1:金融风控,哪些“大数据画像”侵犯隐私?

思远:我们来聊聊算法的应用场景。生活中最常见的是金融风控——金融数据中的算法是怎样的逻辑?

余弦:核心是通过各类用户数据采集,进行用户画像。让业务决策者更好地理解目标群体,数据越准确、丰满,就越有利于特定的场景去做针对性的事情。

思远:比如给金融借贷,根据征信和消费行为等数据,判断优质客户,给出更好的还款周期和价格,用更低的价格、更高的额度做长线生意;对风险大的客户,拒绝放款。

余弦:这个现象确实非常普遍。很多时候,普通人高估了算法,在我们看来,很多技术真的非常粗暴,就如用户借贷的钱还不上,暴力催收公司通过非法采集用户数据,用灰色方式催债。

思远:很多信息的获取就是一瞬间,交易速度非常快,这对发现违法行为、固定证据会有很大麻烦。真正执法,要靠企业自律或相互监督、举报等,还是什么?

余弦:从操作角度来讲,这些法律是绝对可行的。这里面可能会涉及到具体敏感的话题,这里暂时不展开谈。但首先我们都得有法,才能去操作。未来的执法过程,一方面,数据的滥用,行业内确实有不少的外露特征,明面上能看到;执法肯定由公安进行——比如网安、网络警察。

场景2:大数据营销愈发精准,我们是否被“监视偷听”?

余弦:如果单方面来看,感觉会很惊悚,当然,实际上这是“幸存者偏差”,并不是非常普遍的事件,跟算法也没什么特别的关系——它可能是一种概率,碰巧遇到了,会放大这个事情。营销数据专门有做营销产业链的,通过各方面去采集数据,包括可能有非法的一些交易,能够尽量做到精准推广。

无论是个人信息保护法草案,还是数据安全法、网络安全法、民法典等,多少都有围绕隐私的关于数据的定义或说法。数据活动指的是,数据在收集、存储、加工、使用、提供、交易、公开等行为;数据安全是指通过采取必要的措施,保障数据得到有效保护和合法利用,并持续处于安全状态的能力。

思远:你说了两点。第一,有时大家过于敏感,陷入了“幸存者偏差”;第二,算法、大数据的合法性,包括大数据应该去脱敏的信息点,需要法律规范。回到算法本身,有句话说,“未来世界,只有两种人,一种是控制和决定算法的人,一种是被算法控制的人”。好像很有道理,以往人会自己去探索信息,有更多发展的可能性;现在算法会困住人,越来越懂你的同时,推荐的信息就越来越局限,会围绕着现有的水平、认知和圈层。你怎么看这个问题?

余弦:我赞同行业内这个说法。算法是机器输出来的,通过人类反应的信息,按照概率计算,反向给出推荐信息和服务,又让人形成新的依赖感,手机成了人的器官,人掉入了数据的舒适区,沉浸在这种数字体验中。我也会这样。

但另一方面,我懂技术,某些层面上我也控制算法,尽量让算法能为周边的人提供价值。所以我们才会讨论关于算法的法律红线,否则算法肯定会失控,要更规范,肯定要有法可依。某种程度上,算法和人是相互依存的关系,没有人的行为就没有数据,没有数据就没有了算法。

但同时我们也看到说,算法本身以技术的形式去存在,技术上,其实张一鸣曾在几年前抛出一个言论,大家也讨论得非常热烈,就是说,技术其实本来是工具,工具只分好用和不好用之分,技术高和技术低,我觉得这句话本身没有错。

因此,综合到算法上来说,无论是这个产业环境还是我们的生活,算法上有没有价值观,其实先放在一边,但是研究算法的人、使用算法的人必须有价值观,必须有法可依,算法才能更加值得人去信赖。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.大数据之数据分类指南拟定实施流程宜结合大数据的生命周期,拟定具体的分类实施流程,包括但不限于明确实施步骤、启动实施工作、开展实施工作、总结实施过程等。4.2 开发工具脚本 开发工具/脚本宜根据实施流程、分类维度和分类方法编写分类算法,遵循软件开发者或者脚本编制的规范开发分类工具/脚本。4.3 记录实施过程 记录实施过程宜记录分类https://baijiahao.baidu.com/s?id=1785591161706545792&wfr=spider&for=pc
3.大数据——十大基本算法介绍大数据算法空间复杂度:是指算法在计算机内执行时所需存储空间的度量,它也是数据规模 n 的函数。 4.算法的选择: 若n较小( 如n≤50), 可采用直接插入或直接选择排序; 若文件初始状态基本有序(指正序),则应选用直接插入、冒泡或随机的快速排序为宜; 若n较大,则应采用时间复杂度为O(n log n) 的排序方法:快速排序、https://blog.csdn.net/dsjia2970727/article/details/107344795
4.经典!10大数据挖掘算法!10大数据挖掘算法! 国际权威的学术组织 the IEEE International Conference on Data Mining (ICDM) 早前评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。 在此,花哥我深入介绍下这些算法的原理及实践经验,并补充介绍下当下热门的集成https://zhuanlan.zhihu.com/p/688376648
5.大数据中的八大算法详解在大数据行业,懂算法的大数据工程师是非常有核心竞争力的,之前科多大数据的一位培训学员面试之后,回来和我们分享,懂得算法在面试过程中是非常加分的,即便算法的底层逻辑不是很了解,但一定要懂得具体应用,本文详解了数据分析中经典的几大算法,辅助大家更好的学习。 https://www.iyong.com/displaynews.html?id=2927751481869248
6.大数据算法十大经典算法沈强1201大数据算法 十大经典算法 一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。 决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类https://www.cnblogs.com/shen-qiang/p/5773880.html
7.大数据处理中常见的算法有哪些?大数据处理中常见的算法有哪些? 收藏 在大数据处理中,有许多常见的算法被广泛应用。这些算法帮助我们从海量的数据中提取有用信息、进行模式识别和预测分析。以下是一些常见的大数据处理算法: MapReduce:MapReduce 是 Google 提出的一种分布式计算模型,可以并行处理大规模数据集。它将输入数据集分割成多个小块,并在分布式https://www.cda.cn/view/203009.html
8.大数据分析建模有哪些算法帆软数字化转型知识库大数据分析建模有哪些算法 大数据分析建模有多种算法,包括决策树算法、支持向量机(SVM)算法、随机森林算法、K-means聚类算法、线性回归算法、逻辑回归算法、神经网络算法和贝叶斯分类算法。其中,决策树算法是一种使用树状模型对数据进行分类和回归的方法。决策树算法通过递归地将数据集分成更小的子集,同时相应地构建树结构https://www.fanruan.com/blog/article/71906/
9.大数据去重使用的算法有哪些问答大数据去重可以使用以下算法:1. 哈希算法:将数据映射到哈希表中,相同的数据会得到相同的哈希值,通过比较哈希值进行去重。2. 布隆过滤器:布隆过滤器是一种概率型数据结构,可以高效地判断一个元素是否存在https://www.yisu.com/ask/57547373.html
10.极光大数据有哪些主要的数据分析技术和算法数据格式和结构的转换:极光大数据具备强大的数据转换和格式化功能。在将不同类型和结构的数据整合到一起时,开发者可以利用极光大数据提供的工具和算法,对数据进行标准化、格式化和结构化的处理。这样可以使得不同源头的数据具有一致的格式和结构,方便后续的数据分析和挖掘。 https://www.jiguang.cn/tips/796
11.电子商务行业大数据分析采用的算法及模型有哪些?电子商务行业大数据分析采用的算法及模型有哪些? 第一、RFM模型 通过了解在网站有过购买行为的客户,通过分析客户的购买行为来描述客户的价值,就是时间、频率、金额等几个方面继续进行客户区分,通过这个模型进行的数据分析,网站可以区别自己各个级别的会员、铁牌会员、铜牌会员还是金牌会员就是这样区分出来的。同时对于一些https://m.hqqt.com/wenda/16267676914903.html
12.学习笔记DB4:大数据近似算法腾讯云开发者社区缺点:需要针对特定问题设计特定算法 2、什么是大数据近似算法? 大数据近似算法:利用采样(sampling)、略图(sketch)、摘要(summary)等技术,引入可控误差,解决由数据规模扩大带来的时间/空间/通讯量效率问题。 大数据的特点: 大数据通常有冗余,有价值的数据量可能很小 https://cloud.tencent.com/developer/news/325028
13.大数据业务开发翼MapReduce常见问题操作类Kudu支持的压缩算法有哪些? Kudu目前支持的压缩算法有 snappy、lz4和zlib ,默认是 lz4。 如何查看Kudu日志? 1.登录集群的Master节点。 2.执行su - omm命令,切换到omm用户。 3.执行 cd /var/log/Bigdata/kudu/ 命令,进入到“/var/log/Bigdata/kudu/”目录,即可查看Kudu日志信息。 新建集群Kudu服务异常如何处https://www.ctyun.cn/document/10000070/10357870
14.Contents/premium.mdatmaster·Newslab2020/Contents·GitHub如果取消牌照费,有哪些替代方案? 与流媒体的竞争,以及 BBC的未来. 618 伊朗:女青年之死、抗议、断网 2022/9/25 “头巾法”与宗教警察; 第三次切断互联网; 女性革命的到来? 617 《柳叶刀》新冠报告 2022/9/20 委员会的构成与运行; 报告的主要观点; https://github.com/Newslab2020/Contents/blob/master/premium.md
15.大数据工程师岗位职责算法工程师的大数据工程师是做什么的BOSS直聘大数据工程师职位百科,介绍大数据工程师岗位信息:包括岗位职责(大数据工程师是做什么的?)以及不同工作经验大数据工程师的任职要求和岗位工作内容描述,帮您快速定位,并能通过大数据工程师的薪资情况全面认知该岗位!https://www.zhipin.com/baike/b100120/ebc44f3c1f78e00a1XZ_3Nu6E1o~.html
16.大数据基础术语精粹来袭大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 二、大数据的4V: Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值) 三、当前用于分析大数据的工具主要有开源与商用两个生态圈 http://www.mudan.gov.cn/2c908084831c4eb30183205259ac001f/2c908084831c4eb3018320df837d0020/1669185201282129920.html
17.算法工程师软件工程师大数据工程师,傻傻分不清楚有时候算法工程师好像又和大数据工程师是一样的工作? 这到底是怎么回事呢? 大约整理出以下几个疑问: 1、软件工程师、算法工程师、大数据工程师区别 2、一个算法工程师的日常 3、算法工程师有哪些类别、涉及的技术、作用领域 4、算法工程师的段位怎么分 https://maimai.cn/article/detail?fid=845613115&efid=fwunO1cSXu6ZrJpdACNWjA
18.干货一文读懂工业大数据的算法与模型基本知识与应用算法和模型是大数据分析系统中的两个问题,很多时候人们无法将这两个概念准确的区分开来,或者在某些场景下经常把算法和模型当做是同一个概念。实际上,算法和模型是有紧密联系的。 数据分析的算法是一般规则,所采用的方法是具有通用性和一般性的,如果需要用算法来解决实际的问题,达到商业的价值,就需要将算法和实际的应https://www.evget.com/doclib/s/14/10645
19.携程大数据杀熟事件:算法权力下被控制的人新兴的算法权利打破了社会的结构性平衡,携程利用大数据技术杀熟的行为使得人们的权益遭到极大的损害。而一直以来,虽然有很多起因为大数据杀熟而引起的纠纷,但大数据杀熟的事实有一定的认证难度。本案的胜诉也彰显了我们国家对于算法伦理规范的决心,说到底,终究是“人与人之间的博弈”。 http://media-ethic.ccnu.edu.cn/info/1187/2843.htm
20.共达地李苏南:0代码自动化,让AI算法赋能千行百业商业模式鲸解从已有的合作案例来看,共达地将AI的应用效率、规模、边界拓展到了什么程度?有哪些好的案例可以分享? 李苏南:一方面,我们在和大型客户,比如说像平安智慧城市,软通智慧还有千世通这样的公司做城市级或者金融级的AI项目落地。 例如在智慧城市的合作中,涉及几百种算法,按照行业过去的sop和落地的标准可能需要几个月的时间https://www.cls.cn/detail/1154839
21.大数据和算法的区别爱问知识人大数据和算法的区别V*** 回答 好评回答大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 引自 大数据 算法(Algorithm)是基于特定的计算模型, 旨在解决某一信息处理问题而https://iask.sina.com.cn/b/newrdlpU4r1UUf.html
22.大数据分析的常用算法大数据处理算法研究与实现.pdf大数据分析的常用算法大数据处理算法研究与 实现 大数据处理算法研究与实现 摘要:在适应了不同的环境的企业的发展的条下,提供有包括 企业或具有确定相对运动的构的组合等在互联网上注册的名称, 是互联网比较重要的部分、成套的设备、系统控制在内的完整的 网络平台服务。构建有自己的电子商务寄放平台,大数据是我国 重要https://m.book118.com/html/2021/0812/8007117002003133.shtm
23.大数据分析各种算法大数据分析常用算法大数据分析各种算法 大数据分析常用算法 相对于复杂度分析,还有一个对立的分析方法,叫做事后统计法,但它有两个缺点: 测试结果非常依赖测试环境 测试结果受数据规模的影响很大 我们需要一个不用具体的测试数据来测试,就可以粗略地估计算法的执行效率的方法。这就是我们今天要讲的时间、空间复杂度分析方法。https://blog.51cto.com/u_13633/9262829
24.大数据分析是什么通过大数据分析算法,应该对于数据进行一定的推断,这样的数据才更有指导性。 在大数据时代,大数据分析价值不可估量。在防伪行业中,大数据分析可为企业实现更优质的服务;在企业中,大数据分析为企业决策者以及监管部门提供决策参考,也可帮助企业更准确找到自身定位和发展方向。https://www.linkflowtech.com/news/2090