远见个人信息保护法将出台揭开数据算法的神秘“面纱”

如今,大数据算法已深入每个人的生活:无论是电商平台,还是新闻客户端和短视频平台,大数据都能根据每个人的特点实现“千人千面”推送;在一些金融平台,科技金融公司也会用安全系统对用户进行“数字画像”,以此确定放款额度和利息。

但有时,大数据也让人有“被监视”的感觉,手机放在身边,刚和朋友说几句话,APP就会推送相应的内容,让人不寒而栗。此外,“大数据杀熟”也一直是备受争议和诟病的问题。

几年来,从网络安全法到时下备受瞩目的个人信息保护法草案、数据安全法草案,关于信息安全的立法进程不断完善和推进,数据算法的合理使用会服务人、更懂人,但是滥用则会侵犯人和控制人。算法到底是什么?怎样平衡安全和服务的边界?个人信息保护法又将怎样保护公民?

主持人:王思远总台央广经济之声【远见】栏目制作人

对话嘉宾:余弦资深安全技术专家、白帽黑客、漫雾科技创始人

数据安全法,明确“数字主权”,刹住数据越权乱象

思远:关于大数据的话题屡见不鲜,但很多时候是偏负面的,比如打车、住酒店时的“大数据杀熟”;外卖小哥被“困在系统里”。这些让算法变得很神秘和冰冷,作为从业者,你怎么用最通俗的理解去解释算法

余弦:简单说,“算法”就是用很多机器、服务器去尽可能模拟人类的思维、行为。大家会把算法简单理解为“人工智能”,但跟人类的思维和行为比,还有非常大差距。在长远的未来看,算法会让我们有更精准的感知和更好的应用场景;但当下还是早期,有时算法会比较“粗暴”。

思远:算法有时会给人两个极端的感觉。一面像是AlphaGo,特定的领域和规则下,表现远远优于人类;另一面,它又缺少人类的温度和感情。

余弦:技术的应用一定要看场景,比如AlphaGo下棋非常厉害,但只局限于此,下棋只是非常小的场景。单一场景内,模型的搭建是很简单的,在特定领域有小维度边界时,算法还能做到速度、储存量、运算能力上超过人类,但真的能够像人类似的万事俱通,在不同的领域都有自己的一套智慧和解决问题的方式,算法还差得非常远。

思远:2020年10月21日开始,个人信息保护法草案正式进入审议——千呼万唤始出来,无论是行业还是用户,都很需要。从业者需要知道数据使用和隐私保护的边界,用户希望技术服务人而不是侵犯人。个人信息保护法,整体从哪些方面保护人的权利?

现在的大数据乱象是伴随新事物而诞生,法律不能盲目制定,有一个过程。2017年6月1日起,网络安全法实施,其对网络个人数据已经有了一些定义;像民法总则、民法典等,也有关于个人信息、数据安全的规定。从国家层面,立法过程中也参考了海外,包括像欧盟通用的数据保护条例。无论是已经颁布的,还是探讨中的草案,我们都该重视它。

作为服务者,也要弄清自己的责任,比如数据储存在服务器里,但如果因为服务器漏洞被入侵的“黑客”偷走了,怎么界定责任?互联网厂商承不承担责任?法律上关于这种界定会越来越多,当下不能说法律很完善,但至少有了这几部法律的帮助,是很好的促进。

“爬虫学得好,牢饭吃到饱”?——论技术的价值观

思远:如果说算法是底层的逻辑和系统,那么大数据就是养料和细胞。从PC时代,到移动时代,再到物联网时代,算法都离不开“爬虫技术”,简单说就是通过网络勾连,实现数据的收集、分析和再组合,实现特定的目的。但“爬虫”经常会爬到隐私,听说圈里有一句话叫“爬虫学得好,牢饭吃到饱”?

余弦:在安全行业,尤其是前两年做“爬虫”生意的一些企业,都因此而触碰了法律被制裁。“爬虫”技术本身没有好与坏的说法,就像菜刀可以做菜,也可以犯罪。

思远:技术是中立的,但取决于人的价值观。

余弦:“爬虫”分为两种场景。第一种是专门做“爬虫”,故意去爬服务器的敏感数据,就是主观作恶。另一种是不小心把数据拿了回来。比如把个人的社保医疗隐私不小心爬回来了,但看到这个信息还挺有价值的,可能会二次利用。同时,这些社保医疗机构网站有漏洞,有没有责任呢?这就像是主动入室盗窃和主人没锁好门导致误闯民宅。不同情况,有不同的认定和处理,这是法律需要界定的。

场景1:金融风控,哪些“大数据画像”侵犯隐私?

思远:我们来聊聊算法的应用场景。生活中最常见的是金融风控——金融数据中的算法是怎样的逻辑?

余弦:核心是通过各类用户数据采集,进行用户画像。让业务决策者更好地理解目标群体,数据越准确、丰满,就越有利于特定的场景去做针对性的事情。

思远:比如给金融借贷,根据征信和消费行为等数据,判断优质客户,给出更好的还款周期和价格,用更低的价格、更高的额度做长线生意;对风险大的客户,拒绝放款。

余弦:这个现象确实非常普遍。很多时候,普通人高估了算法,在我们看来,很多技术真的非常粗暴,就如用户借贷的钱还不上,暴力催收公司通过非法采集用户数据,用灰色方式催债。

思远:很多信息的获取就是一瞬间,交易速度非常快,这对发现违法行为、固定证据会有很大麻烦。真正执法,要靠企业自律或相互监督、举报等,还是什么?

余弦:从操作角度来讲,这些法律是绝对可行的。这里面可能会涉及到具体敏感的话题,这里暂时不展开谈。但首先我们都得有法,才能去操作。未来的执法过程,一方面,数据的滥用,行业内确实有不少的外露特征,明面上能看到;执法肯定由公安进行——比如网安、网络警察。

场景2:大数据营销愈发精准,我们是否被“监视偷听”?

余弦:如果单方面来看,感觉会很惊悚,当然,实际上这是“幸存者偏差”,并不是非常普遍的事件,跟算法也没什么特别的关系——它可能是一种概率,碰巧遇到了,会放大这个事情。营销数据专门有做营销产业链的,通过各方面去采集数据,包括可能有非法的一些交易,能够尽量做到精准推广。

无论是个人信息保护法草案,还是数据安全法、网络安全法、民法典等,多少都有围绕隐私的关于数据的定义或说法。数据活动指的是,数据在收集、存储、加工、使用、提供、交易、公开等行为;数据安全是指通过采取必要的措施,保障数据得到有效保护和合法利用,并持续处于安全状态的能力。

思远:你说了两点。第一,有时大家过于敏感,陷入了“幸存者偏差”;第二,算法、大数据的合法性,包括大数据应该去脱敏的信息点,需要法律规范。回到算法本身,有句话说,“未来世界,只有两种人,一种是控制和决定算法的人,一种是被算法控制的人”。好像很有道理,以往人会自己去探索信息,有更多发展的可能性;现在算法会困住人,越来越懂你的同时,推荐的信息就越来越局限,会围绕着现有的水平、认知和圈层。你怎么看这个问题?

余弦:我赞同行业内这个说法。算法是机器输出来的,通过人类反应的信息,按照概率计算,反向给出推荐信息和服务,又让人形成新的依赖感,手机成了人的器官,人掉入了数据的舒适区,沉浸在这种数字体验中。我也会这样。

但另一方面,我懂技术,某些层面上我也控制算法,尽量让算法能为周边的人提供价值。所以我们才会讨论关于算法的法律红线,否则算法肯定会失控,要更规范,肯定要有法可依。某种程度上,算法和人是相互依存的关系,没有人的行为就没有数据,没有数据就没有了算法。

但同时我们也看到说,算法本身以技术的形式去存在,技术上,其实张一鸣曾在几年前抛出一个言论,大家也讨论得非常热烈,就是说,技术其实本来是工具,工具只分好用和不好用之分,技术高和技术低,我觉得这句话本身没有错。

因此,综合到算法上来说,无论是这个产业环境还是我们的生活,算法上有没有价值观,其实先放在一边,但是研究算法的人、使用算法的人必须有价值观,必须有法可依,算法才能更加值得人去信赖。

THE END
1.大数据机器学习算法概论腾讯云开发者社区大数据 机器学习 算法概论 ?算法概述? 算法是计算机科学领域最重要的基石之一,计算机语言和开发平台日新月异,但万变不离其宗的是那些算法和理论,数据结构和算法是软件开发必备的核心基础,是内功心法。下面举例拿推荐算法和分类算法的实际场景做下举例:https://cloud.tencent.com/developer/article/2479107
2.华为大数据HCIEBigData认证培训程师,大数据算法工程师,大数据开发工程师,大数据运维工程师 总课时: 132 课时+36 课时赠送视频+实验时间 模块一: Linux 赠送 24 课时视频模块二:Hadoop 技术(36 小时)模块三:数据库(赠送 12 课时视频)模块四:大数据挖掘技术与实现及项目实战(36 小时)模块五: 通过 python 实现算法(30 小时)模块六: 爬虫技术https://www.houxue.com/wh/kecheng-909289.html
3.大数据推流算法是什么6. 数据解压缩:对压缩后的数据进行解压缩。7. 数据处理:对解压缩后的数据进行处理,并将处理结果返回给用户。大数据推流算法的应用非常广泛,例如在线广告投放、金融交易监控、游戏实时数据处理等场景。随着物联网和互联网的普及,大数据推流算法将成为未来数据处理和传输的重要技术。大数据算法是指应用于https://wen.baidu.com/question/2149651620055707628.html
4.大数据&算法大数据算法概述大数据 & 算法 什么是大数据 大数据是指数据量巨大、类型繁多、处理速度快的数据集合。这些数据集合通常包括结构化数据(如数据库中的表格数据)、半结构化数据(如XML文件)和非结构化数据(如文本、音频和视频文件)。大数据的特点包括四个方面: 数据量大:大数据的数据量通常以TB、PB、EB等单位来衡量,这些数据量远远https://blog.csdn.net/DUXS11/article/details/132427344
5.算法是指什么?算法概述二、传统算法与大数据算法 传统的数据算法可被称为数据分析,数据分析的目的在于对已有的数据进行描述性分析,其重点在于发现数据隐含的规律,进行商业分析和处理。 大数据时代的数据算法可被称为数据科学,与数据挖掘和机器学习相关。 机器学习是交叉学科,机器学习涉及的学科包括概率论、统计学、逼近论、图分析、算法复杂度https://m.elecfans.com/article/2008707.html
6.大数据分析是什么通过大数据分析算法,应该对于数据进行一定的推断,这样的数据才更有指导性。 在大数据时代,大数据分析价值不可估量。在防伪行业中,大数据分析可为企业实现更优质的服务;在企业中,大数据分析为企业决策者以及监管部门提供决策参考,也可帮助企业更准确找到自身定位和发展方向。https://www.linkflowtech.com/news/2090
7.达内大数据学习班北京大数据技术培训大数据全栈工程师,小白也能拿高薪!来达内北京大数据培训机构学习大数据,带给你的不只是高薪,更是技术的提升.达内大数据培训班让每位学员都能找到适合自己的课程,练就更牛技术,挑战更高薪水,学大数据就到达内北京大数据培训机构.https://www.tedu.cn/s/data/zt/
8.大数据要学算法吗?大数据算法怎么学?开发技术发展越来越成熟,学习大数据开发的小伙伴也越来越多,同时,在这些小伙伴中有大部分的人会选择参加大数据培训的方式来学习因为大数据开发技术所包含的编程技术知识比较复杂,只有选择一个比较适合自己的学习方式,才能更快地的入门学习,掌握大数据的开发技术基础知识,然而,算法的学习是比较头疼的一件事,那大数据算法https://m.edu.iask.sina.com.cn/jy/gfOUVBWajX.html
9.数据要素:数字时代最重要的生产要素大数据算法区块链智能体本书是对数据的一次系统性的研究和思考,希望抛砖引玉,通过我们的系统性研究,能概要回答:数据是什么?它和信息、知识的关系是什么?数据处理的机理是什么?数据与信息技术和算法的关系是什么?数据的价值是什么?数据与经济的关系是什么?数据与世界的关系是什么?数据面临的问题是什么?数据治理的方法和路径是什么?通过对https://dy.163.com/article/G37IB98B053874C1.html
10.什么是大数据?大数据定义和概念聚名资讯Map reduce(大数据算法):Map reduce(大数据算法,而不是 Hadoop 的 MapReduce 计算引擎)是一种用于在计算集群上调度工作的算法。该过程涉及拆分问题设置(将其映射到不同的节点)并对它们进行计算以产生中间结果,将结果混洗以对齐类似的集合,然后通过为每个集合输出单个值来减少结果。 https://www.juming.com/zx/16917.html
11.大数据的核心就是什么常见问题大数据的核心就是什么 大数据的核心就是预测。大数据的本质是解决问题,大数据的核心价值就在于预测;大数据是把数学算法运用到海量的数据上来预测事情发生的可能性;大数据预测是基于大数据和预测模型去预测未来某件事情的概率。 本教程操作环境:windows7系统、Dell G3电脑。https://www.php.cn/faq/473015.html
12.许成钢:大数据从市场上来,如果把市场消灭了,数据没有了这都是过去带来的教训,今天当大数据和人工智能结合在一起的时候,它可能的危险我们还不知道,比如带有垄断性质的大公司利用手中的数据试图来控制社会,用于大规模的战争,用于犯罪等等。 基于大数据的算法与计算能力 下面我们从最基础的地方认识一下人工智能和大数据,只有知道基础,才有可能能知道它能做什么不能做什么。 https://www.thepaper.cn/newsDetail_forward_1804344
13.多拉快跑更安全?看G7智能挂的神级操作1、大数据算法,智能配货 拉货永远遵循一个原则,那就是多拉快跑,这句话用在快递快运领域尤其适合。 大家都知道,在快递快运领域多用的是厢式车。那么,如何在国家法律法规的允许下获得更大容积的厢式车,在同样容积的箱体里摆放更多的货物则成为现代运输人亟待解决的问题。 http://www.360che.com/news/190228/106757.html
14.《大数据时代》的读后感范文大数据的简单算法比小数据的复杂算法更有效。“更具有宏观视野和东方哲学思维。对于舍恩伯格的第三个观点,我也不能完全赞同。”不是因果关系,而是相关关系。“不需要知道”为什么“,只需要知道”是什么“。传播即数据,数据即关系。 在小数据时代人们只关心因果关系,对相关关系认识不足,大数据时代相关关系举足轻重,如何https://www.unjs.com/dhg/3133302.html
15.大数据中的八大算法详解在大数据行业,懂算法的大数据工程师是非常有核心竞争力的,之前科多大数据的一位培训学员面试之后,回来和我们分享,懂得算法在面试过程中是非常加分的,即便算法的底层逻辑不是很了解,但一定要懂得具体应用,本文详解了数据分析中经典的几大算法,辅助大家更好的学习。 https://www.iyong.com/displaynews.html?id=2927751481869248
16.什么是大数据分析(BDA)帆软数字化转型知识库什么是大数据分析(BDA) 大数据分析(Big Data Analytics, BDA)是一种通过先进的分析技术和工具,从大规模、多样化的数据集中提取有价值信息的过程。它的核心要点包括:数据挖掘、机器学习、预测分析、数据可视化、实时分析。其中,数据挖掘是通过算法和统计方法,从大量数据中发现模式和规律的过程。通过数据挖掘,企业可以找到https://www.fanruan.com/blog/article/47739/
17.算法工程师软件工程师大数据工程师,傻傻分不清楚这个类别中的大数据算法,其实我们基本上可以理解算法工程师。 这是唯一跟算法工程师有交叉的部分 系统类 偏向于系统开发,比如我们经常听到的hadoop、云计算,就是属于这个类型。这里其实主要是hadoop(一个分布式系统,简单理解为另外一种和Windows或者是MacOS一样的东西)偏多,开发语言一般是Java。而另外数据管理员(DBA)和https://maimai.cn/article/detail?fid=845613115&efid=fwunO1cSXu6ZrJpdACNWjA
18.《新闻知识》用户传播行为带来了多少虚假降信息?(三)借助大数据算法,提高真实健康信息传播率和个性化推送 现代互联网技术的发展使得信息推送更加个性化,利用算法,可以在各大平台中给信息可信度分级,再将可信度较高的真实健康信息推荐给相应健康信息需求者,会极大提高真实健康信息的传播范围,抑制虚假健康信息的扩散。 https://www.hubpd.com/hubpd/rss/zaker/index.html?contentId=2882303761519408435
19.干货一文读懂工业大数据的算法与模型基本知识与应用算法和模型则是大数据分析体系中关键的核心问题,因此,本次慧都大数据对相关的基本概念和算法计算做一个系统的梳理和介绍。https://www.evget.com/doclib/s/14/10645
20.孟勤国谈算法歧视侵害消费者权益——是大数据和算法技术运用引发算法作为人机互动的机制,即人类通过代码设置、数据运算于机器自动化判断与决策,其公正性取决于人的意志而非算法技术。算法技术运用可能对特定群体或个体出现系统、重复的不公正结果,构成算法歧视,如算法价格歧视、算法就业歧视、算法信用歧视等。算法歧视侵害消费者权益,其中,以大数据杀熟最为普遍。大数据杀熟是经营者利用https://m.yunnan.cn/system/2023/06/07/032618660.shtml
21.大数据分析的常用算法大数据处理算法研究与实现.pdf大数据分析的常用算法大数据处理算法研究与 实现 大数据处理算法研究与实现 摘要:在适应了不同的环境的企业的发展的条下,提供有包括 企业或具有确定相对运动的构的组合等在互联网上注册的名称, 是互联网比较重要的部分、成套的设备、系统控制在内的完整的 网络平台服务。构建有自己的电子商务寄放平台,大数据是我国 重要https://m.book118.com/html/2021/0812/8007117002003133.shtm
22.大数据分析各种算法大数据分析常用算法大数据分析各种算法 大数据分析常用算法 相对于复杂度分析,还有一个对立的分析方法,叫做事后统计法,但它有两个缺点: 测试结果非常依赖测试环境 测试结果受数据规模的影响很大 我们需要一个不用具体的测试数据来测试,就可以粗略地估计算法的执行效率的方法。这就是我们今天要讲的时间、空间复杂度分析方法。https://blog.51cto.com/u_13633/9262829
23.并行算法数据分析大数据并行算法_数据分析_大数据 并行算法就是用多台处理机 联合求解问题的方法和步骤,其执行过程是将给定的问题首先分解成若干个尽量相互独立的子问题,然后使用多台计算机同时求解它,从而最终求得原问题的解. 定义 并行算法是并行计算中非常重要的问题。并法研究应该确立一个“理论-设计-实现-应用”的系统方法,形成一个http://api.cda.cn/view/534.html
24.《大数据日知录:架构与算法》大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多https://book.douban.com/subject/25984046/
25.数据科学50年百分点科技回到我之前说过的一点:许多大数据算法带来的困难都是暂时的。随着时间的推移,更优异的工具将会涌现,并使得数据科学分类中的数据工程部分,在许多应用程序中变得更加容易。 Owen 的文章支持了这一观点。Owen 讲述了我在第2.2节中给出的涉及 Hadoop 的示例是如何过时的;数据工程界已经从 Hadoop 转向 Apache Spark,在那里https://www.shangyexinzhi.com/article/7164061.html
26.python数据分析——大数据伦理风险分析综上所述,大数据伦理风险分析是一个复杂而重要的任务。我们需要认识到大数据技术的双刃剑效应,既要充分利用其带来的便利和效益,也要关注其带来的伦理风险。通过加强数据安全和隐私保护、规范数据利用行为、提高算法公正性和透明度等措施,我们可以有效防范大数据伦理风险,推动大数据技术的健康发展。同时,政府、企业和个人也https://open.alipay.com/portal/forum/post/156501039