超大规模图计算在阿里巴巴的应用都有哪些?四篇KDDoral论文抢先看(附论文下载)

多模态数据挖掘:随着技术可以更加有效地从多种渠道收集数据,比如音频、视频、文字、图像等,这也是现在越来越被重视的一个方向,而数据本身也更更加有效的以各种方式进行存储。如何进行跨领域的有效建模,比如多任务学习(multi-tasklearning),迁移学习(transferlearning),强化学习(reinforcementlearning)等,都是重点的发展模型。

全域数据挖掘:该方法涉及从移动设备和IoT设备等挖掘数据以获得关于个人的信息。尽管在这种类型中存在诸如复杂性、隐私性、成本等的若干挑战,但是该方法在各种行业中具有很大的机会,特别是在研究人机交互方面。

分布式数据挖掘:这种类型的数据挖掘越来越受欢迎,因为它涉及挖掘存储在不同公司位置或不同组织的大量信息,并且任何的算法也已经很难在单机版对全网数据进行训练和推理。此外适应度更高的算法也可以用于从不同位置提取数据,并根据它们提供适当的见解和报告。

图计算模型在大数据公司,尤其是IT公司是非常流行的一大类模型,因为是很多实际问题的最直接的解决方法。图计算大致可以分为同构图(homogeneousgraph)和异构图(heterogeneousgraph),后者是在节点或者边的种类大于等于2的情况下。此外知识图谱也是异构图中的一种重要应用,即一种基于语义学的图模型(asemanticgraphicalmodel)。除了了传统的图计算模型,如大家熟知的LPA、RandomWalk及各种变形、CC等,随着深度学习的大量成功落地,GraphEmbedding也变得越来越流行。简单说来,GraphEmbedding也是通过深度学习模型对节点或者边进行featureengineering。近几年,随着数据的多样化,数据量的大幅度提升和算力的突破性进展,图计算的发展和应用有井喷之势,各大公司也相应推出图计算平台,例如GooglePregel,FacebookGiraph,腾讯星图,华为GES等。

其中超大规模图数据挖掘也可以认为是前面几个趋势的一个汇总,也将是未来3~5年年数据挖掘的一个大的集中爆发点。比如DeepMind、谷歌大脑、MIT等27位作者最近推出重磅论文,表示单纯的深度学习已经成熟,而基于图计算的深度学习将端到端学习与归纳推理相结合,有望解决深度学习无法进行关系推理的问题。超大规模图计算在大数据公司发挥着越来越重要的作用,尤其是以深度学习和图计算结合的大规模图表征为代表的系列算法。

frauddetection(SPARC:Self-PacedNetworkRepresentationforFew-ShotRareCategoryCharacterization);recommendation(InteractivePathsEmbeddingforSemanticProximitySearchonHeterogeneousGraphs);entityresolution(MobileAccessRecordResolutiononLarge-ScaleIdentifier-LinkageGraphs)withdeepmodelinterpretations(AdversarialDetectionwithModelInterpretation)。

1.天才的SPARC:阿里巴巴在罕见的分类分析的进展

按照自己的节奏学习

SPARC的灵感来自课程学习。课程学习范式模仿人类的认知过程:基础模型从任务的简单方面训练到基于预定课程的更难的方面。

虽然这个概念已经应用于许多不同的情况,但试错设计很难在现实世界中应用。然而,一种新的学习范式通过使用自定进度的调节器最小化损失函数来自动学习课程。这被称为自定进度学习。研究小组建立在这种自定进度学习的理念之上,将其应用于稀有类别分析的场景,缺少标记的例子,以便逐步并同时学习稀有类别嵌入表示和表征模型。SPARC同时学习图形嵌入并以互利的方式预测稀有类别示例。该框架能够在给定网络(例如不同网络大小)中对不平衡类成员资格进行建模。SPARC能够从少量标记的稀有类别示例中学习,从而最大限度地降低标签成本。此外,使用SPARC的面向类别的表示能够在嵌入空间中广泛地分离多数类和少数类,这些类在网络拓扑和特征方面是不可分割的。

SPARC自己节奏的模型示意图

将SPARC置于行动中

为了测试SPARC在该领域的有效性,研究人员收集了来自书目协作网络,NLP网络和社交网络的数据集。该算法按照以下标准与两个无监督网络嵌入算法DeepWalk和LINE以及另一个半监督框架PLANETOID进行了比较:分类准确性,发现的稀有类别示例的百分比和正在检索的真实罕见示例的比率。

在大多数情况下,SPARC在所有数据集和评估指标上的表现优于竞争最先进的方法。虽然半监督嵌入网络在分离类别时表现优于无监督方法,但SPARC在聚类罕见示例方面表现优异,并且能够仅使用一个标记为罕见类别的示例进行训练。此外,SPARC更强大,误差小于比较方法。

由SPARC和三个竞争框架提取的网络布局可视化

2.谁知道谁:用交互式路径嵌入正确的人

Web平台最吸引人的功能之一是用户与他人联系的能力。例如,在社交媒体上,用户甚至可能不必在平台推荐新连接之前主动搜索朋友。在这些网络平台的表面下面是用户之间庞大的连接网络,并且该网络的大部分依赖于「语义邻近搜索」:将网络中的对象作为查询并根据语义关系对其他对象进行排名。语义邻近搜索查看诸如位置,就业地点和学校等特征,以确定通过这些连接隐含的语义关系。从那里,搜索将用户作为查询并询问哪些其他用户可能是邻居,同事或同学,相应地对他们进行排名。然后,这些排名用于支持诸如社交媒体上的推荐连接,参考书目网络上的顾问/建议者连接以及在电子商务平台上链接用户身份等功能。

在具有大型用户基础的网站(例如Facebook)上,如上所述的异构图形可能会很快变得复杂

然而,语义邻近搜索并不完美。异构列表上的语义关系并不总是明确的,并且对象之间可能缺少链接。先前对语义接近度的研究已经尝试测量与连接查询对象和目标对象的路径的语义接近度。但是,这些路径在建模中是弱耦合的,每个路径都是单独处理的。它们的输出仅在最后阶段汇总,限制了模型形成对象之间相互依赖关系的完整画面的能力。阿里巴巴的技术团队与来自浙江大学和新加坡高级数字科学中心的研究人员合作,开发了交互式路径嵌入(IPE),以更强地耦合语义邻近搜索路径,找到用户之间的联系,这些联系可能会被当前基线忽视。

IPE模型的建立

阿里巴巴的研究团队介绍了交互路径的概念,同时处理多条路径并在它们之间添加依赖关系。结果,这些路径被认为是强耦合的。然后将这些交互式路径嵌入到低维向量中,该向量可以捕获用户之间的语义关系的全部范围。

IPE框架的模型

从那里开始,研究人员利用了一种无循环的改组机制。不希望图形结构中的循环,因为它们使得两个节点更难以彼此到达。这种机制改变了路径的顺序,以消除不同的循环并最大化路径效率。然后,门控循环单元(GRU)架构嵌入交互路径,并允许每个GRU模拟来自其他GRU的相互依赖性。最后,交互路径结构嵌入输出被聚合为单个向量,然后可以用于估计语义关系接近度。

IPE在实际中的使用

为了测试IPE在该领域的有效性,阿里巴巴的技术团队寻找不同类型的异构网络,如LinkedIn,Facebook,DBLP和淘宝。在实验中,IPE和其他几个语义用户搜索基线的任务是根据每个网络特有的特征集定义不同类型的关系。研究人员为每个测试查询用户和每个所需的语义关系构建了理想的排名。他们将这种理想排名与各种最先进的语义用户搜索算法生成的排名进行了比较。在所有这些测试中,IPE不仅在竞争基线方面表现优异,而且在自身的降级版本方面也表现优异,通常显着。这验证了交互路径结构,并为扩展IPE以处理异构网络中的属性和动态以进行语义邻近搜索打开了大门。

3.通过你的手机可以对你做人物画像吗?

电子商务时代正在见证移动互联网用户的快速增长。主要的电子商务公司现在每天都会看到数十亿的移动访问实例,并且隐藏在这些记录中的是有价值的用户行为特征,例如购物偏好和浏览模式。但是,为了从庞大的数据集中提取此信息,需要将记录链接到相应的移动设备,这一过程称为移动访问记录解析(MARR)。MARR面临两大挑战:

1.访问记录中的设备标识符和其他属性可能缺失或不可靠。

2.数据集包含数百万台设备的数十亿访问记录。

目前,还没有开发出现有方法来解决如此大规模使用移动设备标识符的问题。

我们可能不知道你在用什么设备

1.国际移动设备身份(IMEI)-用于识别设备的唯一标识符。

2.国际移动用户识别码(IMSI)-用于识别存储在SIM卡中的蜂窝网络中的用户。

3.UserTrack设备IDentity(UTDID)。

我们的移动访问记录中有大量数据

让我们的设备自己发声

阿里巴巴技术团队观察到,访问记录中的一个或两个ID的ID转换可能会不时发生,但很少发生在所有三个ID中。受此观察的启发,他们使用三个ID(IMEI,IMSI,UTDID)的组合(他们称之为「IDSET」)来可靠地识别来自特定移动设备的访问记录。上面给出了IDSET的示例记录由IDSET标识,即IMEI,IMSI和UTDID的组合。基于IDSET的概念,他们引入了移动访问记录解决(MARR)问题。MARR问题的目的是识别每个访问记录的物理设备,因为每个访问记录由一个特定的移动设备生成。该团队的目标是根据设备对访问记录进行分组,该设备可用于为设备用户生成配置文件。考虑到数据集的庞大规模和较差的数据质量主要是由于ID转移问题,MARR是一个非常具有挑战性的问题。因此,该团队还提出了一个稀疏标识符链接图(SPI-Graph),并附带丰富的移动设备分析数据,以准确地将移动访问记录与设备进行匹配(当数据集中的某些预期值丢失时,数据被视为「稀疏」,这是一般大规模数据分析中的常见现象)。到目前为止,大规模实际数据集的广泛实验结果验证了团队算法的有效性和效率。这些结果还意味着团队现在希望调查他们如何进一步将特定设备的移动访问记录分组到访问会话中,从而更好地表征用户配置文件。

4.了解你的对手:阿里巴巴如何培养更智能的在线欺诈探测器

随着越来越多的实际应用程序,机器学习(ML)系统最近成为一种有前途的在线欺诈检测工具。然而,在大多数ML任务处理固定数据集的情况下,欺诈检测对能够在暴露时能够适应的智能人类行为者起作用,这意味着ML模型在移位数据集中易于变得静止。以前建立更能抵抗变化对手的探测器的努力依赖于诸如分类和特征识别增强,死记硬背对抗训练和深度神经网络应用之类的方法。每一个都有其自身的局限性,但一个主要的反复出现的问题是「黑匣子」难题。研究人员通常无法获取有关这些方法的内部运作的详细信息,否认他们可以帮助他们进一步发展这些方法的重要见解。现在,阿里巴巴的研究人员已经开发了一种对抗训练方法,该方法基于对ML模型运作的研究,运用其机制的知识来产生更强大的对手,供他们训练。除了提高探测器的批发稳健性之外,从最少的计算资源中产生具有挑战性的新对手的努力有助于揭示真正的欺诈犯罪者在被发现后可能从给定位置适应的方式。建立在垃圾邮件发送者基本上是人类代理人的前提下,他们在适应时花费的资源有限,该方法展示了如何根据先前攻击的定位来预测未来攻击的「方向」。

检查黑箱

ML欺诈检测系统依靠分类器来过滤内容,将一些垃圾邮件发送者实例视为高可信度,将其他实例视为低可信度实例,具体取决于它们被正确标记的概率。当大量垃圾邮件发送者实体落入其低信任区域时,分类器变得容易受到攻击,因为即使对垃圾邮件发送者这样的易于逃避(EP)样本的微小变化也可能导致其错误分类为合法内容。出于研究目的,阿里巴巴团队将这些EP样品作为「种子」处理,用于生成强大的对抗样品,用于探测器培训。然后,他们试图确定种子最容易受到影响的方向,以逃避分类机制,从而以最小的努力绕过检测。利用这些发现,他们生成的对手非常模仿真实的恶意行为,减少了有效训练更强检测机制所需的攻击者总数。通过使用ML机制的知识来分析其对沿其边界引入的每个对手的响应,该团队派生出特定于每个实例的本地解释器功能。通过这些信息,他们更新了整体机制,以更好地考虑试验期间引入的个别垃圾邮件威胁的演变。

新系统识别易于逃避的样本,分析潜在的逃避策略,并相应地更新检测模型

基于对YelpReview和Twitter帖子数据的实验,仔细的对手选择证明在产生更具挑战性的攻击模拟方面是有效的,在试验期间提供了关于分类器中的弱点的大量信息。然后,这些研究结果被用于为各种攻击制定有效的防御策略,这些策略可用于加强未来检测框架的有效性。展望未来,阿里巴巴正在寻求扩展其垃圾邮件检测工作,以处理实例之间关系链接的高维原始数据和数据集。

THE END
1.数据库新技术前沿总结数据库新技术的看法1.数据库技术发展进程来看,特点: (1)面向对象的方法和技术对数据库发展的影响最为深远数据库研究人员借鉴和吸收了面向对象的方法和技术,提出了面向对象数据模型(简称对象模型)。该模型克服了传统数据模型的局限性,促进了数据库技术在一个新的技术基础上继续发展。 https://blog.csdn.net/weixin_42034217/article/details/84556830
2.数据库管理技术论文12篇(全文)数据库管理技术论文 第1篇 数据库通过一定的组织方式存放数据信息, 具有低冗余、高独立以及易扩充等特点, 可面向不同应用提供数据, 实现数据共享。在军事领域, 数据库的建立不仅可以高效存储海量的军事数据, 而且可以有效配置信息资源, 保证指挥员在现代信息化战场上, 快速准确获取作战所需关键信息, 切实保障作战实力https://www.99xueshu.com/w/ikey0od5803i.html
3.数据库系统毕业论文(精选8篇)篇1:数据库系统毕业论文 数据库应用课程设计 浅谈人事管理系统的数据库 作者 何川 省(市)级电大省电大 专业 计算机 年级 10级春 学号1XXXXXXXXXX55 目录 1 系统概述 3 2 系统数据流程图和数据字典 3 2.1 用户需求调查 3 2.2 系统数据流程图 4 2.3 系统数据字典 7 3 数据库结构设计 13 3.1 概念结构设计 https://www.360wenmi.com/f/filewe6b64df.html
4.计算机数据库论文15篇优秀无论在学习或是工作中,大家都写过论文吧,论文是学术界进行成果交流的工具。那要怎么写好论文呢?以下是小编为大家整理的计算机数据库论文,希望对大家有所帮助。 计算机数据库论文1 【摘要】计算机数据库技术是在目前这个信息时代应用最为管饭的计算机技术之一,是计算机信息技术的发展核心和基础。数据库技术的应用,提高https://www.fwsir.com/ligong/html/ligong_20230721071337_3075651.html
5.关注第二批“数据要素×”典型案例之十三科技文献数据挖掘8月29日,国家数据局会同科技部、农业农村部、文化和旅游部、中国科学院、中国工程院、国家文物局、国家中医药局等部门在中国国际大数据产业博览会上发布第二批28个“数据要素×”典型案例。第二批案例在注重发挥以数据解行业发展难题、https://mp.weixin.qq.com/s?__biz=MzUzOTI4MTcxNg==&mid=2247520564&idx=3&sn=da9d45f2741f56153975b21cd57b4c48&chksm=fbc96235b1df888c4ae34c35d253d3c9b501998d6b9c5a2dfa4987c21df7579ce542264d3e24&scene=27
6.浅谈计算机网络数据库安全技术优化(论文原稿).doc(最新资源)因此,通过程度与实际价值做好合理科学的加密和解密工作,严格控制用户的信息控制范围,只能让用户获得数据资源的读取权限,使用权留在自己手中,保证数据资源的加密处理工作不受安全威胁。计算机网络系统出现问题并不是件难解决的问浅谈计算机网络数据库安全技术优化论文原稿自己的相册或信息上锁,以保护自己的信息不被泄露,http://www.woc88.com/list-114879470.html
7.数据库论文参考文献(20182020年最新)20210415212905.doc数据库论文参考文献(2018-2020年最新).doc 22页VIP内容提供方:封样的男子245 大小:27.81 KB 字数:约1.84万字 发布时间:2021-04-16发布于湖北 浏览人气:1550 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)https://m.book118.com/html/2021/0415/8100005074003075.shtm
8.环境保护论文(通用15篇)(1)注重纵、横、平等技术指标设计与地形、地质、地貌等环境特性的协调统一,避免和减少对沿线自然地形与地貌的破坏,以及对自然资源的不合理开发于利用,保护自然生态平衡。 (2)积极应用现代科学新技术,充分利用现代交通地理信息系统,通过功能强大的软件来直观分析公路沿线三维空间和进行数据管理,积极开展公路环境评价与绿色https://mip.ruiwen.com/lunwen/4157456.html
9.文明科室推荐材料和科学文化素质不断提高,创造力、凝聚力和战斗力显著增强,各项工作取得跨越式发展,创造了加工所建所以来的多项新纪录:第一次承担河南省重大课题;第一次获得河南省科技进步二等奖;科研经费实现大跨越,由过去几年的总和100万元到2009年单年200多万元;第一成功申报河南省工程技术中心;第一次成功申报国家工程技术分https://www.hnagri.org.cn/article-40234.html
10.网络工程专业人才培养方案(2022)3. 工程基础知识。掌握从事网络工程专业所需的数字电路与逻辑设计、计算机组成原理、程序设计、算法与数据结构、软件工程概论、数据库原理与技术等基础知识。 4. 网络工程专业知识。掌握从事网络工程专业所需的计算机网络原理与技术、操作系统、信息安全导论、物联网技术基础、网络安全技术、网络互连技术、无线网络技术、网https://www.csust.edu.cn/jtxy/info/1148/20900.htm
11.数据库系列报告开篇:技术路径复盘及展望一方面,经历过去近70年的发展历程,数据库技术栈不断分化、丰富,然而随着企业数字化进程的推进,部署多套系统带来了数据一致性与运维管理方面的挑战,因此出现了技术栈收敛的趋势,对应多模、数据湖仓等发展方向。另一方面,数据库持续和新兴的IT技术结合以进一步提升性能,主要对应原生分布式、云数据库、智能自治、结合新硬件https://research.cicc.com/frontend/recommend/detail?id=2640
12.职称评定专业技术工作总结(精选21篇)图书馆数据库资源建设继续加强。图书馆目前的数据库包括正式开通的数据库有7个:中国医药知识仓库(CHKD)、万方数据库、书生电子图书、中国生物医学文献服务系统(CBM)及SinoMed、外文期刊数据库(即北京地区医院外文期刊资源共享全文数据库)、康健西文(FMJS)、医学多媒体;试用的数据库有3个:超星电子图书数据库及超星读秀、https://www.cnfla.com/gongzuozongjie/2764058.html
13.在家也可访问,可获绕技资源一览表!澎湃号·政务澎湃新闻X-MOL的学术期刊包括Nature、Science、Nature Chemistry、JACS等数十种高水平期刊最新论文的信息,图文每日更新 1.2.4 材料领域资源 ◆ ASM-INTERNATIONAL: ◆ 日本国立材料科学研究所:材料数库: ◆ ( 美国 ) 国家标准与技术局 (NIST) 物性数据库: ◆ 美国“材料项目”数据库: https://www.thepaper.cn/newsDetail_forward_5744932