杨仝研究员和罗来龙副研究员邀你共话概率型数据结构设计及其应用

2023年第二届CCF计算机系统大会(CCFSys2023)将于8月4-5日在南昌举行,本次大会以“智能时代的计算机系统:从研究到产业化”为主题,邀请12位两院院士参加指导委员会,期间将举办17个高水平论坛。“概率型数据结构设计及其应用”论坛,围绕“概率型数据结构设计及其应用”这一主题,邀请业界顶级研究人员进行专题报告并开展讨论,促进学术交流、观点交锋和思想碰撞,挖掘领域未来的研究方向。

大会总体介绍

中国计算机学会(CCF)计算机系统大会(CCFSys)是国内计算机系统领域专家阵容最强、报告内容最丰富、参会规模最大的学术旗舰盛会。2023年第二届CCF计算机系统大会(CCFSys2023)将于2023年8月4-5日在南昌国际博览城绿地铂瑞酒店举行。本次大会以“智能时代的计算机系统:从研究到产业化”为主题,由中国计算机学会(CCF)主办,体系结构专委、分布式计算与系统专委、南昌大学共同承办,邀请到郑纬民、庄松林、陈左宁、陈国良、邬江兴、何积丰、张尧学、杨孟飞、顾敏、王怀民、孙凝晖、钱德沛等12位中国科学院、工程院院士,金海、武成岗、廖小飞等知名学者领衔组成大会指导委员会。

论坛背景

近年来,随着网络大数据、物联网大数据、社会大数据和视频大数据的集中全面爆发,数据的增长速度空前迅猛。然而,摩尔定律的逐渐失效使得算力的持续高速增长潜力达到了极限。数据的价值密度日益稀疏,传统的依赖于算力纵向提升的数据挖掘策略面临着前所未有的性能瓶颈。

为了缓解大数据4V特性(Volume、Velocity、Variety、Value)给计算、存储和传输带来的巨大挑战,多种数据概率型数据结构应运而生。这些数据结构被广泛应用于提取海量数据中的关键信息,并支撑上层数据挖掘业务的发展。概率型数据结构通过降低计算和存储的复杂性,提供了一种高效的方法来处理大规模数据集。

为了推动概率型数据结构的研究和应用,CCFSys2023-“概率型数据结构设计及其应用”论坛旨在邀请业界顶级研究人员就概率型数据结构的最新设计、优化算法和应用案例进行专题报告,并开展深入的讨论。通过学术交流、观点交锋和思想碰撞,我们希望能够挖掘出领域未来的研究方向,并推动概率型数据结构在大数据挖掘领域的广泛应用。

2023年8月4日13:30-17:30

南昌国际博览城绿地铂瑞酒店205A会议室

论坛主席及介绍

杨仝

北京大学研究员

杨仝,清华计算机系毕业,现为北京大学计算机系网络所研究员,博士生导师,教育部青年长江学者。主要研究网络大数据算法与系统。近年发表一作/通信作者CCFA类论文60多篇,领域排名第一SIG论文22篇。负责1项国家自然基金重点支持项目、3项国家重点研发计划课题/子课题、国家自然面上基金、青年基金、华为、中心、今日头条等项目。研究成果被国家自然基金委网站报道2次,教育部科技发展中心1次,研究成果被基金委报道2次,教育部科技发展中心1次,多项研究成果在华为海思、华为产品线、今日头条、Redis数据库中得到了应用部署。

罗来龙

国防科技大学副研究员

嘉宾及报告介绍

谢鲲

湖南大学教授

报告题目:稀疏网络测量:一种低成本的全网测量方案

报告摘要:全网测量对于许多网络功能非常重要,包括网络安全、网络预测、网络规划、网络服务SLA跟踪等。然而,网络测量存在一个困境:如何在获取细粒度、准确的全网性能数据的同时,减少测量开销以及测量对网络带来的影响?受信号处理中稀疏表征技术的启发,最近出现稀疏网络测量的方案。该方案通过精心选择一些节点对进行测量,并通过稀疏重构算法推断未测量的数据。稀疏网络测量可以获得完整的全网性能数据并大大减少测量代价。本次报告将阐述稀疏网络测量的基本思想、挑战问题和我们最近的进展。

李振宇

中科院计算所研究员

报告题目:意图驱动网络测量

戴海鹏

南京大学副教授

戴海鹏,南京大学计算机科学与技术系副教授,博导,国家级青年人才计划入选者。获ACM中国新星奖、IEEE可扩展计算技术委员会职业中期卓越研究成就奖、中国电子学会优秀科技工作者等荣誉。研究方向为物联网、数据挖掘、移动计算等。发表国际著名会议期刊论文200余篇,含CCFA类80余篇,包括SIGMOD、VLDB、ICDE、WWW、ATC、INFOCOM等国际一流会议。曾获CCFA类会议INFOCOM最佳论文提名奖;CCFB类会议ICNP最佳论文奖及SECON最佳论文奖亚军。主持和承担国自科面上、联合基金重点、国家重点研发等项目十余项。担任ACMSIGCOMMChina秘书长等职务。担任ISPA、HPCC等十余次会议主席职务。担任中文CCFA类期刊《电子学报》青年编委等职务。

报告题目:新型网络数据挖掘研究

报告摘要:随着移动互联网、物联网等技术不断发展,全球网络数据量呈爆炸性增长趋势,数据形态亦由传统静态数据向海量动态数据转变,呈现的模式更为复杂,获取的信息更为多样。网络数据挖掘目前已成为学术界研究热点,其关键在于设计概率型数据结构对数据进行抽象存储,并设计场景适配的查询及计算方法。研究的挑战是如何协调海量数据和有限存储空间的矛盾,即如何对数据进行压缩、抵御数据处理过程中噪声、及保证处理算法的理论性能等。本次报告主要介绍作者近几年在持续项元素挖掘、负载感知的数据结构设计等方面研究,重点介绍在新型数据模式和信息场景下,如何应对上述挑战。

黄群

北京大学助理教授

黄群,北京大学博士生导师,助理教授,主要研究方向为分布式流处理和网络测量,在网络与系统领域顶级会议(包括SIGCOMM、INFOCOM、VLDB、USENIXATC)发表论文多篇,主持国家重点研发计划子课题、国家自然科学基金等项目。

报告题目:近似零误差的网络测量技术

报告摘要:网络测量技术在网络管理中的重要性日益凸显。然而,随着网络用户数量的增加、网络流量的增长、以及网络自身架构的日趋复杂,网络测量仍然面临着测量精度与资源开销的矛盾。本报告将从系统与算法两个角度,介绍近年来近似零误差网络测量技术的研究进展。

李福亮

东北大学副教授

李福亮,博士毕业于清华大学计算机系,现任东北大学大学计算机学院副教授、博士生导师。主要研究方向为未来网络技术、网络遥测、网络智能运维等;主持国家级项目6项,主持华为、字节跳动、阿里巴巴合作项目6项;第一及通讯作者发表学术论文30余篇,申请发明专利10余项,出版学术专著6部;担任CCF互联网专委会执行委员、华为中央研究院专家顾问;入选辽宁省百千万人才工程、沈阳市高层次人才计划;获沈阳市中青年科技创新人才、辽宁省通信学会优秀科技工作者等荣誉称号。

报告题目:轻量级高性能带内全网遥测

论坛日程

报告题目

讲者

单位

13:30-14:10

稀疏网络测量:一种低成本的全网测量方案

湖南大学

14:10-14:50

意图驱动网络测量

中科院计算所

14:50-15:30

新型网络数据挖掘研究

南京大学

15:30-16:10

近似零误差的网络测量技术

北京大学

16:10-16:50

轻量级高性能带内全网遥测

东北大学

16:50-17:30

Panel讨论:概率型数据结构的发展与应用

1.线上报名:

扫码报名

2.银行汇款

账户名:中国计算机学会

账号:110943026510701

银行开户行:招商银行北京海淀支行

备注:转账时请注明“CCFSys2023+单位+姓名”

转账后,请将转账凭据发送给:

会务组联系方式

张老师17871968326

李老师13921421927

目前大会筹备工作接近尾声,欢迎广大对计算机系统感兴趣的领域学者莅临南昌,参加CCF计算机系统大会,交流学术、探讨合作,共同见证和推动我国计算机系统事业的发展。

THE END
1.数据挖掘与机器学习——概念篇机器学习与数据挖掘概念回归分析包括:线性和非线性回归、一元和多元回归。常用的回归是一元线性回归和多元线性回归。 6. 聚类分析 聚类分析多用于人群分类,客户分类。所谓聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。 五、数据挖掘流程 1.基本流程 2.数据处理 六、案例 —— 推荐算法https://blog.csdn.net/m0_63181360/article/details/138890384
2.数据挖掘数据量多少合适帆软数字化转型知识库数据挖掘数据量的合适程度取决于几个关键因素:目标问题的复杂性、数据的质量、计算资源的可用性、以及模型的复杂性。一般来说,为了确保数据挖掘结果的可靠性和有效性,数据量应足够大以捕捉数据中的模式和趋势。数据量越大,模型的泛化能力越强。举例来说,在处理图像分类任务时,需要数万甚至数百万张图像来训练深度学习https://www.fanruan.com/blog/article/581003/
3.数据量太少怎么做机器学习数据太少如何分析数据量太少怎么做机器学习 数据太少如何分析,没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常https://blog.51cto.com/u_16213565/8785831
4.直播回顾单细胞测序:从样本制备到数据挖掘的全流程探讨10. 请问老师测序的数据量和捕获细胞数对数据的结果影响大吗? 答:不同的测序深度,在达到饱和之前,获得基因中位数据和细胞数量相差比较大,基因中位数不同的组织样本的标准差别较大,一般应该大于1000;捕获的细胞数量对不同研究需求有一定的影响,如一些稀有细胞群的鉴定可能会受影响。 https://www.yiqi.com/news/detail_23958.html
5.数据挖掘算法(logistic回归,随机森林,GBDT和xgboost)第一,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。 第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。最后,如果有了新的数据需要通过随机森林得到分类结果https://cloud.tencent.com/developer/article/1061147
6.三级数据库技术概念2知识发现过程由三个阶段组成:数据准备、数据挖掘、结果的解释评估。 数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据的集合。 数据从操作型环境转移到数据仓库过程中所用到ETL(Extract-Transform-Load)工具通常需要完成的处理操作包括抽取、转换和装载。 https://www.jianshu.com/p/32815082fdb3
7.用户画像应该怎么做数据是零散的,或者是表面的,用户画像要对收集到的数据做整理,比较常用的是通过数据建模的方式做归类创建。小圆接触过的大多是比较初级的用户画像,通过excel工具就可以基本完成整合。而对于技术工具层面的数据建模,感兴趣的可以看推文的第二条。 在数据量不大,用户画像比较初级的情况下,通过筛选、归类、整合的过程对用https://www.linkflowtech.com/news/153
8.2020年最值得收藏的60个AI开源工具语言&开发李冬梅LazyNLP 的使用门槛很低——用户可以使用它爬网页、清洗数据或创建海量单语数据集。 据开发者称,LazyNLP 可以让你创建出大于 40G 的文本数据集,比 OpenAI 训练 GPT-2 时使用的数据集还要大。 项目地址:https://github.com/chiphuyen/lazynlp Subsync 自动将视频与字幕同步 https://www.infoq.cn/article/2uabiqaxicqifhqikeqw
9.易撰专注新媒体数据挖掘分析服务易撰自媒体工具,基于数据挖掘技术把各大自媒体平台内容进行整合分析,为自媒体作者提供在运营过程中需要用到的实时热点追踪,爆文素材,视频素材微信文章编辑器排版,标题生成及原创度检测等服务.https://www.yizhuan5.com/customService/