大数据大算法大模型与产业发展 CCDE2023专题论坛

大数据、大算法、大模型与产业发展|CCDE2023专题论坛

近年来,大数据和人工智能技术高速发展,成为新一轮科技革命和产业变革的核心驱动力,释放出巨大价值,被广泛应用在工业制造、交通、金融、教育、医疗等各种行业,极大地促进了产业发展。大数据的发展为人工智能的训练和应用提供了海量的数据资源和计算能力,推动了人工智能技术的创新和突破,而人工智能又反过来促进了大数据的分析和利用。大数据和人工智能的发展赋能各行业的数字化转型,提升生产效率和创新能力,推动经济向数字化、网络化和智能化方向发展。为了探讨大数据、人工智能和数据经济产业发展问题,本论坛邀请专家学者分别就大数据、大算法、大模型、数字经济等问题表达自己的观点,并共同探讨如何在大数据和大模型科技和产业竞争中突围。

首届中国数字经济产业发展大会(CCDE2023)将于3月25日在苏州相城举办,大会将涵盖大数据产业、算力发展、数字金融产业、智能网联汽车产业、数字孪生技术、产业数字化、青年创新创业等话题。本文特别介绍将于25日下午举行的大数据、大算法、大模型与产业发展专题论坛。

+

一、论坛安排

地点:苏州市国际会议酒店(苏州市相城区相融路699号)

二、论坛议程

议程

嘉宾

13:00-13:30

13:30-13:45

领导致辞

黄宜华,CCF大数据专家委员会副主任,南京大学教授、大数据技术研究中心主任

邢鹏,苏州市相城区政府副区长

13:45-14:15

时空大数据联邦计算

童咏昕,CCF杰出会员,北京航空航天大学计算机学院教授

14:15-14:45

工业大数据技术与挑战

王晨,清华大学大数据系统软件国家工程研究中心总工程师、清华四川能源互联网研究院大数据研究所所长

14:45-15:15

认知智能大模型进展及其展望

谭昶,科大讯飞股份有限公司智慧城市事业群副总裁、讯飞大数据研究院院长

15:30-16:00

高通量药物发现人工智能大模型

彭绍亮,CCF杰出会员,国家超级计算长沙中心副主任

16:00-16:15

数据定价

王建冬,国家发展改革委价格监测中心副主任

16:15-17:00

圆桌论坛:中国如何在大数据和大模型科技和产业竞争中突围?

嘉宾:所有讲者

主持:黄宜华,南京大学教授、大数据技术研究中心主任,CCF大数据专家委员会副主任

三、论坛主席

程学旗

CCF会士、理事、大数据专家委员会秘书长。中国科学院计算技术研究所副所长、研究员,中国科学院网络数据科学与技术重点实验室主任,大数据分析系统国家工程研究中心理事长。

共同主席:

窦志成

CCF大数据专家委员会副秘书长,中国人民大学高瓴人工智能学院副院长、教授、博导,北京智源人工智能研究院“智能信息检索与挖掘”方向项目经理。

王莉

CCF高级会员、大数据专家委常委和副秘书长、人工智能与模式识别专家委委员、协同计算专委委员,太原理工大学教授、博士生导师、人工智能系主任、校学术委员会委员,山西省“大数据智能”科技创新团队负责人。

主要研究领域为大数据挖掘、知识图谱、工业智能等。承担完成科技部重大专项课题、国家基金、863、军科创新、山西省国际合作以及横向委托项目30余项。

四、报告嘉宾及摘要

童咏昕

【嘉宾简介】童咏昕,CCF杰出会员,北京航空航天大学计算机学院教授,博士生导师,国家自然科学基金优秀青年基金获得者。2014年于香港科技大学获计算机科学与工程学博士学位,随后留校担任研究助理教授,2015年入选北京航空航天大学“卓越百人计划”并加入软件开发环境国家重点实验室工作。目前主要研究方向包括:联邦学习、时空大数据分析与处理、众包计算与群体智能等。近年先后主持国家自然基金重点项目、国家重点研发计划课题等科研项目。共发表学术论文百余篇,谷歌学术引用8000余次。曾获中国电子学会自然科学一等奖(排名1)、首届阿里巴巴达摩院“青橙奖”和多个国际一流学术会议/竞赛的最佳论文与冠军;担任《FrontiersofComputerScience》期刊的执行编委、《IEEETKDE》与《IEEETBD》等国际期刊编委和多个CCF-A类会议程序委员会领域主席(PCAreaChair);也是CCF杰出会员、CCF会员与分部工委副主任、CCF走进高校工作组组长。

【报告题目】时空大数据联邦计算

【报告摘要】近年来随着市域社会治理与跨域交通管理等新需求的出现,在促进跨域时空数据流通的同时存在着泄露时空隐私的高风险,进而危害国家安全并影响社会治理。因此,如何在各部门原始数据不出本地的前提下,实现隐私安全的跨域协同分析成为时空大数据计算领域一项全新挑战?联邦计算以其“原始数据不出域、数据可用不可见”的共享理念为破解跨域数据要素流动问题提供了一种全新思路。本报告首先回顾时空联邦计算的背景,从数据库的视角回顾传统联邦数据库概念,介绍隐私可控的时空大数据联邦计算技术。随后介绍本团队结合产业应用需求所研发的时空联邦计算开源平台——“虎符(OpenHufu)”,其已经适配当前各种主流时空大数据计算平台,并支持多方数据自治环境下的安全高效协同查询。最后,报告也将介绍基于虎符系统的应用示范,并对该领域未来发展进行展望。

王晨

【嘉宾简介】王晨,清华大学大数据系统软件国家工程研究中心总工程师、清华四川能源互联网研究院大数据研究所所长,国家产业基础专家委员会委员,参与十四五大数据产业规划等多项国家级、部级信息化与大数据规划编制,领导实施多个制造业龙头企业工业大数据项目。曾担任IBM中国研究院主任研究员,数据管理技术研究部高级经理,IBM全球分析云研究战略负责人。同时在数据领域的顶尖国际会议与期刊上发表了50余篇论文,获得60余项中国、美国发明专利,担任多个学术会议审稿人,担任《大数据导论》、《工业大数据分析指南》、《工业大数据产业与技术白皮书》等多本著作编委。任工信部工业互联网产业发展联盟(AII)副秘书长,北京工业互联网技术创新与产业发展联盟秘书长,中国计算机学会数据库专委会委员,产学研工作组副组长,中国自动化学会大数据专委会委员,ACMSIGBEDChina常务委员,全国信标委工业APP工作组副组长、大数据工作组工业大数据专题组组长,国家工业信息安全发展研究中心科技委委员,Apache基金会IOTDB项目PMC,工信部工业强基、工业互联网等专项评审专家。曾获得北京市科技进步一等奖(2020),日内瓦发明金奖(2022)等科技奖励。

【报告题目】工业大数据技术与挑战

谭昶

【报告题目】认知智能大模型进展及其展望

【报告摘要】报告首先回顾人工智能发展阶段,介绍认知智能阶段的共性技术和典型应用,指出认知智能大模型是认知智能技术突破的重要方向。报告也系统分析了ChatGPT智慧涌现的特点及其背后的技术支撑,指出ChatGPT的成功是“数模算用”的系统性工程。最后结合讯飞实践给出中文大模型的可行性分析和建设思路,对大模型未来的产业化应用作一展望。

彭绍亮

【嘉宾简介】彭绍亮,CCF杰出会员,国家超级计算长沙中心副主任,湖南大学"岳麓学者"二级教授/博导。从事大数据、生物信息、人工智能、区块链等技术研究。出版学术专著7部,在NatureMachineIntelligence等期刊发表学术论文200余篇,论文引用8000余次。主持参与天河系列超级计算机应用软件研发工作,国家科技部、自然科学基金委重点项目,973/863项目等13项。获2019年国家科技进步二等奖,2019年湖南省技术发明一等奖(排名1),2013年军队科技进步一等奖1项,2021年CCF技术发明二等奖(排名1),2018年CCF自然科学二等奖(排名1),2016年立三等功。是中央军委科技委生物交叉立项专家组成员、国家科技部/工信部/教育部会评专家、中国计算机学会理事、CCF计算机应用和生物信息专委副主任和YOCSEF总部AC委员、CCF高性能计算专委常委、大数据专委常委、区块链专委委员,CCF杰出会员和杰出3星演讲者(CCF第二个)、湖南省生物信息学会理事长(发起人),担任2个SCI期刊执行主编和多个国际期刊副主编等。2020年联合创立全球第一个《Metaverse》元宇宙国际学术期刊,任Editor-in-Chief(主编),获得2022世界元宇宙生态大会元宇宙领军人物奖和2022“元宇宙30人创新人物奖”。

【报告题目】高通量药物发现人工智能大模型

【报告摘要】以AlphaFold为代表的人工智能药物发现(AIDD)技术提升了高通量数据产生和药物研发能力。由于广阔的结构空间、多变的生化性质、和训练数据稀疏导致的过拟合,导致现有AIDD技术存在海量高维异构数据、标注数据少、泛化能力弱、模型可解释性差、计算复杂度高等问题。团队基于海量的多源异构生物医药大数据,研究了高通量药物发现大模型关键技术。建立多任务协同预训练大模型,深度提取了融合分子结构和生物相互作用机制的多视图药物表征;研究了多模态联合深度学习技术,获得具有可解释性的节点嵌入表示,提升了AIDD模型的可解释性,还解决了已有方法不能预测训练数据集之外的样本问题,从而进行大规模精准药物发现(包括疾病分型、敏感性、不良反应、毒性等);研发了高通量虚拟药物筛选并行算法与分子测试技术,并实现了候选药物筛选和生物测试。形成一个从药物分子表征和生物异质网络到精准药物发现,再到靶标药物快速筛选和测试的全链条人工智能药物发现技术体系。实现了高通量药物大数据和人工智能双驱动下的干湿实验闭环研究,探索了大模型、人工智能和多模态大数据驱动下的药物研发新技术体系。

大会组委会特别邀请对“大数据、大算法、大模型与产业发展”等核心问题感兴趣或有经验、有想法的专业人士参加本次大会。因有苏州市相城区人民政府特别资助,参会者无需交费。大会场地有限,除特邀嘉宾外,其他嘉宾需提前报名才能参会。

THE END
1.大数据大数据算法大数据算法的技术涵盖了多个领域,包括分布式存储与处理、数据挖掘、机器学习、图计算、文本挖掘与自然语言处理、推荐系统、关联规则挖掘、时间序列分析、异常检测、数据压缩与降维、网络分析、模式识别等。这些算法的选择取决于具体的应用场景和问题要求,通常需要综合倾斜考虑算法的效率、准确性、可扩展性等因素。 https://blog.csdn.net/xiaoyingxixi1989/article/details/141688931
2.大数据:聚类算法深度解析聚类分析的应用非常广泛,从市场细分到图像分割,都离不开聚类的帮助。通过深入理解聚类分析的概念和方法,我们能够更好地应用它来解决实际问题。 1.2 大数据背景下的挑战 在大数据背景下,数据量巨大、多样性高、实时性要求等因素给聚类分析带来了巨大的挑战。传统的聚类算法可能无法有效处理这些庞大的数据集,因此需要采用http://www.360doc.com/content/24/0111/21/78411425_1110749888.shtml
3.PrefixSpan算法的基本概念51CTO学堂序列模式挖掘和和关联规则算法是比较类似的,但项集是有序的,相对关联规则的推荐算法更精准。 本课就从序列模式挖掘简介、序列模式挖掘应用场景、 序列模式挖掘基本概念、PrefixSpan的基本概念、PrefixSpan算法流程、PrefixSpan算法优势和劣势、Spark MLlib实现的PrefixSpan源码实战、充电了么自研序列模式挖掘源码实战等从理https://edu.51cto.com/lesson/831195.html
4.干货一文读懂工业大数据的算法与模型基本知识与应用算法和模型是大数据分析系统中的两个问题,很多时候人们无法将这两个概念准确的区分开来,或者在某些场景下经常把算法和模型当做是同一个概念。实际上,算法和模型是有紧密联系的。 数据分析的算法是一般规则,所采用的方法是具有通用性和一般性的,如果需要用算法来解决实际的问题,达到商业的价值,就需要将算法和实际的应https://www.evget.com/doclib/s/14/10645
5.什么是大数据数据挖掘6帆软数字化转型知识库大数据和数据挖掘是两者之间既有联系又有区别的概念。大数据指的是体量巨大、结构复杂且增长速度快的数据集合,通常用来描述企业和组织所面临的数据挑战。数据挖掘则是从大数据中提取有价值的信息和知识的过程,通过应用各种算法和技术发现隐藏的模式和关系。大数据强调的是数据的规模和多样性、数据挖掘强调的是从数据中提取https://www.fanruan.com/blog/article/602195/
6.大数据的详细定义三种类型的大数据 结构化数据:这类数据最容易整理和搜索,主要包括财务数据、机器日志和人口统计明细等。结构化数据很好理解,类似于 Excel 电子表格中预定义的行列布局。这种结构下的数据很容易分门别类,数据库设计人员和管理员只需要定义简单的算法就能实现搜索和分析。不过,即使结构化数据数量非常大,也不一定称得上大数https://blog.itpub.net/70041355/viewspace-3029299/
7.大数据基础术语精粹来袭大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 二、大数据的4V: Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值) 三、当前用于分析大数据的工具主要有开源与商用两个生态圈 http://www.mudan.gov.cn/2c908084831c4eb30183205259ac001f/2c908084831c4eb3018320df837d0020/1669185201282129920.html
8.许成钢:大数据从市场上来,如果把市场消灭了,数据没有了再一点就是今天讨论人工智能也好、讨论相关的激励机制问题也好,有一个重要基本概念——硬数据和软数据,硬数据就是前面我提到过的,所有可以度量可以传递的数据;但是,永远和硬数据对应的还有一部分是软数据,软数据是没有办法用传感器或移动设备度量的,不能度量就无法传递、无法处理。所以当我们讨论人工智能是基于大数据训https://www.thepaper.cn/newsDetail_forward_1804344
9.浅析“大数据杀熟”维权路径,守护平安3·15一、概念解析 “大数据杀熟”是指互联网平台对老用户杀熟。大数据挖掘算法获取用户信息并对用户进行“画像”分析,基于其获取的用户消费频率、消费习惯、消费能力等信息,在消费者不知情的情况下,向老用户收取高于新用户的价格,且该价格并不反映成本差异,实现“千人千价”。 http://www.xufenglawfirm.com/a/571
10.DizzyK/ustccyber大数据算法 密码工程原理与实践 数据建模与分析基础 网络优化导论 机器学习及其安全应用 网络空间安全数学建模基础 2020级王小谟英才班 专业核心课 编译原理和技术 ( H ) 编译原理和技术的高级课程 2020级第二学士 必修课 网络算法学 数字图像处理与分析 https://toscode.gitee.com/DizzyK/ustc_cyber_security
11.《数据结构与算法》课程教学大纲能力贡献:通过学习数据结构与算法的基本概念和基本原理,增强学生对抽象数据类型的理解能力;通过用C++编程语言实现数据结构和算法,增强学生的程序设计能力;掌握基本的算法分析技术,增强对算法流程和程序实现的分析能力;通过分析数据结构与算法的应用案例、上机练习以及数据结构与算法应用设计,培养学生利用所学知识解决具体问题https://www.cse.cqu.edu.cn/info/2105/3558.htm
12.2020年中国人工智能+物流发展研究报告界面新闻·JMedia尤其是对配送时效性要求非常高的即时物流领域,在引入基于机器学习与运筹优化算法的订单分配系统后,将行业发展初期使用的效率较低的骑手抢单模式和人工派单模式转变为系统派单模式。即时物流订单分配本质上可以看作是带有若干复杂约束的动态车辆路径问题(DVRP),订单分配系统的工作原理是以大数据平台收集的骑手轨迹、配送业务https://www.jiemian.com/article/4654860.html
13.大数据算法(王宏志著)完整pdf扫描版[101MB]电子书下载大数据算法是国内系统介绍大数据算法设计与分析技术的教材,内容丰富,结构合理,旨在讲述和解决大数据处理和应用中相关算法设计与分析的理论和方法,切实培养读者设计、分析与应用算法解决大数据问题的能力。不仅适合计算机科学、软件工程、大数据、物联网等学科的本科生和研究生使用,而且可供其他相近学科的本科生和研究生使用。https://www.jb51.net/books/583619.html
14.神经网络算法:大数据分析的强大工具神经网络算法作为一种重要的机器学习算法,在大数据分析中发挥着越来越重要的作用。本文将围绕“大数据 神经网络算法 神经网络算法综述”这一主题,分以下几个部分进行阐述:摘要、引言、文献综述、结论和参考文献。在引言部分,我们将介绍大数据和神经网络算法的基本概念,简要说明本文的研究范围和目的,重点突出神经网络算法在https://developer.baidu.com/article/detail.html?id=1831261
15.郑智航徐昭曦:大数据时代算法歧视的法律规制与司法审查——以内容提要:算法自动化决策为人们带来方便的同时,也可能因其决策过程的不透明和信息不对称而对某些群体造成歧视。实践中,算法歧视主要表现为偏见代理的算法歧视、特征选择的算法歧视和大数据杀熟三种基本形态。为了消除算法歧视给社会带来的影响,各国政府采取了一系列的规制措施。从规制的空间维度来看,这些措施包括原则性规制https://www.legal-theory.org/?mod=info&act=view&id=25344
16.大数据的基本概念和应用基础大数据集群为什么是奇数台服务器? 因为hadoop框架需要奇数台服务器 因为kafka需要奇数台服务器 因为zookeeper的半数存活机制 因为hdfs的存储机制 * HDFS是( ) 计算引擎 资源调度器 文件系统 辅助工具 * Hive的默认计算引擎是( ) HDFS Spark Tez MR * https://www.wjx.cn/vm/wVwUfsl.aspx
17.孟勤国谈算法歧视侵害消费者权益——是大数据和算法技术运用引发算法作为人机互动的机制,即人类通过代码设置、数据运算于机器自动化判断与决策,其公正性取决于人的意志而非算法技术。算法技术运用可能对特定群体或个体出现系统、重复的不公正结果,构成算法歧视,如算法价格歧视、算法就业歧视、算法信用歧视等。算法歧视侵害消费者权益,其中,以大数据杀熟最为普遍。大数据杀熟是经营者利用https://m.yunnan.cn/system/2023/06/07/032618660.shtml
18.大数据:数据挖掘十大经典算法概述腾讯云开发者社区大数据:数据挖掘十大经典算法概述 国际权威的学术组织theIEEEInternationalConferenceonDataMining(ICDM)2006年12月评选出了数据挖掘领域的十大经典算法:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,andCART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典https://cloud.tencent.com/developer/news/236172
19.大数据日知录(豆瓣)大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多https://book.douban.com/subject/25984046/
20.清华教授彭兰:数据与算法时代的新风险数据分析算法大数据“数据,在本质上,是人类观察世界的表征形式。不论是过去的小数据,还是现在的大数据,研究数据,在某种程度上,其实在本质上都是在研究人本身……人类文化是存在偏见的,作为与人类社会同构的大数据,也必然包含着根深蒂固的偏见。而大数据算法仅仅是把这种歧视文化归纳出来而已。” https://tech.sina.com.cn/it/2018-11-05/doc-ihmutuea7098355.shtml