数据治理新要求

对大模型的研究发现,小规模、高质量的数据通常比大规模、低质量的数据能带来更好的训练效果。这也就使得在大模型时代,行业对数据治理的重视程度又大大增加了。从数据到训练、推理再回到数据形成的反馈循环,即数据飞轮,推动着大模型不断更新、优化、迭代自身,数据治理已成为大模型时代不可或缺的命题。

数据治理本身也得益于智能化的发展,从人为定制的标准,变得越来越越来越工具化、技术化、智能化,降本提效的目标建设已经愈发具备成效,包括大模型等智能应用,以及更底层的数据平台的各个层面,比如采集、建模、指标、分析等层面,都深受影响。

为顺应大模型时代的数据治理新要求、新趋势,DataFun将举办DataFunCon·2023深圳站线下大会,大会将通过邀请业内互联网大厂、金融公司等机构的数据治理专家,着重探讨数据治理中涉及的上述方方面面的话题,并延伸至整个Data+AI行业的变与不变的主题,欢迎广大从业者参与交流。

11.24大会日程

赖洪科OPPO互联网应用研发平台总经理

演讲题目:OPPO应用分发在推荐领域提效上的实践与思考

1.OPPO应用分发业务场景介绍

2.OPPO应用分发数据体系概况及架构

4.未来在推荐领域及大数据领域的规划与方向

听众收益:

1.了解OPPO在应用分发业务上的具体场景及厂商应用分发的差异化特点

2.了解OPPO应用分发在推荐算法领域的技术能力、全场景数据价值及应用案例

扫码报名咨询

11.25大会日程

朱耀概货拉拉高级大数据工程师

个人介绍:朱耀概,本科毕业于华南理工大学,先前就职于vivo,从事过万亿级vivo用户画像建设,目前就职于货拉拉,主要从事大数据平台、大数据自动化运维体系建设以及HBase稳定性建设,ApacheHBase/Kyuubi/UniffleContributor。

演讲题目:货拉拉大数据下一代基础架构实践与思考

演讲提纲:

1.背景与挑战

2.基础架构实践

3.总结与思考

4.未来展望

1.面对资源波峰低谷,如何在成本和资源效率间平衡

2.除了x86服务器,我们还有别的选择么

3.面向云原生浪潮,大数据架构如何演进

出品人:周强OPPO数据架构负责人

个人介绍:周强,曾任职于土豆网、支付宝、阿里云等公司,长期从事算法平台、数据平台的研发工作,在大数据平台建设方面有丰富实践经验。目前任职OPPO数据架构负责人,负责智能湖仓、Agent智能体应用建设和技术演进。

THE END
1.学习笔记总结来说,在线强化学习是实时与环境交互进行学习,离线强化学习是使用预先收集的数据集进行学习,而连续强化学习则是处理连续状态和动作空间的学习问题。 研究重点 1. 在线强化学习(Online Reinforcement Learning): - 探索与利用的平衡:在线学习中,智能体需要在探索新行动和利用已知信息之间取得平衡。研究者关注如何设计有https://blog.csdn.net/hzlalb/article/details/136870080
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.系统回顾深度强化学习预训练,在线离线等研究这一篇就够了一个可行的解决方案是离线强化学习。离线强化学习的目的是从离线数据中获得一个奖励最大化的 RL 策略。其所面临的一个基本挑战是分布偏移问题,即训练数据和测试期间看到的数据之间的分布差异。现有的离线强化学习方法关注如何在使用函数近似时解决这一挑战。例如,策略约束方法明确要求学到的策略避免采取数据集中未见的http://baijiahao.baidu.com/s?id=1749447690356041311&wfr=spider&for=pc
4.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法图一:离线转在线强化学习算法框架:(a)乐观探索策略;(b)缓冲回放区;(c)策略评估;(d)基于元适应的策略提升 离线强化学习,即智能体从先前收集的数据集中学习的过程,已被广泛研究并在机器人控制、推荐系统、智慧医疗等领域取得了巨大成功。然而,由于受到离线数据集质量的限制,离线强化学习智能体的性能通常是次优的。http://icfs.jlu.edu.cn/info/1007/3101.htm
5.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
6.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
7.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
8.叶志豪:介绍强化学习及其在NLP上的应用分享总结雷峰网接下来,讲一下强化学习和监督学习的区别,主要的区别可以归纳为两点。和监督学习比较,强化学习的信号是一个奖励信号,有样本、有标签,然后就是输入的不同。因为我们常见的,像我们的输入模型,它们都是独立分布的,但是对强化学习来说,一般它是一个序列,也就是说它的每一个动作的输出和它的输入是有关系的,它两次的https://www.leiphone.com/news/201807/sbyafpzV4BgvjLT1.html
9.清华北大等发布SelfPlay强化学习最新综述澎湃号·湃客麻将同样基于不完全信息做出决策,此外,麻将的牌数更多,获胜牌型也更为复杂,对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。 场景三:电子游戏 https://www.thepaper.cn/newsDetail_forward_28688973
10.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/