字节开源最全代码大模型测评工具,一手教程来了!

市面现有的评测数据集大多局限于某个领域或者某类任务,并不能体现大模型广泛的、通用的代码能力,导致大家对于代码工具的选取举棋不定。

今天,字节豆包大模型团队与M-A-P社区联合推出了开源的代码大模型基准测试数据集FullStackBench以及配套工具SandboxFusion,覆盖全栈编程领域,数据集和工具已在HuggingFace和Github开源。

FullStackBench这一全新的代码基准测试,旨在全面、科学地评估代码大模型在各种真实开发场景中的表现,让开发者们不再迷茫。

代码评测基准FullStackBench

论文表示,FullStackBench是一个多语言的基准测试数据集,专注于编程开发任务设计。

FullStackBench数据集的构建并不仅仅是简单的代码片段集合,而是通过深度的人工注释与多模型投票机制,确保问题的多样性和挑战性。它包含多达3374个问题(中英文问题各一半),涉及16种编程语言,以更贴近真实开发场景的方式挑战代码生成模型的极限,对模型在多种领域中的适应性和实际应用能力进行全面检测(包括数据分析、机器学习、web开发等)。

研究团队分析了全球最大的程序员技术问答社区StackOverflow上的问题分布,从中提炼出常见的真实编程应用领域。如图所示,团队从StackOverflow上随机抽取了50万个问题,并使用大模型为每个问题标注其所属的应用领域类型。

在成功构建完FullStackBench之后,研究人员对其进行了统计分析,结果如图所示。

研究人员运用LLaMA3分词器分别对题目以及正确代码的标记长度进行了计算,其中题目平均长度为210.2个tokens。为确保评估的准确性,数据集包含总计15168个单元测试,平均每个问题配备4.5个单元测试用例。

项目特点总结

1.广泛的应用领域:FullStackBench涵盖了主流的应用开发领域,包括但不限于服务端开发、网页开发等。模型需要处理从HTML布局到完整应用逻辑实现的全栈任务。

2.多样性与复杂性:3K的测试样本不仅数量庞大,而且复杂多样,从简单的函数实现到综合的项目案例,无所不包。这是现有基准无法企及的深度与广度。

3.多语言支持:项目内置对16种编程语言的支持,使得研究人员可以更深入地分析模型在跨语言场景中的表现,例如Python、JavaScript、C++等。

4.双语言评测:每道测试题目均提供中英文版本,并配备清晰的参考解决方案。这种设计不仅保证了多语言模型的公平性,还提升了评估的多样性和灵活性。

5.真实场景模拟:在设计问题时,我们参考了StackOverflow的问题分布,力求贴近开发者的日常工作需求,模拟真实的开发环境和挑战。

配套工具:SandboxFusion

由于FullStackBench的数据格式和依赖关系不同,因此实现自动执行评估具有一定挑战性,于是FullStackBench还配备了一个高效的代码沙盒执行工具SandboxFusion。它通过统一的HTTPAPI提供了对不同编程任务的标准化评估。这意味着你可以快速启动一个容器化的测试环境来运行各种模型配置,无缝执行测试,获取运行结果。

近期出现的沙盒环境很多(如DifySandbox、MultiPLE、MPLSandbox)。但是,这些沙箱存在重大限制(例如不支持深度学习包),而SandboxFusion覆盖23种编程语言,支持前端开发、后端服务和机器学习等复杂场景。

SandboxFusion只需单台设备即可运行,支持docker一键部署,除了FullStackBench,它还支持10多种其他代码评估数据集,可以实现一站式评估。

SandboxFusion食用指南

贡献者:DW鲸英助教@王泽宇、杨晨旭、赵文恺

完整教程链接

使用Docker一键运行:

dockerrun-d--rm-p8080:8080volcengine/sandbox-fusion:server-20241204SandboxFusion主要提供两个功能:运行代码和判断题目对错

运行代码

在shell中执行下面的指令来请求sandbox执行一段python代码:

{"status":"Success","message":"","compile_result":null,"run_result":{"status":"Finished","execution_time":0.016735315322875977,"return_code":0,"stdout":"Hello,world!\n","stderr":""},"executor_pod_name":null,"files":{}}也可以通过提供的playground在线体验:

数据集

Datasets模块实现了各类不同Code数据集的判断逻辑,已经实现的开源数据集有:mbpp、human_eval等。

Sandbox模块和Datasets模块相结合,就构成了我们模型评估的流程~

首先通过HTTPAPI获取到指定数据集每道题目的prompt:

可以看到,提交的completion包含了LLM的全部输出,而不需要手动从中提取出代码段部分,SandboxFusion从中提取出了相应的代码段(extracted_code),并结合数据集中的特点对代码段进行了扩充(full_code),最后与数据集中的结果进行了匹配,得出测试结果。

SandboxFusion还提供了OJ在线体验的playground:

Coder大模型比较

代码大模型已经发布一些时日了,想必大家都已经多多少少听说或者使用过各家的代码大模型了,Qwen2.5-Coder、DeepSeek-Coder、GPT-o1、GPT-4o、CodeLlama、Claude3.5Sonnet等模型各具特色,Qwen2.5的Coder也是本人经常在用的,体验效果比较好。

今年6月,字节发布了AI编程助手豆包MarsCode,跟随Datawhale实践,在VsCode中下载插件体验了一番,效果很不错,推荐给身边朋友一起用了。这次FullstackBench论文测评的代码大模型中,出现了此前字节未披露过的Doubao-Coder,听说就是豆包MarsCode的基座模型。

尽管还是preview版,Doubao-Coder在FullStackBench上综合指标取得了不错的分数,仅次于OpenAI和Claude,值得期待一波~

现阶段各家大模型的得分表现:

写在最后

在使用FullStackBench和SandboxFusion时,最大的感受是它们可以和Coder模型的训练与评测深度结合。

FullStackBench作为一个多语言、多场景的代码能力测试数据集,涵盖了从基础算法到全栈开发的丰富问题,贴近真实开发场景的设计具有很强的应用价值。

SandboxFusion则提供了强大的代码运行和评估能力,基于Docker的一键部署和易用的HTTPAPI接口,让测试流程变得简单、高效。

FullStackBench数据集开源地址和食用指南地址贴在下面了,可以上手去试试。

THE END
1.实用在线工具网站分享四、汇享在线工具箱: 1.功能 1)数学计算器(进制、代数、几何、图像、矩阵、三角函数) 2)物理计算器 3)电子电路计算器 4)html工具 5)健康计算器 2.链接: https://www.9321.cn/digital-computation/binary-addition-calculator.php 五、汇享在线工具箱: https://blog.csdn.net/linyibin_123/article/details/131790804
2.深度学习轻量级神经网络模型,嵌入式微小设备也能实时检测这些算法在本地处理隐私关键的感知信息,并提取元数据,然后将元数据传输到云进行进一步分析或操作。对于许多场景,精确目标检测[4, 5]是关键应用。目前,最先进的目标检测器通常使用卷积神经网络(CNN)架构来预测图像中的物体位置和类别。值得注意的是,基于 Transformer 的网络架构[7, 10]已经出现,并展示出在提高目标https://blog.51cto.com/u_15671528/12791754
3.WindowsAI开发人员文档MicrosoftLearn我们使用可选的 Cookie,通过社交媒体连接等方式改善你在我们网站上的体验,并且根据你的在线活动投放个性化的广告。 如果你拒绝可选 Cookie,则我们将仅使用为你提供服务所必须的 Cookie。 你可以单击页面底部的“管理 Cookie”更改你的选择。隐私声明 第三方 Cookie 接受 拒绝 管理Cookie Microsoft Learn Challenge Nohttps://docs.microsoft.com/zh-cn/windows/uwp/machine-learning/index/
4.四川万物纵横申请基于改进的遗传算法负载均衡专利,可生成任务处理四川万物纵横申请基于改进的遗传算法负载均衡专利,可生成任务处理总耗时最短的负载分配方案 快报金融界灵通君 北京 0 打开网易新闻 体验效果更佳战争消耗有多大?中国14亿人,每人捐款10块当没说 小鹏纪录片 3114跟贴 打开APP 老父亲将两套房产全给女儿,儿子崩溃大哭:我要让你断子绝孙! 北北纪录片 608跟贴 打开https://m.163.com/v/video/VPI2QC68M.html
5.基于AI算法实现精准测试1. 360中台-高级效率平台开发工程师 基于AI 算法实现精准测试 宋泽坤 360中台-效率平台开发高级工程师 主办方: 2. 背景及技术挑战 3. 需求背景 1. 敏捷体系中,产品迭代速度比较快(一般为两周),测试人员测试周期比较短,产品影响 范围比较大。测试人员在短时间内保质保量,难免会出错。 2. 回归测试需要执行大量https://tool.lu/deck/q7/detail
6.算法设计手册(第三版)目录第一部分:算法设计实战 chapter1,算法设计简介 chapter2,算法分析 chapter3,数据结构 chapter4,排序 chapter5,分治算法 chapter6,哈希与随机算法 chapter7,图遍历 chapter8,权重图算法 chapter9,组合搜索 chapter10,动态编程 chapter11,NP完备性 chapter12,难题处理 chapter13,如何设计算法第二部分:算法指南漫游 https://www.douban.com/note/780093487/
7.Status算法设计在线评测系统 Home ProblemSet Source/Category Contest Status Ranklist 探索 博客 WIKI Web Board Login Register Problem ID: User: Language: 状态: Search RunID学号 姓名Problem ID标题ResultMemoryTimeLanguageCode LengthSubmit Time 481703 202403010213 张晓语 1172 友素数 Accepted 1088 0 C 298 B https://www.hnieacm.com/status.php?problem_id=1172
8.算法设计与分析第2版李春葆PDF下载Java知识分享网本书系统地介绍了各种常用的算法设计策略,包括递归、分治法、蛮力法、回溯法、分枝限界法、贪心法、动态规划、概率算法和近似算法等,并详细讨论了各种图算法和计算几何设计算法。 全书既注重原理又注重实践,配有大量图表、练习题、上机实验题和在线编程题,内容丰富,概念讲解清楚,表达严谨,逻辑性强,语言精练,可读性好http://java1234.com/a/javabook/javabase/2022/0303/21906.html
9.在线学习算法的加速器设计研究(2)介绍和总结了支持向量机的在线学习算法的研究现状和一些软件实现方法,并重点介绍了支持向量机的硬件实现算法以及相应的硬件实现原理描述。并对现有的硬件实现方法加以总结。 (3)针对已有支持向量机的硬件实现架构没有涉及在线学习的核心——核函数硬件实现的问题,提出了两种支持向量机核函数运算硬件实现方法。这两种https://cdmd.cnki.com.cn/Article/CDMD-10335-1013178134.htm
10.系统设计到撸代码?我用了这些方法和工具我们在进行系统设计的时候,为了更加具象地呈现系统的轮廓以及各个组件或者系统之间的关系和边界以及工作流程。我们就会画逻辑架构图,模块图、流程图、时序图等等。 在日常开发中,软件设计图是一种非常好的表达方式,尤其在技术评审的时候,一副好的设计图可能比干巴巴的文字更能说明问题。正所谓“一图胜千言”。 https://zhuanlan.zhihu.com/p/693336177
11.算法设计与分析王红梅算法设计与分析王红梅在线免费阅读看算法设计与分析_王红梅算法设计与分析_王红梅最新章节, 算法设计与分析_王红梅 番茄小说网下载番茄小说免费阅读全文。https://fanqienovel.com/reader/7346790152150191156
12.百度排名算法设计百度排名算法调整设计教程摘要:百度排名算法设计,百度排名算法调整设计教程,新片场素材小编金思慧百度排名算法设计,百度排名算法调整设计教程相关内容整理,如果您对百度排名算法设计,百度排名算法调整设计教程感兴趣欢迎访问免费阅读。 百度排名算法设计,百度排名算法调整设计教程 一、百度排名算法在线设计教程介绍 https://edu.xinpianchang.com/article/baike-71483.html
13.学堂在线《算法设计与分析》作业单元考核答案.docx学堂在线《算法设计与分析》作业单元考核答案.docx 23页内容提供方:1sda321 大小:489.62 KB 字数:约1.11万字 发布时间:2022-02-22发布于贵州 浏览人气:749 下载次数:仅上传者可见 收藏次数:7 需要金币:*** 金币 (10金币=人民币1元)学堂在线《算法设计与分析》作业单元考核答案.docx 关闭预览 想https://max.book118.com/html/2022/0221/7026024124004065.shtm
14.的参数化:基于传统设计法则下四合院数字化呈现迭代的算法设计运算性思维为更好地理解中国传统设计文献及图纸提供了一种新的途径。基于这一目标,我们在一个建筑师们都很熟悉的算法设计界面-Grasshopper中,将四合院设计法则转化为算法。然后,我们通过将该算法所生成的模型与现存的图纸实例进行对比来验证我们的工具。因此,我们希望可以回答以下问题: https://arch.seu.edu.cn/2021/0301/c9122a362033/page.htm
15.推荐系统完整的架构设计和算法(协同过滤隐语义)推荐系统--完整的架构设计和算法(协同过滤、隐语义) 1. 什么是推荐系统 推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。https://cloud.tencent.com/developer/article/1508050
16.大数据算法哈尔滨工业大学大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同学了解大数据算法的前沿知识。通过这门课程的学习,同学可以掌握大数据算法设计的基本思想,并通过本门https://www.xuetangx.com/course/HIT08091000092
17.趣学算法(第2版)2~7章讲解经典算法,包括贪心算法、分治算法、动态规划算法、回溯法、分支限界法、网络流算法。第8章讲解实际应用中的算法和高频面试算法,包括启发式搜索、敏感词过滤、LRU算法、快慢指针、单调栈、单调队列、零钱兑换、股票交易等。每一种经典算法都有4~8个实例,多数按照问题分析、算法设计、完美图解、算法详解、https://www.epubit.com/bookDetails?id=UB7d85fa69dcbd8
18.算法导论第15章:动态规划(更新中)动态规划通常用来求解最优化问题 通常求解的是问题的一个最优解,而不是最优解,因为最优解可能有多个 通常按以下 4 个步骤来设计动态规划算法 刻划一个最优解的结构特征 递归的定义最优解的值 计算最优解的值,通常采用自底向上的方法 利用计算的信息构造出最优解15.1https://www.jianshu.com/p/c16cb85fc516
19.logo在线设计生成器logo免费设计在线制作商标logo一键生成图司机logo生成器,是一款完全免费的logo在线设计工具,用户仅需提供logo名称和logo行业,即可一键生产出来可以媲美专业logo设计师的作品。http://tusij.com/logo/
20.lineardesign百度mrna序列设计优化算法。法国药企赛诺菲与百度签订协议,使用其mRNA序列设计算法LinearDesign,优化mRNA疫苗和药物的设计研发,加速疫苗和治疗产品开发,用于新冠肺炎等人类疾病的治疗与预防。这次合作体现了赛诺菲对百度飞桨螺旋桨算法的信心,将推动基于mRNA的疫苗和治疗方法的创新。 索智生物 Hit to Lead 索智生物将百度飞桨螺旋桨的HelixADMET大模型整https://rna.baidu.com/
21.计算几何:算法设计与分析全本书评在线阅读计算几何:算法设计与分析电子书 本书系统地介绍了计算几何中的基本概念、求解诸多问题的算法及复杂性分析,概括了求解几何问题所特有的许多思想方法、几何结构与数据结构。 售价:¥63.27 纸质售价:¥64.80购买纸书 75人正在读 |3人评论 6.2 作者:周培德 http://e.dangdang.com/products/1900116002.html
22.牛客网在线编程编程学习练习题贪心算法 BM2 主持人调度(二) 思路中等20.11% 视频题解 11 模拟 模拟 BM1 旋转数组 思路中等39.64% 视频题解 BM3 顺时针旋转矩阵 思路中等50.86% 视频题解 BM4 设计LRU缓存结构 思路较难37.31% 视频题解 BM5 设计LFU缓存结构 思路较难28.27% 视频题解 https://www.nowcoder.com/exam/oj
23.算法分析与设计(AlgorithmDesign:Foundations,Analysis,andInte本书系统地阐述了算法设计的方法、技术和应用实例。全书内容包括基础算法、基本数据结构、基本算法设计技术、图算法、网络流和匹配、文本处理算法、数论算法、网络算法、np完全性、近似算法、回溯法和分枝限界法、外存算法、并行算法和在线算法。java实现示例覆盖了软件设计方法、面向对象实现问题和算法的实验性分析。这些典https://www.jb51.net/books/88996.html