为了进一步同步推进中文社区对模型事实正确性的研究,淘天集团算法技术-未来生活实验室团队提出了ChineseSimpleQA,这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集,可以全面探测模型在各个领域的知识水平。具体来说,ChineseSimpleQA主要有六个特点:
基于中文SimpleQA,我们对现有LLM的事实性能力进行了全面的评估。并维护一个全面的leaderboard榜单。同时我们也在评测集上实验分析了推理scalinglaw、模型校准、RAG、对齐税等研究问题,后续本评测集都可以作为这些方向的重要参考之一。
总之,我们希望ChineseSimpleQA能帮助开发者深入了解其模型在中文领域的事实正确性,同时也能为他们的算法研究提供重要基石,共同促进中文基础模型的成长。
THE END