清华大学等发布“面向中文长文本理解和生成的新基准和新模型”

??此外,研究者提供了一个新的中文长文本预训练模型LongLM,来促进提高中文长文本建模能力。LongLM基于Encoder-Decoder架构,并在120G小说语料上进行预训练。LongLM有3个不同参数规模的版本,分别是small(6千万参数)、base(2亿参数)、large(10亿参数)。在LOT上的评估结果表明,LongLM比相似规模的预训练模型有更好的长文本建模能力。在本文中,研究者也将在高中作文写作和知乎问答两个场景下对LongLM的生成效果进行案例分析。

?

??开放端长文本生成(Open-EndedLongTextGeneration)是自然语言生成(NLG)中非常重要但极具挑战性的任务。所谓“开放端”是指输入中仅仅包含生成目标输出所需的少量信息,如故事生成、作文生成等任务。相对地,机器翻译、文本摘要这类生成任务则属于非开放端生成。开放端长文本生成的研究具有重要意义,首先,探索文字内容创作的内在机理能够助力实现掌握语言智能的类人AI;其次,开放端长文本生成在娱乐、教育、人机交流等方面也有重要的应用价值。

??尽管开放端长文本生成具有重要的研究价值,但目前学术界却面临着缺乏高质量数据的难题。下表展示了部分常用的长文本数据集。

表1:主流的长文本数据集

??一方面,上述数据集都是英文数据,在中文领域暂无高质量的长文本数据集、及标准的长文本理解和生成任务,这极大的限制了中文长文本模型的发展;另一方面,这些英文数据要么人工痕迹过重、偏离真实场景(如ROCStories);要么文本过长(大于500词,如WikiText等),语言现象极其丰富,远远超过当前机器学习模型的发展水平,因此它们常用于计算语言模型的Perplexity,但难以为改进语言模型真正提供指导。

??为了解决数据匮乏的问题,研究者提出了LOT,一个新的评价中文长文本理解和生成能力的benchmark(ChineseLOngTextUnderstandingandGeneration)。与GLUE、GLGE这类以任务为中心构建的benchmark不同,它们最初的设计目标是覆盖尽可能多的任务形式,LOT以能力评价为中心,研究者用两个理解任务和两个生成任务分别来评价不同的长文本建模能力,因此LOT能够为发展长文本模型提供更细粒度的指导和更全面的评价。下表展示了LOT中四个任务的概览。

表2:LOT任务概览

??基于从网络上爬取的中文故事(如童话、寓言、短篇小说等),通过自动标注和人工标注为这些任务构造了新的高质量数据集,每个样例均要求理解或者生成100-300字(5-10句话)的长文本。这些数据集的统计量如下表所示。

表3:LOT数据集统计量,每个单元格的三个数字分别表示训练集、验证集和测试集

??研究者通过人工标注来构建该任务的训练集、验证集和测试集。给定一个故事样例,要求标注者选择一个可以基于常识和上下文推理出的句子,作为正确候选,然后将其重写为一个违背常识的句子,作为错误候选。常识定义为“角色的反应和意图、或者客观事物的属性”。下表展示了几个测试样例。

表4:故事情节完形填空示例

??因为文本中的句子不一定只有一个合理的位置,所以研究者通过随机删除一句话来自动标注构建该任务的训练集,并通过人工筛选只有一个合理位置的句子来构建验证集和测试集。注意源文本不一定是完整的故事。该任务主要考查模型对句间关系的理解能力,如时序、因果等关系。下表展示了几个测试样例。

表5:句子位置预测示例

??通过自动标注来构建该任务的训练集,即从故事中随机删除一句话作为目标输出,把剩下的上下文作为输入。但是因为故事中的句子并非都能够通过常识和上下文推理得到,所以研究者从故事情节完形填空的数据集中采样了一部分数据作为该任务的验证集和测试集,在这些数据中标注者已经标注出了符合条件的句子。把正确候选当做待生成的句子,把故事上下文作为输入。

??通过自动标注来构建该任务的训练集、验证集和测试集,即从故事中抽取部分短语打乱顺序后作为输入,把整个故事当作目标输出。

??LongLM基于Encoder-Decoder架构,词表大小为32,000,Encoder和Decoder的最大长度均设为512。LongLM有三个不同参数规模的版本,不同规模的模型对应的参数设置如下表所示:

表6:LongLM参数设置

??研究者收集了120G小说语料作为LongLM的预训练数据,这些数据覆盖了多样的话题,如言情、军事、历史等。因为一篇小说的长度远超过LongLM输入输出的最大长度,所以研究者把这些小说数据切割成不同的部分来预训练。

??LongLM包含两种预训练任务,包括文本填空任务和条件续写任务。对于文本填空任务,研究者从文本中随机扔掉一些span,这些span的长度服从lambda=3的泊松分布,并且这些span的总词数约占文本总词数的15%,模型的目标是依次预测这些span的内容。对于条件续写任务,模型的目标是为给定故事的上文续写下文。两个预训练任务的示意图如下所示:

图1:LongLM预训练任务的输入输出形式示意图,和是用于span掩码的特殊字符,是表示“EndofSequence”的特殊字符

??预训练的batchsize为1000,学习率为1e-4,训练步数为2.5M步,并使用DeepSpeed框架进行加速。

??从训练数据中随机划分出了1000个样本(未经过训练)作为测试集,用于测试不同版本的模型在两个预训练任务上的表现。评价结果如下所示:

表7:不同参数规模的模型在两个预训练任务上的表现

??不同模型在两个理解任务上的表现如下表所示:

表8:不同模型在理解任务上的accuracy,#P表示模型参数,ClozeT表示故事情节完形填空任务,SenPos表示句子位置预测任务

??不同模型在两个生成任务上的表现如下表所示:

(a)故事情节补全任务

(b)基于大纲的条件生成任务

表9:不同模型在生成任务上的accuracy,#P表示模型参数,PlotCom表示故事情节补全任务,OutGen表示基于大纲的条件生成任务,B表示BLEU,D表示Distinct,Coverage和Order分别用于测试对输入大纲的覆盖度和顺序恢复程度

??分析:

??(1)LongLM-large显著好于所有基线模型;

??(2)LongLM-base好于mT5,LongLM-small好于GPT2,并且参数量少一半;

??(3)现有的模型仍然难以捕捉常识和篇章关系,以及生成连贯、多样、逻辑合理的文本。

??研究者用LongLM-large在4000篇高中作文上进行了微调,输入为作文的标题和第一段,输出为剩余的作文内容。下面我们看2篇LongLM的“创作”样例:

(一)可为与有为

??中国共产党走过百年历程。在党团结带领人民进行的伟大斗争中孕育的革命文化和社会主义先进文化,已经深深融入我们的血脉和灵魂。我们心中有阳光,我们脚下有力量。我们的未来将融汇于中华民族伟大复兴的新征程,我们处在一个大有可为的时代。(模型输入)

??在中华民族的历史长河中,有多少英雄豪杰在伟大的斗争中成长,又有多少可为之士在艰苦的奋斗中不懈地奋斗,在艰难的抉择中不屈不挠地拼搏,在无数的艰难险阻中不渝地奋进,在辉煌的胜利中不息地努力,在苦难的考验中不离不弃。当太阳从东边升起来的时候,从西边的山头落下来的时候,又是多少可歌可泣的英雄壮举在历史的画卷上绽放!

??可为与有为是相互依存的,在人生的征途上,当我们遇到挫折时,不要退缩,勇敢地伸出援助之手;当我们在困难时,要坚强地挺起胸膛,昂起头颅;当困难来临时,不要灰心丧气,勇敢地面对,昂首挺胸地走过;当挫折来临,不要心灰意冷,冷眼旁观,漠不关心,微笑着面对。

??可为和有为是相辅相成的,相互促进发展的。当新中国成立之时,中国人民团结起来,团结抵抗外来侵略。经过千百年的艰苦奋斗。终于在新中国建立之初,创造了一个又一个的奇迹。中国人民从一个贫穷落后的小国,发展到今天的世界第二大经济体。在这期间,中国发生了多少大大小小的变革,经历了多少风雨。在这些变革中,我们看到了中国人民的可贵,看到了人民的伟大。在这一刻,我们心中充满了自豪,充满了骄傲。

??我相信,当今世界,会有更多的可为者。当今社会,科技发达,科技飞速发展,人民生活安居乐业,我们的社会也正发生着翻天覆地的变化,我们不再是那个任人揉捏的小鸡,而是一个真正的强者。我们心中的可为,就是我们手中的这股力量,我们要将它发挥得淋漓尽致,使它成为我们的脊梁,使我们的祖国更加富强。

(二)信念是人生的太阳

??盘古开天地,人类一路从洪荒走来,经过岁月风霜雨露班的吹打,经过时空如火般的锻造,人类终于度过茹毛饮血的疯狂时代,逐渐的抛弃愚昧,拾起文明。而信念就如一刻永远璀璨的明星,指引人类前进的道路。(模型输入)

??信念是走向成功的第一步,是走向辉煌的第一步。古人云:“天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为,所以动心忍性,曾益其所不能。”的确,对于一个人来说,信念就是生命中的一盏明灯,照亮我们前进的路;而对于一个民族来说,一个民族只有一个信念,那就是战胜一切艰难险阻,奋发图强,才能取得人生的辉煌。

??“人生自古谁无死,留取丹心照汗青。”是的,只有战胜了一切,才能获得胜利,才能到达理想的彼岸,才能实现自己的理想,实现自己的人生价值。所以,在人生的旅途中,我们要坚守自己的信念,坚持不懈,不懈不懈地走下去,才能战胜一切困难,走向成功的彼岸。

??古往今来,多少英雄豪杰,在他们的身上体现了无与伦比的人格魅力,让无数人为之倾倒,为之自豪。正是因为他们的人格的强劲和坚强,才有了“史家之绝唱,无韵之离骚”的千古绝唱。在他们的身上,体现的不仅仅是人格的魅力,更是信念的魅力。信念是生命中不可缺少的一滴水,是人生中永恒的闪光点,是人类前进的动力,是永不泯灭的源泉。

??一个人的一生,无论是成功还是失败,都离不开信念的支撑。一个人要想成功,就必须要有信念,要有勇气,要敢于直面困难,勇往直前,不畏艰险,敢于拼搏。正是有了这股勇气和这股信念,才会有“史铁生”这般不屈不挠的精神,才能说出“人固有一死,或重于泰山,或轻于鸿毛”的豪言壮语。正是这股不屈的信念,才能让我们在人生的道路上,一路高歌,一路走好,才能走好人生的每一步。

??当今社会,人们对于信念的追求是越来越高,对未来的憧憬也越来越坚定。于是,在许多人的推动下,一个个有志青年走出了黑暗的泥潭,走向了光明的大道。在他们身上体现的,不仅是对前途的追求,更是对成功信念的坚定信念。正是这种坚定的信念,支撑着他们一步步走向成功,一步步走进成功之门。

??让我们勇敢地面对困难,勇敢地去拼搏吧!让我们像海伦凯勒和贝多芬那样,坚强地走过人生的每一步,为了自己的理想,去奋斗吧!

??可以看出,LongLM能生成比较通顺连贯的作文,但仍然难以理解复杂的概念(“可为”、“有为”)、常识和逻辑推理能力较弱(如通过论据论证论点),这些方向将是以后集中精力攻克的难题。

??研究者用LongLM-large在200万个知乎问答对上进行了微调,输入为一个以问号结尾的问题,输出为相应的回答。下面我们看2个LongLM“创作”的答案(下文的回答均未在训练数据中出现过):

LongLM:人最好的生活状态是什么样子的?我不知道,我只知道我现在过的很好,每天都开开心心的,不开心的时候想吃什么就吃什么,想去哪就去哪,想做什么就去做什么,不用顾虑别人的眼光,也不用担心别人的目光,不用担心别人对自己的看法,不用害怕别人对自己的评价,不用因为别人的评价而难过伤心,我觉得我很幸福。

LongLM:谢邀。如果你很善良,那么你可以接受无理的批评,但如果你接受不了,那你还是善良吗?如果你不接受批评,你还能接受什么呢?你能接受的是无理批评,而不是你自己。我觉得你可以和你身边的人沟通一下,看看他们有没有和你一样的想法。如果没有,那就当我没说。如果他们觉得你是个善良的人,那么我觉得他们应该尊重你的选择。

点评:在第1个开放式的不涉及领域知识的问答中,LongLM的回答表现出了一定的合理性。但对于需要逻辑推理的问题(如问题2),LongLM的回答则较为混乱,这个结论和在作文生成任务中的观察是一致的。因此,提高预训练模型的推理能力将是未来研究的重要课题。

??在本文中,研究者为中文长文本理解和生成提供了一个新的多任务benchmark——LOT,它包括2个理解任务和2个生成任务,全面地考查了长程的常识推理能力、可控生成能力、建模句间关系和篇章结构的能力。研究者为4个任务提供了标准的数据集。此外,研究者开源了一个新的中文长文本预训练模型LongLM,在LOT上的实验表明LongLM的长文本建模能力显著优于相似规模的预训练模型。研究者也在高中作文生成、知乎问答两个下游任务上对LongLM做了案例分析,表明提高长文本预训练模型的推理能力、规划能力、常识知识仍是未来研究的重要问题。

THE END
1.作文生成器智能写作的作文生成器! 【智能写作】写人、写事、写景、状物、议论文、诗歌、散文、日记等各色作文,只需要输入作文题目一键生成;【参考范文】小学、初中、高中各年级同步单元作文,优秀原创作文范文应有尽有;【直用素材】高考满分、中考满分、高分作文、时事、金句、https://apps.apple.com/ru/app/%E4%BD%9C%E6%96%87%E7%94%9F%E6%88%90%E5%99%A8-ai%E5%86%99%E4%BD%9C%E6%96%87-%E4%BD%9C%E6%96%87%E7%B4%A0%E6%9D%90/id6446018174?see-all=customers-also-bought-apps
2.AI写作网AI写作生成器官网【AI写作网 aixzw.cn】领先的AI写作免费在线网站,提供AI论文写作,作文生成,原创文章,文案生成,方案撰写,小说改写,写简历,写周报,写工作总结报告等内容的免费ai写作和AI绘画,ai视频一键生成服务。https://aixzw.cn/
3.AI写作,在线一键生成各类文章作文AI智能写作是一个ai写作网站,提供多种ai写作生成器,在线帮写各类材料文章作文,工作计划总结报告,论文,小说,创意策划,宣传软文等,一键生成高质量的原创文章。https://www.aiznxz.com/
4.AI作文一键生成:快速创作,轻松写作在数字化时代,人工智能的应用已经渗透到了我们生活的方方面面,从日常的聊天机器人,到复杂的自动驾驶技术,人工智能正在改变着我们的生活方式。而在写作领域,人工智能的应用也日益广泛,AI作文一键生成技术应运而生,为人们提供了快速创作、轻松写作的新途径。 AI作文一https://www.aixzzs.com/list/4017.html
5.作文ai自动生成无论是学生的学术任务,职场人士的工作汇报,还是创意写作爱好者的表达途径,写作都扮演着至关重要的角色。写作过程中常常会遇到灵感枯竭、思路堵塞或者时间紧迫等问题,导致写作效率低下,甚至产生畏难情绪。这时候,一款智能写作助手——作文AI自动生成工具,便能为您提供前所未有的便利。https://m.sohu.com/a/800317522_121984687
6.可以自动生成作文的软件大全可以自动生成作文的推荐下载PP助手为您提供可以自动生成作文的软件有哪些大全推荐,在这里我们为您提供可以自动生成作文的软件有哪些软件下载资源,可以自动生成作文的软件有哪些安卓版本、官方版本&老版本下载地址合集,还可查阅相关可以自动生成作文的软件有哪些攻略大全,欢迎到PP助手下载。https://wap.pp.cn/topic/486143/
7.自动生成作文的app大全自动生成作文的软件合集本专题中小编今天带来了好用的自动生成作文的软件,当用户可以在想不出作文写什么的时候就使用这些免费软件,让用户可以在这里使用到很多适合自己的作文软件,也可以在这里写出自己想要的内容。写作神器 辅助工具 系统软件 语文作文素材 文章生成器 精品应用 查看更多 → https://m.youxiguancha.com/zt/zidongshengchengzuow/
8.自动生成作文软件大全自动生成作文的软件免费"自动生成作文软件大全",哪些软件是我们想要的呢,下面多特小编就跟您推荐几款比较合适的软件或者app给您参考。 1. VideoSrt(自动生成字幕软件) 软件类型:电脑软件 软件页面:https://duote.com/soft/428364.html 点击下载 软件介绍: VideoSrt 是一款 windows 下的开源系统专用工具,运用公共性云服务器接口,可以完成https://www.duote.com/tech/rjxz/437604.html
9.自动生成作文的软件有哪些?盘点五种自动生成作文软件本文介绍了五款能够自动生成作文的软件,包括FunAI、Quillbot、智能识别全能王、Articoolo和Chat助手,这些工具利用AI技术,通过输入关键词或主题,能快速生成高质量文章,帮助提高写作效率。 摘要由CSDN通过智能技术生成 写作是一项需要花费大量时间和精力的任务,而自动生成作文的软件可以帮助我们节省大量的时间。这些软件通过分析https://blog.csdn.net/hudunkjpdf/article/details/130964308
10.自动作文生成器:来试试用预训练模型自动写中文作文–我爱自然这个自动作文开源项目我们之前在AINLP公众号上介绍过,由坚新同学基于CPM模型开发维护的中文文本生成项目:自动写作文?来看看这个开源项目 CPM(Chinese Pretrained Models)模型是北京智源人工智能研究院和清华大学发布的中文大规模预训练模型。官方发布了三种规模的模型,参数量分别为109M、334M、2.6B,用户需申请与通过审核https://www.52nlp.cn/%E8%87%AA%E5%8A%A8%E4%BD%9C%E6%96%87%E7%94%9F%E6%88%90%E5%99%A8%EF%BC%9A%E6%9D%A5%E8%AF%95%E8%AF%95%E7%94%A8%E8%87%AA%E5%8A%A8%E5%86%99%E4%B8%AD%E6%96%87%E4%BD%9C%E6%96%87
11.写作文神器自动生成使用ai快速创作优质文章学习计划制定 文言文生成 写作文 中英互译 生成英语口语对话 任意语言译中文 任意语言译英文 成语大师 巧记单词 读书笔记 书单推荐 高考志愿填报 英语作文写作 英语词汇学习 数学专家 法语老师 论文初稿 论文辅助 单词解释器 AI生成https://m.88wenzhang.com/chatai/mobil/apply/apply_id/74.html
12.英语作文自动生成器3大应用实例解析随着AI技术的发展,英语作文自动生成器逐渐进入我们的视野。它利用人工智能技术,可以在短时间内根据关键词自动生成英语作文初稿。这为英语写作带来了巨大便利,大大提高了写作效率。本文将从英语作文自动生成器的应用价值、主要功能、典型案例3个维度深入剖析这个“编写小助手”。通过介绍笔灵AI写作、迅捷AI写作、Get写作等http://k12.testdaily.cn/418546.html
13.写作生成器免费自动生成文章的软件人工ai智能写作免费有没有文章生成器?伴随着人工智能技术的发展,越多越多的事情都可以交给ai智能工具完成,下面小编为大家整理了一些非常不错的免费写作生成器合集,你可以生成各种文章内容,并且所有内容都是原创的,操作没有限制,完全免费,感兴趣的用户朋友们快来下载吧!http://www.ishaohuang.com/s/xzscq/
14.AI作文自动生成器:学生党必备,轻松搞定作文难题创业仆伙伴们!学生党的救星来了!每次写作文是不是都抓耳挠腮?灵感枯竭?别担心!有了AI作文自动生成器,一切难题都能迎刃而解! 1. 灵感源泉,永不枯竭 还记得对着空白文档发呆的痛苦吗?AI作文生成器就像你的专属缪斯女神,为你源源不断地提供创意和灵感!只需输入关键词,它就能为你生成各种不同风格、不同主题的作文开https://cyepu.com/52841.html
15.ai论文生成器论文写作软件AI自动生成文章神器AI智能写作系统,只需输入标题,自动完成毕业论文,全部AI原创,自带查重报告.论文格式规范,结构完整,包含摘要、目录、参考文献,符合本科毕业论文格式要求,包括ai范文、查重报告和开题报告等。24小时在线服务。https://www.gxcnki.com/aixiezuo/
16.小嘿作文生成器,可根据输入的主题谓语主题宾语,自动随机生成小嘿作文生成器,可根据输入的主题谓语、主题宾语,自动随机生成海量作文。适用于中学考试议论文的学习与研究。 开始使用 https://zuowen.jackjyq.com/ 效果展示 莎士比亚写道:“即使被关在果壳之中,我仍自以为是无限宇宙之王。”人生在世,总会被一些东西束缚,只有勇于尝试,才能冲破障碍,向星辰大海进发。这样就要求我https://gitee.com/biem/xiaohei-zuowen
17.AI作文自动生成器:智能写作工具助力高效学习AI作文自动生成器,一款独一无二的智能写作工具,它将传统的写作技巧与先进的AI技术完美结合。无论是学术论文、应用文,还是诗歌、小说,它都能为你快速生成。无论你是文学新手还是文学大师,AI作文自动生成器都能助你一臂之力,让你的创作过程变得轻松愉快。 https://www.meixiaosan.com/article/show/34433.html
18.AI写作台AI写作台,是一个ai智能写作网站,可以快速ai代写文章。提供各种AI写作生成器,在线自动帮写各类文章作文,更高效地生成写作,ai写作助手让你的创作更轻松。https://www.aixzt.com/
19.ai自动文章生成器大全ai文章智能生成器推荐ai文章生成器app是我们可以在手机上使用的原创文章ai智能自动写作工具,对于我们的学习和工作、生活拥有比较便捷的帮助,可以高效率的完成自己的目标,并且只需要给AI几个指定的内容和核心词语,就可以直接一键生成文章,帮助用户节约更多的时间,具有更加方便的使用体验,很多用户想要知道ai自动文章生成器哪个好用,下面就让小编http://www.downcc.com/k/aizidongwenzhangshengchengqi/
20.AII文章生成器免费在线AI写作文案生成器AII在线文章生成器是一款免费版的在线文章生成工具,不需要注册码,不需要破解版。通过您输入的关键词一键自动生成一篇与关键词高相关性高质量的SEO软文http://www.aiivip.com/
21.一键作文生成器写作效率神器随着人工智能技术的发展,一键作文生成器逐渐成为写作必备的辅助工具。它可以在短时间内根据关键词自动生成文章内容,大大提高写作效率。本文将详细介绍几款一键作文生成器的使用体验和功能优势。 搭画快写一键生成文章,支持AI原创写作 搭画快写作为一款专业的AI写作平台,其最大的优势就是可以通过强大的语言模型,在短时间https://www.66offer.com/146662.html
22.ai作文写作生成网站在过去,写作一篇完美的文章需要大量的时间和精力。但现在,AI作文写作生成网站的出现,让写作变得更加轻松和高效。 AI作文写作生成网站使用人工智能技术来生成高质量、原创的文章。这些网站的工作原理是,用户输入一些关键词或主题,然后AI算法会自动生成文章。这些文章通常具有相对准确的语法和拼写,减少了用户的校对工作。 https://tool.a5.cn/article/show/78032.html
23.ai写作在线一键生成文章助手大作家AI写作(DaZuoJia.com)是一个AI智能写作网站,提供多种ai写作生成器,在线帮写各类材料文章作文,工作计划总结报告,论文,小说,创意策划,宣传软文等,一键生成高质量的原创文章。https://www.dazuojia.com/
24.SiteSMO免费在线人工智能原创文章生成器,提供全自动AI写文章、AI写论文、AI写小说、AI对对联、AI写诗歌、AI写作文等自然语言处理服务。 标签:AI写作对话AI绘画生成ai作文生成器ai写作ai写作助手ai写作在线平台ai写作生成器ai写文章ai写论文Ai工具ai文章生成器ai智能写作AI绘画ai论文生成器SiteSMO在线人工智能在线写作工具思默问https://pidoutv.com/sites/4584.html
25.一键写作文在线生成器(一键生成原创文章软件)随着人工智能技术的不断发展,一种全新的工具逐渐走进人们的生活:一键写作文在线生成器,这种工具可以根据用户提供的题目和要求,自动生成一篇高质量的文章,不仅能够大大提升文章生成的效率,还可以让人们更加轻松地应对写作任务。 潮玩动漫手办游戏皮肤盲盒网站↓↓↓ 天天在线免费开盲盒>>>点此注册免费抽<<< 搭画快写 https://www.18183.cn/news/376126.html