清华大学等发布“面向中文长文本理解和生成的新基准和新模型”

??此外,研究者提供了一个新的中文长文本预训练模型LongLM,来促进提高中文长文本建模能力。LongLM基于Encoder-Decoder架构,并在120G小说语料上进行预训练。LongLM有3个不同参数规模的版本,分别是small(6千万参数)、base(2亿参数)、large(10亿参数)。在LOT上的评估结果表明,LongLM比相似规模的预训练模型有更好的长文本建模能力。在本文中,研究者也将在高中作文写作和知乎问答两个场景下对LongLM的生成效果进行案例分析。

?

??开放端长文本生成(Open-EndedLongTextGeneration)是自然语言生成(NLG)中非常重要但极具挑战性的任务。所谓“开放端”是指输入中仅仅包含生成目标输出所需的少量信息,如故事生成、作文生成等任务。相对地,机器翻译、文本摘要这类生成任务则属于非开放端生成。开放端长文本生成的研究具有重要意义,首先,探索文字内容创作的内在机理能够助力实现掌握语言智能的类人AI;其次,开放端长文本生成在娱乐、教育、人机交流等方面也有重要的应用价值。

??尽管开放端长文本生成具有重要的研究价值,但目前学术界却面临着缺乏高质量数据的难题。下表展示了部分常用的长文本数据集。

表1:主流的长文本数据集

??一方面,上述数据集都是英文数据,在中文领域暂无高质量的长文本数据集、及标准的长文本理解和生成任务,这极大的限制了中文长文本模型的发展;另一方面,这些英文数据要么人工痕迹过重、偏离真实场景(如ROCStories);要么文本过长(大于500词,如WikiText等),语言现象极其丰富,远远超过当前机器学习模型的发展水平,因此它们常用于计算语言模型的Perplexity,但难以为改进语言模型真正提供指导。

??为了解决数据匮乏的问题,研究者提出了LOT,一个新的评价中文长文本理解和生成能力的benchmark(ChineseLOngTextUnderstandingandGeneration)。与GLUE、GLGE这类以任务为中心构建的benchmark不同,它们最初的设计目标是覆盖尽可能多的任务形式,LOT以能力评价为中心,研究者用两个理解任务和两个生成任务分别来评价不同的长文本建模能力,因此LOT能够为发展长文本模型提供更细粒度的指导和更全面的评价。下表展示了LOT中四个任务的概览。

表2:LOT任务概览

??基于从网络上爬取的中文故事(如童话、寓言、短篇小说等),通过自动标注和人工标注为这些任务构造了新的高质量数据集,每个样例均要求理解或者生成100-300字(5-10句话)的长文本。这些数据集的统计量如下表所示。

表3:LOT数据集统计量,每个单元格的三个数字分别表示训练集、验证集和测试集

??研究者通过人工标注来构建该任务的训练集、验证集和测试集。给定一个故事样例,要求标注者选择一个可以基于常识和上下文推理出的句子,作为正确候选,然后将其重写为一个违背常识的句子,作为错误候选。常识定义为“角色的反应和意图、或者客观事物的属性”。下表展示了几个测试样例。

表4:故事情节完形填空示例

??因为文本中的句子不一定只有一个合理的位置,所以研究者通过随机删除一句话来自动标注构建该任务的训练集,并通过人工筛选只有一个合理位置的句子来构建验证集和测试集。注意源文本不一定是完整的故事。该任务主要考查模型对句间关系的理解能力,如时序、因果等关系。下表展示了几个测试样例。

表5:句子位置预测示例

??通过自动标注来构建该任务的训练集,即从故事中随机删除一句话作为目标输出,把剩下的上下文作为输入。但是因为故事中的句子并非都能够通过常识和上下文推理得到,所以研究者从故事情节完形填空的数据集中采样了一部分数据作为该任务的验证集和测试集,在这些数据中标注者已经标注出了符合条件的句子。把正确候选当做待生成的句子,把故事上下文作为输入。

??通过自动标注来构建该任务的训练集、验证集和测试集,即从故事中抽取部分短语打乱顺序后作为输入,把整个故事当作目标输出。

??LongLM基于Encoder-Decoder架构,词表大小为32,000,Encoder和Decoder的最大长度均设为512。LongLM有三个不同参数规模的版本,不同规模的模型对应的参数设置如下表所示:

表6:LongLM参数设置

??研究者收集了120G小说语料作为LongLM的预训练数据,这些数据覆盖了多样的话题,如言情、军事、历史等。因为一篇小说的长度远超过LongLM输入输出的最大长度,所以研究者把这些小说数据切割成不同的部分来预训练。

??LongLM包含两种预训练任务,包括文本填空任务和条件续写任务。对于文本填空任务,研究者从文本中随机扔掉一些span,这些span的长度服从lambda=3的泊松分布,并且这些span的总词数约占文本总词数的15%,模型的目标是依次预测这些span的内容。对于条件续写任务,模型的目标是为给定故事的上文续写下文。两个预训练任务的示意图如下所示:

图1:LongLM预训练任务的输入输出形式示意图,和是用于span掩码的特殊字符,是表示“EndofSequence”的特殊字符

??预训练的batchsize为1000,学习率为1e-4,训练步数为2.5M步,并使用DeepSpeed框架进行加速。

??从训练数据中随机划分出了1000个样本(未经过训练)作为测试集,用于测试不同版本的模型在两个预训练任务上的表现。评价结果如下所示:

表7:不同参数规模的模型在两个预训练任务上的表现

??不同模型在两个理解任务上的表现如下表所示:

表8:不同模型在理解任务上的accuracy,#P表示模型参数,ClozeT表示故事情节完形填空任务,SenPos表示句子位置预测任务

??不同模型在两个生成任务上的表现如下表所示:

(a)故事情节补全任务

(b)基于大纲的条件生成任务

表9:不同模型在生成任务上的accuracy,#P表示模型参数,PlotCom表示故事情节补全任务,OutGen表示基于大纲的条件生成任务,B表示BLEU,D表示Distinct,Coverage和Order分别用于测试对输入大纲的覆盖度和顺序恢复程度

??分析:

??(1)LongLM-large显著好于所有基线模型;

??(2)LongLM-base好于mT5,LongLM-small好于GPT2,并且参数量少一半;

??(3)现有的模型仍然难以捕捉常识和篇章关系,以及生成连贯、多样、逻辑合理的文本。

??研究者用LongLM-large在4000篇高中作文上进行了微调,输入为作文的标题和第一段,输出为剩余的作文内容。下面我们看2篇LongLM的“创作”样例:

(一)可为与有为

??中国共产党走过百年历程。在党团结带领人民进行的伟大斗争中孕育的革命文化和社会主义先进文化,已经深深融入我们的血脉和灵魂。我们心中有阳光,我们脚下有力量。我们的未来将融汇于中华民族伟大复兴的新征程,我们处在一个大有可为的时代。(模型输入)

??在中华民族的历史长河中,有多少英雄豪杰在伟大的斗争中成长,又有多少可为之士在艰苦的奋斗中不懈地奋斗,在艰难的抉择中不屈不挠地拼搏,在无数的艰难险阻中不渝地奋进,在辉煌的胜利中不息地努力,在苦难的考验中不离不弃。当太阳从东边升起来的时候,从西边的山头落下来的时候,又是多少可歌可泣的英雄壮举在历史的画卷上绽放!

??可为与有为是相互依存的,在人生的征途上,当我们遇到挫折时,不要退缩,勇敢地伸出援助之手;当我们在困难时,要坚强地挺起胸膛,昂起头颅;当困难来临时,不要灰心丧气,勇敢地面对,昂首挺胸地走过;当挫折来临,不要心灰意冷,冷眼旁观,漠不关心,微笑着面对。

??可为和有为是相辅相成的,相互促进发展的。当新中国成立之时,中国人民团结起来,团结抵抗外来侵略。经过千百年的艰苦奋斗。终于在新中国建立之初,创造了一个又一个的奇迹。中国人民从一个贫穷落后的小国,发展到今天的世界第二大经济体。在这期间,中国发生了多少大大小小的变革,经历了多少风雨。在这些变革中,我们看到了中国人民的可贵,看到了人民的伟大。在这一刻,我们心中充满了自豪,充满了骄傲。

??我相信,当今世界,会有更多的可为者。当今社会,科技发达,科技飞速发展,人民生活安居乐业,我们的社会也正发生着翻天覆地的变化,我们不再是那个任人揉捏的小鸡,而是一个真正的强者。我们心中的可为,就是我们手中的这股力量,我们要将它发挥得淋漓尽致,使它成为我们的脊梁,使我们的祖国更加富强。

(二)信念是人生的太阳

??盘古开天地,人类一路从洪荒走来,经过岁月风霜雨露班的吹打,经过时空如火般的锻造,人类终于度过茹毛饮血的疯狂时代,逐渐的抛弃愚昧,拾起文明。而信念就如一刻永远璀璨的明星,指引人类前进的道路。(模型输入)

??信念是走向成功的第一步,是走向辉煌的第一步。古人云:“天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为,所以动心忍性,曾益其所不能。”的确,对于一个人来说,信念就是生命中的一盏明灯,照亮我们前进的路;而对于一个民族来说,一个民族只有一个信念,那就是战胜一切艰难险阻,奋发图强,才能取得人生的辉煌。

??“人生自古谁无死,留取丹心照汗青。”是的,只有战胜了一切,才能获得胜利,才能到达理想的彼岸,才能实现自己的理想,实现自己的人生价值。所以,在人生的旅途中,我们要坚守自己的信念,坚持不懈,不懈不懈地走下去,才能战胜一切困难,走向成功的彼岸。

??古往今来,多少英雄豪杰,在他们的身上体现了无与伦比的人格魅力,让无数人为之倾倒,为之自豪。正是因为他们的人格的强劲和坚强,才有了“史家之绝唱,无韵之离骚”的千古绝唱。在他们的身上,体现的不仅仅是人格的魅力,更是信念的魅力。信念是生命中不可缺少的一滴水,是人生中永恒的闪光点,是人类前进的动力,是永不泯灭的源泉。

??一个人的一生,无论是成功还是失败,都离不开信念的支撑。一个人要想成功,就必须要有信念,要有勇气,要敢于直面困难,勇往直前,不畏艰险,敢于拼搏。正是有了这股勇气和这股信念,才会有“史铁生”这般不屈不挠的精神,才能说出“人固有一死,或重于泰山,或轻于鸿毛”的豪言壮语。正是这股不屈的信念,才能让我们在人生的道路上,一路高歌,一路走好,才能走好人生的每一步。

??当今社会,人们对于信念的追求是越来越高,对未来的憧憬也越来越坚定。于是,在许多人的推动下,一个个有志青年走出了黑暗的泥潭,走向了光明的大道。在他们身上体现的,不仅是对前途的追求,更是对成功信念的坚定信念。正是这种坚定的信念,支撑着他们一步步走向成功,一步步走进成功之门。

??让我们勇敢地面对困难,勇敢地去拼搏吧!让我们像海伦凯勒和贝多芬那样,坚强地走过人生的每一步,为了自己的理想,去奋斗吧!

??可以看出,LongLM能生成比较通顺连贯的作文,但仍然难以理解复杂的概念(“可为”、“有为”)、常识和逻辑推理能力较弱(如通过论据论证论点),这些方向将是以后集中精力攻克的难题。

??研究者用LongLM-large在200万个知乎问答对上进行了微调,输入为一个以问号结尾的问题,输出为相应的回答。下面我们看2个LongLM“创作”的答案(下文的回答均未在训练数据中出现过):

LongLM:人最好的生活状态是什么样子的?我不知道,我只知道我现在过的很好,每天都开开心心的,不开心的时候想吃什么就吃什么,想去哪就去哪,想做什么就去做什么,不用顾虑别人的眼光,也不用担心别人的目光,不用担心别人对自己的看法,不用害怕别人对自己的评价,不用因为别人的评价而难过伤心,我觉得我很幸福。

LongLM:谢邀。如果你很善良,那么你可以接受无理的批评,但如果你接受不了,那你还是善良吗?如果你不接受批评,你还能接受什么呢?你能接受的是无理批评,而不是你自己。我觉得你可以和你身边的人沟通一下,看看他们有没有和你一样的想法。如果没有,那就当我没说。如果他们觉得你是个善良的人,那么我觉得他们应该尊重你的选择。

点评:在第1个开放式的不涉及领域知识的问答中,LongLM的回答表现出了一定的合理性。但对于需要逻辑推理的问题(如问题2),LongLM的回答则较为混乱,这个结论和在作文生成任务中的观察是一致的。因此,提高预训练模型的推理能力将是未来研究的重要课题。

??在本文中,研究者为中文长文本理解和生成提供了一个新的多任务benchmark——LOT,它包括2个理解任务和2个生成任务,全面地考查了长程的常识推理能力、可控生成能力、建模句间关系和篇章结构的能力。研究者为4个任务提供了标准的数据集。此外,研究者开源了一个新的中文长文本预训练模型LongLM,在LOT上的实验表明LongLM的长文本建模能力显著优于相似规模的预训练模型。研究者也在高中作文生成、知乎问答两个下游任务上对LongLM做了案例分析,表明提高长文本预训练模型的推理能力、规划能力、常识知识仍是未来研究的重要问题。

THE END
1.自动作文生成器自动对联生成器?自动作文生成器 自动对联生成器? 一、对联自动生成器? 微软对联生成器是一款非常不错的对联生成工具。由微软亚洲研究院自然语言计算组研发的计算机自动对联系统。 首先用户给定上联,然后系统自动提供若干下联供用户选择, 用户可以通过交互手段优选字词来生成满意的下联;当确定一副对联后还可以生成若干四字横批供用户参考https://tool.a5.cn/article/show/74413.html
2.AI对话写作:用户通过输入关键词或指令,讯飞写作能即时生成相应对话写作:点击新建文档,输入关键词或指令,AI将生成文本。 模板写作:选择一个模板,填入相关信息,系统自动生成文案。 AI写作工具:对生成的文本进行扩写、缩写、改写等操作。 素材导入:如果需要,可以导入音频、视频或文本素材,利用AI进行内容创作。 AI绘图:支持AI绘画功能,根据文本内容生成插图。 https://cnainav.com/sites/2652.html
3.AI作文生成器v1.0自动帮你写下一句[Android]字节智造AI作文生成器是一款手机端的作文写作软件,输入作文主题和作文开头后点击按钮AI即可自动帮你写下一句。每次写作都会有几条随机段落由您自己挑选,自行决定作文发展方向。写作模式分为两种模式,一种是全文衔接:每次Ai智能写作都会根据全文语境自动生成下一句,另外一种是单句衔接:每次生成的语句则是根据上一句的语境含义书写https://www.zsxcool.com/24584.html
4.AI写作,在线一键生成各类文章作文AI智能写作是一个ai写作网站,提供多种ai写作生成器,在线帮写各类材料文章作文,工作计划总结报告,论文,小说,创意策划,宣传软文等,一键生成高质量的原创文章。https://aiznxz.com/
5.自动生产英语作文的软件零代码企业数字化知识站未来,自动生成英语作文的软件将会有更多的发展和应用。多模态生成是一个重要的发展趋势,不仅生成文本,还能够生成与文本相关的图片、视频等多媒体内容,增强作文的表现力。智能交互是另一个发展方向,通过语音识别和自然语言理解,用户可以通过语音输入作文要求,软件能够实时生成作文并提供反馈。个性化学习也是未来的发展趋势,https://www.jiandaoyun.com/blog/article/392360/
6.AI写作台AI写作台,是一个ai智能写作网站,可以快速ai代写文章。提供各种AI写作生成器,在线自动帮写各类文章作文,更高效地生成写作,ai写作助手让你的创作更轻松。https://www.aixzt.com/
7.秘塔写作猫,一个帮你自动写文章的AI神器乐软博客秘塔写作猫,它是目前相当火爆的AI写作平台,集智能写作、文本校对、改写润色、自动配图等功能于一体的 AI 原生创作平台,它基于大规模概率语言模型,通过学习海量文本知识,赋予AI遣词造句,创作文章的能力。 网址:https://xiezuocat.com/ 在写作猫,当你毫无头绪,不知道如何创作时,只需敲下一个标题,AI即可自动生成内容https://www.isharepc.com/36473.html
8.AI作文自动生成器:学生党必备,轻松搞定作文难题创业仆伙伴们!学生党的救星来了!每次写作文是不是都抓耳挠腮?灵感枯竭?别担心!有了AI作文自动生成器,一切难题都能迎刃而解! 1. 灵感源泉,永不枯竭 还记得对着空白文档发呆的痛苦吗?AI作文生成器就像你的专属缪斯女神,为你源源不断地提供创意和灵感!只需输入关键词,它就能为你生成各种不同风格、不同主题的作文开https://cyepu.com/52841.html
9.小嘿作文生成器,可根据输入的主题谓语主题宾语,自动随机生成小嘿作文生成器,可根据输入的主题谓语、主题宾语,自动随机生成海量作文。适用于中学考试议论文的学习与研究。 开始使用 https://zuowen.jackjyq.com/ 效果展示 莎士比亚写道:“即使被关在果壳之中,我仍自以为是无限宇宙之王。”人生在世,总会被一些东西束缚,只有勇于尝试,才能冲破障碍,向星辰大海进发。这样就要求我https://gitee.com/biem/xiaohei-zuowen
10.《管理文件的好帮手——资源管理器》教学设计(精选14篇)(5)压缩书库:在使用一段时间后,书库中文档肯定会不断增加,书库的体积也会越来越大,怎么办?我们可以在软件的工具栏中单击“整理书库”按钮 ――对书库文件进行压缩存放。可以选择将书库文件压缩成.Srb和.Zrb两种格式,其中.Zrb格式具有更高的压缩比而.Srb格式有更快的压缩速度。在书库文件进行压缩时一定先要选中菜https://www.360wenmi.com/f/file9l6fh03l.html
11.论文创作网站免费ai创作生成器官网1、AI-WRITE:一个智能写作网站,输入关键词即可智能生成文章。生成文章的速度很快,并且支持更换其他文章。生成的文章大多是新浪财经类的资讯新闻,且重复度较高,如果对原创要求高的,直接套用不合适,需要后期改文。 2、:输入关键字可自动生成文章。生成的文章会有个别错别字,需要后期订正。生成的文章阅读性比较高,但是https://www.37lunwen.com/article/fe06576b6b3c39dc0d79e23a.html
12.ai作文生成器,快速写出高质量的文章站内动态AI写作3. 提升写作水平:AI作文自动生成器可以通过对学生的作文进行实时评估和反馈,帮助他们发现自己的问题并加以改进,从而提升他们的写作水平。 三、如何使用AI作文自动生成器? 使用AI作文自动生成器非常简单,只需要输入一些关键词或者主题,就可以得到一篇高质量的文章。当然,这只是一个起点,学生们还需要根据实际情况进行适当http://www.noahtech.cn/content/?193.html
13.自动生成作文软件大全自动生成作文的软件免费【基本介绍】小学作文生成器软件,汇聚全国各大院校作文题库,自动生成作文题到word,可直接打印A4纸,孩子直接写作。 5. 作文生成器 软件类型:安卓APP 软件页面:https://duote.com/android/972835.html 点击下载 软件介绍: 作文生成器app可以协助用户轻轻松松生成各种各样写作,只必须输入重要的主题和篇幅,手机软件会https://www.duote.com/tech/rjxz/437604.html
14.官网ai写作,ai智能写作,ai自动写作,在线帮写材料文章作文ai写作_ai智能写作,是一个在线自动写作工具,在线帮写各类材料文章作文,工作计划总结报告,毕业论文,论文查重,策划方案,创意文案,新闻软文等。根据您的写作要求,一键自动生成高质量的原创文章。https://www.aizhinengxiezuo.com/
15.我的奇思妙想作文300字(精选87篇)我的奇思妙想作文300字(精选87篇) 在现实生活或工作学习中,大家都不可避免地会接触到作文吧,作文是经过人的思想考虑和语言组织,通过文字来表达一个主题意义的记叙方法。你所见过的作文是什么样的呢?下面是小编整理的我的奇思妙想作文300字,欢迎大家分享。 https://mip.ruiwen.com/zuowen/sinianjizuowen/2305373.html
16.ai工具怎么一键生成作文?教你一种方法轻松智能写作首先,我们来了解一下AI工具一键生成作文的基本原理。通常这些工具都是基于深度学习技术,通过大量的语料库训练,使得模型能够理解和生成自然语言。当我们在工具中输入主题,或是一些关键词,AI工具就能自动的分析并生成一篇符合要求的作文或文案。只需在工具中输入主题或关键词,AI工具便能够自动分析并生成符合要求的作文。 https://www.luyinzhushou.com/tutorial/1373.html
17.写作文神器自动生成使用ai快速创作优质文章英语作文写作 根据关键词编写英语作文 英语词汇学习 输入英语词汇,提供该词汇的相关资料 数学专家 扮演一位数学和代数教育专家的角色,制定一个课程计划,帮助学生掌握代数方程。 法语老师 法语老师,您可以询问任何关于法语的问题和制作教案等 论文初稿 输入主题,一键生成论文初稿 论文辅助 根据主题和要求辅助您书写https://www.88wenzhang.com/chatai/index/apply/apply_id/74.html
18.ai写作在线一键生成文章助手大作家AI写作(DaZuoJia.com)是一个AI智能写作网站,提供多种ai写作生成器,在线帮写各类材料文章作文,工作计划总结报告,论文,小说,创意策划,宣传软文等,一键生成高质量的原创文章。https://www.dazuojia.com/
19.校企实验室计算教育学中内容生成研究与应用在经过对模型结构的优化之后,我们在10万个作文段落上训练得到了初步结果,生成了具有一定质量的文本。图三展示了一个示例样本,在给定4个原始段落之后,模型自动生成了一段语义通顺的文本。当然,由于模型训练和原始文本质量等问题,生成文本的逻辑性问题还有待改进。不过,该模型的一大优点是可以用无监督学习的方式,根据https://dase.ecnu.edu.cn/2c/db/c41464a535771/page.htm
20.奇思妙想作文范文500字(精选104篇)时间:2022-11-23 17:24:29 500字作文 我要投稿 奇思妙想作文范文500字(精选104篇) 在生活、工作和学习中,大家都接触过作文吧,作文根据体裁的不同可以分为记叙文、说明文、应用文、议论文。你所见过的作文是什么样的呢?下面是小编收集整理的奇思妙想作文范文500字(精选104篇),仅供参考,大家一起来看看吧。 https://www.unjs.com/zuowendaquan/wubaizizuowen/3483322.html
21.自动写作文生成器有哪些?ai能做什么?用户技术在科技飞速发展的今天,人工智能已经逐渐渗透到我们的日常生活之中,其中自动写作文生成器便是人工智能技术的一个重要应用。自动写作文生成器,顾名思义,就是能够通过人工智能技术自动生成各类文章的工具。目前市场上有很多自动写作文生成器,如微撰、AI写作助手等,它们都在各自的领域中发挥着重要作用。那么,这些自动写作http://healthnews.sohu.com/a/715911886_121768619
22.盘点AI写作历史:AI取代人类文字工作还有多远?Arria NLG、Automated Insights、Narrative Science等公司开发的NLG模型能够做到将企业日常事务、财务信息等输入AI,AI自动生成财务报表,包括目录、图表等结构,并能指出各盈利或亏损点和具体到某个业务的原因。公司日常运营能有这样一个帮手,能减少无谓的做ppt报告的工作,并能帮助管理层及时调整策略。https://www.tmtpost.com/3890967.html
23.小红书小作文生成器下载小红书小作文生成器app下载v1.0小红书小作文生成器游戏介绍 小红书小作文生成器是一款自动生成文案软件,你能够在软件中输入关键词,软件就会自动生成对应的文案,让你编辑小红书的文案更加简单方便,快来小红书小作文生成器中自由尝试。 软件介绍 专业的文本生成器,让你在业余时间根据自己的想象自由创作灵感。 键入意想不到的关键字或自动生成与您想要https://www.duotegame.com/android/90227.html
24.作文提纲生成器(作文提纲生成器在线制作)只需要输入关键词,就能返回你想要的内容,有小程序、在线网页版、PC客户端和批量生成器 官网:https://ai.de1919.com。 本文目录: 寻个作文自动生成器 写作软件哪个好 论文大纲有什么软件可以生成 寻个作文自动生成器 zuowen.jackjyq.com 生成例子: “人生的价值,并不是用时间,而是用深度量去衡量的。”列夫·托https://www.de1919.com/article/576367.html