LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer26年算法翻译rnnlstm神经网络

当今AI届的繁荣,很大程度上要归功于Transformer模型,2017年的开山之作,把「注意力机制」(attention)带入了大众的视野,此后七年中,在AI模型中占据了绝对的主导地位,甚至AttentionisAllYouNeed这个名字都让之后的论文在起标题时纷纷效仿,逐渐走向狂野。

最近,AndrejKarpathy在社交媒体上公开了与第一作者Dzmitry两年前的联络邮件,详细叙述了这段发明注意力的故事,顿时又掀起网友热议。

不过,LSTM作者JürgenSchmidhuber却不认可这段故事,而是表明自己才是真正的创造者,1991年就已经提出线性复杂度Transformer,并且在两年后提出术语「注意力」,他在2023年12月还发表过一篇报告,控诉图灵奖三巨头抄袭自己的研究成果。

关于「Attention起源」的辩论进展火热,仿佛现代AI完全构建在注意力机制的理论之上,关于Transformer、系统实现的重要性却被忽视了。

虽然AttentionisAllYouNeed论文的核心贡献是引入Transformer神经网络,删除了除各种注意力机制之外的所有模块,并且基本上只是将其与多层感知机堆叠在ResNe中,但其实论文中还是有相当多的贡献和独特想法,包括位置编码、缩放注意力、多头注意力、极简设计等等,并且被广为接受。

即便是到了今天,业内普遍使用的模型架构仍然大体遵循2017年的原始版本,只是在部分模块进行了简单的修改,比如更好的位置编码方案(RoPE家族)等等。

谷歌杰出科学家、计算成像、机器学习和视觉领域的专家PeymanMilanfar说的很中肯:

我——或者我认为任何成像领域的人——都不能合理地宣称机器学习背景下的注意力概念有任何功劳。但记录、追溯完整的历史渊源是有价值的,如果不从更广泛的角度来理解「依赖于数据的加权平均运算」的重要性和普遍性,那追溯的历史也是不完整的。

最极端的例子莫过于一位网友的评价,「其实,算术的出现要比这些论文都早。」

「注意力」的起源故事

2014年,故事的主角DzmitryBahdanau还只是一个在德国雅各布大学(JakobsUniversity)刚完成硕士一年级的学生,之后选择在YoshuaBengio(图灵奖得主)的实验室开始实习。

当时他跟Yoshua表示干什么都行,然后Yoshua便让他开始与KyunghyunCho的团队合作开发机器翻译模型。

当时自然语言处理届的主流思路是「把单词序列转为一个向量」,比如经典的word2vec都是当时常用的算法,但Dzmitry却对这种想法表示怀疑,不过为了获得博士的入学offer,他也只能听从导师的话,从写代码、修复Bug等最基本的工作入手。

逐步熟悉团队的工作内容之后,Yoshua就对他发起了攻读博士学位的邀请,当时AI届还没有现在这么卷,这些工作已经足以让这位硕士生开始他的博士生涯了,Dzmitry至今仍表示庆幸、怀念。

博士offer稳了之后,据Dzmitry的说法是,可以享受科研乐趣,并充分发挥自己的创造力了!

Dzmitry开始思考如何避免RNN模型中Encoder和Decoder之间的信息瓶颈,第一个想法是建立一个带有两个「光标」(cursor)的模型:其中一个由BiRNN编码,在源序列中移动;另一个在目标序列中移动;光标轨迹使用动态规划进行边际化。

但KyunghyunCho认为这种做法和AlexGraves的RNNTransducer模型没什么两样。

这种方法虽说有点效果,但不够优雅。

某一天,Dzmitry受到了英语翻译练习中的启发,人类在翻译时,目光会在源序列和目标序列之间来回移动,将软搜索表示为softmax,然后对BiRNN状态进行加权平均,就能让DecorderRNN学会在源序列中搜索放置光标的位置。

团队把这个架构叫做RNNSearch,第一次尝试效果就很好,只需要1个GPU就能运行。

当时,谷歌的Ilya(OpenAI前首席科学家IlyaSutskever)团队使用8个GPU的LSTM模型在某些指标上仍然领先,所以团队赶紧在ArXiV上发表了一篇论文。

一个半月后,团队又看了AlexGraves发表的关于NMT论文,想法完全相同,但出发点完全不同。

Dzmitry发明新算法是需求驱动的,Alex那边或许是出于连接神经学派和符号学派的目的;JasonWeston团队的MemoryNetworks论文也有类似的机制。

Dzmitry表示没有预见到注意力机制作为表征学习的核心算法,其实可以在更低的层次上使用。

所以当Transformer论文发表时,Dzmitry就立刻跟实验室的同事说,RNN已经死了。

即使Dzmitry、AlexGraves和其他人当时没有从事深度学习工作,这个想法也会由其他人发表出来。注意力机制只是深度学习中实现灵活空间连接的自然方式,只要GPU的运算速度足够快,让科研人员有动力并认真对待深度学习,就会自然而然出现。

良好的研发工作可以为基础技术的进步做出更多贡献,而不是通常意义上、所谓「真正的」人工智能研究的花哨理论。

九十年代的「注意力」机制

正如Dzmitry所说,注意力机制其实就是模仿大脑的认知过程,在更遥远的90年代,也是认知科学快速发展的时代,类似注意力机制的模型也早有研究。

比如最著名的是1998年Tomasi和Manduchi的双边滤波器,以及1997年Smith和Brady提出的SUSAN滤波器;后面还出现过许多变体形式,包括2005年的Buades、Coll和Morel提出的非局部均值,以及2007年PeymanMilanfar提出的更通用的核回归滤波器。

阿卜杜拉国王科技大学(KAUST)人工智能研究所所长、瑞士人工智能实验室IDSIA科学主任、LSTM作者、现代人工智能之父JürgenSchmidhube也参与到这场推特大战之中。

Jürgen在报告中指出,1991年3月,他就已经提出了所谓的具有「线性自注意力」的非归一化线性Transformer(unnormalizedlinearTransformerwithlinearizedself-attention),只不过当时的名字叫做「快速权重编程器」(FastWeightProgrammers)和「快速权重控制器」(FastWeightControllers),类似传统计算机将存储和控制分开的方式,以端到端可微分、自适应、完全神经的方法,只不过当时Key/Value被称为From/To

虽然名字不一样,但两个模型背后的数学原理大致相同。

1991年发表的模型原理类似于:为了回答接收到的query,通过梯度下降来学习生成key和value的模式,对自身的某些部分进行重新编程,从而根据上下文将注意力引导到重要的事情上;现代Transformer也采用了同样的原理。

2021年,Jürgen在ICML上发表了一篇论文,进一步证明了二者的等价性。

在1991年,当时的计算成本比现在高出数百万倍,所以计算效率很重要,Transformer的计算复杂度为二次方,所以无法扩大数据处理规模,而快速权重编程器的计算复杂度只有线性,据Jürgen所说,当年几乎没有期刊会接受二次缩放的神经网络。

1993年,Jürgen对线性Transformer进行循环扩展时,使用了术语「注意力」。

Jürgen还表示,在2010年代,ACM所谓的关键「机器翻译的突破」也不是Bengio的功劳,而是LSTM的功劳,在2016年极大地改进了Google翻译,甚至直到2017年,Facebook用户每周还要进行300亿次基于LSTM的翻译请求。

总之,技术起源的是是非非很难辩个清楚,拿出小板凳,理性吃瓜!

THE END
1.MerriamFind definitions for over 300,000 words from the most authoritative English dictionary. Continuously updated with new words and meanings.https://www.merriam-webster.com/
2.韦伯字典韦伯字典与其他企业和机构建立合作伙伴关系,通过合作推广等方式扩大知名度和影响力。 3.发展策略和未来规划 韦伯字典不断优化产品和服务,开发新的功能和工具,以满足用户不断变化的需求,保持领先地位。 韦伯字典以其丰富的内容、便捷的功能和良好的商业化模式,成为了全球用户学习、理解和应用英语的不可或缺的工具,也为https://www.10100.com/encyclopedia/explain/49122
3.韦伯字典官方网站merriam本站收录的"韦伯字典官方网站“数据均来源网站“merriam-webster.com”及互联网,以上数据具有时效性,因网站域名、网站名称及内容会受域名过期、网站服务器故障、域名所有者更替或内容变化,而存在以上内容失效、错误等情况,请多谅解。访问者分布(%) & 网站排名变化曲线 1 United States(46.9%) 2 India(6.0%) 3 http://www.948v.com/prodetail383312.html
4.韦伯字典公告2023年代表字为「Authentic」T韦伯字典公告了2023年代表字为「Authentic」!Deepfake和ChatGPT等人工智能工具的问世与快速发展,使得真伪之间的界线变得模糊,也让人们对于眼前事物的真实性产生了极大的疑虑。「Authentic」成为韦伯字典2023年代表字,某种程度上反映了人们身处这样强大的科技时代,对于真实性的渴望及焦虑。 https://www.t-security.cn/zh/latest-news/205-2023-12-29
5.在韦伯字典中,“热情”一词的希腊词源的意思是“收到神的旨意神附身在韦伯字典中,“热情”一词的希腊词源的意思是“收到神的旨意、神附身”。的英文翻译 基本释义 In Webster's dictionary, the origins of the Greek word" enthusiasm" meant to be" inspired, or possessed by a god. 分享单词到:http://dict.cn/%E5%9C%A8%E9%9F%A6%E4%BC%AF%E5%AD%97%E5%85%B8%E4%B8%AD%EF%BC%8C%E2%80%9C%E7%83%AD%E6%83%85%E2%80%9D%E4%B8%80%E8%AF%8D%E7%9A%84%E5%B8%8C%E8%85%8A%E8%AF%8D%E6%BA%90%E7%9A%84%E6%84%8F%E6%80%9D%E6%98%AF%E2%80%9C%E6%94%B6%E5%88%B0%E7%A5%9E%E7%9A%84%E6%97%A8%E6%84%8F%E3%80%81%E7%A5%9E%E9%99%84%E8%BA%AB%E2%80%9D%E3%80%82
6.AN信条信念BN(口语)兽医CN行为举止D世界权威韦伯字典英文注释WWWAn 信条,信念Bn (口语)兽医Cn 行为,举止D世界权威韦伯字典英文注释:www.merriam-webster.com/dictionary/vetGoogle翻译中文注释:www.google.com/dictionaryE例句A vet dispatched the injured horse. 兽医把那匹受伤的马杀死了. 温馨提示:审好题,想清楚,理明晰,再下笔!正确https://m.12tiku.com/newtiku/919887/41602677.html
7.有趣英文网站互联网头条对于生词的发音,可以用韦伯字典网站查询。不仅阅读水平和词汇量能增加,也可以积累地道的英文表达和素材,对于写作也很有帮助。 五、为青少年“定制”的时代杂志 网站:http://timeforkids/tfk/teachers 美国《时代》杂志的子网站,每周更新,内容遍及世界各国时事新闻,并依据年龄分为K1(5~7岁),G2-3(7~10岁),G4https://www.300.cn/toutiao/t_100851.html
8.二向箔NANN:ApproximateNearestNeighborSearchunderNeuralSimila阿里妈妈技术:TDM到二向箔:阿里妈妈展示广告Match底层技术架构演进 magicwt:广告召回论文阅读笔记(2)-从TDM到二向箔 非内积召回 TDM:2018年 Deep Retrieval:2021年 二向箔:2022年 NANN的意思就是把 Neural Network神经网络 和 ANN索引 放到一起了。 和双塔召回对比 双塔召回: 训练:双塔模型,生成user 和 item的https://zhuanlan.zhihu.com/p/9348795241
9.韦伯字典词源书单词的历史电子索引MerriamMerriam-Webster's Book of Word Histories 小绿书的出版机构作品。单词的历史。其实就是词源书,但是https://muchong.com/t-14589536-1-authorid-110956
10.英语学习方法总结那是因为你置身于一个汉语环境中,如果你在伦敦呆上半年,保准说起英语来会非常流利。但很多中学生没有很好的英语环境,那么你可以自己设置一个英语环境,坚持“多说”、“多听”、“多读”、“多写”,那么你的英语成绩肯定会很出色。 一、多“说”。自己多创造机会与英语教师多讲英语,见了同学,尤其是和好朋友在http://www.360doc.com/content/10/0407/10/971653_21909307.shtml
11.Invoice到底是什么意思?是发票吗再看韦伯字典 (Merriam-Webster) 对 invoice 的解释: 1 : an itemized list of goods shipped usually specifying the price and the terms of sale : bill 2 : a consignment of merchandise 各位看到了吗? 第一个解释里也有 “bill” 再看Macmillan 字典的解释: https://blog.csdn.net/qq_33860226/article/details/52511836
12.韦伯字典网www.merriamwebster.com相关信息:韦伯字典网是最好用的专业词典,世界全威词典,发音绝对标准,对于纠正发音很有帮助。韦伯字典是指以” Merriam-Webster” 为商标的一系列字典,通常简写为(M-W)。韦伯字典是美国人自己出的字典,在权威性方面相当于中国的新华字典。韦伯字典对单词的英文解释可以帮助考生理解单词的精确含义,同时避免受一些中文释https://top.080210.com/siteinfo/14889.html
13.韦伯字典告诉我们:huaband要省着点用来自萝卜想吃皮皮虾韦伯字典告诉我们:huaband要省着点用 ?收藏 转发 评论 ?赞 评论 o p 同时转发到我的微博 按热度 按时间 正在加载,请稍候微关系 她的关注(970) 林果儿linguoer 三姑娘的财智人生 小象张小象 罗淼_吐槽用 她的粉丝(236) 琵舍醍 新liugood722 Closure可可 https://weibo.com/1796183053/G8jVjAUgW
14.韦伯词典安卓版app下载V5.0.2韦伯字典,是在美国应用*广泛,*受认可的字典。词汇丰富,还有例句、同义词、反义词等,在线和非在线都可使用,在线有标准发音。软件免费,有广告支持。 特点 本软件安装时需要SD卡中有100M以上的剩余空间。 韦氏词典安卓手机版软件特色;-软件收词22.5万条,词义20余万条,提供词的产生年代,具有实用性和可读性。 https://www.xgbbs.net/app/47199.html
15.merrian.webster网络上韦氏辞典;韦伯字典;因而上韦氏辞典 网络释义 1. 上韦氏辞典 朗上口,但很多人似乎并不了解其真正的意思,因而纷纷上韦氏辞典(Merrian-Webster) 网站查询,使它轻易地膺选为韦氏辞 … blog.cybertranslator.idv.tw|基于7个网页 2. 韦伯字典 博客这个词汇去年更是韦伯字典(Merrian-Webster)最多人查阅名词之https://cn.bing.com/dict/merrian.webster
16.英语听力练习网站韦伯字典:http://www.m-w.com/ 特点:世界全威词典,发音绝对标准,对于纠正发音很有帮助。 建议:在网页中间的输入框中输入你要听发音的单词,然后点击“Search”,在搜索结果页面上再点击单词旁边的红色小喇叭图标就可以听到发音了。 3、记忆单词 我要模考网词汇练习:http://www.51mokao.com/Users/Use https://www.51test.net/show/3533445.html
17.金山词霸和韦伯字典哪个更好二者各有千秋,找到适合自己就行:1、韦伯字典,优点:解释权威;缺点:单词量太大,解说词条太多太难;2、金山词霸,优点:简单易学;缺点:解释不全面不清楚。https://zhidao.baidu.com/question/1443188651291740579.html
18.FindDefinitions&MeaningsofWordsBritannicaDictionaryClear and simple definitions in American English from Britannica's language experts. More usage examples than any other dictionary.http://www.learnersdictionary.com/
19.爱柯林斯COBUILD词典您也可以参考新牛津英汉双解大词典、柯林斯英语词典、剑桥词典、牛津高阶英汉双解词典、韦氏词典、韦氏大词典、朗文词典、朗文当代高级词典、韦伯字典、longman dictionary、韦伯词典、merriam webster、韦伯斯特、欧陆、剑桥词典、wiktionary、韦氏医药词典、韦小绿韦氏词根词典、Cobuild、韦氏词根词典、ldoce、collins https://app.mi.com/details?id=com.cobuild.dict
20.有道词典In Websters dictionary, the origins of the Greek word "enthusiasm" meant to be "inspired, or possessed by a god. 在韦伯字典中,“热情”一词的希腊词源的意思是“收到神的旨意、被神附身”。 8. 54kb In anticipation of that "hour of temptation" when Satan will consolidate all his weapons https://m.youdao.com/singledict?q=inspired%20god&dict=blng_sents&more=true
21.超级棒的英语自学的8个网站—高效学习英语!4、韦伯字典:世界权威性的词典 www.merriam-webster.com 作为世界性的权威字典,它提供的发音绝对标准,跟着它学英语、查单词,不仅可 以纠正发音,也可以从英文翻译中学到新的单词。不瞒你说,很多时候我把它当小说看~维 ?工终hao: 原汁美剧学英语,可以学到更多的英语方法,每天学到原汁原味的英语https://www.jianshu.com/p/e0ba30384691