arXiv2015深度学习年度十大论文菜鸡一枚

由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了学术界当前的整体趋势,我们看到,近来发布的机器学习研究有许多都与深度学习有关。

HuhoLarochelle博士是加拿大舍布鲁克大学(UniversitédeSherbrooke)机器学习教授,Twitter的研究员,有名的神经网络研究者,以及深度学习狂热爱好者。从2015年夏天开始,他就一直在撰写并发布他对于arXiv上他感兴趣的机器学习论文所做的笔记。

以下是HuhoLarochelle评选出的arXiv深度学习年度十佳论文。

1、无穷维度的词向量

InfiniteDimensionalWordEmbeddings

EricNalisnick,SachinRavi

2015/11/17

摘要:

我们描述了一种用随机维度(stochasticdimensionality)学习词向量的方法。对于给定的某个词向量、它的语境向量(contextvector)、以及它们的维度,我们的无穷Skip-Gram模型(iSG)给出了一种基于能量的联合分布(energy-basedjointdistribution)。通过运用追踪无穷受限玻尔兹曼机(InfiniteRestrictedBoltzmannMachine)变化的技术,我们定义了可数无穷范围内的词向量维度,使得向量在训练中可以根据需要增加。

Hugo的点评:

这是对于我们在iRBM中引入的“无穷维度(infinitedimensionality)”的一种相当有创意的用法。这并不完全是一个“即插即用(plugandplay)”的方法,所以作者们需要聪明地估算所需的iSG的训练量。

定性结果显示出了维度数量的条件如何隐含了多义性信息,非常简单利落!分布式词向量背后的假定之一就是它们应该能够表征出一个词的多种含义,所以看到这一点得到验证是一件让人愉快的事。

我觉得这篇论文唯一缺少的东西就是与传统skip-gram(可能还有其他词向量方法)在某个特定任务或是词语相似性任务中进行比较。论文的第二个版本中,作者们的确提到了他们正在做这件事,所以我非常期待能看到结果!

2、利用可逆学习进行基于梯度的超参数优化

Gradient-basedHyperparameterOptimizationthroughReversibleLearning

DougalMaclaurin,DavidDuvenaud,RyanP.Adams

2015/2/11

通过在整个训练过程中不断向后链接导数(chainingderivativesbackwards),我们计算了对于所有超参数交叉验证的表现的具体梯度。这些梯度让我们能够优化数以千计的超参数,包括步长(stepsize)和动量(momentum)、初始权重分布、丰富参数化的正则化方法(richlyparameterizedregularizationschemes)、以及神经网络结构。

“对训练集做训练”的实验——生成10个例子(每个类别一个例子),使得通过这些例子进行训练的网络的验证集损失最少——是一个相当酷的想法(它在本质上是在MNIST上学习从数字0到数字9的原型图像)。

3、在线加速学习

SpeedLearningontheFly

Pierre-YvesMassé,YannOllivier

2015/11/8

我们将学习轨迹的整体表现视为是关于步长(stepsize)的函数,提出了通过对步长本身做梯度下降来适应(adapt)步长。重要的是,这种适应的计算可以用很少的代价在线进行,无需向后迭代全部数据。

我觉得作者们准确无误地击中了在线学习面临的挑战。如果是在线训练神经网络的话,我想这些挑战可能会变得更艰巨,现在对此几乎没有让人满意的解决方法。所以这是一个让我非常兴奋的研究方向。

4、空间变换网络

SpatialTransformerNetworks

MaxJaderberg,KarenSimonyan,AndrewZisserman,KorayKavukcuoglu

2015/6/5

我们引入了一个全新的可学习(learnable)模块,空间变化模块(theSpatialTransformer),使得我们能够对网络内的数据进行空间变换操作。这个模块可以被插到现有的卷积结构中,赋予神经网络主动对特征图进行空间转换的能力,无需任何额外增加训练时的监督或是对于优化步骤的调整。

虽然之前就有对于DRAW做的研究,也提出了相似的方法来进行图像的学习变换,但这篇论文比DRAW的那一篇深入得多,并且让这种方法能够实现更多样的变换种类。我也非常喜欢他们在卷积神经网络中应用这种空间变换的想法,这也是那篇DRAW论文中所没有的。

对于这篇论文我实在挑不出什么问题,它太严谨了!

5、聚类对于近似最大内积搜索来说是高效的

ClusteringisEfficientforApproximateMaximumInnerProductSearch

AlexAuvolat,SarathChandar,PascalVincent,HugoLarochelle,YoshuaBengio

2015/7/21

“MIPS到MCSS”的变换加上球形聚类,我感到这一组合既精巧又简洁。鉴于与哈希算法相比它的结果相当出色,我认为这个方向非常值得研究。

6、在线无回溯训练递归神经网络

TrainingRecurrentNetworksOnlinewithoutBacktracking

YannOllivier,GuillaumeCharpiat

2015/7/28

RNN的在线训练是一个巨大的尚未解决的问题。

目前人们使用的方法是将反向传播截到只剩几步,这只是一种摸索出来的办法。

这篇论文向一种更为理论式的方法做了努力。我非常喜欢作者们在公式7中展现出来的小技巧,棒极了!并且这也是这个方法的关键步骤。

作者们展示了初步的研究结果,他们也的确没有与截断式反向传播作比较。我非常希望他们能在未来做一下比较。另外,我不认为我对他们“随机梯度下降理论可以应用”的说法买账。

7、利用梯形网络进行半监督式学习

Semi-SupervisedLearningwithLadderNetwork

AnttiRasmus,HarriValpola,MikkoHonkala,MathiasBerglund,TapaniRaiko

2015/7/9

我们将深度学习网络中的监督式学习和非监督式学习混合在一起。我们提出的这个模型,训练后用于同时将监督式学习和非监督式学习的反向传播成本降到最低,无需再使用一层一层处理(layer-wise)的预训练。这基于Valpola(2015)提出的梯形网络,我们将监督式方法加入其中,进一步拓展了梯形网络模型。我们展示了最终获得的这个模型在多种任务中——半监督式环境下MNIST和CIFAR-10分类,以及半监督式和全标记(full-labels)环境下置换不变(permutationinvariant)的MNIST——都有顶尖水准的表现。

这篇论文最让我感到兴奋的就是模型的表现。在MNIST中,只有100个标记过的例子,而这个模型的错误率却可以低到1.13%!这可以与用全部训练集训练的堆叠去噪自编码器(stackeddenoisingautoencoders)媲美了(虽然这是指在做ReLUs和批量正态化之前训练出的自编码器,而这篇论文的模型已经用到了这两种操作)!这与现在深度学习中的一种想法吻合:虽然深度学习领域最近应用于大体量已标记数据集的研究进展都不依赖于任何非监督式学习方法(不像深度学习2000年代中期“起步”的时候),半监督式环境下的非监督式学习可能才是最适合少量已标记数据的数据集的方法。

不幸的是,作者们提到了实验中有一个小问题:虽然训练时他们没有使用多少标记好的数据,模型选择时仍然用到了验证集中全部10k个标记。这当然是不够理想的。

8、通往基于神经网络的推理

TowardsNeuralNetwork-BasedReasoning

BaolinPeng,ZhengdongLu,HangLi,Kam-FaiWong

2015/8/22

我们提出了“神经推理器(NeuralReasoner)”,一种基于神经网络对自然语言语句进行推理的架构。对于给定的问题,神经推理器会从多个得到支持的事实中进行推测,随后为这个问题找出答案。神经推理器具有1)一种特殊的池化交互(interaction-pooling)机制,使得它能够查阅多个事实,以及2)一个深度的架构,使得它能够为推理任务中复杂的逻辑关系进行建模。在问题和事实中没有特别的结构的情况下,神经推理器能够适应不同类型的推理和不同形式的语言表述。我们的实证研究显示,神经推理器完胜现存的其他神经推理系统,在2种困难的人工任务(位置推理和路径规划)中都有不俗的优势。

9、对递归神经网络序列预测的定期采样

ScheduledSamplingforSequencePredictionwithRecurrentNeuralNetworks

SamyBengio,OriolVinyals,NavdeepJaitly,NoamShazeer

2015/6/9

递归神经网络可以被训练用于对给定的输入生成字符序列(sequenceoftokens),比如在机器翻译和读图方面最近的一些成果就是例子。现在进行这种训练的方法包括了在给定当前(递归)状态和之前的字符(previoustoken)的情况下最大化序列中每个元素的可能性(likelihood)。在推断时,之前的字符未知的位置就会被模型自己生成的一个字符所取代。训练和推断之间的差异会导致误差在生成序列的的过程中快速积累。我们提出了一种略微改变训练过程的学习策略,从完全使用真实的之前的字符变成大部分时候使用模型生成的替代字符。我们进行了数个序列预测任务实验,结果显示,这种方法带来了显著的提升效果。

我对于ScheduledSampling方法为何能够起效还有另一种解释。机器学习训练并不会让模型知道它产生的误差的相对质量。从机器学习的角度来说,对一个仅有1个字符错误的输出序列分配高概率,和对一个所有字符都错误的输出序列分配同样高的概率,是一样糟糕的。但是,在读图生成语句的任务中,输出一句只有一个词语与实际情况不同的句子显然是更理想的。

通过将模型训练得稳健于它自己产生的错误,ScheduledSampling方法确保了误差不会累积,让做出离谱预测的可能性大大减小。

10、LSTM:漫游搜索

LSTM:ASearchSpaceOdyssey

KlausGreff,RupeshKumarSrivastava,JanKoutník,BasR.Steunebrink,JürgenSchmidhuber

THE END
1.练习构建和训练神经网络评论是“干净的”,因为字母已转换为小写字母并删除了标点字符。 但是,它们还没有为训练神经网络来分析文本的情绪做好准备。 使用张量集合训练神经网络时,每个张量需要具有相同的长度。 目前,表示x_train和x_test中的评论的列表具有不同的长度。 幸运的是,Keras 包含一个函数,可使用列表的列表作为输入,并能https://docs.microsoft.com/zh-cn/training/modules/analyze-review-sentiment-with-keras/2-build-and-train-a-neural-network
2.随时间在线训练脉冲神经网络模型的图像数据分类方法与流程10.为了克服上述现有技术的不足,本发明提供一种基于随时间在线训练的脉冲神经网络模型进行图像视觉数据分类的方法,方法取名为ottt(online training through time)。通过本发明提供的方法,可以在训练snn模型时极大地减小训练内存的开销,将训练得到的模型用于计算机图像数据和神经形态图像视觉数据的分类与识别等视觉任务,能够https://www.xjishu.com/zhuanli/55/202210694741.html
3.利用EdgeImpulse在线网站自行训练神经网络进行分类识别而基于STM32H7的OpenMV机器视觉模组和云端AI平台Edge Impulse合作,就很好的打通了从数据收集、打标,NN模型训练、优化到部署的整个流程。 去年4月份我们的新品OpenMV4 H7 Plus上市啦,今天我来给大家介绍一下OpenMV4 H7 Plus的新功能——利用EdgeImpulse在线网站自行训练神经网络进行分类识别。 https://www.elecfans.com/d/1532483.html
4.最受欢迎的算法之一:反向传播训练反向传播是训练神经网络的最常用方法之一。Rumelhart、Hinton和Williams(1986)引入了反向传播,该方法到今天仍然很流行。程序员经常使用反向传播训练深层神经网络,因为在图形处理单元上运行时,它的伸缩性很好。要了解这种用于神经网络的算法,我们必须探讨如何训练它,以及它如何处理模式。 https://labs.epubit.com/articleDetails?id=70e0465200ba43599b1c83243affae5c
5.深度学习框架PyTorch使用指南:神经网络模型训练与部署完整教程是一个开源的深度学习框架,它为Python提供了强大的计算能力,同时提供了灵活的神经网络构建和训练接口。 的特点 以动态计算图为基础,具有灵活的张量计算和自动微分功能,深受研究人员和工程师的青睐。 二、神经网络模型训练 神经网络建模 通过PyTorch可以轻松地构建各种类型的神经网络模型,包括卷积神经网络、循环神经网络等https://www.jianshu.com/p/45aa62e76791
6.字节跳动破局联邦学习:开源Fedlearner框架,广告投放增效209%联邦学习技术本质上是为了帮助联邦双方更好地训练模型。不同公司由于此前积累的数据类型特征不同,落地应用场景不同,会采用不同的模型训练方式。 常见的模型训练包括神经网络模型训练、树模型训练、线性回归模型训练等等。其中,神经网络训练模型最常见的落地应用场景是推荐,包括个性化内容推荐、广告推荐等等,而树模型更多在https://maimai.cn/article/detail?fid=1550604028&efid=zqj9rqK7Yf_Us-lu-0Wnmg
7.TensorFlow在线可视化神经网络demotensorflowplayground官网深度学习在近几年又迎来高潮,很多同学都听说过这个名字,而大多数人只是“听说”而已。如何更进一步地了解深度学习以及神经网络的内部构造呢? 作为深度学习一个经典工具,TensorFlow官网也提供了一个在线可视化的demo,方便初学者了解神经网络这一技术。 使用方法 https://blog.csdn.net/qq_39856931/article/details/106296817
8.在线深度学习:在数据流中实时学习深度神经网络机器之心在本文的工作中,我们尝试通过解决一些「在线深度学习,ODL」中的开放性问题,例如如何从在线设置中的数据流中学习深度神经网络(DNN),希望以此弥补在线学习和深度学习之间的鸿沟。一种可能的在线深度学习的方式就是,在每一轮在线训练中仅在一个单独的数据样本上直接应用标准的反向传播训练。这个方法虽然简单,但是由于某些https://www.jiqizhixin.com/articles/2017-12-30
9.推荐系统完整的架构设计和算法(协同过滤隐语义)简单来说自编码神经网络尝试学习中间层约等于输入层的函数。换句话说,它尝试逼近一个恒等函数。如果网络的输入数据是完全随机的,比如每一个输入都是一个跟其他特征完全无关的独立同分布高斯随机变 ,那么这一压缩表示将会非常难于学习。但是如果输入数据中隐含着 些特定的结构,比如某些输入特征是彼此相关的,那么这一算https://cloud.tencent.com/developer/article/1508050
10.如何在服务器上跑神经网络?Worktile社区一旦模型经过训练和评估,并且在服务器上运行良好,就可以将其部署到实际应用中。通过使用预训练的模型或集成模型到您的应用程序中,您可以开始使用该模型进行预测和推理。 在服务器上运行神经网络需要一些基本的技术知识和经验。确保您熟悉所选择的深度学习框架的文档和示例,并根据需要参考在线资源和学习资料。通过不断实践https://worktile.com/kb/ask/1305511.html
11.MIT史上首次用AI控制动物大脑活动!技术前沿洞察新闻频道如今,我们生活中几乎所有基于人工智能的产品都依赖于有自主学习并标记数据能力的“深度神经网络”。 然而,为了更好地学习,神经网络通常需要需要大量的数据集进行大型的训练——这一训练过程耗时长、需要配备昂贵的GPU,有时还需要定制设计的硬件。这些客观因素导致深度学习无法被普及。 https://news.hexun.com/2019-05-14/197178826.html
12.基于图神经网络的社交网络影响力预测算法局部网络进行特征提取,然后将特征向量作为输入对图神经网络进行训练,从而对用户的社会表征进行预测.该方法的创新之处:运用图卷积和图关注方法,将社交网络中用户的特征属性和其所处局域网络特征相结合,大大提高了模型预测的精度.通过在推特、微博、开放知识图谱等数据集上的大量实验,证明该方法在不同类型的网络中都有https://jns.nju.edu.cn/CN/10.13232/j.cnki.jnju.2022.03.003
13.模拟人工智能的光学计算澎湃号·湃客澎湃新闻一个深度学习网络通常首先需要大量的样本进行训练,以优化所有的权重系数。经过训练后,网络可以对样本有效地执行一定的预测任务。在许多光学神经网络的相关研究中,训练在计算机上完全数字化离线进行,只有光学神经网络的预测操作是通过光学实验进行的。事实上,对光学神经网络在线训练在一定程度上也可以实现。 https://www.thepaper.cn/newsDetail_forward_15420945
14.基于一维宽核卷积神经网络—长短时记忆网络的单导脑电信号睡眠本文从数据类不均衡处理及神经网络模型训练优化两方面开展研究工作[18-19],构建高性能的睡眠状态识别模型,以达到准确分类睡眠状态的目的。首先,针对N1样本量与其他状态样本量不均衡的问题,采用合成少数过采样技术(synthetic minority over sampling technique,SMOTE)联合托梅克联系对(Tomek link,Tomek)算法(SMOTE-Tomek)对https://www.cjebm.com/article/10.7507/1001-5515.202204021
15.基于深度学习的权重计算深度学习算法lgmyxbjfu的技术博客相比DQN算法,A3C算法不需要使用经验池来存储历史样本,节约了存储空间,并且采用异步训练,大大加倍了数据的采样速度,也因此提升了训练速度。与此同时,采用多个不同训练环境采集样本,样本的分布更加均匀,更有利于神经网络的训练。 A3C算法在以上多个环节上做出了改进,使得其在Atari游戏上的平均成绩是DQN算法的4倍,取得了https://blog.51cto.com/u_14444/11796212