经典也会被经典超越。
20世纪深度学习研究中,引用最多的论文不再是反向传播。
新的宠儿,是1997年Hochreiter和Schmidhuber发表的Long short-term memory。
大名鼎鼎的
LSTM 。LSTM的引用量,目前已经超过了26000。
而反向传播,相关的论文虽然不少,但都不再比LSTM高:
如果只算一年,比如马上结束的2019年,根据Google Scholar的结果,DE Rumelhart、GE Hinton、RJ Williams三人组的两篇反向传播论文,今年一整年的引用量加起来足足有3085次。
但新宠LSTM被引用了6750次。
超过前者的两倍。
因此,当一位吃瓜人士将这个数据发布到Reddit的机器学习版块后,它迅速成为了讨论的焦点。
不过,至于反向传播与LSTM两者的地位,在人们心中尚无定论。
有人觉得,可能反向传播引用的太多,历史地位太高,已经被当做了一个常识,所以干脆后来的论文作者们就不引用它了。
但深度学习走到如今这个时代,LSTM有着更广泛的作用。
它部署在了每部智能手机上,它让DeepMind拿到了《星际II》冠军,让OpenAI拿到了Dota冠军。
1997年,Hochreater和Schmidhuber提出了长短期记忆网络。
这是一种时间循环神经网络,主要是为了解决一般RNN所存在的长期依赖问题:
所有的RNN都具有一种重复神经网络模块的链式形式。
在标准的 RNN 中,这个重复的模块只有一个非常简单的结构,例如一个 tanh 层。
而LSTM也是类似的结构,不同点在于重复模块的结构。
与单一的神经网络层不同,LSTM有四个类似tanh的层,并以一种非常特殊的方式进行交互。
LSTM通过各种门(gate)来实现信息的添加与删除。
根据谷歌的测试表明,LSTM中最重要的是遗忘门(Forget gate),其次是输入门(Input gate),最后是输出门(Output gate)。
遗忘门
遗忘门决定会从上一个细胞状态中丢弃什么信息,也就是说决定要记住什么和要遗忘什么。
输入门
输入门决定让多少新的信息加入到cell状态中。
更新细胞状态
把旧状态与ft相乘,丢弃掉确定需要丢弃的信息,再加上经过筛选后的新信息,就得到了当前cell的状态。
输出门
此时,就基于当前的cell状态进行输出。
LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好,还普遍用于自主语音识别,可作为复杂的非线性单元用于构造更大型深度神经网络。
LSTM的作者Sepp Hochreiter和Juergen Schmidhuber二人都来自德国,
Sepp Hochreiter,现在是奥地利约翰内斯开普勒大学机器学习研究所的负责人,LSTM是他在慕尼黑工业大学的硕士毕业论文。
博士毕业后他也曾在柏林科技大学、科罗拉多大学、慕尼黑工业大学等高校任职,对强化学习、计算机视觉、NLP和生物信息学方面都有研究。
而他的老师,LSTM共同作者Juergen Schmidhuber则是一位充满争议的大牛,他现在是达勒·莫尔人工智能研究所的负责人,也曾在卢加诺大学、慕尼黑工业大学任教,开了自己的公司NNAISENSE。
不过,之所以说他充满争议,是因为他的研究总是和其他人的研究莫名撞车,和深度学习三巨头、图灵奖得主Yoshua Bengio、Geoffrey Hinton、Yann LeCun都有过纠纷,还曾跟Ian Goodfellow争吵过GAN到底算谁的。
贵圈有点复杂。
最后,说了这么多上世纪最火论文,你知道本世纪最火的深度学习论文是哪篇吗?
Hinton等大佬发在NeurIPS 2012上的Imagenet classification with deep convolutional neural networks,引用超过53000。
毕竟也是有历史意义的ImageNet 2012得胜选手。
另外,CVPR 2016最佳论文Deep Residual Learning for Image Recognition,引用次数也超过了36000。
这几位作者何恺明、张祥雨、任少卿、孙剑也都是当今华人AI圈的佼佼者了。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
Nathan Sesti, Juan Jose Garau-Luis, Edward Crawley, Bruce Cameron
将COVID-19的传播与图神经网络(GNN)的结合,使得最近几项研究发现了可以更好地预测大流行的方式。 许多这样的模型还包括长短期记忆(LSTM),这是时间序列预测的常见工具。 通过在LSTM的门内实施GNN并利用空间信息来进一步研究这两种方法的集成。 并且引入了跳过连接,该连接对于共同捕获数据中的空间和时间模式也被证明了非常的重要。 论文验证了过去472天的37个欧洲国家数据的每日COVID-19新案例预测模型,并且与基于平均绝对缩放误差(MASE)的最先进的图时间序列模型相比,表现出卓越的性能。
arxiv 2202.08897
Author : Mehmet Bulut
水力发电是一种可再生能源,基于水库的液压发电厂的生产根据不同的参数而变化。因此水力生产的估计在发电计划方面变得重要。在本文中,通过基于LSTM网络深度学习模型进行了土耳其每月水电生产的估计。设计的深度学习模型基于多年的水力生产时间序列和未来的生产计划。通过使用真实的生产数据和不同的LSTM深度学习模型,检查了它们对明年液压发电的每月预测的性能。结果表明,将基于多年实际生产数据的时间序列与深度学习模型结合起来进行长期预测是成功的。在这项研究中可以看出100层LSTM模型,其中120个月(10年)根据RMSE和MAPE值使用了120个月(10年)的水力发电时间数据,就估计准确性而言是最高模型。在该模型中使用了100层LSTM模型,144个月(12年)的时间数据,每年29,689的水电生成数据,每月分布的时间为29,689。根据研究的结果,建议使用LSTM创建可接受的水力预测模型,涵盖至少120个月的生产时间数据
arxiv 2109.09013
Author : Carmina Fjellström
绩效预测是经济学和金融中的古老问题。机器学习和神经网络的发展引出了非线性时间序列模型,为传统的分析方法提供了现代和有前途的替代品。我们提出了一个独立的和并行的长短时记忆(LSTM)神经网络的集合,用于股票价格运动的预测。lstm已经被证明特别适合于时间序列数据,因为它们能够整合过去的信息,而神经网络集成已经被发现可以减少结果的可变性并提高泛化。模型使用了一个基于收益中值的二元分类问题,集合的预测依赖于一个阈值,该阈值是对结果达成一致所需的最小lstm数量。该模型被应用于规模较小、效率较低的斯德哥尔摩OMX30指数的成分股,而不是文献中常见的道琼斯指数和标准普尔500指数等其他主要市场指数。通过一个简单的交易策略,与随机选择的投资组合和包含指数中所有股票的投资组合进行比较,可以发现LSTM集合产生的投资组合提供了更好的平均每日回报和更高的累积回报。此外,LSTM组合也表现出更小的波动性,导致更高的风险回报比
arxiv 2201.08218
Koushik Roy, Abtahi Ishmam, Kazi Abu Taher
随着智能计量电网的兴起,电力行业的需求预测已成为现代需求管理和响应系统的重要组成部分。长短时记忆(Long - term Memory, LSTM)在预测时间序列数据方面表现出良好的效果,并可应用于智能电网的电力需求。本文提出了一种基于神经网络结构LSTM的电力需求预测模型。该模型使用智能电网四年来每小时的能源和电力使用数据进行训练。经过训练和预测后,将模型的精度与传统的统计时间序列分析算法(如Auto-Regressive/AR)进行比较。LSTM模型的平均绝对百分位误差为1.22,是所有模型中最小的。研究结果表明,将神经网络应用于电力需求预测可以显著降低预测误差。因此,LSTM的应用可以使需求响应系统更加高效。
arxiv 2107.13653
Racine Ly, Fousseini Traore, Khadim Dia
本文应用RNN方法对棉花和石油价格进行预测。论文展示了这些来自机器学习的新工具,特别是长-短期记忆(LSTM)模型是如何补充传统方法的。论文的结果表明,机器学习方法拟合数据相当好,但在样本外预测方面并不优于经典的系统方法,例如如ARIMA模型。但是将这两种模型的预测平均起来,会比任何一种方法得到更好的结果。与ARIMA和LSTM相比,棉花的平均预测均方根误差(RMSE)分别降低了0.21和21.49%。就石油而言,预测平均法在RMSE方面没有提供改善。论文的建议是使用预测平均法,并将分析扩展到广泛的商品价格范围。
arxiv 2101.03087
作者:Monodeep
相关问答
近年来,音乐信息检索(MIR)发展势头迅猛。本文将探讨如何将NLP领域的技术应用到音乐领域。近期,在Chuan、Agres和Herremans(2018)联合发表的一篇论文中,他...
近年来,音乐信息检索(MIR)发展势头迅猛。本文将探讨如何将NLP领域的技术应用到音乐领域。近期,在Chuan、Agres和Herremans(2018)联合发表的一篇论文中,他...
—ReasoningaboutEntailmentwithNeuralAttention,2016相关论文:ReasoningaboutEntailmentwithNeura...
本论文还报告了BERT的模型简化测试(ablationstudy),证明该模型的双向特性是最重要的一项新贡献。代码和预训练模型将发布在goo.gl/language/bert。论文:...
目前如何能更好滴计算文档相似度是非常火的方向,也是市场的刚需,比如在信息检索、网页搜索、智能问答等系统中,很多功能的开发都需要基于文档的相似度计算。...
HarnessingDeepNeuralNetworkswithLogicRules贝叶斯与神经网络的结合Human-levelconceptlearningthroughpr...
【“旅行商”问题太棘手?用图神经网络寻找最优解】:运用深度强化学习法和图神经网络的学习策略,来解优化难题。希望对你有帮助~全文共3438字,预计学习时长7...T...
可以参考:宁夏启动“互联网+水利”行动打造智慧水利:“互联网+水利”行动是宁夏水利厅顺应信息社会发展趋势,依据“智慧宁夏”建设“一网一库一平台...现...
本书从PyTorch的安装讲起,然后介绍了为现代深度学习提供驱动力的多个基础模块,还介绍了使用CNN、RNN、LSTM以及其他网络模型解决问题的方法。本书对多个先进的...
个人意见1.先说前景吧:随着人工智能的发展,人机交互方式革新必然是发展趋势。人最为习惯的的莫非人类语言。让机器理解人的语言将成为新的,近期最可能去实现...