小姐姐花了一个月,给29篇经典机器学习论文写了总结

乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI

如果你想在人工智能领域深耕,阅读经典论文是一个必须要做的事情。

但是,怎么读?读哪些?论文中哪些是关键?都是需要让人去琢磨的地方。

最近,有一份资源悄然流传出来,里面汇集了29篇经典的机器学习论文的总结,这些论文都是作者近半年来读到的。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

每篇论文,作者都给出了论文的主要思路,与其他相关的研究有什么区别,这篇论文有哪些亮点与创新点等等。而且,基本上每篇论文都附上了链接。

有哪些论文?

这些论文,一共分为六个部分。

语言/序列模型(Language/Sequence Models)

这部分,一共6篇。分别是:

BERT: Language Model Pretraining

来自谷歌AI,提出了一种强大的新的语言表征模型。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

You May Not Need Attention

来自艾伦人工智能研究所,提出了一种循环神经翻译模型,不需要注意力机制,也没有单独的编码器和解码器。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Trellis Networks for Sequence Modeling

论文提出了用于序列建模的新架构Trellis Networks,是时间卷积网络和RNN之间的理论桥梁,但适用范围比前者更小,比后者更广泛。来自CMU和英特尔。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

On the Evaluation of Common Sense Reasoning in Natural Language Processing

来自麦吉尔大学,目标是深入到用于评估模型性能的测试集中,并试图理解它在多大程度上对模型行为进行了严格测试。这篇论文主要讨论的是Winograd Schema Challenge (WSC),图灵测试的一个变种,旨在判定AI系统的常识推理能力。并提出了一个新的评估标准,弥补WSC等基准测试中的局限性。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

这篇论文来自上海交通大学等。作者提出了一个序列生成框架SeqGAN,来解决GAN在生成离散数据时的局限性。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Evaluating Language GANs and Neural Text Generation

这篇论文研究了当前用于比较文本生成的度量标准为什么无法全面描述模型的运行情况,并在与传统的最大似然估计方法相比的情况下,评估了用于生成文本的GAN的性能。

元学习/多任务(Meta Learning / Multi Task)

这部分,一共4篇。分别是:

One-Shot Imitation Learning

来自OpenAI,提出了一个元学习框架,能够从极少数演示中学习,去完成任何给定的任务。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Importance Weighted Actor Learner Architectures

来自DeepMind,开发了一个新的分布式智能体IMPALA,不仅在单机训练中能更有效地使用资源,而且在不牺牲数据效率和资源利用率的情况下,可以扩展到数以千计的机器上。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Multi-Task RL Using Pop Art Normalization

强化学习领域,算法大部分都是一次训练一个任务,每个新任务都需要重新训练智能体。学习算法通用,但每个解决方案都不通用。这篇论文提出了一种方法,优化了同时掌握多个顺序决策任务时的资源分配和注意力分散问题,在57款不同的Atari游戏中的表现超过了中等水平的人类,这也是第一次单个智能体在这一多任务领域超过人类。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Proximal Meta Policy Search

来自加州大学伯克利分校等,开发了一个新的元学习算法,克服了不良信用分配的问题和先前评估元策略梯度方面的困难。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

内在奖励/基于模型的强化学习(Intrinsic Rewards/Model-Based RL)

这部分,一共9篇。分别是:

Curiosity Driven Learning

论文作者来自OpenAI和加州大学伯克利分校,目标是弄清楚在没有外部奖励信号的情况下,仅仅由好奇心驱动的学习能够使强化学习系统走多远。这也是第一次大规模研究纯粹由好奇驱动的强化学习。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Episodic Curiosity Through Reachability

论文提出了一种新的好奇方法,利用情景记忆形成奖励,作者来自谷歌大脑、DeepMind等。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Model-Based Active Exploration

提出了一种主动探索环境的算法。 通过计划观察新事件,而不是仅仅对偶然遇到的新事物做出反应,最大限度地减少了全面模拟环境所需的数据。作者来自“递归神经网络之父”Jürgen Schmidhuber的创业公司NNAISENSE。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Combined Reinforcement Learning via Abstract Representations

来自麦吉尔大学等,对比了基于模型和无模型的强化学习,然后讨论了他们提出的CRAR方法如何将这两种结构结合起来。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Agent Empowerment

这是一篇经典论文,来自赫特福德大学,论文讨论了“授权”的概念,提出了一种关于智能体的效用函数,适用于没有提供任何明确短期回报的情况。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Recurrent World Models Facilitate Policy Evolution

论文作者David Ha(谷歌AI)和Jürgen Schmidhuber,以无监督的方式快速训练生成型循环神经网络,通过压缩的时空表征 (Spatio-Temporal Representations) ,来为那些常见的强化学习环境建模。作者曾对这篇论文做过一个总结:“世界模型”可以让人工智能在“梦境”中对外部环境的未来状态进行预测。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Learning Plannable Representations with Causal InfoGAN

来自加州大学伯克利分校等,要解决的问题是:给定初始状态和期望目标的情况下,如何让系统通过学习,得到一系列可以达成目标的动作。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Counterfactually Guided Policy Search

无模型的强化学习,需要大量的数据训练。研究者可以建立学习环境模型,生成合成轨迹,并在这些轨迹上进行训练。但这些模型简化了真实环境,而且可能不准确。这篇论文提出了一个明确的因果/反事实模型,来生成具有更高保真度的轨迹。来自DeepMind。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

The Impact of Entropy on Policy Regularization

这篇论文通过定性研究表明,在某些环境中,引入熵正则化可以使优化曲面更加平滑、连接局部最优值,从而使用更大的学习速率。并提出了一个理解底层优化场景的新工具。来自谷歌大脑。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Multi-Agent强化学习

这部分,一共3篇。分别是:

Emergence of Grounded Compositional Language in Multi-Agent RL

来自OpenAI和加州大学伯克利分校,这篇论文做了一个有趣的实验,看一群智能体在受到激励的情况下,能否有效地发展出某种类似语言的东西。基于这个实验,论文的作者提出了一种多智能体的学习方法。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Intrinsic Social Motivation via Causal Influence

在这篇谷歌等机构的论文中,在多智能体强化学习中,赋予一种新的内在社会动机,试图解决有更明确目标的多智能体协调问题。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Relational Forward Models for Multi Agent Learning

介绍了一种用于多智能体学习的模型,可以在学习环境中准确预测智能体未来的行为,来自DeepMind等。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

对抗样本(Adversarial Examples)

这部分,一共2篇。分别是:

Adversarial Reprogramming of Neural Networks

对六种ImageNet分类模型的对抗性重新编程,并调整了这些模型的用途,以执行相应任务。来自谷歌大脑。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

On the Intriguing Connections of Regularization, Input Gradients and Transferability of Evasion and Poisoning Attacks

这篇论文来自卡利亚里大学等,作者对不同的模型进行了实证分析,研究不同模型之间的对抗样本迁移情况有何不同。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

其他

这部分,一共5篇。分别是:

Test to Image Generation With AttnGAN

一篇来自微软研究院等机构的论文,提出了一个注意力生成对抗网络,用于文本到图像的生成。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

An intriguing failing of convolutional neural networks and the CoordConv solution

这篇来自Uber的论文,针对卷积神经网络在空间坐标转换问题上的缺陷,提出了一种名为CoordConv的解决方案。工作原理是使用额外的坐标通道使卷积访问输入坐标。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Visualizing the Loss Landscape of Neural Networks

这篇论文提出了一种可视化损失函数的新方法,解决了理解损失函数的特征如何影响模型性能的问题。来自马里兰大学学院市分校等。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Embedding Grammars

这篇论文来自杨百翰大学。将单词嵌入的语义泛化能力和语境无关的语法结构(比如正则表达式)结合起来,创造混合语义语法。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

Deep Image Reconstruction from fMRI Data

来自日本ATR计算神经科学实验室,提出了一种新的图像重建方法,借助fMRI技术和深度学习算法,根据人类的大脑活动重建人类看到的图像。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

谁写的这些总结?

这份总结的作者,是一位名为Cody Wild的小姐姐,在一家名为Sophos的安全技术公司担任数据科学家,喜欢猫。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

每半年,她会花一个月的时间,给自己读到的经典机器学习论文写总结,这已经是第三次了

大家可以再Twitter上面关注她。ID:@decodyng。

最后,这份总结笔记传送门:

https://docs.google.com/document/d/15o6m0I8g6O607mk5YPTh33Lu_aQYo7SpHhNSbLPQpWQ/edit#

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

如何写一篇不水的机器学习论文?

还在学师阶段的研究生以及从业新手们 ,想在机器学习 研究中少走弯路吗?

或许下面这篇论文可以帮到你:

《如何避免机器学习研究中的陷阱?一本给学术研究人员的指南》

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

作者是英国赫瑞-瓦特大学数学与计算机科学学院的副教授 ,同时也是爱丁堡机器人中心的成员,博士毕业已经十多年,这篇17页的论文主要介绍了机器学习学术研究中的一些常犯错误,以及如何避免。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

指南共涵盖了机器学习过程的五大方面: 建模前如何准备,如何建出可靠的模型,如何稳健地评估模型,如何公平地比较模型以及如何报告结果。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

一位已经从业的机器学习研究员称赞该论文很有价值,因为文中提到的所有错误他在博士学习和工作期间中都遇到很多次 。他准备让后面所有新入职的 工程师都好好看看。

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

不少人则认为该指南的意见可能并不受欢迎,因为很多都是研究人员本该知道的基本常识 ,比如多次重复实验并报告平均值和方差进行严格比较,但他们就是为了方便或者让数据更好看而选择性忽视

机器学习论文 小姐姐花了一个月,给29篇经典机器学习论文写了总结

下面就详细看看作者都提了哪些常见错误。

建模前的准备

为了得到符合预期用途的模型、可以顺利发表论文的结果,建模之前你需要做好以下6点准备:

1、确保花时间研究你要用的数据集,来源可靠、质量有保证。

2、但不要查看测试数据 ,防止先入为主做出某些假设导致最终模型通用性差

3、保证数据量足够大,当然保证不了也是常有的事儿,解决办法:

比如评估模型时交叉验证数据、采用数据扩充技术 (数据集中某类数据不够时也可采用)。

但总的来说,数据不够模型就不能设计得太复杂,不然分分钟给你过拟合。

4、要和相关领域专家谈谈,防止研究脱离实际,并且他们也可以帮助你向最合适的期刊/受众发表。

5、搜遍相关文献,虽然发现别人已经研究过了很沮丧,但是写论文时你该怎么解释为什么要覆盖相同的领域

6、一定要提前考虑模型部署 的问题:大部分学术研究最终都是要落地吧?好好考虑落地场景的资源、时间限制等问题来设计模型。

如何建出可靠的模型

1、不要让测试数据参与到训练过程中(这点前面也已强调过)。

2、尝试不同的ML模型,别套用,具体问题具体分析找出最适合解决你的问题的那个。

“凑合”的例子包括将期望分类特征的模型应用于由数字特征组成的数据集、将假定变量之间没有依赖关系的模型应用于时间序列数据,或者只相信最新的模型(旧的不一定不合适)。

3、一定要优化模型的超参数 。使用某种超参数优化策略比较好,这样在写论文时也好整。除了数据挖掘实践之外,可以使用AutoML技术优化模型及其超参数的配置。

4、在执行超参数优化和特征选择要小心:防止测试集“泄漏”,不要在模型训练开始之前 对整个数据集进行特征选择。理想情况下应使用与训练模型所用数据完全相同的数据。

实现这一点的常用技术是嵌套交叉验证(也称为双交叉验证)。

如何稳健地评估模型

对模型进行不公平的评估,很容易让学术研究的水变浑浊

作者一共提了5点:

1、一个模型在训练集上的表现几乎毫无意义,保证测试集与训练集之间的独立

2、在连续迭代多个模型,用前面的数据指导下一个的配置时使用验证集 ,千万不要让测试集参与进来。可以根据验证集对模型进行测量:当分数开始下降时,停止训练,因为这表明模型开始过拟合。

3、对模型多次评估 ,防止低估/高估性能。十次交叉验证 是最标准的做法,对很小的数据类进行层化也很重要;需要报告多个评估的平均值和标准偏差;也建议保留单个分数记录,以防以后使用统计测试来比较模型。

4、保留一些测试数据以无偏评估最终的模型实例

5、不要对不平衡的数据集使用准确度(accuracy)指标。这个指标常用于分类模型,不平衡数据集应采用kappa系数 或马修斯相关系数(MCC)指标。

如何公平地比较模型

这是非常重要的一环,但很惊讶的是很多人都比不对,作者表示一定要确保在同一环境中评估不同的模型,探索多个视角,并正确使用统计测试。

1、一个更大的数字不意味着一个更好的模型。应将每个模型优化到同等程度 ,进行多次评估,然后使用统计测试确定性能差异是否显著。

2、要想让人相信你的模型好,一定要做统计测试

3、进行多重比较时进行校正:如果你以95%的置信水平做20个成对测试,其中一个可能会给你错误的答案。这被称为多重性效应。最常见的解决方法是Bonferroni校正

4、不要总是相信公共基准测试的结果

使用基准数据集来评估新的ML模型已变得司空见惯,你以为这会让结果更透明,实际上:

如果测试集的访问不受限,你没法确保别人没有在训练过程中使用它;被多次使用的公共测试集上的许多模型可能会与之过度匹配;最终都会导致结果乐观。

5、考虑组合模型。

如何报告结果

学术研究的目的不是自我膨胀,而是一个贡献知识的机会。为了有效地贡献你的想法,你需要提供研究的全貌 ,包括哪些有效哪些无效。

1、保持你所做所发现的成果透明,这会方便其他人更容易地在你的工作基础上扩展。共享你的代码也会让你在coding的时候更认真。

2、提供多个测试集上的报告,为每个数据集报告多个度量指标(如果你报告F值,请明确这是F1得分还是精度和召回率之间的其他平衡;如果报告AUC,请指出这是ROC曲线下的面积还是PR下的);

3、不要在结果之外 泛化,不要夸大,意识到数据的局限性。

4、报告统计显著性时一定要小心:统计人员越来越多地认为,最好不要使用阈值,而只报告p值,让读者来解释这些值。

除了统计意义之外,另一件需要考虑的事是两个模型之间的差异是否真正重要。

5、最后,再回过头完整的看一眼你的模型 ,除了报告性能指标,看看它能解决多少实际问题。

以上就是所有的内容,作者表示,部分意见可能有争议,内文也并非详尽无遗,因此提供了很多参考链接供大家进一步参考。

另外理论总是落后于实践,我们今天认为正确的东西明天可能不正确,因此大家都要以开放的心态面对机器学习,紧跟最新技术进展,谦虚地接受新知识。

更多意见欢迎在评论区补充。

指南地址:https://arxiv.org/abs/2108.02497

参考链接:https://www.reddit.com/r/MachineLearning/comments/ozuphh/r_how_to_avoid_machine_learning_pitfalls_a_guide/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关问答

如何更高效的自学机器学习?

机器学习的“难”通常不在于数学,因为机器学习本身不需要很高强度的数学计算,而在于debugging难的问题。机器学习debug要比普通计算机程序难得多:出现问题...

有做机器学习的吗?要具备哪些技能?本科生可以担任什么职位?

机器学习岗位这几年都很热门,人工智能技术得到大众的广泛认同,希望学习机器学习的人越来越多了,那么如果从事机器学习我们需要具备哪些知识体系呢?我从事机...

要如何开始从零掌握Python机器学习?

作为一个过来人,我的建议是分三步进行:第一步:学习基本Python技能如果要使用Python进行机器学习,拥有对Python有基础的理解非常关键。幸运的是,Pyth...

人工智能和机器学习可以带来哪些改变?

Gartner数据显示,未来几年这一趋势将进一步加速,到2020年人工智能和机器学习将成为超过30%的首席信息官的五大投资重点之一。一些CIO们已经意识到有机会运用于...

研一,在学机器学习和深度学习,为什么感觉越学越不会,怎么解决这个问题?

机器学习和深度学习的领域实在太大太广,需要找准一个自己感兴趣的领域,比如图像、NLP(自然语言处理),然后做几个课题,这样兴趣和成就感就来了。再者传统的...机...

学习机器学习,需要了解哪些概率论知识?

概率我们已经拥有十分强大的数学工具了,为什么我们还需要学习概率论?我们用微积分来处理变化无限小的函数,并计算它们的变化。我们使用代数来解方程,我们还...

如何开发稳健的机器学习算法?

机器学习和数据科学工作远不是简单地把数据交给Python库处理,使用处理后的结果那么简单。数据科学家需要真正理解数据和如何处理数据,以实现成功的系统。一...

机器学习研究者需要能够在多久之内复现出一篇paper?

谢邀其实这个是一种手艺吧,并且同样是强组,大组和小组各有特点。我是大组呆过,小组也呆过,各有特点,都难以取舍。本身TeamWork的话我听说有些配合的非常好...

深度学习最终会淘汰掉其他所有机器学习算法吗?

谢邀,我可以很准确地说,不会。各有各的长处,各有各的短处。可能首先要明确一点,深度学习为何被称为“深度”?从现在的技术角度看,深度学习通过组合低层特...如...

大数据和人工智能应该选哪个学习呢?

大数据和人工智能到底选哪个?其实取决于你自己到底对于它们中哪个的工作内容更感兴趣。人工智能工作内容更偏向于机器学习算法类相关,大数据工作方面的内容更偏...