(10分钟带你了解)365bet游戏开户电脑版v9.722.7841

首页 >新闻 >社会新闻

被拒≠失败！这些高影响力论文都被顶会拒收过

2025-12-25 08:09:21

来源：

猫眼电影

作者：

奥鲁斯巴耶夫

手机查看

　　猫眼电影记者裘千尺报道首次登录送91元红包

机器之心报道

机器之心编辑部

近日，Waymo 发布了一篇深度博客，详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。

谷歌首席科学家 Jeff Dean 也在 X 上分享了这篇博客，并重点介绍了 Waymo 用到的蒸馏方法，他写到：「就像我们使用蒸馏从更大规模的专业模型中创建高质量、计算效率极高的 Gemini Flash 模型一样，Waymo 也类似地使用了蒸馏，来基于更大的模型创建可机载运行的高计算效率模型。」

而在这条帖子下方，Jeff Dean 又再一次回忆了最初那篇蒸馏论文的悲惨遭遇：被 NeurIPS 2014 拒收了。而他收到的拒收理由是它「不太可能产生重大影响」。

当时，评审认为这篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的论文只是对早期模型压缩（Model Compression）工作的增量改进。而事后来看，NeurIPS 2014 评审的这个决定可谓是错得非常离谱。如今，「知识蒸馏（Knowledge Distillation）」已然成为模型压缩和大模型落地的标配方法。其论文引用量也已经超过了 2.8 万！

这件事也成了 Jeff Dean 的意难平，让他每有机会就会拿出来晒一晒。

其实 Jeff Dean 的遭遇并非个例。

回顾 AI 的发展历程，同行评审制度虽然扮演着质量守门人的关键角色，但它并非全能。

事实上，当我们回溯历史，会发现一个令人深思的现象：许多当下支撑起万亿级 AI 产业的基石技术（从训练大模型的优化器，到计算机视觉的特征提取，再到自然语言处理的底层逻辑）在最初问世时，都曾被顶级会议拒之门外。

Geoffrey Hinton、Yann LeCun、Schmidhuber…… 这些如雷贯耳的名字，都曾站在拒稿信的对面。那些理由在今天看来甚至或许有些荒谬：「缺乏理论依据」、「只是工程技巧」、「太简单了不可能有效」。

今天，我们盘点一下那些曾经沦为「弃子」、后来却引发范式转移（Paradigm Shift）的殿堂级论文。这不仅是对历史的回顾，更是为了探寻一个问题的答案：当一项研究过于超前或离经叛道时，我们该如何识别它的价值？

LSTM：跨越 20 年的回响

论文：Long Short-Term Memory作者：Sepp Hochreiter, Jürgen Schmidhuber拒稿经历：NIPS 1996 Rejected如今引用量：139707

作为处理序列数据的里程碑，LSTM 在 1996 年被 NIPS 拒之门外。

当时正值神经网络的寒冬（AI Winter），支持向量机（SVM）等统计方法大行其道。LSTM 引入的门控机制被认为参数过多、过于复杂且缺乏生物学合理性。

直到 2010 年代，随着算力和大数据的爆发，LSTM 才在语音识别和机器翻译中展现出统治级表现。这不仅是技术的胜利，更是对坚持者的奖赏。

SIFT：前深度学习时代的王者

论文：Object Recognition from Local Scale-Invariant Features作者：David G. Lowe拒稿经历：ICCV 1997, CVPR 1998 Rejected如今引用量：27389

David Lowe 提出的 SIFT（尺度不变特征变换）算法，曾统治 CV 领域长达 15 年。但在 1997 年和 1998 年，它先后被 ICCV 和 CVPR 拒稿。

拒稿理由很有时代特色。当时的学术界偏好基于几何理论和严密数学推导的方法。SIFT 包含了一系列复杂的工程步骤（高斯差分金字塔、关键点定位等），被评审认为「过于繁琐」、「不够优雅」。

SIFT 最终以 Poster 形式发表。它证明了在处理现实世界图像的旋转、缩放和遮挡问题时，鲁棒的工程设计往往比完美的数学理论更有生命力。

Dropout：被误解的「有性繁殖」

论文：Dropout: A Simple Way to Prevent Neural Networks from Overfitting作者：Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov拒稿经历：NIPS 2012 Rejected如今引用量：60231

如果说有一项技术定义了深度神经网络的正则化方法，那非 Dropout 莫属。然而，这项后来获得 NeurIPS 时间检验奖（Test of Time Award）的技术，在 2012 年投稿 NIPS 时却遭遇了滑铁卢。

在这篇论文中，Geoffrey Hinton 团队提出的核心思想是在训练中随机「删掉」一半神经元，而这在当时的评审看来过于激进且缺乏数理逻辑。Hinton 使用了生物学中「有性繁殖」的隐喻来解释其有效性（基因不能依赖于特定的伙伴存在），这被一些严谨的评审人认为「不够科学」，更像是一个工程 Hack。

尽管被拒，Dropout 迅速成为了 AlexNet 夺冠 ImageNet 的秘密武器。它证明了在过参数化的深度网络中，通过引入随机性来打破特征间的共适应（Co-adaptation），比复杂的贝叶斯正则化更为有效。

Word2Vec：被质疑的「工程奇迹」

论文：Efficient Estimation of Word Representations in Vector Space作者：Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean拒稿经历：ICLR 2013 Strong Reject如今引用量：50855

是的，这里又出现了 Jeff Dean 的名字。

Word2Vec 让 King - Man + Woman = Queen 成为了 AI 领域最著名的算式，但在首届 ICLR 会议上，它收到了「Strong Reject」。

其收到的评审意见极其尖锐，认为作者 Tomas Mikolov 等人「比较不科学」、「定义模糊」，且过度关注工程优化（如分层 Softmax、负采样），缺乏对「为何简单的线性映射能捕捉复杂语义」的理论解释。

而作者直接开源了代码。凭借极高的训练效率，Word2Vec 迅速横扫 NLP 社区，成为深度学习时代文本表示的基石。2023 年，NeurIPS 授予这篇曾被拒稿的论文「时间检验奖」，完成了历史性的「平反」。

知识蒸馏：被低估的「暗知识」

论文：Distilling the Knowledge in a Neural Network作者：Geoffrey Hinton, Oriol Vinyals, Jeff Dean拒稿经历：NIPS 2014 Rejected如今引用量：28600

这正是前文提到的论文。

在当时，评审未能洞察到 Hinton 提出的「暗知识」（Dark Knowledge）这一概念的深远意义：神经网络学到的知识不仅存在于正确的预测中，更隐含在对错误类别的概率分布里（比如宝马像垃圾车的概率远高于像胡萝卜的概率）。

https://www.ttic.edu/dl/dark14.pdf

这篇论文最终仅在 Workshop 发表。它开启了模型压缩作为独立研究领域的序幕，更成为了如今大模型向小模型迁移能力的理论源头。

YOLO：速度与精度的偏见

论文：You Only Look Once: Unified, Real-Time Object Detection作者：Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi拒稿经历：ICCV 2015 Rejected如今引用量：69782

YOLO（You Only Look Once）彻底改变了物体检测的游戏规则，将检测问题从分类问题转化为回归问题。

其被拒理由也很简单。在 R-CNN 系列（双阶段检测器）统治的时代，评审们习惯了用 mAP（平均精度均值）的微小提升来衡量价值。YOLO 虽然实现了惊人的 45 FPS 实时检测，但其定位精度确实不如 R-CNN。评审因其「定位不准」而拒绝了它，却忽视了数量级的速度提升所开启的全新应用场景（如自动驾驶、实时监控）。

YOLO 系列如今已迭代至 v13，成为工业界最受欢迎的检测框架。它提醒我们：在工程应用中，速度本身就是一种精度。

RoBERTa：被嘲讽为「炒冷饭」的调参艺术

RoBERTa: A Robustly Optimized BERT Pretraining Approach作者：Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov拒稿经历：ICLR 2020 Rejected如今引用量：23479

如果说前面的论文是因为「太超前」被拒，那么 RoBERTa 的被拒则是因为「看起来太平庸」。

2019 年，BERT 横空出世，风头无两。Facebook AI（现 Meta AI）的研究人员并没有急于提出一种全新的架构，而是耐心地对 BERT 的预训练过程进行了极其详尽的复现和优化。他们发现，BERT 实际上被「训练不足」了。通过调整超参数、增加数据量、去除 Next Sentence Prediction (NSP) 任务，RoBERTa 在所有基准测试上都超越了原始 BERT。

然而，这篇扎实的工作在投稿 ICLR 2020 时，却遭到了评审的冷遇。评审意见非常直白且刺耳：「这篇论文的新颖性和技术贡献相当有限」。在评审看来，只是发现「仔细调参很有用」和「更多数据很有用」，并不足以登上顶会的舞台。

最终，RoBERTa 只能再次以被拒稿的身份流传于世。但历史证明了它的价值：RoBERTa 不仅成为了后续 NLP 研究的标准基线，更向业界揭示了一个朴素的真理 —— 在深度学习时代，清洗数据和优化训练细节，往往比设计花哨的新架构更具实战价值。

Mamba：挑战 Transformer 霸权的「落选者」

论文：Mamba: Linear-Time Sequence Modeling with Selective State Spaces作者：Albert Gu, Tri Dao拒稿经历：ICLR 2024 Rejected如今引用量：6799

这可能是最近发生的最具戏剧性的「拒稿」事件。

在 Transformer 一统天下的今天，Mamba 的出现原本被视为一种颠覆。作者 Albert Gu 和 Tri Dao 提出了一种基于选择性状态空间模型（SSM）的架构，它在实现线性时间复杂度的同时，居然在语言建模任务上达到了媲美 Transformer 的性能。这意味着，我们终于有望打破 Attention 机制带来的计算瓶颈，让大模型在长序列推理上实现飞跃。

然而，这篇在 arXiv 上一经发布就引爆社区、被无数开发者复现和膜拜的神作，却在 ICLR 2024 的评审中折戟沉沙。评审给出的分数并不高，理由集中在「与其前作 S4 相比增量不足」、「在某些特定任务上未能全面超越 Transformer」以及对实验细节的质疑。参阅报道《8/8/6/3 的 Mamba 论文，最终还是被 ICLR 2024 拒了，网友：悬着的心终于死了》

结果十分讽刺：当 ICLR 2024 公布接收结果时，AI 社区讨论最热烈的话题之一却是「Mamba 竟然被拒了？」。就在被拒稿的短短几个月后，基于 Mamba 的变体（如 Jamba、Vision Mamba）如雨后春笋般涌现，它实际上已经成为了 2024 年最具影响力的架构创新之一。Mamba 的遭遇再次提醒我们：当一种反共识的新范式出现时，旧范式的评价标准往往会失效。

科研评价体系的局限与反思

综合上述案例，我们可以看到顶会评审系统在面对颠覆性创新时，往往存在某种系统性的认知滞后：

简单性陷阱：评审倾向于将「数学复杂性」等同于「研究贡献」。当 Dropout 或 Word2Vec 这样简单有效的方法出现时，评审的第一反应往往是质疑其理论深度。范式惯性：评审往往是旧范式的维护者。当 YOLO 提出放弃 Region Proposal，或 Deep Image Prior 提出无需学习的先验时，旧范式的标准（如精度、数据依赖）成为了阻碍新思想的壁垒。严谨性的暴政：在深度学习这个实验科学属性极强的领域，过度要求理论证明（如 Adam 优化器初期面临的收敛性质疑）可能会扼杀具有巨大实用价值的工程突破。

这些「被拒稿的杰作」向我们揭示了科学发展的非线性。它们证明了，同行评审虽然是科学共同体的基石，但它很难摆脱人类认知的局限性 —— 它善于识别错误，却往往拙于鉴别天才。

事实上，这种遭遇并非 AI 领域的特产，甚至连物理学神坛上的名字也无法幸免。

1936 年，阿尔伯特・爱因斯坦（Albert Einstein）将一篇关于引力波的论文投给了权威期刊《Physical Review》。在此之前，爱因斯坦习惯了编辑直接录用他的文章，但这一次，主编 John Tate 决定将其送审。

随后，爱因斯坦收到了一份写满修改意见的匿名评审报告。这位骄傲的物理学家被彻底激怒了，他在给主编的回信中写下了一段著名的话：「我把文章寄给你是为了发表，并没有授权你在它付印前拿给专家看。我没有通过以此来回答你们那匿名专家的错误评论的必要。」随后，他撤回了论文。

虽然历史极其幽默地反转了 —— 那位匿名评审人其实指出了爱因斯坦论文中一个致命的数学错误（爱因斯坦后来在另一本期刊发表时悄悄修正了它），但这个故事依然不仅是一个关于「纠错」的轶事，更是一个关于「摩擦」的隐喻。

阿尔伯特·爱因斯坦和内森·罗森关于引力波的解的修订版论文最后发表在 Journal of the Franklin Institute 上

对于正在经历 Peer Review 阵痛的研究者而言，Jeff Dean 的愤怒、YOLO 的委屈、甚至爱因斯坦的傲慢，都指向了同一个事实：真正决定一项研究生命力的，从来不是几位评审在几周内做出的决定，而是它是否真正解决了问题，以及它在时间长河中留下的回响。

如果你的 Paper 最近也被拒了，别灰心。你只是加入了一个包括图灵奖得主和诺贝尔奖得主在内的「被拒稿俱乐部」而已。

保持韧性，真理有时只是迟到了一点。

你还知道哪些虽被拒稿但影响深远的论文？

https://x.com/JeffDean/status/1998454348125536736

https://x.com/Yuchenj_UW/status/1998485506699702403

https://www.reddit.com/r/MachineLearning/comments/vywfx3/d_are_there_any_rejected_papers_that_ended_up/

https://physicstoday.aip.org/features/einstein-versus-the-physical-review

时事1：AG真人客户端下载

12月25日,（粤港澳大湾区）逾千名粤港澳青少年跆拳道选手同台竞技,从“三驾马车”来看，西安投资增速为负，社消零增速仅0.1%，只有进出口增速达到7.4%，表现较为突出。而佛山进出口增速大幅下滑33.1%，投资增速和规上工业增加值增速则均未公布。,天博体育APP下载官网。

12月25日,“十四五”规划102项重大工程如期完成规划目标任务,此前杭州、潍坊、昆明、青岛、深圳、成都、湖州等地均已出台规定，将出租车业从业年限上调至65周岁。,爱游戏APP官方入口,新利体育官方网站,bet9九州体育10年信誉。

时事2：ag九游会老站

12月25日,黑龙江黑河口岸迎来首批中国免签入境俄罗斯游客,随着上合组织的扩员，议题越来越分散，中国与中亚国家除了继续推进在上合框架内的合作，也需要一个新的专门的多边合作机制，“中国+中亚五国”合作机制应运而生。与上合组织相比，“中国+中亚五国”合作机制不仅覆盖了所有中亚国家，而且可以更加聚焦中亚事务。,九游会体育,国际象棋真人对战,mileapp。

12月25日,我国科技创新能力不断提升,不过眼下，郑州正借势郑州比亚迪工厂、郑州上汽乘用车二期等项目，逐步将新能源汽车培育成下一个引擎。不论对工业经济增长，还是外贸发展而言，新能源汽车产业都将成为郑州“转身”的一个关键变量。,优德网址登录,巴黎人用户登入,尊龙注册彩金。

时事3：澳门游戏网平台

12月25日,好评中国丨中央经济工作会议首提“内外贸一体化”，广东如何接招,“当有足够多像这样的孩子进入法律行业，法治会堕落为野蛮行径。”因此，邓肯要求斯坦福大学必须严厉惩罚此次参与抗议的学生，并解雇法学院副院长斯坦巴赫。,OB欧宝网页登录,十大正规买球网站排行榜,ag捕鱼王攻略及技巧。

12月25日,“港产”AI聊天机器人“港话通”用户已达16万,相关数据显示，包括Pilbara、ALB在内的主流矿企，资本开支峰值多数在2023年下半年触顶后持续回落。,球探体育最新下载,贝博app体育官网,三亿体育手机。

时事4：中国象棋大师网官网

12月25日,2025斯诺克单局限时赛：中国军团5人晋级第三轮,公开简历显示，韩勇，男，汉族，1956年10月生，吉林九台人，1976年4月入党，1974年6月参加工作，中央党校研究生院国际政治专业毕业，中央党校研究生学历。,现金网投游戏网,2026世界杯网上买球,手机赌场app官网。

12月25日,黑龙江哈尔滨：音乐公园大雪人建设基本完工,从广东全省来看，今年一季度，广东外贸进出口总额2.04万亿元，增长12%。作为外贸第一大市，深圳几乎贡献一半的份额，进出口总额1.02万亿元，同比增长28.8%。而佛山却出现截然不同的走势：,线上扎金花平台,速8官方网站,球探体育下载。

【全景呈现中国乳业背后的全球产业链《超级牛奶》讲述一杯奶的品质马拉松】

【多领域迎来关键进展我国经济尽显活力】

责编：陈一鸣

审核：罗父

责编：毛瑞琴