猫眼电影
猫眼电影记者 裘千尺 报道首次登录送91元红包
机器之心报道
机器之心编辑部
近日,Waymo 发布了一篇深度博客,详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。
谷歌首席科学家 Jeff Dean 也在 X 上分享了这篇博客,并重点介绍了 Waymo 用到的蒸馏方法,他写到:「就像我们使用蒸馏从更大规模的专业模型中创建高质量、计算效率极高的 Gemini Flash 模型一样,Waymo 也类似地使用了蒸馏,来基于更大的模型创建可机载运行的高计算效率模型。」
而在这条帖子下方,Jeff Dean 又再一次回忆了最初那篇蒸馏论文的悲惨遭遇:被 NeurIPS 2014 拒收了。而他收到的拒收理由是它「不太可能产生重大影响」。
当时,评审认为这篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的论文只是对早期模型压缩(Model Compression)工作的增量改进。而事后来看,NeurIPS 2014 评审的这个决定可谓是错得非常离谱。如今,「知识蒸馏(Knowledge Distillation)」已然成为模型压缩和大模型落地的标配方法。其论文引用量也已经超过了 2.8 万!
这件事也成了 Jeff Dean 的意难平,让他每有机会就会拿出来晒一晒。
其实 Jeff Dean 的遭遇并非个例。
回顾 AI 的发展历程,同行评审制度虽然扮演着质量守门人的关键角色,但它并非全能。
事实上,当我们回溯历史,会发现一个令人深思的现象:许多当下支撑起万亿级 AI 产业的基石技术(从训练大模型的优化器,到计算机视觉的特征提取,再到自然语言处理的底层逻辑)在最初问世时,都曾被顶级会议拒之门外。
Geoffrey Hinton、Yann LeCun、Schmidhuber…… 这些如雷贯耳的名字,都曾站在拒稿信的对面。那些理由在今天看来甚至或许有些荒谬:「缺乏理论依据」、「只是工程技巧」、「太简单了不可能有效」。
今天,我们盘点一下那些曾经沦为「弃子」、后来却引发范式转移(Paradigm Shift)的殿堂级论文。这不仅是对历史的回顾,更是为了探寻一个问题的答案:当一项研究过于超前或离经叛道时,我们该如何识别它的价值?
LSTM:跨越 20 年的回响
论文:Long Short-Term Memory作者:Sepp Hochreiter, Jürgen Schmidhuber拒稿经历:NIPS 1996 Rejected如今引用量:139707
作为处理序列数据的里程碑,LSTM 在 1996 年被 NIPS 拒之门外。
当时正值神经网络的寒冬(AI Winter),支持向量机(SVM)等统计方法大行其道。LSTM 引入的门控机制被认为参数过多、过于复杂且缺乏生物学合理性。
直到 2010 年代,随着算力和大数据的爆发,LSTM 才在语音识别和机器翻译中展现出统治级表现。这不仅是技术的胜利,更是对坚持者的奖赏。
SIFT:前深度学习时代的王者
论文:Object Recognition from Local Scale-Invariant Features作者:David G. Lowe拒稿经历:ICCV 1997, CVPR 1998 Rejected如今引用量:27389
David Lowe 提出的 SIFT(尺度不变特征变换)算法,曾统治 CV 领域长达 15 年。但在 1997 年和 1998 年,它先后被 ICCV 和 CVPR 拒稿。
拒稿理由很有时代特色。当时的学术界偏好基于几何理论和严密数学推导的方法。SIFT 包含了一系列复杂的工程步骤(高斯差分金字塔、关键点定位等),被评审认为「过于繁琐」、「不够优雅」。
SIFT 最终以 Poster 形式发表。它证明了在处理现实世界图像的旋转、缩放和遮挡问题时,鲁棒的工程设计往往比完美的数学理论更有生命力。
Dropout:被误解的「有性繁殖」
论文:Dropout: A Simple Way to Prevent Neural Networks from Overfitting作者:Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov拒稿经历:NIPS 2012 Rejected如今引用量:60231
如果说有一项技术定义了深度神经网络的正则化方法,那非 Dropout 莫属。然而,这项后来获得 NeurIPS 时间检验奖(Test of Time Award) 的技术,在 2012 年投稿 NIPS 时却遭遇了滑铁卢。
在这篇论文中,Geoffrey Hinton 团队提出的核心思想是在训练中随机「删掉」一半神经元,而这在当时的评审看来过于激进且缺乏数理逻辑。Hinton 使用了生物学中「有性繁殖」的隐喻来解释其有效性(基因不能依赖于特定的伙伴存在),这被一些严谨的评审人认为「不够科学」,更像是一个工程 Hack。
尽管被拒,Dropout 迅速成为了 AlexNet 夺冠 ImageNet 的秘密武器。它证明了在过参数化的深度网络中,通过引入随机性来打破特征间的共适应(Co-adaptation),比复杂的贝叶斯正则化更为有效。
Word2Vec:被质疑的「工程奇迹」
论文:Efficient Estimation of Word Representations in Vector Space作者:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean拒稿经历:ICLR 2013 Strong Reject如今引用量:50855
是的,这里又出现了 Jeff Dean 的名字。
Word2Vec 让 King - Man + Woman = Queen 成为了 AI 领域最著名的算式,但在首届 ICLR 会议上,它收到了「Strong Reject」。
其收到的评审意见极其尖锐,认为作者 Tomas Mikolov 等人「比较不科学」、「定义模糊」,且过度关注工程优化(如分层 Softmax、负采样),缺乏对「为何简单的线性映射能捕捉复杂语义」的理论解释。
而作者直接开源了代码。凭借极高的训练效率,Word2Vec 迅速横扫 NLP 社区,成为深度学习时代文本表示的基石。2023 年,NeurIPS 授予这篇曾被拒稿的论文「时间检验奖」,完成了历史性的「平反」。
知识蒸馏:被低估的「暗知识」
论文:Distilling the Knowledge in a Neural Network作者:Geoffrey Hinton, Oriol Vinyals, Jeff Dean拒稿经历:NIPS 2014 Rejected如今引用量:28600
这正是前文提到的论文。
在当时,评审未能洞察到 Hinton 提出的 「暗知识」(Dark Knowledge) 这一概念的深远意义:神经网络学到的知识不仅存在于正确的预测中,更隐含在对错误类别的概率分布里(比如宝马像垃圾车的概率远高于像胡萝卜的概率)。
https://www.ttic.edu/dl/dark14.pdf
这篇论文最终仅在 Workshop 发表。它开启了模型压缩作为独立研究领域的序幕,更成为了如今大模型向小模型迁移能力的理论源头。
YOLO:速度与精度的偏见
论文:You Only Look Once: Unified, Real-Time Object Detection作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi拒稿经历:ICCV 2015 Rejected如今引用量:69782
YOLO(You Only Look Once)彻底改变了物体检测的游戏规则,将检测问题从分类问题转化为回归问题。
其被拒理由也很简单。在 R-CNN 系列(双阶段检测器)统治的时代,评审们习惯了用 mAP(平均精度均值)的微小提升来衡量价值。YOLO 虽然实现了惊人的 45 FPS 实时检测,但其定位精度确实不如 R-CNN。评审因其「定位不准」而拒绝了它,却忽视了数量级的速度提升所开启的全新应用场景(如自动驾驶、实时监控)。
YOLO 系列如今已迭代至 v13,成为工业界最受欢迎的检测框架。它提醒我们:在工程应用中,速度本身就是一种精度。
RoBERTa:被嘲讽为「炒冷饭」的调参艺术
RoBERTa: A Robustly Optimized BERT Pretraining Approach作者:Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov拒稿经历:ICLR 2020 Rejected如今引用量:23479
如果说前面的论文是因为「太超前」被拒,那么 RoBERTa 的被拒则是因为「看起来太平庸」。
2019 年,BERT 横空出世,风头无两。Facebook AI(现 Meta AI)的研究人员并没有急于提出一种全新的架构,而是耐心地对 BERT 的预训练过程进行了极其详尽的复现和优化。他们发现,BERT 实际上被「训练不足」了。通过调整超参数、增加数据量、去除 Next Sentence Prediction (NSP) 任务,RoBERTa 在所有基准测试上都超越了原始 BERT。
然而,这篇扎实的工作在投稿 ICLR 2020 时,却遭到了评审的冷遇。评审意见非常直白且刺耳:「这篇论文的新颖性和技术贡献相当有限」。在评审看来,只是发现「仔细调参很有用」和「更多数据很有用」,并不足以登上顶会的舞台。
最终,RoBERTa 只能再次以被拒稿的身份流传于世。但历史证明了它的价值:RoBERTa 不仅成为了后续 NLP 研究的标准基线,更向业界揭示了一个朴素的真理 —— 在深度学习时代,清洗数据和优化训练细节,往往比设计花哨的新架构更具实战价值。
Mamba:挑战 Transformer 霸权的「落选者」
论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces作者:Albert Gu, Tri Dao拒稿经历:ICLR 2024 Rejected如今引用量:6799
这可能是最近发生的最具戏剧性的「拒稿」事件。
在 Transformer 一统天下的今天,Mamba 的出现原本被视为一种颠覆。作者 Albert Gu 和 Tri Dao 提出了一种基于选择性状态空间模型(SSM)的架构,它在实现线性时间复杂度的同时,居然在语言建模任务上达到了媲美 Transformer 的性能。这意味着,我们终于有望打破 Attention 机制带来的计算瓶颈,让大模型在长序列推理上实现飞跃。
然而,这篇在 arXiv 上一经发布就引爆社区、被无数开发者复现和膜拜的神作,却在 ICLR 2024 的评审中折戟沉沙。评审给出的分数并不高,理由集中在「与其前作 S4 相比增量不足」、「在某些特定任务上未能全面超越 Transformer」以及对实验细节的质疑。参阅报道《8/8/6/3 的 Mamba 论文,最终还是被 ICLR 2024 拒了,网友:悬着的心终于死了》
结果十分讽刺:当 ICLR 2024 公布接收结果时,AI 社区讨论最热烈的话题之一却是「Mamba 竟然被拒了?」。就在被拒稿的短短几个月后,基于 Mamba 的变体(如 Jamba、Vision Mamba)如雨后春笋般涌现,它实际上已经成为了 2024 年最具影响力的架构创新之一。Mamba 的遭遇再次提醒我们:当一种反共识的新范式出现时,旧范式的评价标准往往会失效。
科研评价体系的局限与反思
综合上述案例,我们可以看到顶会评审系统在面对颠覆性创新时,往往存在某种系统性的认知滞后:
简单性陷阱:评审倾向于将「数学复杂性」等同于「研究贡献」。当 Dropout 或 Word2Vec 这样简单有效的方法出现时,评审的第一反应往往是质疑其理论深度。范式惯性:评审往往是旧范式的维护者。当 YOLO 提出放弃 Region Proposal,或 Deep Image Prior 提出无需学习的先验时,旧范式的标准(如精度、数据依赖)成为了阻碍新思想的壁垒。严谨性的暴政:在深度学习这个实验科学属性极强的领域,过度要求理论证明(如 Adam 优化器初期面临的收敛性质疑)可能会扼杀具有巨大实用价值的工程突破。
这些「被拒稿的杰作」向我们揭示了科学发展的非线性。它们证明了,同行评审虽然是科学共同体的基石,但它很难摆脱人类认知的局限性 —— 它善于识别错误,却往往拙于鉴别天才。
事实上,这种遭遇并非 AI 领域的特产,甚至连物理学神坛上的名字也无法幸免。
1936 年,阿尔伯特・爱因斯坦(Albert Einstein)将一篇关于引力波的论文投给了权威期刊《Physical Review》。在此之前,爱因斯坦习惯了编辑直接录用他的文章,但这一次,主编 John Tate 决定将其送审。
随后,爱因斯坦收到了一份写满修改意见的匿名评审报告。这位骄傲的物理学家被彻底激怒了,他在给主编的回信中写下了一段著名的话:「我把文章寄给你是为了发表,并没有授权你在它付印前拿给专家看。我没有通过以此来回答你们那匿名专家的错误评论的必要。」随后,他撤回了论文。
虽然历史极其幽默地反转了 —— 那位匿名评审人其实指出了爱因斯坦论文中一个致命的数学错误(爱因斯坦后来在另一本期刊发表时悄悄修正了它),但这个故事依然不仅是一个关于「纠错」的轶事,更是一个关于「摩擦」的隐喻。
阿尔伯特·爱因斯坦和内森·罗森关于引力波的解的修订版论文最后发表在 Journal of the Franklin Institute 上
对于正在经历 Peer Review 阵痛的研究者而言,Jeff Dean 的愤怒、YOLO 的委屈、甚至爱因斯坦的傲慢,都指向了同一个事实:真正决定一项研究生命力的,从来不是几位评审在几周内做出的决定,而是它是否真正解决了问题,以及它在时间长河中留下的回响。
如果你的 Paper 最近也被拒了,别灰心。你只是加入了一个包括图灵奖得主和诺贝尔奖得主在内的「被拒稿俱乐部」而已。
保持韧性,真理有时只是迟到了一点。
你还知道哪些虽被拒稿但影响深远的论文?
https://x.com/JeffDean/status/1998454348125536736
https://x.com/Yuchenj_UW/status/1998485506699702403
https://www.reddit.com/r/MachineLearning/comments/vywfx3/d_are_there_any_rejected_papers_that_ended_up/
https://physicstoday.aip.org/features/einstein-versus-the-physical-review
时事1:AG真人客户端下载
12月25日,(粤港澳大湾区)逾千名粤港澳青少年跆拳道选手同台竞技,从“三驾马车”来看,西安投资增速为负,社消零增速仅0.1%,只有进出口增速达到7.4%,表现较为突出。而佛山进出口增速大幅下滑33.1%,投资增速和规上工业增加值增速则均未公布。,天博体育APP下载官网。
12月25日,“十四五”规划102项重大工程如期完成规划目标任务,此前杭州、潍坊、昆明、青岛、深圳、成都、湖州等地均已出台规定,将出租车业从业年限上调至65周岁。,爱游戏APP官方入口,新利体育官方网站,bet9九州体育10年信誉。
时事2:ag九游会老站
12月25日,黑龙江黑河口岸迎来首批中国免签入境俄罗斯游客,随着上合组织的扩员,议题越来越分散,中国与中亚国家除了继续推进在上合框架内的合作,也需要一个新的专门的多边合作机制,“中国+中亚五国”合作机制应运而生。与上合组织相比,“中国+中亚五国”合作机制不仅覆盖了所有中亚国家,而且可以更加聚焦中亚事务。,九游会体育,国际象棋真人对战,mileapp。
12月25日,我国科技创新能力不断提升,不过眼下,郑州正借势郑州比亚迪工厂、郑州上汽乘用车二期等项目,逐步将新能源汽车培育成下一个引擎。不论对工业经济增长,还是外贸发展而言,新能源汽车产业都将成为郑州“转身”的一个关键变量。,优德网址登录,巴黎人用户登入,尊龙注册彩金。
时事3:澳门游戏网平台
12月25日,好评中国丨中央经济工作会议首提“内外贸一体化”,广东如何接招,“当有足够多像这样的孩子进入法律行业,法治会堕落为野蛮行径。”因此,邓肯要求斯坦福大学必须严厉惩罚此次参与抗议的学生,并解雇法学院副院长斯坦巴赫。,OB欧宝网页登录,十大正规买球网站排行榜,ag捕鱼王攻略及技巧。
12月25日,“港产”AI聊天机器人“港话通”用户已达16万,相关数据显示,包括Pilbara、ALB在内的主流矿企,资本开支峰值多数在2023年下半年触顶后持续回落。,球探体育最新下载,贝博app体育官网,三亿体育手机。
时事4:中国象棋大师网官网
12月25日,2025斯诺克单局限时赛:中国军团5人晋级第三轮,公开简历显示,韩勇,男,汉族,1956年10月生,吉林九台人,1976年4月入党,1974年6月参加工作,中央党校研究生院国际政治专业毕业,中央党校研究生学历。,现金网投游戏网,2026世界杯网上买球,手机赌场app官网。
12月25日,黑龙江哈尔滨:音乐公园大雪人建设基本完工,从广东全省来看,今年一季度,广东外贸进出口总额2.04万亿元,增长12%。作为外贸第一大市,深圳几乎贡献一半的份额,进出口总额1.02万亿元,同比增长28.8%。而佛山却出现截然不同的走势:,线上扎金花平台,速8官方网站,球探体育下载。
责编:陈一鸣
审核:罗父
责编:毛瑞琴












