猫眼电影
猫眼电影记者 艾青 报道首次登录送91元红包
机器之心报道
机器之心编辑部
近日,Waymo 发布了一篇深度博客,详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。
谷歌首席科学家 Jeff Dean 也在 X 上分享了这篇博客,并重点介绍了 Waymo 用到的蒸馏方法,他写到:「就像我们使用蒸馏从更大规模的专业模型中创建高质量、计算效率极高的 Gemini Flash 模型一样,Waymo 也类似地使用了蒸馏,来基于更大的模型创建可机载运行的高计算效率模型。」
而在这条帖子下方,Jeff Dean 又再一次回忆了最初那篇蒸馏论文的悲惨遭遇:被 NeurIPS 2014 拒收了。而他收到的拒收理由是它「不太可能产生重大影响」。
当时,评审认为这篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的论文只是对早期模型压缩(Model Compression)工作的增量改进。而事后来看,NeurIPS 2014 评审的这个决定可谓是错得非常离谱。如今,「知识蒸馏(Knowledge Distillation)」已然成为模型压缩和大模型落地的标配方法。其论文引用量也已经超过了 2.8 万!
这件事也成了 Jeff Dean 的意难平,让他每有机会就会拿出来晒一晒。
其实 Jeff Dean 的遭遇并非个例。
回顾 AI 的发展历程,同行评审制度虽然扮演着质量守门人的关键角色,但它并非全能。
事实上,当我们回溯历史,会发现一个令人深思的现象:许多当下支撑起万亿级 AI 产业的基石技术(从训练大模型的优化器,到计算机视觉的特征提取,再到自然语言处理的底层逻辑)在最初问世时,都曾被顶级会议拒之门外。
Geoffrey Hinton、Yann LeCun、Schmidhuber…… 这些如雷贯耳的名字,都曾站在拒稿信的对面。那些理由在今天看来甚至或许有些荒谬:「缺乏理论依据」、「只是工程技巧」、「太简单了不可能有效」。
今天,我们盘点一下那些曾经沦为「弃子」、后来却引发范式转移(Paradigm Shift)的殿堂级论文。这不仅是对历史的回顾,更是为了探寻一个问题的答案:当一项研究过于超前或离经叛道时,我们该如何识别它的价值?
LSTM:跨越 20 年的回响
论文:Long Short-Term Memory作者:Sepp Hochreiter, Jürgen Schmidhuber拒稿经历:NIPS 1996 Rejected如今引用量:139707
作为处理序列数据的里程碑,LSTM 在 1996 年被 NIPS 拒之门外。
当时正值神经网络的寒冬(AI Winter),支持向量机(SVM)等统计方法大行其道。LSTM 引入的门控机制被认为参数过多、过于复杂且缺乏生物学合理性。
直到 2010 年代,随着算力和大数据的爆发,LSTM 才在语音识别和机器翻译中展现出统治级表现。这不仅是技术的胜利,更是对坚持者的奖赏。
SIFT:前深度学习时代的王者
论文:Object Recognition from Local Scale-Invariant Features作者:David G. Lowe拒稿经历:ICCV 1997, CVPR 1998 Rejected如今引用量:27389
David Lowe 提出的 SIFT(尺度不变特征变换)算法,曾统治 CV 领域长达 15 年。但在 1997 年和 1998 年,它先后被 ICCV 和 CVPR 拒稿。
拒稿理由很有时代特色。当时的学术界偏好基于几何理论和严密数学推导的方法。SIFT 包含了一系列复杂的工程步骤(高斯差分金字塔、关键点定位等),被评审认为「过于繁琐」、「不够优雅」。
SIFT 最终以 Poster 形式发表。它证明了在处理现实世界图像的旋转、缩放和遮挡问题时,鲁棒的工程设计往往比完美的数学理论更有生命力。
Dropout:被误解的「有性繁殖」
论文:Dropout: A Simple Way to Prevent Neural Networks from Overfitting作者:Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov拒稿经历:NIPS 2012 Rejected如今引用量:60231
如果说有一项技术定义了深度神经网络的正则化方法,那非 Dropout 莫属。然而,这项后来获得 NeurIPS 时间检验奖(Test of Time Award) 的技术,在 2012 年投稿 NIPS 时却遭遇了滑铁卢。
在这篇论文中,Geoffrey Hinton 团队提出的核心思想是在训练中随机「删掉」一半神经元,而这在当时的评审看来过于激进且缺乏数理逻辑。Hinton 使用了生物学中「有性繁殖」的隐喻来解释其有效性(基因不能依赖于特定的伙伴存在),这被一些严谨的评审人认为「不够科学」,更像是一个工程 Hack。
尽管被拒,Dropout 迅速成为了 AlexNet 夺冠 ImageNet 的秘密武器。它证明了在过参数化的深度网络中,通过引入随机性来打破特征间的共适应(Co-adaptation),比复杂的贝叶斯正则化更为有效。
Word2Vec:被质疑的「工程奇迹」
论文:Efficient Estimation of Word Representations in Vector Space作者:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean拒稿经历:ICLR 2013 Strong Reject如今引用量:50855
是的,这里又出现了 Jeff Dean 的名字。
Word2Vec 让 King - Man + Woman = Queen 成为了 AI 领域最著名的算式,但在首届 ICLR 会议上,它收到了「Strong Reject」。
其收到的评审意见极其尖锐,认为作者 Tomas Mikolov 等人「比较不科学」、「定义模糊」,且过度关注工程优化(如分层 Softmax、负采样),缺乏对「为何简单的线性映射能捕捉复杂语义」的理论解释。
而作者直接开源了代码。凭借极高的训练效率,Word2Vec 迅速横扫 NLP 社区,成为深度学习时代文本表示的基石。2023 年,NeurIPS 授予这篇曾被拒稿的论文「时间检验奖」,完成了历史性的「平反」。
知识蒸馏:被低估的「暗知识」
论文:Distilling the Knowledge in a Neural Network作者:Geoffrey Hinton, Oriol Vinyals, Jeff Dean拒稿经历:NIPS 2014 Rejected如今引用量:28600
这正是前文提到的论文。
在当时,评审未能洞察到 Hinton 提出的 「暗知识」(Dark Knowledge) 这一概念的深远意义:神经网络学到的知识不仅存在于正确的预测中,更隐含在对错误类别的概率分布里(比如宝马像垃圾车的概率远高于像胡萝卜的概率)。
https://www.ttic.edu/dl/dark14.pdf
这篇论文最终仅在 Workshop 发表。它开启了模型压缩作为独立研究领域的序幕,更成为了如今大模型向小模型迁移能力的理论源头。
YOLO:速度与精度的偏见
论文:You Only Look Once: Unified, Real-Time Object Detection作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi拒稿经历:ICCV 2015 Rejected如今引用量:69782
YOLO(You Only Look Once)彻底改变了物体检测的游戏规则,将检测问题从分类问题转化为回归问题。
其被拒理由也很简单。在 R-CNN 系列(双阶段检测器)统治的时代,评审们习惯了用 mAP(平均精度均值)的微小提升来衡量价值。YOLO 虽然实现了惊人的 45 FPS 实时检测,但其定位精度确实不如 R-CNN。评审因其「定位不准」而拒绝了它,却忽视了数量级的速度提升所开启的全新应用场景(如自动驾驶、实时监控)。
YOLO 系列如今已迭代至 v13,成为工业界最受欢迎的检测框架。它提醒我们:在工程应用中,速度本身就是一种精度。
RoBERTa:被嘲讽为「炒冷饭」的调参艺术
RoBERTa: A Robustly Optimized BERT Pretraining Approach作者:Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov拒稿经历:ICLR 2020 Rejected如今引用量:23479
如果说前面的论文是因为「太超前」被拒,那么 RoBERTa 的被拒则是因为「看起来太平庸」。
2019 年,BERT 横空出世,风头无两。Facebook AI(现 Meta AI)的研究人员并没有急于提出一种全新的架构,而是耐心地对 BERT 的预训练过程进行了极其详尽的复现和优化。他们发现,BERT 实际上被「训练不足」了。通过调整超参数、增加数据量、去除 Next Sentence Prediction (NSP) 任务,RoBERTa 在所有基准测试上都超越了原始 BERT。
然而,这篇扎实的工作在投稿 ICLR 2020 时,却遭到了评审的冷遇。评审意见非常直白且刺耳:「这篇论文的新颖性和技术贡献相当有限」。在评审看来,只是发现「仔细调参很有用」和「更多数据很有用」,并不足以登上顶会的舞台。
最终,RoBERTa 只能再次以被拒稿的身份流传于世。但历史证明了它的价值:RoBERTa 不仅成为了后续 NLP 研究的标准基线,更向业界揭示了一个朴素的真理 —— 在深度学习时代,清洗数据和优化训练细节,往往比设计花哨的新架构更具实战价值。
Mamba:挑战 Transformer 霸权的「落选者」
论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces作者:Albert Gu, Tri Dao拒稿经历:ICLR 2024 Rejected如今引用量:6799
这可能是最近发生的最具戏剧性的「拒稿」事件。
在 Transformer 一统天下的今天,Mamba 的出现原本被视为一种颠覆。作者 Albert Gu 和 Tri Dao 提出了一种基于选择性状态空间模型(SSM)的架构,它在实现线性时间复杂度的同时,居然在语言建模任务上达到了媲美 Transformer 的性能。这意味着,我们终于有望打破 Attention 机制带来的计算瓶颈,让大模型在长序列推理上实现飞跃。
然而,这篇在 arXiv 上一经发布就引爆社区、被无数开发者复现和膜拜的神作,却在 ICLR 2024 的评审中折戟沉沙。评审给出的分数并不高,理由集中在「与其前作 S4 相比增量不足」、「在某些特定任务上未能全面超越 Transformer」以及对实验细节的质疑。参阅报道《8/8/6/3 的 Mamba 论文,最终还是被 ICLR 2024 拒了,网友:悬着的心终于死了》
结果十分讽刺:当 ICLR 2024 公布接收结果时,AI 社区讨论最热烈的话题之一却是「Mamba 竟然被拒了?」。就在被拒稿的短短几个月后,基于 Mamba 的变体(如 Jamba、Vision Mamba)如雨后春笋般涌现,它实际上已经成为了 2024 年最具影响力的架构创新之一。Mamba 的遭遇再次提醒我们:当一种反共识的新范式出现时,旧范式的评价标准往往会失效。
科研评价体系的局限与反思
综合上述案例,我们可以看到顶会评审系统在面对颠覆性创新时,往往存在某种系统性的认知滞后:
简单性陷阱:评审倾向于将「数学复杂性」等同于「研究贡献」。当 Dropout 或 Word2Vec 这样简单有效的方法出现时,评审的第一反应往往是质疑其理论深度。范式惯性:评审往往是旧范式的维护者。当 YOLO 提出放弃 Region Proposal,或 Deep Image Prior 提出无需学习的先验时,旧范式的标准(如精度、数据依赖)成为了阻碍新思想的壁垒。严谨性的暴政:在深度学习这个实验科学属性极强的领域,过度要求理论证明(如 Adam 优化器初期面临的收敛性质疑)可能会扼杀具有巨大实用价值的工程突破。
这些「被拒稿的杰作」向我们揭示了科学发展的非线性。它们证明了,同行评审虽然是科学共同体的基石,但它很难摆脱人类认知的局限性 —— 它善于识别错误,却往往拙于鉴别天才。
事实上,这种遭遇并非 AI 领域的特产,甚至连物理学神坛上的名字也无法幸免。
1936 年,阿尔伯特・爱因斯坦(Albert Einstein)将一篇关于引力波的论文投给了权威期刊《Physical Review》。在此之前,爱因斯坦习惯了编辑直接录用他的文章,但这一次,主编 John Tate 决定将其送审。
随后,爱因斯坦收到了一份写满修改意见的匿名评审报告。这位骄傲的物理学家被彻底激怒了,他在给主编的回信中写下了一段著名的话:「我把文章寄给你是为了发表,并没有授权你在它付印前拿给专家看。我没有通过以此来回答你们那匿名专家的错误评论的必要。」随后,他撤回了论文。
虽然历史极其幽默地反转了 —— 那位匿名评审人其实指出了爱因斯坦论文中一个致命的数学错误(爱因斯坦后来在另一本期刊发表时悄悄修正了它),但这个故事依然不仅是一个关于「纠错」的轶事,更是一个关于「摩擦」的隐喻。
阿尔伯特·爱因斯坦和内森·罗森关于引力波的解的修订版论文最后发表在 Journal of the Franklin Institute 上
对于正在经历 Peer Review 阵痛的研究者而言,Jeff Dean 的愤怒、YOLO 的委屈、甚至爱因斯坦的傲慢,都指向了同一个事实:真正决定一项研究生命力的,从来不是几位评审在几周内做出的决定,而是它是否真正解决了问题,以及它在时间长河中留下的回响。
如果你的 Paper 最近也被拒了,别灰心。你只是加入了一个包括图灵奖得主和诺贝尔奖得主在内的「被拒稿俱乐部」而已。
保持韧性,真理有时只是迟到了一点。
你还知道哪些虽被拒稿但影响深远的论文?
https://x.com/JeffDean/status/1998454348125536736
https://x.com/Yuchenj_UW/status/1998485506699702403
https://www.reddit.com/r/MachineLearning/comments/vywfx3/d_are_there_any_rejected_papers_that_ended_up/
https://physicstoday.aip.org/features/einstein-versus-the-physical-review
时事1:c966bet彩集团
12月20日,以军称在黎巴嫩多地打击真主党军事目标,当地时间8月29日,巴黎残奥会首个比赛日。在伊夫林省圣康坦自行车馆,中国队选手李樟煜上演了一场“速度与激情”。男子C1级3000米个人追逐赛资格赛,他以3:31.338的成绩刷新该项目世界纪录。决赛中,李樟煜状态火热,夺得金牌,这也是中国体育代表团在本届残奥会上获得的首枚金牌。另一位中国队选手梁伟聪摘得银牌,恭喜中国队包揽该项目金银牌!,ope体育官方客户端下载。
12月20日,飞机“锁座”引争议 有偿选座被质疑 江苏省消保委已对10家航司展开调查,公器私用,将地质调查、矿产开发等权力作为敛财纳贿的工具,搞权钱交易,利用职务便利为他人在企业经营、项目承揽、矿权审批等方面谋利,并非法收受巨额财物;,leyu乐鱼电竞娱乐,天亚娱乐平台有哪些,AOA下载地址。
时事2:宝博游戏官网网址
12月20日,香港特首李家超:对大埔火灾“追责到底”,今年36岁的李樟煜,已经在残疾人自行车项目征战多年。2012年伦敦残奥会,他第一次实现了残奥冠军梦。接下来,从里约到东京,再到巴黎,他带着梦想破风前行,每届残奥会都有金牌入账。据介绍,李樟煜获得的各类国际赛事奖牌已有50多枚。,亚美am8ag,钱柜777登录gp,九线拉王网址。
12月20日,中央经济工作会议:把常态化帮扶纳入乡村振兴战略统筹实施,纪宁说,目前中国青少年网球尤其是女子青少年网球,已经成为体育职业化和商业化领域一个风口。郑钦文夺冠能促进更多中国青少年加入网球运动。与此同时,中国网球训练场地和比赛场地硬件条件以及软件设施也在发生巨大变化,网球经济蕴含的巨大空间也随之逐步释放出来。,英亚手机网页登录平台,爱游戏app官网登录,银河99官网下载。
时事3:皇冠体育足球登录网
12月20日,中国外交部亚洲事务特使将再次赴柬埔寨、泰国穿梭调停,乌鲁木齐不缺国际和地区航线。2024年,乌鲁木齐机场累计运营定期客货运输航线共240条。其中,国际定期客运航线26条,与高加索地区三国与中亚五国实现全部通航,通航中亚航点数量为国内十大枢纽机场之首。,大富豪下载最新版,爱赢体育官网app,万博的网站是多少。
12月20日,香港大埔火灾已致151死 调查指有人混用未达阻燃标准保护网,世界经济论坛官网17日刊文称,中国已成为全球最大的电动汽车市场,中国车企生产的电动汽车占全球电动汽车总产量的一半以上。而在这一市场上,墨菲和其他分析师认为,美国车企当下很难抵挡中国自主品牌的实力。墨菲说,消费者现在对中国自主品牌的“忠诚度”很强,尤其是在美国对中国电动汽车征收超过100%的关税后,这种“忠诚度”可能会变得更加强烈。,百人斗牛下载,纸牌二八杠做牌手法,ag投注充值。
时事4:ky体育官方平台中国
12月20日,李强出席中央经济工作会议并讲话,张先生认为,网球明星的出现与整个网球运动以及网球经济的发展是相互促进的,并形成正向反馈。他说,明星越多,示范效应就越强,就会更加刺激网球运动的发展,网球经济热度也会越高。而打网球的人多了,就会涌现出更多的网球明星。,亚星竞彩官网,梦幻国际真人网上棋牌,网上葡京平台。
12月20日,国家应急通信演练在武汉举行 聚焦雨雪冰冻灾害“三断”极端场景,值得一提的是,三座机场都在本轮扩建中新修了跑道,兰州、乌鲁木齐因此成为国内为数不多的三跑道机场,西安更是拥有了四条跑道。,哪个平台可以玩德州,奥博体育官网首页网址,尊龙app在线登录。
责编:席倩
审核:姜力
责编:林汉志












