3 分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS 2300+ 篇总结了个遍
消息来源:baojiabao.com 作者: 发布时间:2024-05-15
今年 NeurIPS 大会论文已经放榜,终于可以学习一下大佬们的研究了。
不过,打开电脑,随便点开一篇,就是一大段密密麻麻的文字糊脸…… 只是摘要就有这么长,还有 2300 多篇,这工作量实在劝退。
能不能让论文们都做一道经典的语文题:"用一句话概括全文内容"?还真可以。
最近 Reddit 上的一位博主发布了一篇今年的 NeurIPS 大会论文汇总,其中的每篇论文下方(红框中)都有一句由 AI 生成的高度凝练的总结。
而这款 AI 文本分析软件,其实就是东京工业大学团队开发的 Paper Digest。
它号称能帮你把论文阅读时间减少到 3 分钟。
除了总结论文内容以外,它还可以筛选出已经发布代码的论文。
同样,这次 NeurIPS 大会上的 200 多篇已发布代码的文章也被汇总了出来(可能会有疏漏)。
点击"code",就可以直接跳转到相应的 GitHub 页面。
AI 如何做好概括题
那这个 AI 文本分析神器应该怎么用呢?
很简单,先打开 Paper Digest 的官网。完成一些注册工作后,滑到一个搜索框的界面:
在这个搜索框里填上你要总结概括的论文的 DOI 号。
DOI 号就像论文的身份证号,是独一无二的。以随便打开的一篇论文为例,它长这样(红框中即为 DOI 号):
填完之后,点击"Digest"就开始总结了:
只需几秒钟,就会有一句话的总结输出,你也可以选择一个最合适反馈给 Paper Digest,帮他们丰富数据库。
除了输入 DOI 号,如果你有本地的论文 PDF 文件,也可以直接导入。
是不是很方便?其实这样方便好用的模型还不止一种。
比如,在一款免费学术搜索引擎 Semantic Scholar 里,也加入了一个类似的高度概括 AI:TLDR。
TLDR(Too Long,Don't Read),其实就是太长不看的意思……
在 Semantic Scholar 上搜索论文时,带有 TLDR(红框)标志的就是 AI 生成的一句话总结。
具体到方法原理上,我们不妨以 TLDR 为例一起来看看。
举个例子,下图中上边的格子中是摘要,简介,结论中相对重要的段落和句子。TLDR 会标记出突出的部分,然后组合成一个新的句子。
它的训练逻辑也很容易理解。简单来说,就是先确定一个标准答案,然后把标准答案打乱,再让 TLDR 尝试复原。
这和人类提炼概括的过程也很像。概括本身也需要忽视一些干扰,然后提取出最重要的部分。
所以在训练之前要准备两个数据库,也就是标准答案:一个是 SciTLDR,它包含接近 2000 篇计算机科学相关论文,每篇论文都有一个最好的总结。
另一个是论文-标题对数据库。由于标题中一般有很多重要的语句,对生成 TLDR 来说很有帮助。
将这两个数据库分别加上控制码"
最后的 BART 模型是一个基于 Transformer 的预训练 sequence-to-sequence 去噪自编码器,它的训练步骤主要有两步:
首先用任意噪声破坏函数文本,相当于把标准答案打乱。然后让模型学习重建原来的文本。这整个学习策略就是 CATTS。
来看看效果如何。
下图中 TLDR-Auth 是论文作者本人写的总结,TLDR-PR 是本科学生读完论文写的总结。
BART 和 CATTS 分别是原有模型和 CATTS 模型给出的总结。
从重合度看起来效果还是不错的。
相关推荐还需下功夫
不过,不论是 TLDR 还是 Paper Digest,都有不完善的地方。
TLDR 只针对计算机科学的论文进行了总结。
而对于 Paper Digest,网友表示它虽然概括做得很好,但是相关推荐实在是不行,今后仍需改进。
而且 Paper Digest 并不适用于所有论文。
目前,它只对来源于开放获取期刊的论文或者本地 PDF 文件导入的论文有效。
但是不论哪种文本分析 AI,都可以快速获取论文高度凝练的概括信息。
如果大家想快速了解今年 NeurIPS 大会的论文情况,可以从文末链接中找到这次的汇总。
参考链接:
[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/
[2]https://aclanthology.org/2020.findings-emnlp.428.pdf
[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/
[4]https://www.paper-digest.com/
2022-05-08 05:01:44相关文章
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
- 国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善
2023-12-28 19:14:56
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
- 印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
- 在国外微信收不到国内信息?微信和WeChat将被拆分
2023-12-15 10:40:15
- 苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月
2023-08-06 23:21:02
- 华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单
2023-08-06 23:17:37
- 整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
- 网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
- 电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?
2023-06-12 17:18:55
- 中国电信广东地区崩了无信号 客服回应已在核实处理
2023-06-08 15:39:04
- 消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元
2023-03-06 12:56:03
- 华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
- OPPO正式发布安第斯智能云,让终端更智能
2023-02-24 16:02:27
- 华为与OPPO签订全球专利交叉许可协议 包括5G蜂窝通信专利
2023-02-24 16:02:26
- 老蛙将推MINI镜头新品:目前未知具体规格 官宣将于12月20日发布
2023-02-24 16:02:26
- 首发全新35mm定制光学系统 努比亚Z50性能同样强悍
2023-02-24 16:02:25
- Redmi K60屏幕细节曝光:全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
- OPPO Find N2今天发 合金金属折叠屏更轻了
2023-02-24 16:02:24