APP下载

键盘记者小心!PTT大神团队打造台版AI记者,一天自动写出500篇热门乡民新闻

消息来源:baojiabao.com 作者: 发布时间:2024-05-16

报价宝综合消息键盘记者小心!PTT大神团队打造台版AI记者,一天自动写出500篇热门乡民新闻

键盘记者恐怕面临危机,PTT创办人杜奕瑾23日于个人脸书中发布一项消息,由他领军的台湾人工智能实验室创造的记者快抄预览版第一版上线了,杜奕瑾也表示希望大家给予意见,记者快抄是透过AI技术将PTT版上的热门文章,重新撰写为新闻,记者快抄在去年7月就已经悄悄上线,上线后仍不断地在修改,目前记者快抄每天可以从PTT热门文章中,自动产出大约500篇文章,还能透过文章内容找新闻配图,台湾人工智能实验室也将记者快抄的成果于GitHub上开源释出,包含网页生成、前端与UI、爬虫、AI算法与文章生成。

台湾人工智能实验室也在部落格中的一篇贴文介绍记者快抄,记者快抄原本只是个小专案,但是,后来发现许多人开始关注AI记者写出来的文章,台湾人工智能实验室也开始投入更多的心力来改善系统,直到现在,AI记者都还持续在精进中。

台湾人工智能实验室认为,对媒体产而言,如何吸引读者眼光是产出文章的重要考量因素之一,因此,记者需要快速且大量地产出有趣文章,来吸引读者,而AI记者则可以根据台湾讨论度最高的论坛PTT,来创造文章。

PTT是个独立运行且开源的线上论坛平台,目前有超过150万个用户,拥有15万用户的流量,总共有超过2万个版在谈论不同的话题,一天就能涌入约50万则回复。

记者快抄每30分钟从PTT上撷取重要的文章,将文章拆解成句子,透过自然语言处理技术和深度学习算法,撰写成新闻,此外,AI记者还会收集每一篇文章的所有的回复,包含“推”和“嘘”的回复,来了解大众对于该篇贴文的反应。

AI记者产生文章大约分成3步骤,第一是摘要文章,也就是要用几句话来描述文章的大意,首先,将文章的内容拆解为句子,透过自然语言处理中的word embedding,用向量表示每个单词,将文字转成数值化的资料来计算,并给予每个句子与其他句子相关连程度的分数。

接着,台湾人工智能实验室广泛地收集了新闻的模板,再从这些候选的句子清单中,透过算法挑选和编辑这些句子,在加入PTT文章中重要的句子,将这些句子组合成一篇新闻,产生新闻的模型收集了来自多个媒体超过10万篇新闻,当作训练资料。

最后,为了确保文章的可读性,AI记者生成新闻后还需要经过润饰,因为PTT的贴文通常有作者自己的风格和格式,每篇贴文的换行和空格都不太一样,造成机器不容易判读,为了解决这个问题,台湾人工智能实验室从新闻文字中,建立了一套文法矫正器模型,来教导记者快抄的系统学习如何写出正确的文章。

解决完文章的内容后,现在的新闻都必须搭配图片,台湾人工智能实验室也认为,光是只有文字是不够的,新闻文章应该要有图片,而PTT的贴文中,通常会有一些图片连结,这些图片连结看似个不错的资源,不过,许多图片连结跟贴文的内容却没有关联。

因此,台湾人工智能实验室为了能够让AI记者也像人类记者一样搜寻图片,他们训练了图片搜索引擎的RNN模型,这个模型会比对文章和图片描述的文字相似度,来撷取与文章内容较相近的图片,作为新闻图片,AI记者不但可以用原文的图片,还能自行搜寻相关的新闻图片。

未来,台湾人工智能实验室认为,PTT版上原本的分类和AI记者萃取出来的主题,这些标示(Tags)对于搜寻相关新闻,都会有非常大的帮助,且导入人脸和语音辨识后,AI记者可以从网络上的影片中,搜寻名人对特定议题的评论,台湾人工智能实验室认为,这项资讯也能够帮助记者。

台湾人工智能实验室也强调,AI记者对记者不会是威胁,而是辅助,AI记者自动挑选主题和产生文章,可以协助记者将更多心力放在撰写内文和更深入的报导,进而产出更高品质的新闻。

2018-01-24 18:19:00

相关文章