手机验证码平台:填写验证码,其实是在帮Google打工训练AI

2018-12-20 18:12

导读: 你其实不是在填验证码,根本就是在帮别人标注资料,训练 AI 啊?你知道吗? 不管是为图片分类: 感觉都是在教无人驾驶的 AI 认路啊 其实,「输验证码就是在为 AI 打工」并不是你想得太多。事实上,我们在输验证码时帮人打工的历史,从古早的文字验证码时期就

你其实不是在填验证码,根本就是在帮别人标注资料,训练 AI 啊?你知道吗?

不管是为图片分类:

感觉都是在教无人驾驶的 AI 认路啊……

 

其实,「输验证码就是在为 AI 打工」并不是你想得太多。事实上,我们在输验证码时帮人打工的历史,从古早的文字验证码时期就开始了。

 

每次输入验证码,你都在帮人打工

 

今天应用最广的验证码系统就是 reCAPTCHA (Completely Automated Public Turing Test To Tell Computers and Humans Apart,区分人机的全自动图灵测试系统)了。

 

这家如今已被 Google 收购的公司,承担了世界上大部分网路的人机验证工作(上文的三个例子均来自 reCAPTCHA)。

 

2007 年,reCAPTCHA 的创始人之一,卡内基美隆大学教授路易斯‧冯‧安(Luis von Ahn)想到:「如果人类与机器各有擅长,能不能利用验证码系统,让人类和机器共同解决问题呢?」

 

当时,一个亟待解决的问题就是,如何把浩如烟海的人类纸质典籍数位化。

 

想要数位化内容,有两种方法:

 

第一种方法是手工录入。这种方法费时费力,还容易出现录入错误。

 

另一种方法是先扫瞄文件,再结合光学文字辨识技术录入文字。听起来很美,但有些年代久远或本身品质就差的文件扫瞄出来后实在是太糊了……

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

以至于电脑辨识出来的内容漏洞百出,根本没法看。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

为了解决文件数位化的问题,2007 年,路易斯推出了新的验证码系统 reCAPTCHA。

 

在 reCAPTCHA 验证码系统里,一个验证码会由两部分构成。

 

第一部分和传统验证码一样,是自动产生并且经过变形处理的文字,用来检验你是不是真人。而第二部分,则是从无法辨识的文件中截取出来的词。

 

如果使用者正确输入前半部分,那么 reCAPTCHA 就会假设使用者输入的后半部分也是正确的,然后把录入结果交回给 reCAPTCHA 的主机。

 

结果交回主机后,主机还会把这个结果再派发给多个使用者进行交叉验证,以确保没有不小心或故意输错单词的情况。

 

也就是说,真正有效的人机测试在验证码的前半段已经完成,而后半段,就是你在为人类文明做贡献了。

 

那么,reCAPTCHA 到底做了多大贡献呢?

 

2007 年推出之初,reCAPTCHA 每天都能帮助录入 3000 万个字符。 2008年,这个数字飙升到了 6000 万个。粗略统计,在今天,全世界每天都有 2 亿个字符透过 reCAPTCHA 录入,相当于人类 15 万小时的工作量。

 

也就是说,一个人要不吃不喝不睡两年半,才能完成 reCAPTCHA 一天的工作量。

 

到今天为止, reCAPTCHA 已经录入了从 1851 年至今的所有《纽约时报》,共计 1300 万篇文章。除《纽约时报》外,reCAPTCHA 还数位化了超过 2500 万本书,而全球的图书数量约为 1.3 亿本。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

路易斯在接受媒体 The Hustle 采访时这样评价 reCAPTCHA :「我创造了一个系统,以十秒为单位,数百万小时为增量,来利用世界上最宝贵的资源:人的大脑。」

 

验证码是在剥削我们吗?

 

如果 reCAPTCHA 的故事到这里就结束了,每个人都会很开心。但事情没那么简单。

 

2009 年,Google 以大约 2780 万美元的价格收购了 reCAPTCHA,并开始利用 reCAPTCHA 帮助标注资料。

 

正如前文所说,reCAPTCHA 的前半段是在验证你是不是真人,后半段就是真人为验证码打工了。

 

2012 年,Google 开始把 Google 街景中难以辨识的门牌和路牌加入验证码,请使用者帮忙标注。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

除了标注门牌路牌,让使用者帮忙为资料库分类也是常见的形式之一。比如下图这种请使用者「挑出所有路牌的图片」的验证码。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

如今,Google AI 已经能精确辨认路牌上的文字和数字,准确度和人眼不相上下。

 

当有一天我们终于使用了 Google 的自动驾驶技术,依靠 AI 来辨识路牌和路灯时,这背后不能不说没有上千万使用者无偿标注的苦劳,其中当然也包括你的贡献。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

对于这一目的,Google 也并不避讳。在 reCAPTCHA 官网上,Google 公开说明了 reCAPTCHA 集众人之力标注资料、训练 AI 的「群众统包」模式。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

但是仍有使用者对这一点感到不满。

 

一位觉得验证码不道德的 Reddit 使用者写到:「这就好像让几百万个人每人为你做 5 秒钟的工作,然后一分钱都不给一样,这合理吗?」

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

验证码的前世今生

 

验证码诞生之初,是为了解决一个特别实在的问题。

 

网路世界这么大,你怎么知道另一端是不是一条狗(或者机器人)?

 

在餐厅、游戏的评论上,机器人可以用大量垃圾评论和广告淹没真人使用者留下的有价值的讯息;在金融交易平台,脚本程式可以靠不停试验来暴力破解密码;在票务网站,我敢说你就算有十只手也抢不过机器人黄牛……

 

如何确定网路请求是真人发送的,成了维护网路环境和保护使用者安全的大问题。

 

2002 年,正是路易斯‧冯‧安提出了一种切实可行的解决方案,能分清「是人是狗」。

 

虽然电脑的算数和分析能力比人类强得多,但是当时的电脑连「一只小猫在奔跑」这种难不倒三岁小孩儿的图都认不出来。基于这种原因,路易斯和其他同事合作开发了 reCAPTCHA 的祖宗 CAPTCHA,也就是我们俗称的验证码。

 

初代验证码一般是一些经过扭曲变形的文字或数字。人类可以辨识这些文字(尽管偶尔也会出现连人类也认不出的情况),但机器难以理解字符的含义。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

之后,验证码也经历了算数题、选择题,甚至植入广告等类型的迭代,但都掩盖不住一个最致命的问题:虽然 CAPTCHA 已经是相对比较好的解决方案,但也并非铁板一块。

 

透过猜测、人工智慧辨识图像、甚至是把验证码图片返回给人工再批次输入等方法,骇客们总能找到可乘之机。

 

更别提有些验证码,连真人都搞不定!

 

 

正因为验证码浪费时间,辨识难度大,而且对于执行某些特定行为(比如爬资料或做学术研究)的人类使用者而言极不友好,验证码长期在「网路时代最烦人发明」榜上名列前茅。

 

于是, reCAPTCHA 推出了更科学的验证系统。这种验证系统会检测使用者的客户端环境,追踪使用者的滑鼠和键盘操作轨迹,提高了机器人的模拟成本。使用者再也不需要苦哈哈地辨识歪歪扭扭的文字,只需要在对话框里点击「我不是机器人」,就能通过验证。

 

你以为自己在填验证码,你有想过其实在帮Google打工训练AI吗?

既然已经有了更简单、更安全的替代方式,那么伴随我们成长的验证码,是不是也该被淘汰了呢?这种能解决大问题的「众包模式」,又是否合理呢?

相关文章

最新资讯

  • Twitter绂佹鐢ㄦ埛鍒嗕韩鏈彇寰椾粬浜哄悓鎰忕殑鐓х墖鍙婂奖鐗
    2021-12-01 12:48
  • 鎹紶涓浗楠囧鎵撶畻鏀堕泦宸插姞瀵嗙殑楂樹环鍊艰祫鏂欙紝寰呴噺瀛愮數鑴戝彇寰楅噸澶х獊鐮村悗绔嬪嵆瑙e瘑
    2021-12-01 12:48
  • 鍙颁紒閾舵彮闇茬綉閾剁郴缁熺炕鏂拌繃绋嬶紝2闃舵杞瀷绯荤粺鏋舵瀯锛屽厛瀹瑰櫒鍖栧啀瀵煎叆寰湇鍔℃妧鏈
    2021-12-01 11:47
  • Scythe 澶ч暟鍒鎺ㄥ嚭 Thermal Elixer G 瀵肩儹纭呰剛鈥
    2021-12-01 10:51
  • AWS鏂版湇鍔¤浼佷笟鑷缓5G涓撶綉
    2021-12-01 10:48

手机

  • 涓鍔9RT濂戒笉濂斤紵涓嶆劎涓衡滀笉灏嗗氨鈥濈殑鏃楄埌鎵嬫満
    2021-11-25 17:44
  • 涓鍔9RT濂戒笉濂斤紵灞忓箷鍐嶅崌绾т綋楠屽浣曪紵
    2021-11-24 16:45
  • 涓鍔9RT濂戒笉濂斤紵涓鍔 9RT閫傞厤120Hz楂樺抚妯″紡
    2021-11-18 16:43
  • 涓鍔9RT姝e紡鍙戝竷 鍏ㄩ潰鍔犳枡鎬ц兘婊¤
    2021-11-16 18:43
  • 涓鍔9RT鍊煎緱涔板悧 鎬ц兘寰堟鍒峰嚭娴佺晠鏂伴珮搴
    2021-10-22 15:45

数码

  • iphone13娓増鍙互鍦ㄥぇ闄嗕繚淇悧 娓増iphone13鍦ㄥぇ闄嗚兘淇濅慨鍚
    2021-12-01 12:46
  • 鎽╂墭缃楁媺edgex30鎬庝箞鏍峰煎緱鍏ユ墜鍚 edgex30鍙傛暟浼樼己鐐
    2021-12-01 12:46
  • ios15淇′换鎺堟潈鍦ㄥ摢璁剧疆 ios15杞欢鎺堟潈淇′换姝ラ
    2021-12-01 11:45
  • 绱㈠凹Xperia 5 III鍥借鐗堝敭浠6599鍏冿細濯茬編涓撲笟寰崟鐩告満
    2021-12-01 11:45
  • realme GT2 Pro灏嗘垚鍏ㄧ悆绗簩涓彂甯冮獊榫8鏃楄埌鐨勬墜鏈
    2021-12-01 10:46

科技

  • 鑻辩壒灏斿甯冧慨澶嶅彶璇楃骇婕忔礊锛氱啍鏂拰骞界伒鏈夋湜琚叏闈㈤殧鏂
    2018-03-23 09:34
  • 涓叴閫氳鎴愮珛缁堢瀛愬叕鍙哥洰鏍囦笁骞村唴閲嶈繑鍥藉唴鎵嬫満涓绘祦鑸炲彴
    2018-03-23 09:34
  • KTM锛氱數鍔ㄨ秺閲庤溅锛熸垜涔熺暐鎳傜暐鎳 18骞碖TMFreerideE-XC鏀规鎯呮姤
    2018-03-23 09:34
  • 鐪嬪ソSiC鏅跺渾闇姹傚闀 鐩稿叧鍘傚晢鏋佸姏绋充綇SiC鍩烘澘渚涘簲婧
    2018-03-23 09:34
  • 鏈潵5骞达紝澶ф暟鎹骇涓氬皢杩庢潵鍝簺鍙橀潻
    2021-12-01 10:45