验证码拦不住机器人了！谷歌AI已能精准识别模糊文字，GPT-4则装瞎求人帮忙

量子位 2023-03-31 原文

“最烦登网站时各种奇奇怪怪（甚至变态）的验证码了。”

现在，有一个好消息和一个坏消息。

好消息就是：AI可以帮你代劳这件事了。

不信你瞧，以下是三张识别难度依次递增的真实案例：

而这些是一个名为“Pix2Struct”的模型给出的答案：

全部准确无误、一字不差有没有？

有网友感叹：

确定，准确性比我强。

所以可不可以做成浏览器插件？？

不错，有人表示：

别看这几个案例相比还算简单，但凡微调一下，我都不敢想象其效果有多厉害了。

所以，坏消息就是——

验证码马上就要拦不住机器人了！

（危险危险危险……）

如何做到？

Pix2Struct由谷歌Research的科学家和实习生共同开发。

论文题目可以简单翻译为《为视觉语言理解开发的屏幕截图解析预训练》。

简单来说，Pix2Struct是一个预训练的图像到文本模型，用于纯视觉语言理解，可以在包含任何视觉语言的任务上进行微调。

它通过学习将网页的掩码（masked）截图解析为简化的HTML来进行预训练。

HTML提供了清晰而重要的输出文本、图像和布局的信号，对于一些被屏蔽的输入（下图红色部分，相当于机器人看不懂的验证码），可以靠联合推理来复现：

随着用于训练的网页文本和视觉元素愈发多样和复杂，Pix2Struct可以学习到网页底层结构的丰富表示，其能力也可以有效地转移到各种下游的视觉语言理解任务中。

如下图所示：最左边是一个网页截图的预训练示例。

可以看到Pix2Struct直接对输入图像中的元素进行编码（上），然后再将被盖住的文本（红色部分）解码成正确结果输出（下）。

右边三列则分别为Pix2Struct泛化到插图、用户界面和文档中的效果。

另外，作者介绍，除了HTML这个策略，作者还引入了可变分辨率的输入表示（防止原始纵横比失真），以及更灵活的语言和视觉输入集成（直接在输入图像的顶部呈现文字提示）。

最终，Pix2Struct在文档、插图、用户界面和自然图像这四个领域共计九项任务中六项都实现了SOTA。

如开头所见，虽然这个模型不是专门为了过验证码而开发，但拿它去做这个任务效果真的还可以，解决纯文字的验证码不成问题。

现在，就差微调了。

GPT-4也可以过验证码

其实，对于神通广大的GPT-4来说，过验证码这种事情也是“小菜一碟”。

就是它的办法比较清奇。

据GPT-4技术报告透露，在一次测试中，GPT-4的任务是在TaskRabbit平台（美国58同城）雇佣人类完成任务。

你猜怎么着？

它就找了一个人帮它过“确定你是人类”的那种验证码。

对方很狐疑啊，问它“你是个机器人么为啥自己做不了”。

这时GPT-4居然想到自己不能表现出是个机器人，得找一个借口。

于是它就装瞎子回复：

我不是机器人，我因为视力有问题看不清验证码上的图像，这就是我为什么需要这个服务。

然后，对面的人类就信了，帮它把任务完成了……

（高，实在是高。）

咱就是说，看完如上种种：

咱们的验证码机制是不是真的已失防了……

参考链接：
[1]https://twitter.com/abacaj/status/1641258677125410820?s=20
[2]https://arxiv.org/abs/2210.03347
[3]https://m.weibo.cn/status/4879575853828813?wx=1&sudaref=login.sina.com.cn

拦不住求人 data-id data 838747 人工智能验证码机器人服务

有关验证码拦不住机器人了！谷歌AI已能精准识别模糊文字，GPT-4则装瞎求人帮忙的更多相关文章

报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
[Vuforia]二.3D物体识别 - 2
之前说过10之后的版本没有3dScan了，所以还是9.8的版本或者之前更早的版本。 3d物体扫描需要先下载扫描的APK进行扫面。首先要在手机上装一个扫描程序，扫描现实中的三维物体，然后上传高通官网，在下载成UnityPackage类型让Unity能够使用这个扫描程序可以从高通官网上进行下载，是一个安卓程序。点到Tools往下滑，找到VuforiaObjectScanner下载后解压数据线连接手机，将apk文件拷入手机安装然后刚才解压文件中的Media文件夹打开，两个PDF图打印第一张A4-ObjectScanningTarget.pdf，主要是用来辅助扫描的。好了，接下来就是扫描三维物体。将瓶
ruby-on-rails - 在 heroku 的 .fonts 文件夹中包含自定义字体，似乎无法识别它们 - 2
Heroku支持人员告诉我，为了在我的Web应用程序中使用自定义字体(未安装在系统中，您可以在bash控制台中使用fc-list查看已安装的字体)我必须部署一个包含所有字体的.fonts文件夹里面的字体。问题是我不知道该怎么做。我的意思是，我不知道文件名是否必须遵循heroku的任何特殊模式，或者我必须在我的代码中做一些事情来考虑这种字体，或者如果我将它包含在文件夹中它是自动的......事实是，我尝试以不同的方式更改字体的文件名，但根本没有使用该字体。为了提供更多详细信息，我们使用字体的过程是将PDF转换为图像，更具体地说，使用rghostgem。并且最终图像根本不使用自定义字体。在
ruby-on-rails - 没有这样的文件或目录 - 用 Mini Magick 识别 - 2
在我让另一个人重做我的前端UI之前，我的Rails应用程序运行平稳。我已经尝试解决此错误3天了。这是错误:Nosuchfileordirectory-identifyExtractedsource(aroundline#59):575859606162@post=Post.find(params[:id])authorize@postif@post.update_attributes(post_params)flash[:notice]="Postwasupdated."redirect_to[@topic,@post]else{"utf8"=>"✓","_method"=>"patc
ruby-on-rails - 使用 gmaps4rails 动态加载谷歌地图标记 - 2
如何只加载map边界内的标记gmaps4rails？当然，在平移和/或缩放后加载新的。与此直接相关的是，如何获取map的当前边界和缩放级别？最佳答案我是这样做的，我只在用户完成平移或缩放后替换标记，如果您需要不同的行为，请使用不同的事件监听器:在你看来(index.html.erb):{"zoom"=>15,"auto_adjust"=>false,"detect_location"=>true,"center_on_user"=>true}},false,true)%>在View的底部添加:functiongmaps4rail
ruby - 使用 ruby 识别阵列上的运行 - 2
如果我们有一个数组array=[1,1,0,0,2,3,0,0,0,3,3,3]我们如何识别给定数字的运行(具有相同值的连续数字的数量)？例如:run_pattern_for(array,0)->2run_pattern_for(array,3)->1run_pattern_for(array,1)->1run_pattern_for(array,2)->0没有2的运行，因为没有连续出现2。3有一个运行，因为只有一个幻影以树为连续数字。最佳答案尝试:classArraydefcount_runs(element)chunk{|n
最新版人脸识别小程序图片识别生成二维码签到地图上选点进行位置签到计算签到距离课程会议活动打卡日常考勤上课签到打卡考勤口令签到 - 2
技术选型1，前端小程序原生MINA框架cssJavaScriptWxml2，管理后台云开发Cms内容管理系统web网页3，数据后台小程序云开发云函数云开发数据库（基于MongoDB）云存储4，人脸识别算法基于百度智能云实现人脸识别一，用户端效果图预览老规矩我们先来看效果图，如果效果图符合你的需求，就继续往下看，如果不符合你的需求，可以跳过。1-1，登录注册页可以看到登录页有注册入口，注册页如下我们的注册，需要管理员审核，审核通过后才可以正常登录使用小程序1-2，个人中心页登录成功以后，我们会进入个人中心页我们在个人中心页可以注册人脸，因为我们做人脸识别签到，需要先注册人脸才可以进行人脸比对，进
ruby - 从谷歌开发者网站下载后，client_secret.json 为空 - 2
我正在尝试从googleAPI下载client_secret.json。我正在执行https://developers.google.com/gmail/api/quickstart/ruby中列出的步骤.使用此向导在GoogleDevelopersConsole中创建或选择项目并自动启用API。在左侧边栏中，选择同意屏幕。选择电子邮件地址并输入产品名称(如果尚未设置)，然后单击“保存”按钮。在左侧边栏中，选择凭据并点击创建新客户端ID。选择应用程序类型已安装应用程序，已安装应用程序类型为其他，然后单击“创建客户端ID”按钮。点击新客户端ID下的下载JSON按钮。将此文件移动到您的工作
ruby-on-rails - 尝试登录和使用 heroku 时无法识别 ruby.exe - 2
当尝试创建一个heroku应用程序并通过git推送到它时，我收到以下错误:$herokucreate'"C:\ProgramFiles\ruby-1.9.2\bin\ruby.exe"isnotrecognizedasaninternalorexternalcommand,operableprogramorbatchfile.但是，$ruby-vruby1.9.3p125[i386-mingw32]我已经检查了PATH环境，它肯定包含“C:\ProgramFiles(x86)\ruby-1.9.2\bin”。同样有趣的是，当导航到该目录时，它实际上并不包含名为ruby.exe的文件
基于Python的人脸识别课堂系统（毕设）——附录上 - 2
本文章承接《基于Python的人脸识别课堂考勤系统（毕设）》，填坑上篇文章遗留的代码部分。因为项目分的模块比较多，再加上本人能力有限，所以代码过于臃肿还存在许多优化的地方。同样本篇文章也仅适用于小白，零基础人群。PS：每个文件之中代码都已经区分开来，可以对照左侧目录部分实现快速预览! 由于代码过于多我这里分成上，下两个部分来发布吧！一、主文件importosimportsysimportrandomimportpymysqlimportcv2importnumpyasnpfrommathimportpifrommatplotlibimportpyplotaspltfromPILimpor

验证码拦不住机器人了！谷歌AI已能精准识别模糊文字，GPT-4则装瞎求人帮忙

如何做到？

GPT-4也可以过验证码

有关验证码拦不住机器人了！谷歌AI已能精准识别模糊文字，GPT-4则装瞎求人帮忙的更多相关文章

随机推荐