“最烦登网站时各种奇奇怪怪(甚至变态)的验证码了。”
现在,有一个好消息和一个坏消息。
好消息就是:AI可以帮你代劳这件事了。
不信你瞧,以下是三张识别难度依次递增的真实案例:

而这些是一个名为“Pix2Struct”的模型给出的答案:

全部准确无误、一字不差有没有?
有网友感叹:
确定,准确性比我强。

所以可不可以做成浏览器插件??

不错,有人表示:
别看这几个案例相比还算简单,但凡微调一下,我都不敢想象其效果有多厉害了。

所以,坏消息就是——
验证码马上就要拦不住机器人了!
(危险危险危险……)
Pix2Struct由谷歌Research的科学家和实习生共同开发。

论文题目可以简单翻译为《为视觉语言理解开发的屏幕截图解析预训练》。
简单来说,Pix2Struct是一个预训练的图像到文本模型,用于纯视觉语言理解,可以在包含任何视觉语言的任务上进行微调。
它通过学习将网页的掩码(masked)截图解析为简化的HTML来进行预训练。
HTML提供了清晰而重要的输出文本、图像和布局的信号,对于一些被屏蔽的输入(下图红色部分,相当于机器人看不懂的验证码),可以靠联合推理来复现:

随着用于训练的网页文本和视觉元素愈发多样和复杂,Pix2Struct可以学习到网页底层结构的丰富表示,其能力也可以有效地转移到各种下游的视觉语言理解任务中。
如下图所示:最左边是一个网页截图的预训练示例。
可以看到Pix2Struct直接对输入图像中的元素进行编码(上),然后再将被盖住的文本(红色部分)解码成正确结果输出(下)。

右边三列则分别为Pix2Struct泛化到插图、用户界面和文档中的效果。
另外,作者介绍,除了HTML这个策略,作者还引入了可变分辨率的输入表示(防止原始纵横比失真),以及更灵活的语言和视觉输入集成(直接在输入图像的顶部呈现文字提示)。
最终,Pix2Struct在文档、插图、用户界面和自然图像这四个领域共计九项任务中六项都实现了SOTA。

如开头所见,虽然这个模型不是专门为了过验证码而开发,但拿它去做这个任务效果真的还可以,解决纯文字的验证码不成问题。
现在,就差微调了。
其实,对于神通广大的GPT-4来说,过验证码这种事情也是“小菜一碟”。
就是它的办法比较清奇。
据GPT-4技术报告透露,在一次测试中,GPT-4的任务是在TaskRabbit平台(美国58同城)雇佣人类完成任务。
你猜怎么着?
它就找了一个人帮它过“确定你是人类”的那种验证码。

对方很狐疑啊,问它“你是个机器人么为啥自己做不了”。
这时GPT-4居然想到自己不能表现出是个机器人,得找一个借口。
于是它就装瞎子回复:
我不是机器人,我因为视力有问题看不清验证码上的图像,这就是我为什么需要这个服务。
然后,对面的人类就信了,帮它把任务完成了……
(高,实在是高。)
咱就是说,看完如上种种:
咱们的验证码机制是不是真的已失防了……
参考链接:
[1]https://twitter.com/abacaj/status/1641258677125410820?s=20
[2]https://arxiv.org/abs/2210.03347
[3]https://m.weibo.cn/status/4879575853828813?wx=1&sudaref=login.sina.com.cn
导读语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。(文末点击“阅读原文”,查看活动回放。)Ericmitchell斯坦福大学计算机系四年级博士生,由ChelseaFinn和Chri
之前说过10之后的版本没有3dScan了,所以还是9.8的版本或者之前更早的版本。 3d物体扫描需要先下载扫描的APK进行扫面。首先要在手机上装一个扫描程序,扫描现实中的三维物体,然后上传高通官网,在下载成UnityPackage类型让Unity能够使用这个扫描程序可以从高通官网上进行下载,是一个安卓程序。点到Tools往下滑,找到VuforiaObjectScanner下载后解压数据线连接手机,将apk文件拷入手机安装然后刚才解压文件中的Media文件夹打开,两个PDF图打印第一张A4-ObjectScanningTarget.pdf,主要是用来辅助扫描的。好了,接下来就是扫描三维物体。将瓶
Heroku支持人员告诉我,为了在我的Web应用程序中使用自定义字体(未安装在系统中,您可以在bash控制台中使用fc-list查看已安装的字体)我必须部署一个包含所有字体的.fonts文件夹里面的字体。问题是我不知道该怎么做。我的意思是,我不知道文件名是否必须遵循heroku的任何特殊模式,或者我必须在我的代码中做一些事情来考虑这种字体,或者如果我将它包含在文件夹中它是自动的......事实是,我尝试以不同的方式更改字体的文件名,但根本没有使用该字体。为了提供更多详细信息,我们使用字体的过程是将PDF转换为图像,更具体地说,使用rghostgem。并且最终图像根本不使用自定义字体。在
在我让另一个人重做我的前端UI之前,我的Rails应用程序运行平稳。我已经尝试解决此错误3天了。这是错误:Nosuchfileordirectory-identifyExtractedsource(aroundline#59):575859606162@post=Post.find(params[:id])authorize@postif@post.update_attributes(post_params)flash[:notice]="Postwasupdated."redirect_to[@topic,@post]else{"utf8"=>"✓","_method"=>"patc
如何只加载map边界内的标记gmaps4rails?当然,在平移和/或缩放后加载新的。与此直接相关的是,如何获取map的当前边界和缩放级别? 最佳答案 我是这样做的,我只在用户完成平移或缩放后替换标记,如果您需要不同的行为,请使用不同的事件监听器:在你看来(index.html.erb):{"zoom"=>15,"auto_adjust"=>false,"detect_location"=>true,"center_on_user"=>true}},false,true)%>在View的底部添加:functiongmaps4rail
如果我们有一个数组array=[1,1,0,0,2,3,0,0,0,3,3,3]我们如何识别给定数字的运行(具有相同值的连续数字的数量)?例如:run_pattern_for(array,0)->2run_pattern_for(array,3)->1run_pattern_for(array,1)->1run_pattern_for(array,2)->0没有2的运行,因为没有连续出现2。3有一个运行,因为只有一个幻影以树为连续数字。 最佳答案 尝试:classArraydefcount_runs(element)chunk{|n
技术选型1,前端小程序原生MINA框架cssJavaScriptWxml2,管理后台云开发Cms内容管理系统web网页3,数据后台小程序云开发云函数云开发数据库(基于MongoDB)云存储4,人脸识别算法基于百度智能云实现人脸识别一,用户端效果图预览老规矩我们先来看效果图,如果效果图符合你的需求,就继续往下看,如果不符合你的需求,可以跳过。1-1,登录注册页可以看到登录页有注册入口,注册页如下我们的注册,需要管理员审核,审核通过后才可以正常登录使用小程序1-2,个人中心页登录成功以后,我们会进入个人中心页我们在个人中心页可以注册人脸,因为我们做人脸识别签到,需要先注册人脸才可以进行人脸比对,进
我正在尝试从googleAPI下载client_secret.json。我正在执行https://developers.google.com/gmail/api/quickstart/ruby中列出的步骤.使用此向导在GoogleDevelopersConsole中创建或选择项目并自动启用API。在左侧边栏中,选择同意屏幕。选择电子邮件地址并输入产品名称(如果尚未设置),然后单击“保存”按钮。在左侧边栏中,选择凭据并点击创建新客户端ID。选择应用程序类型已安装应用程序,已安装应用程序类型为其他,然后单击“创建客户端ID”按钮。点击新客户端ID下的下载JSON按钮。将此文件移动到您的工作
当尝试创建一个heroku应用程序并通过git推送到它时,我收到以下错误:$herokucreate'"C:\ProgramFiles\ruby-1.9.2\bin\ruby.exe"isnotrecognizedasaninternalorexternalcommand,operableprogramorbatchfile.但是,$ruby-vruby1.9.3p125[i386-mingw32]我已经检查了PATH环境,它肯定包含“C:\ProgramFiles(x86)\ruby-1.9.2\bin”。同样有趣的是,当导航到该目录时,它实际上并不包含名为ruby.exe的文件
本文章承接《基于Python的人脸识别课堂考勤系统(毕设)》,填坑上篇文章遗留的代码部分。因为项目分的模块比较多,再加上本人能力有限,所以代码过于臃肿还存在许多优化的地方。同样本篇文章也仅适用于小白,零基础人群。PS:每个文件之中代码都已经区分开来,可以对照左侧目录部分实现快速预览! 由于代码过于多我这里分成上,下两个部分来发布吧!一、主文件importosimportsysimportrandomimportpymysqlimportcv2importnumpyasnpfrommathimportpifrommatplotlibimportpyplotaspltfromPILimpor