jjzjj

Scraping

全部标签

javascript - JSON Scraping - 通过 Javascript 将军事时间转换为标准时间

我正在从url中抓取JSON数据。时间是军用时间,我想知道在客户端检索后是否有办法将其转换为标准时间。这是JSON:[{SaturdayClose:"21:00",SaturdayOpen:"10:00",SundayClose:"12:00",SundayOpen:"18:00",WeekdayClose:"21:00",WeekdayOpen:"10:00"}]这是我的index.html:Sun:${SundayOpen}a-${SundayClose}pMon-Sat:${SaturdayOpen}a${SaturdayClose}p这会返回这种类型的丑陋:周日:上午18:00

java - 获取 javax.net.ssl.SSLException : Received fatal alert: protocol_version while scraping data using Jsoup

我正在尝试使用Jsoup从站点获取数据。该网站的链接是Clickhere!这是我获取数据的代码。`//WARNING:doitonlyifsecurityisn'timportant,otherwiseyouhave//tofollowthisadvices:http://stackoverflow.com/a/7745706/1363265//CreateatrustmanagerthatdoesnotvalidatecertificatechainsTrustManager[]trustAllCerts=newTrustManager[]{newX509TrustManager()

python - 错误 1 ​​(HY000) : Can't create/write to file './scraping/db.opt' (Errcode: 2)

通过“使用Python进行Web抓取”,我参与了其中使用MySQL的部分。在Google上找不到任何对此错误消息特别有用的信息-你们中的任何人都可以帮我解码吗?(并希望弄清楚如何修复它?!)我在输入命令后收到错误:ALTERDATABASEscrapingCHARACTERset=utf8mb4COLLATE=utf8mb4_unicode_ci;输出:ERROR1(HY000):Can'tcreate/writetofile'./scraping/db.opt'(Errcode:2)mysql> 最佳答案 你必须确保你的数据库被命

php - 如何抓取网站上的动态内容并保存?

例如我需要从http://gmail.com/中抓取免费存储数量:Over2757.272164megabytes(andcounting)offreestorage.然后将这些数字存储在MySql数据库中。如您所见,该数字正在动态变化。有没有一种方法可以设置一个服务器端脚本,每次更改时都会获取该数字,并将其保存到数据库中?谢谢。 最佳答案 由于Gmail不提供任何API来获取此信息,听起来您想做一些事情webscraping.Webscraping(alsocalledWebharvestingorWebdataextractio

python - Web Scraping Rap lyrics on Rap Genius w/Python

我有点像一个编码新手,我一直在努力从说唱天才身上抓取Andre3000的歌词,http://genius.com/artists/Andre-3000,通过使用BeautifulSoup(一个用于从HTML和XML文件中提取数据的Python库)。我的最终目标是以字符串格式获取数据。这是我目前所拥有的:frombs4importBeautifulSoupfromurllib2importurlopenartist_url="http://rapgenius.com/artists/Andre-3000"defget_song_links(url):html=urlopen(url).r

php - 从网站数据库中避免 'data scraping' 的顶级技术

我正在使用PHP和MySQL建立一个站点,它本质上只是现有数据库的Web前端。可以理解,我的客户非常热衷于防止任何人能够复制数据库中的数据,但同时希望所有内容都公开可用,甚至希望有一个“查看全部”链接来显示数据库中的每条记录。虽然我已采取一切措施来防止诸如SQL注入(inject)攻击之类的攻击,但没有什么可以阻止任何人以html格式查看所有记录并运行某种脚本将此数据解析回另一个数据库。即使我要删除“查看全部”链接,从理论上讲,有人仍然可以使用自动化过程逐条检查每条记录并将它们编译到一个新数据库中,从根本上掌握所有信息。有没有人有任何好的策略来防止甚至只是阻止他们可以分享。

php - 从网站数据库中避免 'data scraping' 的顶级技术

我正在使用PHP和MySQL建立一个站点,它本质上只是现有数据库的Web前端。可以理解,我的客户非常热衷于防止任何人能够复制数据库中的数据,但同时希望所有内容都公开可用,甚至希望有一个“查看全部”链接来显示数据库中的每条记录。虽然我已采取一切措施来防止诸如SQL注入(inject)攻击之类的攻击,但没有什么可以阻止任何人以html格式查看所有记录并运行某种脚本将此数据解析回另一个数据库。即使我要删除“查看全部”链接,从理论上讲,有人仍然可以使用自动化过程逐条检查每条记录并将它们编译到一个新数据库中,从根本上掌握所有信息。有没有人有任何好的策略来防止甚至只是阻止他们可以分享。

iphone - 在 iOS 中解析 XML/'screen scraping' 的最佳方法是什么? UIWebview 还是 NSXMLParser?

我正在创建一个需要从网页获取一些数据的iOS应用程序。我的第一个方法是使用NSXMLParserinitWithContentsOfURL:并使用NSXMLParser委托(delegate)解析HTML。然而,这种方法似乎很快就会变得痛苦(例如,如果HTML发生变化,我将不得不重写解析代码,这可能很尴尬)。当我加载网页时,我也查看了UIWebView。看起来UIWebView可能是可行的方法。stringByEvaluatingJavaScriptFromString:似乎是一种非常方便的提取数据的方法,并且允许将javascript存储在单独的文件中,如果HTML更改,该文件将很容

web-scraping - Scrapy Shell 和 Scrapy Splash

我们一直在使用scrapy-splashmiddleware通过在docker容器内运行的Splashjavascript引擎传递抓取的HTML源。如果我们想在蜘蛛中使用Splash,我们配置几个requiredprojectsettings并产生一个Request指定特定的metaarguments:yieldRequest(url,self.parse_result,meta={'splash':{'args':{#setrenderingargumentshere'html':1,'png':1,#'url'isprefilledfromrequesturl},#optional

python - 用于 Selenium Scraping 的 Mozilla Firefox 命令行安装

您好,我有一个在本地运行的爬虫,但是当尝试使用Vagrant机器将其启动到AWSEC2linux环境时,我遇到了以下问题。当我通过在Linux上运行对其进行测试时,我能够直接下载linux和Firebug,然后运行我的Seleniumwebdriver。在这种情况下,我正在编写一个包含必要安装的文件。但是,由于无法直接从命令行(连同firebug)安装firefox,我遇到了麻烦。这是我的工作人员的错误的样子(它在我安装了firefox的本地机器上运行良好,在安装了它的linux上运行良好):[worker]"Pleasespecifythefirefoxbinarylocationo
12