scrape_JJZJJ

python - 从 udp 和 http torrent tracker 响应获取 IP 地址

我正在尝试获取对等列表:来自torrent跟踪器的IP地址列表类似于这里的问题:howtogetthepeerlistfromtorrenttrackerresponse我编写了使用pythonbencodeBit-torrentlibrary解码torrent文件的代码我按照这段代码写了代码here抓取洪流跟踪器。至少对于像mininovatracker这样的http请求，我得到了特定info_hash的以下输出{'files':{'\xbf\xff&\xcdY\x05\x9b\xb2C2j\x83\xf5F_\x9bg\x9d\xe2G':{'downloaded':25416,'

python - 如何通过 Python 抓取动态网页

[我想做什么]抓取下面的网页以获取二手车数据。http://www.goo-net.com/php/search/summary.php?price_range=&pref_c=08,09,10,11,12,13,14&easysearch_flg=1[问题]抓取整个页面。在上面的url中，只显示前30个项目。这些可以被我在下面写的代码刮掉。到其他页面的链接显示为123...但链接地址似乎是用Javascript编写的。我用谷歌搜索了有用的信息，但找不到任何信息。frombs4importBeautifulSoupimporturllib.requesthtml=urllib.requ

python find 39 strong html web-scraping beautifulsoup scrape

python - 如何通过 Python 抓取动态网页

[我想做什么]抓取下面的网页以获取二手车数据。http://www.goo-net.com/php/search/summary.php?price_range=&pref_c=08,09,10,11,12,13,14&easysearch_flg=1[问题]抓取整个页面。在上面的url中，只显示前30个项目。这些可以被我在下面写的代码刮掉。到其他页面的链接显示为123...但链接地址似乎是用Javascript编写的。我用谷歌搜索了有用的信息，但找不到任何信息。frombs4importBeautifulSoupimporturllib.requesthtml=urllib.requ

python find 39 strong html web-scraping beautifulsoup scrape

php - 如何使用简单的 html dom 解析器从 scrape 中抓取特定数据

我正在尝试从网页中抓取数据，但我需要获取thislink中的所有数据.include'simple_html_dom.php';$html1=file_get_html('http://www.aktive-buergerschaft.de/buergerstiftungen/unsere_leistungen/buergerstiftungsfinder');$info1=$html1->find('b[class=[whattoenterherer]',0);我需要从thissite中获取所有数据.BürgerstiftungLebensraumAachenrechtsfähige

scrape html section buergerstiftung buergerstiftungsfinder php parsing variables

php - 如何使用简单的 html dom 解析器从 scrape 中抓取特定数据

我正在尝试从网页中抓取数据，但我需要获取thislink中的所有数据.include'simple_html_dom.php';$html1=file_get_html('http://www.aktive-buergerschaft.de/buergerstiftungen/unsere_leistungen/buergerstiftungsfinder');$info1=$html1->find('b[class=[whattoenterherer]',0);我需要从thissite中获取所有数据.BürgerstiftungLebensraumAachenrechtsfähige

scrape html section buergerstiftung buergerstiftungsfinder php parsing variables

php - 从网站数据库中避免 'data scraping' 的顶级技术

我正在使用PHP和MySQL建立一个站点，它本质上只是现有数据库的Web前端。可以理解，我的客户非常热衷于防止任何人能够复制数据库中的数据，但同时希望所有内容都公开可用，甚至希望有一个“查看全部”链接来显示数据库中的每条记录。虽然我已采取一切措施来防止诸如SQL注入(inject)攻击之类的攻击，但没有什么可以阻止任何人以html格式查看所有记录并运行某种脚本将此数据解析回另一个数据库。即使我要删除“查看全部”链接，从理论上讲，有人仍然可以使用自动化过程逐条检查每条记录并将它们编译到一个新数据库中，从根本上掌握所有信息。有没有人有任何好的策略来防止甚至只是阻止他们可以分享。

amp scraping section li stackoverflow php mysql database

php - 从网站数据库中避免 'data scraping' 的顶级技术

我正在使用PHP和MySQL建立一个站点，它本质上只是现有数据库的Web前端。可以理解，我的客户非常热衷于防止任何人能够复制数据库中的数据，但同时希望所有内容都公开可用，甚至希望有一个“查看全部”链接来显示数据库中的每条记录。虽然我已采取一切措施来防止诸如SQL注入(inject)攻击之类的攻击，但没有什么可以阻止任何人以html格式查看所有记录并运行某种脚本将此数据解析回另一个数据库。即使我要删除“查看全部”链接，从理论上讲，有人仍然可以使用自动化过程逐条检查每条记录并将它们编译到一个新数据库中，从根本上掌握所有信息。有没有人有任何好的策略来防止甚至只是阻止他们可以分享。

amp scraping section li stackoverflow php mysql database

java - 用 JAVA 解析网站 HTML

这个问题在这里已经有了答案:HowcanIefficientlyparseHTMLwithJava?(3个回答)关闭6年前。我想解析一个简单的网站并从该网站上抓取信息。我以前用DocumentBuilderFactory解析XML文件，我尝试对html文件做同样的事情，但它总是陷入无限循环。URLurl=newURL("http://www.deneme.com");URLConnectionuc=url.openConnection();InputStreamReaderinput=newInputStreamReader(uc.getInputStream());BufferedR

java section 34 code html scrape

java - 用 JAVA 解析网站 HTML

这个问题在这里已经有了答案:HowcanIefficientlyparseHTMLwithJava?(3个回答)关闭6年前。我想解析一个简单的网站并从该网站上抓取信息。我以前用DocumentBuilderFactory解析XML文件，我尝试对html文件做同样的事情，但它总是陷入无限循环。URLurl=newURL("http://www.deneme.com");URLConnectionuc=url.openConnection();InputStreamReaderinput=newInputStreamReader(uc.getInputStream());BufferedR

java section 34 code html scrape

PHP Scrape 文章摘录，如可读性

我看过thisquestion，但它并不能真正满足我正在寻找的东西。该问题的答案是:从元描述标签中提取，第二个是为您已有正文的文章生成摘录。我想做的实际上是获取一篇文章的前几句，就像Readability所做的那样。最好的方法是什么？HTML解析？这是我目前正在使用的，但这不是很可靠。functionguessExcerpt($url){$html=file_get_contents_curl($url);$doc=newDOMDocument();@$doc->loadHTML($html);$metas=$doc->getElementsByTagName('meta');for(

可读性摘录 Readability section curl php web-scraping