jjzjj

RSelenium

全部标签

html - 以本地语言显示内容 : R

我正在尝试从包含英文和本地语言(非英文)内容的网站下载数据。我能够获得英文数据,但对于本地语言的内容,我得到了如下内容。我的问题是如何显示两者?X1X2X3NA12345678910 最佳答案 您可能拥有所需的文本,只是显示不正确。我可以重现你的问题。您的示例数据有10次相同的字符串。为了保持显示的合理性,我只重复了3次。##HexcodesfromyourexampleS1=c("0926","094B","0932","0916","093E")S2=c("0915","093E","0932","093F","0928","0

Rselenium - 如何在 Firefox 配置文件中禁用图像

在Rselenium中使用Firefox时如何禁用图像下载?我想看看这样做是否能让抓取脚本更快。我已阅读Reselnium包手册,包括有关getFirefoxProfile和makeFirefoxProfile的部分。我找到了thislinkthatshowshowtohandlechromedriver.我可以禁用我在Windows10中手动打开的Firefox实例的图像,但Rselenium似乎没有使用相同的配置文件。 最佳答案 以前您需要设置适当的首选项(在本例中permissions.default.image)但是现在fi

javascript - 使用 R 在搜索后面抓取 asp javascript 分页表

我正在尝试拉取https://www.askebsa.dol.gov/epds/default.asp上的内容使用rvest或RSelenium但当javascript页面以搜索框开头时没有找到指导?将所有这些内容放入一个简单的CSV文件中会很棒。之后,从个人文件中提取数据,例如https://www.askebsa.dol.gov/mewaview/View/Index/6219似乎有可能..但我也很感激一个干净的建议来做到这一点。谢谢 最佳答案 对于问题的第一部分,这种使用rvest的方法应该可行。我在最后一步收到错误消息,找不

javascript - 使用 R 将字段添加到在线表单并抓取生成的 javascript 创建的表

我正在尝试让R完成此网页上的“按邮政编码搜索”字段http://cti.voa.gov.uk/cti/使用预定义的文本(例如BN11NA),前进到下一页并抓取生成的4列表,根据邮政编码,该表可以跨越多个页面。为了使其更复杂,“改进指示器”不是文本字段,而是图像文件(如您使用邮政编码BN13HP搜索时所见)。我希望此列包含0或1,具体取决于图像是否存在。最终我得到了一个很好的数据框,它反射(reflect)了屏幕上的4列。我已尝试修改此question中的建议没有运气地做我上面描述的事情,老实说,我无法理解这个。我意识到R可能不是最适合我需要做的事情,但它是我可用的全部。任何帮助将不胜感

java - 带有 Tor 的 RSelenium 以及 Windows 上的新 RSelenium 版本

我找到了@jdharrison关于如何在Windows上使用RSelenium启动Tor的绝妙答案:https://stackoverflow.com/a/39048970/7837376但是,在RSelenium的新版本中,startServer()已失效,其替代品rsDriver()不接受java参数正如startServer()之前所做的那样。使用新的RSelenium语法在firefox中启动Tor的方法是什么?非常感谢(提前)! 最佳答案 您可以自己启动selenium服务器,而不是使用rsDriverbrowserP

rselenium的问题

各位晚上好,我一直在尝试使用rselenium运行我的旧脚本。由于一些变化,它不再起作用了。原始代码是require(RSelenium)require(rvest)RSelenium::checkForServer()RSelenium::startServer()remDr%html_nodes(xpath=path)%>%xml_attr("alt")remDr$close()根据我在这里找到的建议,我将其更改为以下require(RSelenium)require(rvest)driver%html_nodes(xpath=path)%>%xml_attr("alt")remDr$cl

rselenium投掷StaleelementReference错误

我正在尝试刮擦这个网站关联使用rselenium。我已经成功地刮过了页面上的大多数内容,但试图通过“设施访问”和“设施投诉”。由于这两个按钮都使用JavaScriptHREF,当我使用开发人员工具检查它们时,我一直在使用Phantomjs和rselenium。我可以通过Phantom成功导航到页面,但是每当我尝试使用$getElementText从字段中提取文本时,我就会丢下以下错误:Seleniummessage:{"errorMessage":"Elementdoesnotexistincache","request":{"headers":{"Accept":"application/j

html - 文档深度过大:R 中 xml2::read_html() 的 XML_PARSE_HUGE 选项

首先,我想为一个新问题道歉,因为我的个人资料还不允许我评论其他人的评论,尤其是我看到的两个SO帖子。所以请忍受这个老家伙:-)我正在尝试读取一个包含100个字符的文件列表,文件大小从90KB到2MB不等,然后使用qdap包对我从文件中提取的文本进行一些统计,即计数句子、单词等。这些文件包含以前使用RSelenium::remoteDriver$getPageSource()抓取的网页源代码并使用write(pgSource,fileName.txt)保存到文件中.我正在使用以下循环读取文件:pgSource对于某些文件是抛出Errorineval(substitute(expr),en

html - 文档深度过大:R 中 xml2::read_html() 的 XML_PARSE_HUGE 选项

首先,我想为一个新问题道歉,因为我的个人资料还不允许我评论其他人的评论,尤其是我看到的两个SO帖子。所以请忍受这个老家伙:-)我正在尝试读取一个包含100个字符的文件列表,文件大小从90KB到2MB不等,然后使用qdap包对我从文件中提取的文本进行一些统计,即计数句子、单词等。这些文件包含以前使用RSelenium::remoteDriver$getPageSource()抓取的网页源代码并使用write(pgSource,fileName.txt)保存到文件中.我正在使用以下循环读取文件:pgSource对于某些文件是抛出Errorineval(substitute(expr),en