从维

python - 从维基百科转储中提取平行文本

在我的研究项目中，我需要从维基百科转储中提取平行文档。换句话说，我已经下载了英语和意大利语维基百科转储。现在，我想解析它们，对于英语转储中的每篇文章，在意大利语转储中找到它的翻译(应该由Interlanguage链接完成)，并将它们存储在同一个文件中，以便之后进行一些跨语言文本处理。我为此进行了一些搜索，但找不到用于此目的的任何代码。但是，由于我看过很多论文的作者都做了同样的事情，所以我认为在从头开始发明轮子之前可能值得先问一问。任何想法都会受到赞赏。谢谢。最佳答案使用此维基百科API，action=query&query=la

取平从维 section 意大利语利语 python xml xml-parsing wikipedia

python - 从维基数据 API 获取 python 中的项目标签

我正在尝试使用维基数据API创建一个包含所有哈利波特角色名称的列表。我想从下面的链接中获取项目标签(字符名称)到我的Python笔记本中。这是按照我的意愿运行的维基数据查询服务查询。importrequestsimportjsonhpCharURL="https://query.wikidata.org/sparql?query=SELECTDISTINCT?item?itemLabelWHERE{{?itemwdt:P31?sub1.?sub1(wdt:P279|wdt:P131)*wd:Q95074.?itemwdt:P1080?sub2.?sub2(wdt:P279|wdt:P1

从维 python section 维基 code json wikidata wikidata-api wikidata-query-service

r - 无法从维基百科中抓取表格

我无法理解thisquestion的选定答案.我要抓取的表格是thislistofU.S.statepopulations.library(XML)theurl这是我遇到的错误..Error:failedtoloadexternalentity"http://en.wikipedia.org/wiki/List_of_U.S._states_and_territories_by_population"什么给了？(注意-尽管我正在寻求解决此错误，但如果您能指出一种更简单的获取人口数据的方法，我将不胜感激。) 最佳答案您的代码没有任何

从维百科 states_and_territories_by_populat territories section r xml web-scraping

json - 如何从维基百科页面获取表格数据？

是否有人知道如何使用WikipediaAPI从特定维基百科页面的表格中获取JSON或XML数据？是否有其他方法可以做到这一点？例如从这里https://en.wikipedia.org/wiki/List_of_action_films_of_the_2010s 最佳答案您可以使用curl(或使用任何其他方法/工具)通过公共(public)API检索和/或解析Wikipedia-URL。以下是两个应该对您有所帮助的示例:List_of_action_films_of_the_2010s的检索:JSONunparsed通过query

从维百科 code section List_of_action_films_of_the json xml wikipedia-api

php - 如何使用维基百科 API 从维基百科的类别页面获取所有子类别？

这个问题在这里已经有了答案:关闭11年前。PossibleDuplicate:HowtogetallarticlepagesunderaWikipediaCategoryanditssub-categories所以我正在制作一个有趣的PHP项目，该项目涉及从维基百科上的一组类别中随机抽取一个项目。例如，假设我想要一把随机武器:我的程序转到http://en.wikipedia.org/wiki/Category:Weapons并随机选择一个子类别(比如Category:Toyweapons)，然后继续选择较低级别的子类别，直到它到达一个不是类别的文章(例如:super浸泡器).但是，我

维基从维 section strong Category php api mediawiki wikipedia

php - 从维基百科 XML 转储中获取特定的 "page"

好的，这就是我需要的:我已经下载并提取了完整的维基百科XML转储(>40GB，单个XML文件)我需要检索一个特定的元素(例如条目“意大利”的页面)我该怎么做？(最好使用PHP代码或一些现有工具) 最佳答案不能保证页面的全部内容将按顺序定位，修订可能位于同一文件中的任何位置，甚至可能位于不同的XML文件中。请使用或webAPI'saction=export最坏的情况Special:Export.此处不添加链接，因为输出量很大。关于php-从维基百科XML转储中获取特定的"page"，我

从维 amp section noreferrer https php wikipedia

php - 如何使用 MediaWiki 解析器从维基文本中获取 HTML

我正在尝试使用维基百科的MediaWiki解析器将维基百科标记文本解析为HTML。我在这里浏览了手册-https://www.mediawiki.org/wiki/Manual:Parser.php但是，由于我是PHP的新手，我无法编写测试脚本，这是我想解析并转换为HTML的示例输入:Shakespeare'ssonnets==Characters==Whenanalysedascharacters,thesubjectsofthesonnetsareusuallyreferredtoastheFairYouth,theRivalPoet,andtheDarkLady.Thespeak

从维 MediaWiki section 维基 the php parsing wikipedia

hadoop - 从维基百科加载 30000 个文档

我有一个wikipediaurl，我想使用wikiAPI从该页面和其他引用页面加载内容，最多30000个文档，我可以遍历url并执行此操作，但这不是一种有效的方法。有没有其他方法可以实现这一目标。我需要它来在hadoop中填充我的HDFS。最佳答案您可以下载维基媒体软件和数据库图像，设置维基百科并在本地访问它。这是很好的描述，应该比通过网络请求该数量的页面更有效。参见:http://www.igeek.co.za/2009/10/16/how-to-mirror-wikipedia/还有许多其他来源和经过预处理的页面。问题来了，

从维百科 section 维基 wikipedia hadoop wiki hdfs mediawiki-api

php - 从维基百科 API 中提取数据

我希望能够使用json从维基百科中提取标题和描述。所以...维基百科不是我的问题，我是json的新手，想知道如何使用它。现在我知道有数百个教程，但我已经工作了几个小时，但它没有显示任何内容，这是我的代码:query->pageids;echo$data->query->pages->$pageid->title;?>只是为了更容易点击:http://en.wikipedia.org/w/api.php?action=query&prop=extracts|info&exintro&titles=google&format=json&explaintext&redirects&inpro

从维百科 amp json section php api wikipedia

android - 如何从维基百科文章中提取数据？

我有一个关于为我的Android应用程序解析来自维基百科的数据的问题。我有一个脚本，可以通过从http://en.wikipedia.org/w/api.php?action=parse&prop=text&format=xml&page=ARTICLE_NAME(以及通过用format=json替换format=xml来替换JSON。但我不知道的是如何只访问表中的某些部分的内容。我想要的是当页面加载时，用户可以按下一个按钮，弹出一个显示目录标题的弹出窗口，并允许用户阅读该部分，并且只阅读该部分方便。我对JSON有点不适应，但可以这样做吗？或者，是否有来自维基百科的API允许开发人员仅

从维百科 section code amp android xml parsing wikipedia wikipedia-api

12 3