jjzjj

python - 从维基百科转储中提取平行文本

在我的研究项目中,我需要从维基百科转储中提取平行文档。换句话说,我已经下载了英语和意大利语维基百科转储。现在,我想解析它们,对于英语转储中的每篇文章,在意大利语转储中找到它的翻译(应该由Interlanguage链接完成),并将它们存储在同一个文件中,以便之后进行一些跨语言文本处理。我为此进行了一些搜索,但找不到用于此目的的任何代码。但是,由于我看过很多论文的作者都做了同样的事情,所以我认为在从头开始发明轮子之前可能值得先问一问。任何想法都会受到赞赏。谢谢。 最佳答案 使用此维基百科API,action=query&query=la

python - 从维基数据 API 获取 python 中的项目标签

我正在尝试使用维基数据API创建一个包含所有哈利波特角色名称的列表。我想从下面的链接中获取项目标签(字符名称)到我的Python笔记本中。这是按照我的意愿运行的维基数据查询服务查询。importrequestsimportjsonhpCharURL="https://query.wikidata.org/sparql?query=SELECTDISTINCT?item?itemLabelWHERE{{?itemwdt:P31?sub1.?sub1(wdt:P279|wdt:P131)*wd:Q95074.?itemwdt:P1080?sub2.?sub2(wdt:P279|wdt:P1

r - 无法从维基百科中抓取表格

我无法理解thisquestion的选定答案.我要抓取的表格是thislistofU.S.statepopulations.library(XML)theurl这是我遇到的错误..Error:failedtoloadexternalentity"http://en.wikipedia.org/wiki/List_of_U.S._states_and_territories_by_population"什么给了?(注意-尽管我正在寻求解决此错误,但如果您能指出一种更简单的获取人口数据的方法,我将不胜感激。) 最佳答案 您的代码没有任何

json - 如何从维基百科页面获取表格数据?

是否有人知道如何使用WikipediaAPI从特定维基百科页面的表格中获取JSON或XML数据?是否有其他方法可以做到这一点?例如从这里https://en.wikipedia.org/wiki/List_of_action_films_of_the_2010s 最佳答案 您可以使用curl(或使用任何其他方法/工具)通过公共(public)API检索和/或解析Wikipedia-URL。以下是两个应该对您有所帮助的示例:List_of_action_films_of_the_2010s的检索:JSONunparsed通过query

php - 如何使用维基百科 API 从维基百科的类别页面获取所有子类别?

这个问题在这里已经有了答案:关闭11年前。PossibleDuplicate:HowtogetallarticlepagesunderaWikipediaCategoryanditssub-categories所以我正在制作一个有趣的PHP项目,该项目涉及从维基百科上的一组类别中随机抽取一个项目。例如,假设我想要一把随机武器:我的程序转到http://en.wikipedia.org/wiki/Category:Weapons并随机选择一个子类别(比如Category:Toyweapons),然后继续选择较低级别的子类别,直到它到达一个不是类别的文章(例如:super浸泡器).但是,我

php - 从维基百科 XML 转储中获取特定的 "page"

好的,这就是我需要的:我已经下载并提取了完整的维基百科XML转储(>40GB,单个XML文件)我需要检索一个特定的元素(例如条目“意大利”的页面)我该怎么做?(最好使用PHP代码或一些现有工具) 最佳答案 不能保证页面的全部内容将按顺序定位,修订可能位于同一文件中的任何位置,甚至可能位于不同的XML文件中。请使用或webAPI'saction=export最坏的情况Special:Export.此处不添加链接,因为输出量很大。 关于php-从维基百科XML转储中获取特定的"page",我

php - 如何使用 MediaWiki 解析器从维基文本中获取 HTML

我正在尝试使用维基百科的MediaWiki解析器将维基百科标记文本解析为HTML。我在这里浏览了手册-https://www.mediawiki.org/wiki/Manual:Parser.php但是,由于我是PHP的新手,我无法编写测试脚本,这是我想解析并转换为HTML的示例输入:Shakespeare'ssonnets==Characters==Whenanalysedascharacters,thesubjectsofthesonnetsareusuallyreferredtoastheFairYouth,theRivalPoet,andtheDarkLady.Thespeak

hadoop - 从维基百科加载 30000 个文档

我有一个wikipediaurl,我想使用wikiAPI从该页面和其他引用页面加载内容,最多30000个文档,我可以遍历url并执行此操作,但这不是一种有效的方法。有没有其他方法可以实现这一目标。我需要它来在hadoop中填充我的HDFS。 最佳答案 您可以下载维基媒体软件和数据库图像,设置维基百科并在本地访问它。这是很好的描述,应该比通过网络请求该数量的页面更有效。参见:http://www.igeek.co.za/2009/10/16/how-to-mirror-wikipedia/还有许多其他来源和经过预处理的页面。问题来了,

php - 从维基百科 API 中提取数据

我希望能够使用json从维基百科中提取标题和描述。所以...维基百科不是我的问题,我是json的新手,想知道如何使用它。现在我知道有数百个教程,但我已经工作了几个小时,但它没有显示任何内容,这是我的代码:query->pageids;echo$data->query->pages->$pageid->title;?>只是为了更容易点击:http://en.wikipedia.org/w/api.php?action=query&prop=extracts|info&exintro&titles=google&format=json&explaintext&redirects&inpro

android - 如何从维基百科文章中提取数据?

我有一个关于为我的Android应用程序解析来自维基百科的数据的问题。我有一个脚本,可以通过从http://en.wikipedia.org/w/api.php?action=parse&prop=text&format=xml&page=ARTICLE_NAME(以及通过用format=json替换format=xml来替换JSON。但我不知道的是如何只访问表中的某些部分的内容。我想要的是当页面加载时,用户可以按下一个按钮,弹出一个显示目录标题的弹出窗口,并允许用户阅读该部分,并且只阅读该部分方便。我对JSON有点不适应,但可以这样做吗?或者,是否有来自维基百科的API允许开发人员仅