这个问题在这里已经有了答案:关闭11年前。PossibleDuplicate:HowtogetallarticlepagesunderaWikipediaCategoryanditssub-categories所以我正在制作一个有趣的PHP项目,该项目涉及从维基百科上的一组类别中随机抽取一个项目。例如,假设我想要一把随机武器:我的程序转到http://en.wikipedia.org/wiki/Category:Weapons并随机选择一个子类别(比如Category:Toyweapons),然后继续选择较低级别的子类别,直到它到达一个不是类别的文章(例如:super浸泡器).但是,我
好的,这就是我需要的:我已经下载并提取了完整的维基百科XML转储(>40GB,单个XML文件)我需要检索一个特定的元素(例如条目“意大利”的页面)我该怎么做?(最好使用PHP代码或一些现有工具) 最佳答案 不能保证页面的全部内容将按顺序定位,修订可能位于同一文件中的任何位置,甚至可能位于不同的XML文件中。请使用或webAPI'saction=export最坏的情况Special:Export.此处不添加链接,因为输出量很大。 关于php-从维基百科XML转储中获取特定的"page",我
我正在尝试使用维基百科的MediaWiki解析器将维基百科标记文本解析为HTML。我在这里浏览了手册-https://www.mediawiki.org/wiki/Manual:Parser.php但是,由于我是PHP的新手,我无法编写测试脚本,这是我想解析并转换为HTML的示例输入:Shakespeare'ssonnets==Characters==Whenanalysedascharacters,thesubjectsofthesonnetsareusuallyreferredtoastheFairYouth,theRivalPoet,andtheDarkLady.Thespeak
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion如何在我的网站上使用维基百科的外观?是否有任何准备好的模板,如HTML模板,我可以稍作更改或以任何其他方式使用?
如果您打开您的mozillaFirefox网络浏览器并打开firebug来检查传入和传出的网络流量,您会看到,当您查看维基百科文章时,缓存的数量内容非常大。除非相关文章图片较多,否则大部分内容来自缓存。我想知道这是由浏览器本身完成的还是由某种底层PHP缓存机制完成的。(这就是他们所说的内存缓存?APC?)它工作得很好,所以我想知道他们是如何做到的。 最佳答案 Memcacahe、APC等是服务器端数据存储。您基本上将其用作键值存储,因此您不必一直ping数据库。但是,您实际看到的是网站加载到已准备就绪的缓存中。这是告诉您的Web服务
我正在尝试以结构化的方式解析特定的维基百科内容。这是一个示例页面:http://en.wikipedia.org/wiki/Polar_bear我取得了一些成功。我可以检测到这个页面是一个“specie”页面,我也可以将Taxobox(右边)的信息解析成一个结构。到目前为止一切顺利。但是,我也在尝试解析文本段落。这些由API以Wiki格式或HTML格式返回,我目前正在使用Wiki格式。我可以阅读这些段落,但我想以特定方式“清理”它们,因为最终我将不得不在我的应用程序中显示它并且它没有Wiki标记的意义。例如,我想删除所有图像。通过过滤掉[[Image:]]block,这相当容易。然
有没有一种方法可以在PHP中实现更新页面(而不是整个页面)的服务器触发通信?换句话说,有没有办法在服务器启动通信的地方实现“修改后的”AJAX? 最佳答案 您可能正在考虑推送技术,例如COMET或长轮询。参见http://en.wikipedia.org/wiki/Comet_(programming)和http://en.wikipedia.org/wiki/Long_polling#Long_polling 关于php-与AJAX相反,我们在StackOverflow上找到一个类似的
好的,这就是我需要的:我们有维基百科文章的完整XML我们只需要信息框部分我尝试了各种方法,但我的主要问题似乎是无法匹配“内部”大括号。有任何想法(或您设法完成此操作的任何正则表达式吗?)对于那些不知道我在说什么的人,这里有一个(略有删减的)示例,说明我正在尝试解析的内容:http://regexr.com?38299(需要的是{{Infobox*******到相应的右括号(}})之间的部分。 最佳答案 好的,我明白了!试试这个..:(?=\{Infobox)(\{([^{}]|(?1))*\})这是工作示例:http://regex
file_get_contents('https://en.wikipedia.org/wiki/Category:Upcoming_singles');使用Chrome网络浏览器访问同一地址(显示4种产品)返回不同的响应(2种产品)。经检查,我怀疑这可能与有关Savedinparsercachekeywith...timestamp...在返回的html中。当我使用file_get_contents()时,时间戳较旧关于如何使用file_get_contents()获取最新信息有什么想法吗?谢谢! 最佳答案 假设file_get_
我几乎可以肯定维基百科页面上matrixChainOrder的Java实现,MatrixChainMultiplication,是不正确的。我会改变它,但我不是一个合格的数学家,并且在没有首先审查我的观察的情况下做出改变是不舒服的。我想我要问的是——我的说法是否正确?k应该改为k+1,因为这个版本是用基于零的索引编写的,这与在同一页面上首次引入的伪代码版本不同。protectedint[][]m;protectedint[][]s;publicvoidmatrixChainOrder(int[]p){intn=p.length-1;m=newint[n][n];s=newint[n][