我正在使用 feedparser python 库从提要中连续提取 RSS 数据。我以这样一种方式编写了我的 python 代码,即我可以请求 RSS 数据的单个实例。这是我目前的代码:
import feedparser
rssPR = feedparser.parse('http://www.prnewswire.co.uk/rss/consumer-technology/wireless- communications-news.rss')
rssDataList = []
for index, item in enumerate(rssPR.entries):
rssDataList.append([item.published.encode('utf-8'), item.title.encode('utf-8')])
print rssDataList[0] #for debugging purposes
print rssPR.modified #for testing purposes
我可以向我的代码添加什么,以便它仅在 RSS 已被修改时才检查新的 RSS 数据?
假设我有一个包含 10 个 RSS 项目的列表,并且 RSS 提要已经更新了 2 个新的 RSS 项目。我如何才能将这两项添加到我创建的 rssDataList 中?我不想继续向我的数据库中添加相同的 RSS。
最佳答案
关于仅当提要发生变化时才下载,您可以使用 HTTP header's ETag作为后备也Last-Modified .
>>> feed.etag
'"6c132-941-ad7e3080"'
>>> feed.modified
'Fri, 11 Jun 2012 23:00:34 GMT'
您可以在调用 feedparser.parse 时指定它们。如果它们仍然相同(没有变化),请求将具有状态代码 304(未修改)。
归结为这个例子:
import feedparser
url = 'http://feedparser.org/docs/examples/atom10.xml'
# first request
feed = feedparser.parse(url)
# store the etag and modified
last_etag = feed.etag
last_modified = feed.modified
# check if new version exists
feed_update = feedparser.parse(url, etag=last_etag, modified=last_modified)
if feed_update.status == 304:
# no changes
注意事项:
您需要检查 feed.etag 和 feed.modified 是否存在。
feedparser 库将自动发送带有提供的 etag 参数和 If-Modified- 的 为您提供了 If-None-Match header Sincemodified 值。
来源:Feedparser documentation about http and etag
澄清评论中提出的问题:
这需要服务器支持这些 header 中的任何一个。
如果两个 header 都不起作用,则您不能使用它,并且必须始终从服务器下载 feed,即使它没有更改,因为在下载它之前您根本无法分辨。
这意味着您每次都必须下载提要,并存储您已经看到的条目。
如果你不想显示你以前看过的东西(例如只打印新的)你无论如何都必须保留一个看到的提要列表。一些提要为每个 条目 都有一个 id 字段,您可以在这种情况下使用它。否则,您必须有点创意才能弄清楚是什么让条目相同,特别是对于您的 Feed。
关于Python 提要解析器 : How can I check for new RSS data?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22211795/
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我正在使用ruby1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\
简而言之错误:NOTE:Gem::SourceIndex#add_specisdeprecated,useSpecification.add_spec.Itwillberemovedonorafter2011-11-01.Gem::SourceIndex#add_speccalledfrom/opt/local/lib/ruby/site_ruby/1.8/rubygems/source_index.rb:91./opt/local/lib/ruby/gems/1.8/gems/rails-2.3.8/lib/rails/gem_dependency.rb:275:in`==':und
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。
什么是ruby的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的
本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决