我不太了解SEO和网络蜘蛛的工作原理,所以请原谅我的无知。我正在创建一个站点(使用ASP.NET-MVC),其中包含显示从数据库检索到的信息的区域。数据对用户来说是唯一的,因此没有真正的服务器端输出缓存在进行。但是,由于数据可能包含用户可能不希望从搜索引擎结果中显示的内容,因此我想阻止任何蜘蛛程序访问搜索结果页面。我应该采取什么特殊措施来确保搜索结果目录不被抓取吗?此外,蜘蛛甚至会抓取动态生成的页面吗?阻止某些目录被搜索的任何操作是否会扰乱我的搜索引擎排名?编辑:我应该补充一点,我正在阅读robots.txt协议(protocol),但它依赖于网络爬虫的合作。但是,我还想防止任何忽略r
我正在建立一个网站,允许卖家:在我的网站上列出他们的产品将每个产品链接回卖家的网站为点击的每个链接付费我现在需要做的是以某种方式确保我只记录点击卖家网站链接的实际人类用户。如果是机器人在抓取网站,我不应该为此向卖家收费。有没有办法让我告诉机器人不要点击某个链接?我不认为它是nofollow,因为它并不是为了阻止对内容的访问。 最佳答案 告诉机器人不要跟踪链接的方法就是将rel=nofollow添加到您的标记中。假设您在转发到外部url之前也在本地登录,您还可以检查用户代理字符串。事实上,如果您打算要求人们根据推荐数量付费,那么记录每
当Google的蜘蛛抓取我的网站之一时,它们会从选择列表中提取数据作为页面数据。我完全理解为什么会这样,但问题是,它能以任何方式被阻止吗?我不想阻止整个页面被抓取,而只是阻止选择列表数据。问题如下:在谷歌搜索时,选择列表数据显示为页面摘要,而不是内容。描述标签专门用于帮助SEO并为潜在网站访问者提供有用的信息,但其预期功能并未实现。查看此示例案例https://www.google.com/search?q=alaskankleekaisite%3Awiki-pet.com这会损害网站上搜索性能的有效性,因为不止1个页面在搜索结果中显示相同的数据。有超过200个页面具有完全相同的选择列
我工作的网站经常收到来自Amazon云中IP的大量头部请求。根据他们访问的模式,我感到非常自信,他们没有做好事。为了解决这个问题,我正在考虑对所有HEAD请求返回一个空响应,但我不想意外影响该网站的排名。是否有人知道合法使用HEAD请求作为索引过程一部分的搜索引擎可能会受到此更改的影响? 最佳答案 嗯,通常情况下,如果您发现的ip不是来自搜索引擎的机器人,则它们不会产生任何影响。如果你禁止了大范围的ips和那些合法用户,你可以有更高的跳出率,因此理论上它会影响你的网站seo性能。可能性很小。不过,最好的实现是返回一个禁止的heade
出于某种原因,Google机器人似乎经常点击我的动态页面之一,将%2letter%发送到get参数,即。%zy%,%zn%,%xp%,%yu%,等等我的访问日志中充满了数千个这样的条目,其中Google机器人正在搜索2个字母的各种组合,一些组合被发送了很多次。这是什么行为? 最佳答案 可能是您的网站被假冒的谷歌机器人编入了索引。这是包含更多信息的网站:http://stopmalvertising.com/security/fake-google-bots.html.另外,请查看以下文章:HowtoverifyGooglebot.
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题,您可以发表评论,说明问题可能在哪里得到解答。关闭6年前。Improvethisquestion我有一个SPA,里面有很多图片。我想将这些图像公开给搜索引擎。所以我想创建只会被机器人看到的“特殊”页面。这些页面将包含有关图像的元
我正在构建一个组件,以根据垃圾邮件机器人一直发出的无效请求来禁止其IP,而且任何用户都不会犯错。例如,他们总是尝试提交空表单,或者向本应只接收POST请求的网址发出GET请求。我想知道我这样做是否有被禁止使用谷歌机器人的风险。他们是否足够聪明,不会抓取他们遇到的每个网址?他们会避免使用表单网址吗? 最佳答案 Googlebot跟踪链接。它只会请求找到链接的页面。当然,该链接不必驻留在您的网站上,因此可能不受您的直接控制。Googlebot只会发出GET请求,因为根据RFC,GET请求不能有副作用。因此,他们无法更改服务器上的状态。提
我正在使用烧瓶开发一个FacebookMessenger机器人,并希望将TwitterAPI用于机器人的功能。因此,我正在使用Tweepy来简化过程。但是,我无法让Oauth在我的计划中工作。我相信问题的来源是请求令牌无法保存或被正确接收,因为当我做auth.get_access_token时,我会遇到错误-“Oauth没有objectrequest_token”或“字符串索引”或“字符串索引必须是整数”我如何保存OAuth处理程序实例。有时,它也无法获得request_token,也不会将链接发送回用户。我试图通过在我的oauth_verification()函数中打印出请求令牌来检查一下,
我最近一直在构建一个处理重复事件的新网络应用程序。这些事件可以每天、每周或每月重复发生。这一切都很好。但是当我开始创建事件浏览器页面(公共(public)互联网可见)时,我想到了一个想法。如果爬虫访问此页面,并使用下一个和上一个按钮浏览日期,它会一直持续下去吗?所以我选择不使用通用HTML链接并使用AJAX。这意味着机器人将无法跟踪链接。但这种方法意味着我将失去对没有Javascript的用户的任何功能。还是没有Javascript的用户数量太少而不必担心?有没有更好的方法来处理这个问题?我也对像Google爬虫这样的机器人如何检测这些黑洞以及它如何处理这些黑洞非常感兴趣?
我正在尝试检测以下两个选项之一:特定的机器人列表(FacebookExternalHit|LinkedInBot|TwitterBot|Baiduspider)任何不支持CrawableAjax规范的机器人我见过类似的问题(HowtorecognizeFacebookUser-Agent),但没有任何内容解释如何在Node和Express中执行此操作。我需要用这样的格式来做:app.get("*",function(req,res){if(isoneofthebots)//servesnapshotif(isnotoneofthebots)res.sendFile(__dirname+