GoogleBot

php - AJAX 爬虫(hashbang 转换)

我正在处理AJAX可抓取(GoogleAJAX-crawling)网站，但有些事情我不清楚。在应用程序的后端，我过滤掉_escaped_fragment_参数并按预期返回HTML快照。如下所示手动调用URL时没有问题:(1)animals#!dogs(2)animals?_escaped_fragment_=dogs当在选项(1)中查看页面源时，内容是动态加载的，而在选项(2)中，页面源包含html快照。到目前为止，一切都很好。问题是，当按照建议(GoogleFetch)使用Google抓取时，蜘蛛仅似乎抓取选项(1)，就好像hashbang(#!)永远不会被AJAX转换一样-爬虫。即

seo - 文档格式是否会改变 Google bot 在 SEO 方面的行为？喜欢/路径和/路径.htm .html .php

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭7年前。Improvethisquestion我被告知要从Web应用程序链接中删除“.html”，以便Google机器人更好地识别它。所以example.com/path/to/resource.html应该是example.com/path/to/resource。我没有找到任何文件说明放置在url中的资源格式本身有任何影响。无论是php、htm、html还是任何其他aspx。那么，怎么样？省略.html或任何其他格式对Google机

angularjs - 在 HTML5 模式 Angular 应用程序中将 sitemap.xml 放在哪里

我使用HTML5模式的Angular应用程序托管在Nodejs服务器中。我正在使用phantomjs生成快照并将该快照提供给搜索机器人。但我不确定应该在我的应用程序中的何处添加sitemap.xml文件.如果我放在公共(public)文件夹或其他文件夹中，由于Angular路由，机器人无法获取它。请建议一种在我的站点中添加sitemap.xml的方法最佳答案您可以将sitemap.xml复制到您网站上的任何文件夹。此外，如果指定此robots.txt，则可以在其他域上使用sitemap.xml。在您的情况下，您需要为特定URL禁

javascript - 获取谷歌索引的动态文本

似乎这应该是一个常见问题，但我似乎找不到任何地方讨论它。我正在制作交互式map-即，当您单击其中一个标记时，它会显示有关该位置的一些描述性文本。我想确保此文本被Google编入索引。目前，我将所有这些文本存储在一个数组中，硬编码在脚本中。当有人点击一个标记时，我将该标记的文本加载到DOM中。问题是Googlebot只是将其视为代码，不会将其编入索引。我想到的一个可能的解决方案是将文本存储在HTML中而不是数组中。但是添加一堆不可见的元素似乎有点傻，而且我也担心Google可能会将其视为伪装。关于如何让Google将文本编入索引有什么想法吗？最佳答案

ruby-on-rails - prerender.io 是否可以帮助处理动态 seo 等具有动态参数的前端路由的情况？

可以在这个链接上找到详细的问题-https://stackoverflow.com/questions/36931309/dynamic-seo-for-routes-in-angular2any-frontend-routing-framework?noredirect=1#comment61422672_36931309我的情况是-我有一个前端路由/category/:categoryId。这个categoryId可能不同，因此我从服务器获取不同的数据。此数据包含我应为此页面设置的标题。在这种情况下，现在从前端为不同的categoryId做SEO似乎是不可能的，因为谷歌机器人在抓取

seo - 我有一个指向 www 的 302 重定向。但 Googlebot 一直在抓取非 www 网址

您知道是否可以强制机器人在www.domaine.com而不是domaine.com上爬行吗？就我而言，我有一个网络应用程序，它启用了带有prerender.io的缓存url(以查看HTML代码)，但仅限于www。因此，当机器人在domaine.com上爬行时，它没有任何数据。在Nginx上重定向是自动的(domaine.com>http://www.domaine.com)，但没有结果。我在我的站点地图上说，url都是www。我的Nginx重定向:server{listen*:80;server_namestephane-richin.fr;location/{if($http_ho

ajax - 我如何让 Googlebot 抓取从 AJAX 加载的内容但阻止它索引 URL 命中？

我的网站上有一组页面，其中我在页面加载时发布“主要内容”，在页面加载后通过AJAX命中发布“相关内容”。我想做的是确保Googlebot可以通过AJAX加载内容，并点击其中的链接，但不索引请求URL。如果我在robots.txt中禁止该URL，Googlebot将不会抓取内容。如果我向其添加X-Robots标签“noindex”，整个页面将变为未编入索引，这不是我想要的。有什么解决办法吗？最佳答案你不能要求爬虫等待；您可以做的是预渲染AJAX请求，这样内容将首先被渲染和索引。在这里阅读更多相关信息:https://groups.

html - 有没有办法让搜索机器人忽略某些文本？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭7个月前。Improvethisquestion我有我的博客(如果你想看，可以从我的个人资料中看到)，而且很新鲜，还有谷歌机器人解析结果。结果令我震惊。显然，我网站上最常见的两个词是“rss”和“feed”，因为我使用文本作为链接，例如“评论RSS”、“帖子订阅”等。这两个词将出现在每篇文章中，而其他词会更稀有。有没有办法让这些链接从Google的解析中消失？我不希望技术链接被编入索引。我只希望内容、标题、描述被编入索引。除了用图像替换

php - 通过 geo ip 重定向用户而不是 googlebot

我们有两个网站，一个供欧盟用户使用，另一个仅供美国用户使用。我使用一个简单的系统来检查IP的来源。$geo=json_decode(file_get_contents("http://extreme-ip-lookup.com/json/$user_ip"));$country=$geo->countryCode;$countrycode=$sanitizer->pageName(substr($country,0,2));之后，根据响应，我将用户重定向到正确的站点。if($countrycode=='us'){//gotousawebsite}else{//donothing}现在，

css - 新闻报道会使用溢出:隐藏导致谷歌将网站视为垃圾邮件吗？

为了吸引Googlebot提供新的内容，我实现了一个主页新闻标签，在我们的网站上显示20个最新的头条。我选择的实现是a，每个标题都是a最初，所有元素都没有样式，但javascript会在页面加载时启动，并为除一个之外的所有元素提供style="display:none"属性。然后javascript循环显示其余19个标题。到现在为止，一直都还不错。但是，为了防止在20个项目显示并立即折叠的地方出现视觉上不满意的页面加载，我在overflow:hidden元素上使用了。有人知道谷歌机器人会怎么做吗？我使用的overflow:hidden是否会使内容看起来像垃圾邮件？