jjzjj

GoogleBot

全部标签

php - AJAX 爬虫(hashbang 转换)

我正在处理AJAX可抓取(GoogleAJAX-crawling)网站,但有些事情我不清楚。在应用程序的后端,我过滤掉_escaped_fragment_参数并按预期返回HTML快照。如下所示手动调用URL时没有问题:(1)animals#!dogs(2)animals?_escaped_fragment_=dogs当在选项(1)中查看页面源时,内容是动态加载的,而在选项(2)中,页面源包含html快照。到目前为止,一切都很好。问题是,当按照建议(GoogleFetch)使用Google抓取时,蜘蛛仅似乎抓取选项(1),就好像hashbang(#!)永远不会被AJAX转换一样-爬虫。即

seo - 文档格式是否会改变 Google bot 在 SEO 方面的行为?喜欢/路径和/路径.htm .html .php

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭7年前。Improvethisquestion我被告知要从Web应用程序链接中删除“.html”,以便Google机器人更好地识别它。所以example.com/path/to/resource.html应该是example.com/path/to/resource。我没有找到任何文件说明放置在url中的资源格式本身有任何影响。无论是php、htm、html还是任何其他aspx。那么,怎么样?省略.html或任何其他格式对Google机

angularjs - 在 HTML5 模式 Angular 应用程序中将 sitemap.xml 放在哪里

我使用HTML5模式的Angular应用程序托管在Nodejs服务器中。我正在使用phantomjs生成快照并将该快照提供给搜索机器人。但我不确定应该在我的应用程序中的何处添加sitemap.xml文件.如果我放在公共(public)文件夹或其他文件夹中,由于Angular路由,机器人无法获取它。请建议一种在我的站点中添加sitemap.xml的方法 最佳答案 您可以将sitemap.xml复制到您网站上的任何文件夹。此外,如果指定此robots.txt,则可以在其他域上使用sitemap.xml。在您的情况下,您需要为特定URL禁

javascript - 获取谷歌索引的动态文本

似乎这应该是一个常见问题,但我似乎找不到任何地方讨论它。我正在制作交互式map-即,当您单击其中一个标记时,它会显示有关该位置的一些描述性文本。我想确保此文本被Google编入索引。目前,我将所有这些文本存储在一个数组中,硬编码在脚本中。当有人点击一个标记时,我将该标记的文本加载到DOM中。问题是Googlebot只是将其视为代码,不会将其编入索引。我想到的一个可能的解决方案是将文本存储在HTML中而不是数组中。但是添加一堆不可见的元素似乎有点傻,而且我也担心Google可能会将其视为伪装。关于如何让Google将文本编入索引有什么想法吗? 最佳答案

ruby-on-rails - prerender.io 是否可以帮助处理动态 seo 等具有动态参数的前端路由的情况?

可以在这个链接上找到详细的问题-https://stackoverflow.com/questions/36931309/dynamic-seo-for-routes-in-angular2any-frontend-routing-framework?noredirect=1#comment61422672_36931309我的情况是-我有一个前端路由/category/:categoryId。这个categoryId可能不同,因此我从服务器获取不同的数据。此数据包含我应为此页面设置的标题。在这种情况下,现在从前端为不同的categoryId做SEO似乎是不可能的,因为谷歌机器人在抓取

seo - 我有一个指向 www 的 302 重定向。但 Googlebot 一直在抓取非 www 网址

您知道是否可以强制机器人在www.domaine.com而不是domaine.com上爬行吗?就我而言,我有一个网络应用程序,它启用了带有prerender.io的缓存url(以查看HTML代码),但仅限于www。因此,当机器人在domaine.com上爬行时,它没有任何数据。在Nginx上重定向是自动的(domaine.com>http://www.domaine.com),但没有结果。我在我的站点地图上说,url都是www。我的Nginx重定向:server{listen*:80;server_namestephane-richin.fr;location/{if($http_ho

ajax - 我如何让 Googlebot 抓取从 AJAX 加载的内容但阻止它索引 URL 命中?

我的网站上有一组页面,其中我在页面加载时发布“主要内容”,在页面加载后通过AJAX命中发布“相关内容”。我想做的是确保Googlebot可以通过AJAX加载内容,并点击其中的链接,但不索引请求URL。如果我在robots.txt中禁止该URL,Googlebot将不会抓取内容。如果我向其添加X-Robots标签“noindex”,整个页面将变为未编入索引,这不是我想要的。有什么解决办法吗? 最佳答案 你不能要求爬虫等待;您可以做的是预渲染AJAX请求,这样内容将首先被渲染和索引。在这里阅读更多相关信息:https://groups.

html - 有没有办法让搜索机器人忽略某些文本?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭7个月前。Improvethisquestion我有我的博客(如果你想看,可以从我的个人资料中看到),而且很新鲜,还有谷歌机器人解析结果。结果令我震惊。显然,我网站上最常见的两个词是“rss”和“feed”,因为我使用文本作为链接,例如“评论RSS”、“帖子订阅”等。这两个词将出现在每篇文章中,而其他词会更稀有。有没有办法让这些链接从Google的解析中消失?我不希望技术链接被编入索引。我只希望内容、标题、描述被编入索引。除了用图像替换

php - 通过 geo ip 重定向用户而不是 googlebot

我们有两个网站,一个供欧盟用户使用,另一个仅供美国用户使用。我使用一个简单的系统来检查IP的来源。$geo=json_decode(file_get_contents("http://extreme-ip-lookup.com/json/$user_ip"));$country=$geo->countryCode;$countrycode=$sanitizer->pageName(substr($country,0,2));之后,根据响应,我将用户重定向到正确的站点。if($countrycode=='us'){//gotousawebsite}else{//donothing}现在,

css - 新闻报道会使用溢出:隐藏导致谷歌将网站视为垃圾邮件吗?

为了吸引Googlebot提供新的内容,我实现了一个主页新闻标签,在我们的网站上显示20个最新的头条。我选择的实现是a,每个标题都是a最初,所有元素都没有样式,但javascript会在页面加载时启动,并为除一个之外的所有元素提供style="display:none"属性。然后javascript循环显示其余19个标题。到现在为止,一直都还不错。但是,为了防止在20个项目显示并立即折叠的地方出现视觉上不满意的页面加载,我在overflow:hidden元素上使用了。有人知道谷歌机器人会怎么做吗?我使用的overflow:hidden是否会使内容看起来像垃圾邮件?