jjzjj

javascript - 向 Moz SEO 机器人提供 HTML 快照

我每天都在使用Phantom在我的网站上预呈现动态页面。然后,我编写了一些代码来检查请求的用户代理,并在请求来自机器人时提供预呈现的HTML快照。我的机器人数组是:varsocialBots=["facebookexternalhit/1.0","facebookexternalhit/1.1","FacebookExternalHit","twitterbot","TwitterBot","Twitterbot/1.0","LinkedInBot","rogerBot","rogerBot/1.0"];然后我的nodeJS代码(使用Express)监听机器人并提供快照:app.use

seo - Google Bot (SEO) 和使用 cookie 但具有完全相同 url 的语言

有什么方法可以通知googlebot要获取其他语言,它需要设置cookie?例如,在https://www.famistar.com用户可以单击页面底部的更改语言。幕后真正发生的是通过js的按钮将设置一个cookie并重新加载页面。有什么方法(无需修改url或为语言添加url参数)我们可以通知googlebot抓取所有提供的语言? 最佳答案 Google无法准备好cookie和session,并证明该用户在任何浏览器上使用“Web开发人员工具”并禁用cookie。Google可以索引和抓取您的语言的唯一方法是将它们添加为URL“my

Jquery 数据表和 Google BOT

我正在使用jqueryDatatable使用分页(Ajax调用)动态加载帖子的插件。这是example.但我担心搜索引擎优化。没有用于移动到下一页的anchor标记,只有一个按钮执行Ajax调用以使用下一行填充表格。我想知道,googleBOT如何获取分页内的所有帖子?我应该怎么做才能引导BOT阅读所有帖子? 最佳答案 只需在您的浏览器中关闭Javascript,然后您就会看到您的页面,就像它看到googlebot一样。在任何情况下,您都可以在不支持javascript的情况下为浏览器进行导航。这对SEO和没有JS的用户都有好处。

.htaccess - 使用 .htaccess 重定向机器人

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。关于您编写​​的代码问题的问题必须在问题本身中描述具体问题—并且包括有效代码以重现它。参见SSCCE.org寻求指导。关闭9年前。Improvethisquestion所以我的网站有一个名为presets_pc.html的页面,它动态加载内容,我想将机器人重定向到presets_pc_fallback.php,它会直接将数据库转储到页面上。我对这些东西很陌生,无法让RewriteRule工作;你能帮帮我吗?谢谢:)

security - 如何在不阻止行为良好的机器人的情况下阻止网络抓取?

我正在构建一个包含大量产品数据库的电子商务网站。当然,当Goggle索引网站的所有产品时,这很好。但是,如果某个竞争对手想要WebScrape怎么办?网站并获取所有图片和产品说明?我观察了一些具有类似产品列表的网站,它们放置了验证码,因此“只有人类”才能阅读产品列表。缺点是……它对Google、Yahoo或其他“行为良好”的机器人是不可见的。 最佳答案 您可以通过使用whois(在命令行或网站上)检查访问者IP来发现Google和其他人正在使用的IP地址。然后,一旦您积累了一些合法的搜索引擎,就允许它们在没有验证码的情况下进入您的产

python - Appengine Apps 与 Google bot 网络爬虫

我构建了一个应用引擎网络应用cricket.hover.in。该网络应用程序包含大约15k个网址链接在其中,但即使在我发布很长时间后,也没有任何页面被谷歌索引。我的根站点hover.in上的任何基本链接位置都在几分钟内被编入索引。但我把根站点的相同链接主页放在一个很长的后面。但它没有用。如果cricket.hover.in或有任何问题,任何人都可以分析吗?如果机器人对Google应用引擎有任何问题实际使用谷歌网站管理员工具的实验室应用程序测试了url,返回正常,html清晰。但是当在以下url中测试相同的(cricket.hover.in)时,它显示不同的失败结果www.dnsquer

jquery - 阻止 googlebot 跟踪 javascript 中的链接

在查看我的googlebot错误时,其中一个是来自目录链接的403错误,我从未将其放在任何地方。在该页面搜索了一下后,我发现谷歌跟踪了它在一些javascript代码中找到的链接,特别是这段代码:$.ajax({type:'post',url:'/data/pages/'+r,success:function(data){$('#mainbox').animate({"height":a},80,function(){谷歌机器人不理解它的+r部分,并不断给我关于这个的错误。我知道您可以向anchor添加rel="nofollow"以告诉googlebot不要关注它们,但是有没有一种方法

html - 如何处理元机器人中的多个值?

关于meta-robots,我可以放多少个值?这有效吗?还是多个元元素?这可能吗?什么是最佳实践? 最佳答案 正如您在问题的第一个代码块中提到的;有效。您可以将它们与逗号组合使用在under1标签中。您还可以在这个link中找到一些很好的例子。 关于html-如何处理元机器人中的多个值?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/25500658/

javascript - 阻止谷歌执行 javascript

我的网站上有一个链接保护,以防止搜索机器人扫描它,这种保护基于页面加载时替换的javascripthref(最初编码并以“#”为前缀,如下所示:...我知道Google现在可以执行javascript,因此可以跟踪到“protected”链接。这是防止Google机器人(以及其他机器人)执行javascript的正确方法吗? 最佳答案 @Epsiloncool没有绝对的方法可以阻止机器人做用户可以在浏览器中做的事情……做这样的事情的唯一方法是通过验证码。您可以绑定(bind)到鼠标悬停事件以换出链接,这样可能效果更好。我建议将rel

php - 通过机器人访问网站,但只有在浏览器/人类设置变量之后

我们正在使用Drupal开发一家啤酒厂的网站。由于18岁以下的未成年人不允许查看该网站,任何访问的页面都会通过一个模块(法律)传递,如果用户单击“继续”以确认他/她的年龄超过18岁,该网站将显示给用户保存法定年龄为真。问题是当搜索引擎机器人访问页面时,它们也被重定向到法定年龄验证页面。我尝试了以下脚本来确定PHP中的机器人或浏览器:$agent=$_SERVER['HTTP_USER_AGENT'];if((eregi("bot",$agent)||eregi("slurp",$agent))){$_SESSION['legalage']=true;drupal_goto($_REQU