我们有一个React应用程序,它从另一个域异步加载一些数据。这些请求是在cors模式下使用isomorphic-fetch发出的,在使用我自己的浏览器进行测试时,请求和响应看起来都很好并且可以正常工作。我们监控响应并将失败记录回我们的应用程序以供分析。虽然大多数时候一切都很好(而且一切似乎都被正确索引并在Google中显示正常)我们仍然看到很多失败,仅对于Googlebot,它未能正确获取数据。调试响应对象我看到status是200,但是statusText是空的。响应没有正文(因此没有.json或.text方法),也没有header(不应该是这种情况)并且模式正确设置为cors(不是
我发现任何laravel网站都可以使用index.php作为参数访问。这是一个大问题,url参数中的index.php破坏了所有图像。看一个真实的例子来理解我的意思:http://www.cyprusalive.com/main-thing/sightseeinghttp://www.cyprusalive.com/index.php/main-thing/sightseeingGooglebot读取了一些带有index.php作为url参数的url。当有人使用index.php从谷歌搜索访问该网站时,这会破坏所有图像。此外,这是一种糟糕的SEO做法,因为会产生重复的内容。解决该问题的
在我的Codeigniter应用程序中,我使用$_SERVER['HTTP_ACCEPT_LANGUAGE']来确定用户浏览器语言以基于此设置应用程序语言,如下所示:publicfunction__construct(){parent::__construct();/*setsessionlanguageifnotset."hu"ifbrowserlanguage"hu",else"en"*/if(!($this->session->userdata("lang"))){$browserlang=substr($_SERVER["HTTP_ACCEPT_LANGUAGE"],0,2);
我的网站有一个数据库查询;填写验证码会给您5分钟的查找时间。还有一些自定义代码可以检测任何自动化脚本。我这样做是因为我不希望有人对我的网站进行数据挖掘。问题是Google在抓取我的网站时看不到查找结果。如果有人正在搜索查找结果中存在的字符串,我希望他们通过谷歌搜索找到该页面。对我来说显而易见的解决方案是使用PHP变量$_SERVER['HTTP_USER_AGENT']来绕过Google机器人的验证码和自定义安全代码。我的问题是这是否明智。人们随后可以使用Google的缓存查看查找结果而无需填写验证码,但Google自己的脚本检测方法会阻止他们对这些页面进行数据挖掘吗?或者人们是否可以
这是下面的代码,每当任何页面被谷歌抓取并导致邮箱垃圾邮件时,它都会发送一封电子邮件。那么是否有可能只在服务器上的文本文件中记录最后一次爬网时间戳,我以后可以随时使用perlLWPmod读取它。文件应该只有这个数据:29,2012年1月GMT等如果bot多次访问我的站点,那么它应该覆盖txt文件并仅记录最后一次访问时间,如果可能请帮助实现一些我认为我们可以通过检查googlebot是否正在访问服务器以及它何时从服务器请求网站的任何页面来做到这一点? 最佳答案 if(strpos($_SERVER['HTTP_USER_AGENT'],
我将阻止除大型搜索引擎之外的所有机器人。我的阻止方法之一是检查“语言”:接受语言:如果没有接受语言,机器人的IP地址将被阻止到2037年。Googlebot没有接受语言,我想用DNS验证它查找可以使用gethostbyaddr吗,有人可以通过我的“gethostbyaddr保护”吗? 最佳答案 functiondetectSearchBot($ip,$agent,&$hostname){$hostname=$ip;//checkHTTP_USER_AGENTwhatnottotouchgethostbyaddrinvainif(pr
如果我使用嵌套在我的文档中,如:sometextsometext这对我页面的SEO有影响吗?googlebot会抓取它并编制索引还是忽略它? 最佳答案 正如@Nadeem所说的那样,您的HTML不是有效的HTML,因此它会影响您页面的SEO。您可以在https://www.w3schools.com/html/了解有关有效HTML的更多信息这里有一篇关于webmasters.stackexchange的好书DoesexcessivemarkupaffectSEO?还有这个:AredeepnestedHTMLtagsbadforSEO
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion我正准备着手为一个friend的乐队建立一个面向音乐的网站,我想建立类似thistemplate.的网站。它使用ajax和深层链接。我担心Google无法抓取该网站。有什么我可以做的或可以调整的代码以使其可抓取吗?非常感谢!
在我的站点中,有一个链接到PDF的按钮。假设按钮上的当前pdf网址是http://www.abc.come/wp-content/uploads/2016/09/xyz.pdf这个url谷歌机器人已经抓取了。现在晚些时候管理员从管理员上传新的pdf比方说http://www.abc.come/wp-content/uploads/2016/09/xyz-latest.pdf并更新按钮上的url。问题是googlebot仍在使用xyz.pdf抓取旧url并在网站管理员工具中给出404。我们怎样才能让googlebot停止抓取旧的url而抓取新的。谢谢。 最佳答
我在我的网站中使用了angular。在特定部分而不是整个网站。谷歌在索引Angular方面存在问题。所以我为谷歌使用了非Angular部分。但如果普通用户访问我的网站,则转到Angular部分。(我的意思是我检查了(谷歌或用户)之后我是否进入非Angular或Angular)。这是对的?或者谷歌可能会将我的网站添加到黑名单? 最佳答案 您可以使用https://prerender.io/,因为您可以为服务器中使用Angular的那部分网站的任何爬虫定义一些规则,因此您不需要为用户类型自定义View。