返回列表

技术:robots、Canonical标签和Crawl-delay设置

发表日期: 2013-08-19 文章来源:佳达科技

技术:robots、Canonical标签和Crawl-delay设置
合肥网站推广-佳达网络小编汇编

1、robots.txt文件

如果你以为网站index文件是搜索引擎访问网站时查看的第一个文件,那么你错了!robots.txt才是百度等搜索引擎访问网站时查看的第一个文件,这个文件用于指定spider在该网站上的抓取范围。如果网站对百度spider设置了robots.txt文件,百度会遵循robots协议,不去抓取封禁的结果,但是考虑到用户在搜索引擎中有搜索该网站地址的需求,搜索结果中会根据搜索需求展示网站的标题及网址,但不会显示网站的摘要。
这就是百度在今年1月上线的百度网页搜索结果robots提示。

2、Canonical标签

为了避免重复内容的收录,百度会通过算法对网页内容及链接进行识别,对内容完全相同或者高度相似的网页,会计算出一个系统认为规范的网页结果建立索引并供用户查询。

支持Canonical标签以后,站长可以通过将 <link> 元素和 rel=”canonical” 属性添加到该网页非规范版本的<head> 部分,为搜索引擎指定规范网页。添加此链接和属性可以告诉百度:“在内容相同或高度相似的所有网页中,该网页为最规范最有价值的页面,推荐将该网页排在搜索结果中靠前的位置。”

可通过在每个非规范版本的 HTML 网页的 <head> 部分中,添加一个 rel=”canonical” 链接来进行指定规范网址。

例如,要指定指向网页 http://www.example.com/product.php?id=15786 的规范链接,需要按以下形式创建 <link> 元素:

<link rel=”canonical” href=”http://www.example.com/product.php?id=15786″/>

然后将上述链接复制到某网页所有非规范网页版本的 <head> 部分中(例如 http://www.example.com/product.php?id=15786&active=1),即可完成设置。

3、Crawl-delay设置

前两点是百度支持,最后讲一点百度不支持的。Crawl-delay设置原意是希望配置网站针对百度spider的访问频率,但百度已经很明确不支持Crawl-delay配置,如果确有需要可以使用百度站长平台的抓取压力反馈工具,先查询网站在百度近一个月的天级抓取量趋势图,可调节百度spider每天访问您网站的抓取压力上限,供百度参考,避免百度spider对站点抓取压力过大,造成网站服务器负载及抓取异常。

今天给大家分享的几个技术点,还是有一点点专业的,爱好者不妨看看,或许有些收货。

转载请注明出处 合肥网络公司佳达科技专注于网站推广 www.jdwlkj.net

  2,975 次
 佳达科技
返回列表

暂无回复 trackback

评论关闭!