技术：robots、Canonical标签和Crawl-delay设置

发表日期： 2013-08-19 文章来源：佳达科技

技术：robots、Canonical标签和Crawl-delay设置
合肥网站推广-佳达网络小编汇编

1、robots.txt文件

如果你以为网站index文件是搜索引擎访问网站时查看的第一个文件，那么你错了！robots.txt才是百度等搜索引擎访问网站时查看的第一个文件，这个文件用于指定spider在该网站上的抓取范围。如果网站对百度spider设置了robots.txt文件，百度会遵循robots协议，不去抓取封禁的结果，但是考虑到用户在搜索引擎中有搜索该网站地址的需求，搜索结果中会根据搜索需求展示网站的标题及网址，但不会显示网站的摘要。
这就是百度在今年1月上线的百度网页搜索结果robots提示。

2、Canonical标签

为了避免重复内容的收录，百度会通过算法对网页内容及链接进行识别，对内容完全相同或者高度相似的网页，会计算出一个系统认为规范的网页结果建立索引并供用户查询。

支持Canonical标签以后，站长可以通过将 <link> 元素和 rel=”canonical” 属性添加到该网页非规范版本的<head> 部分，为搜索引擎指定规范网页。添加此链接和属性可以告诉百度：“在内容相同或高度相似的所有网页中，该网页为最规范最有价值的页面，推荐将该网页排在搜索结果中靠前的位置。”

可通过在每个非规范版本的 HTML 网页的 <head> 部分中，添加一个 rel=”canonical” 链接来进行指定规范网址。

例如，要指定指向网页 http://www.example.com/product.php?id=15786 的规范链接，需要按以下形式创建 <link> 元素：

然后将上述链接复制到某网页所有非规范网页版本的 <head> 部分中（例如 http://www.example.com/product.php?id=15786&active=1），即可完成设置。

3、Crawl-delay设置

前两点是百度支持，最后讲一点百度不支持的。Crawl-delay设置原意是希望配置网站针对百度spider的访问频率，但百度已经很明确不支持Crawl-delay配置，如果确有需要可以使用百度站长平台的抓取压力反馈工具，先查询网站在百度近一个月的天级抓取量趋势图，可调节百度spider每天访问您网站的抓取压力上限，供百度参考，避免百度spider对站点抓取压力过大，造成网站服务器负载及抓取异常。

今天给大家分享的几个技术点，还是有一点点专业的，爱好者不妨看看，或许有些收货。

转载请注明出处合肥网络公司佳达科技专注于网站推广 www.jdwlkj.net

3,403 次

佳达科技

返回列表

未来装备，可穿戴式智能设备

8月19日400电话最新靓号！全国抢注中…

暂无回复 trackback

评论关闭！

技术：robots、Canonical标签和Crawl-delay设置

暂无回复 trackback

关注

新闻

服务

关于

技术