返回列表

影响网页收录的蜘蛛陷阱系列二

发表日期: 2012-12-29 文章来源:佳达科技

影响网页收录的蜘蛛陷阱系列二
三、简化动态网址

动态网址是指html代码没有永久性的储存在网站服务器文件中的网页,用户看见的页面是网站程序实时创建了html。

由于动态网址中可能包含多个参数(比如“&”),这些参数给蜘蛛程序造成了障碍,因为任何值都能够传给变量,蜘蛛无法知道对于同一个网页到 底能够显示多少个不同版本,有时候传递个每个参数的不同值表明了这些网页之间的差别,但这些值与显示的网页没有任何联系。有时候被用来记录用户行为的跟踪代码,这样的网页如果被蜘蛛程序捕捉到,那么,一个蜘蛛程序可能会看同一个网页很多遍,这样大大浪费了蜘蛛程序的时间(利用这些时间可能会查看更多有用的网页),而且会导致大量重复的网站被收录。

随着动态网址越来越多,搜索引擎也对蜘蛛程序进行了升级,目前对于动态网址,蜘蛛程序可能做到:

URL中含有两个以下的动态参数:如果是这样,你可以使用 URL重写(rewrite),也就是经常说的伪静态技术来解决问题;
URL少于1000个字母:越短的越容易读,越越容易记忆和理解;
URL中不包含区段标记符:比如“id=”或者“session=”,这些通常是用来记录用户行为时候用到的区段标志符,可以使用URL重写技术来让这些URL变得更有意义一些;
从列表或者网站地图链接过来的所有有效URL:一些动态URL可以使用很多参数,蜘蛛程序不可能知道网站上有效网页对应的所有参数,所以需要确保给一些动态网址留有蜘蛛通道。
五、消除页面显示的依赖条件

某些网站的开发考虑了一些重要因素,可能需要用户开启浏览器的某项功能或者采取某些行为才能正常执行,这些对于网页的用户体验损害很大,常见的有:

1、需要 cookie:cookie是储存在用户计算机中的信息,网页可以使用这些数据来了解用户信息,但是蜘蛛程序不能接受cookie,如果你的网页必须依赖cookie,建议取消这些功能或使用其他技术来实现搜索引擎与用户看见相同的网页。

2、需要下载软件:蜘蛛程序只能读懂文本文件,例如html和pdf文件,因为这些文件中含有可供搜索的文字信息,因此当他们遇到需要软件下载的时候,可能就是绕过去了。所以尽量避免这样的事情发生,尤其是在网站首页。

3、要求提供信息:很多网站设计人员要求用户输入某些信息或者回答一些问题才允许浏览网页,如果你的网页需要用户操作而不是点击一个标准的超文本链接,蜘蛛程序可能会无法理解而转走。

4、需要Javascript:蜘蛛程序不能执行Javascript,而且一些用户可能会由于考虑到安全原因将浏览器的Javascript关 闭,如果你的网页在允许显示之间先要测试Javascript,那么,他就不能向蜘蛛程序显示,而上面的链接也不能让蜘蛛程序抓取。

四、避免使用JS下拉菜单

蜘蛛程序对JS的理解还不深入,一些在JS存在的链接可能无法被蜘蛛程序捕捉到,而往往菜单中的链接又是很重要的,所以使用JS下拉菜单的网页最好使用html重新这些链接。

除了用html代码,还可以使用来使这些重要链接被正常捕捉,因为一些旧的浏览器不支持 Javascript,或者一些用户禁用了浏览器的这些功能,这样会导致不能执行网页上的Javascript代码,如果下拉菜单需要 Javascript,那么,在不支持或者禁用了的浏览中,下拉菜单将不会被正常显示。

在使用标签的时候,注意标签中的html代码中的每个链接最好使用绝对地址。另外在网页地图中也加上这些网页的链接,可以更好的保证蜘蛛程序发现他们。

未完待续 …..

转载请注明出处 合肥网络公司佳达科技专注于网站推广 www.jdwlkj.net

  2,063 次
 佳达科技
返回列表

暂无回复 给本文留言

给我留言

你必须 登陆才能留言!