博客学堂
首页>>博客在线>>博客优化>> 利用Robots.txt做搜索引擎优化

利用Robots.txt做搜索引擎优化

来源:秦爱网志  | 添加时间:2007-12-18 18:18:40 |   | 我要投稿 | 提问

这两天一直在忙活着域名的事情,同时收到很多网友关于模板的投诉,下午就在改,大家已经看到了。现在有点时间把内容补上吧。今天给大家的一个和搜索引擎优化有关的话题,是经我试验后的结果,很有效,方法就是通过Robots.txt文件做减法来向搜索引擎示好,从而达到在搜索引擎上高效索引和排名的作用。

在拿出方法之前,让我们先思考这样一个问题。搜索引擎是否愿意收录大量页面重复的内容,估计大家都知道:不会。换成你是Google和Baidu你也不愿意(当然一些完全以收录量为目标的搜索引擎除外),搜索引擎有一大部分工作就是淘汰重复的网页。根据这种思想,我们可以帮助搜索引擎来完成这件事。当一个网页页面重复度低(要保证你的博客内容是原创哦),搜索引擎的友好度相应就有提升,这样整站的友好度高自然会带动文章在搜索引擎的索引效果。这种思想是基于互利原则的,绝不是作弊,其实SEO和作弊也绝不能画等号的。这种方法还有一个优点是:会节省你大量的服务器占用资源。

下面秦爱根据两种程序为大家举些例子,一是Wordpress,二是Zblog,其中Wordpress是国外SEO权威网站:SEOBOOK的,而Zblog是秦爱自己研究的,不过不要担心,经我试验只有效果明显。

★ Zblog中利用Robots.txt优化搜索引擎

User-agent:*
#Sitemap
Sitemap:http://www.yourname.com/sitemap.asp //这个指引搜索引擎蜘蛛找到你的Sitemap,在Google管理员工具中检测提示错误,这是Google Robots.txt的一个BUG,事实上是有效果且正确的。
#Directories
Disallow:/ADMIN/ //管理员登陆入口,搜索引擎就不要进来吧?呵
Disallow:/SCRIPT/ //我们调用的SCRIPT文件,搜索引擎抓到了,也不读。
Disallow:/PLUGIN/ //插件目录,不需要抓取
Disallow:/FUNCTION/ //不需抓取
Disallow:/UPDATE/ //Zblog官方的升级信息目录,不需抓取。
Disallow:/ARTICLE-IMAGE/ //网站模板中用到的一些小图标,这些在网上到处都是,就是让搜索引擎抓去了也没有排名,还浪费你的资源。
Disallow:/DATA/ //数据库目录
Disallow:/CACHE/ //Zblog生成静态页的缓存目录,这个和你的正常文章基本一致,高重复。建立拿掉
Disallow:/STYLE/ //CSS生成目录,不需抓取
Disallow:/TEMPLATE/ //模板目录,不需抓取
Disallow:/CSS/ //CSS的一些调用文件目录,不需抓取
Disallow:/LANGUAGE/ //语言目录,不必抓取
#Files
Disallow:/login.asp //我们的登录后台文件,不需抓取。
Disallow:/cmd.asp? //这个是供别人引用通知时产生的页面,不需抓取。
Disallow:/search.asp //搜索页,这页在没有人使用时,就是一个空页
Disallow:/atom.xml //支持ATOM的FEED页,高重复。
Disallow:/rss.xml //支持RSS的FEED页,高重复。
Disallow:/view.asp? //一般后台预览时生成的页面,高重复。

注意:你如果要用这段代码,把//和//前面的空格删掉再用,同时记得把sitemap地址改过来,要用绝对地址。Disallow:后面不要有空格,因为有空格在一些验证程序中通不过。另外,如果你是黑客或想成为黑客,请不要拿秦爱网志来研究,我是为大家做服务的,要研究去Z-Blog官方网站找他们PK。这句玩笑是半真半假的,我是想告诉读者,这种优化很容易让人找到你的目录结构。其实,如果哪位大侠盯上你的话,你跑也跑不掉。

★ Wordpress中利用Robots.txt优化搜索引擎

User-agent: *
Crawl-delay: 10
# Directories 目录
Disallow: /database/
Disallow: /includes/
Disallow: /sites/
Disallow: /themes/
Disallow: /misc/
Disallow: /modules/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
# Files 单个文件
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.txt
Disallow: /update.php
Disallow: /install.php
Disallow: /CHANGELOG.txt
Disallow: /MAINTAINERS.txt
Disallow: /LICENSE.txt
Disallow: /UPGRADE.txt
# Paths (clean URLs) 静态路径
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /admin/
Disallow: /logout/
Disallow: /node/add/
Disallow: /aggregator/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /user/login/
# Paths (no clean URLs) 动态路径
Disallow: /?q=admin/
Disallow: /?q=aggregator/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=search/
Disallow: /?q=user/register/
Disallow: /?q=user/password/
Disallow: /?q=user/login/

由于我对WP的目录结构不太清楚,如果你用Wordpress,你一定能发现其中代表的意思,你可以参照Zblog中的说明来理解,秦爱就是研究了这段代码后更改的。再次希望网友不要拿秦爱网志来试验,如果你转载了此文,不要把这句话干掉,谢谢!搜索引擎优化归要结底是为了更好的收录你的网页,真正能得到搜索引擎认可的是你的内容。

收藏和分享:

我来说两句

用户名: 新注册) 密码: 匿名评论 [所有评论]
评论内容:不能超过250字,请留下您的联系方式,方便我们回复您的留言。

网站地图 - 关于我们 - 版权声明 - 广告服务 - 联系我们 - 诚聘英才 - 帮助中心
Copyright © 2007-2008 www.blog286.com all Right Reserved
博客学堂 版权所有