关灯
开启左侧

[SEO杂谈] 优化网站配置之robots文件使用说明

[复制链接]
阿毛小世界 发表于 2015-2-1 22:36:02 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
  随着个人能力的提升,我开始由开始负责一些新项目操作,虽然这些项目所优化的关键词排名进度还算比较好,但在操作过程中我遇到了很多问题,这些问题的发现、解决让我认识到了seo工作中细节的重要性,可谓是细节决定成败。特别是通过项目的实战操作,让我时刻的认识到了robots文件在网站优化中的重要性。所以,seo童鞋们,特别是一些初涉seo领域的童鞋们,一定要熟练的掌握robots文件使用说明及其事项。5 w, Q, j7 ]3 w) z! x$ R3 D  s
  Robots文件,严格说来是robots.txt文件,它的真正内涵应该如何理解呢?其实robots.txt不是命令,而是一个协议。搜索引擎在抓取一个网站内网页的时候,会先抓取robots.txt文件,所以这个文件存在的意义就是告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。当搜索引擎抓取网站内的网页时,它会首先访问网站根目录下的robots文件,如果存在这个文件,搜索引擎会按照文件中定义的内容进行抓取,如果没有的话,搜索引擎就会抓取一切被允许它能够抓到的页面。在我的理解中,robots文件就像是告诉搜索引擎哪些页面该访问,哪些搜索引擎不该访问。; x* m- T7 ?' r. K1 V& M( I
  那么robots.txt文件的真正写法是什么呢?在操作荣利站点的时候,由于这个站点以前是老站点,而且是动态页面,现在是被调成了静态页面,所以里面会有很多原先的文件都消失了,所以搜索引擎就无法抓取到,会出现很多抓取错误,多达两千个,这就很有必要运用robots文件把这些已经找不到的页面定义掉,让搜索引擎不再抓取。这些内容就牵涉到robots.txt文件的书写问题。Robots文件中有两个基本原则,是最简单的robots文件要写的,第一是User-Agent: 适用下列规则的漫游器 ;第二是Disallow: 要拦截的网页,而Allow是定义允许搜索引擎收录的地址。所以robots的文件写法有以下:  w9 T5 r3 Q% B( I9 g! `4 w
  User-agent: * (这里的*代表的所有的搜索引擎种类,*是一个通配符 )" {" X+ E. w2 R! B5 F- Y
  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
8 Z% M& ?$ V9 d( L  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录! j) W" h9 O0 I4 b) K$ N
  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
0 S: c& [) ~6 r0 u2 _$ B3 R+ ]  Disallow: /A 是屏蔽A目录下的所有文件,包括文件和子目录,还屏蔽 /A*.*的文件
+ J3 N- w$ e( Q# [6 w; c# U8 _  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
7 p* m* M+ d6 Q. C0 X% e% u- G+ N  Disallow: /*?* 禁止访问网站中所有的动态页面
- g8 n0 L7 `3 p+ \% [% e, |  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
3 x$ ]+ k* R3 @4 r- o( B  D6 L5 l  Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
+ C2 h! P( T) a' p, k" x8 @  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
, \& ?1 X) N/ u" e0 Q  Allow: /tmp 这里定义是允许爬寻tmp的整个目录
# r" v- }; l: v& h& Z6 G' m3 r  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
; {# A5 Z8 t0 V" m4 _  Allow: .gif$ 允许抓取网页和gif格式图片
0 H% x6 e( i8 Q& R0 X7 ^% S; H  而在我的站点操作中,会用到的有两个,即是最简单的robots文件的基本原则,它们分别是3 ^/ o; D( Q2 B
  User-agent: *# N2 O" X+ |3 _1 G/ s
  Disallow:/english/(即定义掉english目录下面的文件)
+ \8 z3 }$ z( M- {. ~8 ^. g
3 K8 U5 P1 j3 W7 K; Q
                               
登录/注册后可看大图

$ [1 |. E  \; M' H- p/ `% O7 z  写robots.txt文件要注意:robots.txt文件必须被放置在一个站点的根目录下,一般需要在网站后台添加;robots.txt文件名必须小写。这两点看似很简单,在操作时是很多seo童鞋们是很容易犯错误的,所以还是提醒一下。8 j/ H; p9 N  z$ @# }
  现在手上的seo项目越来越多,也真正的感受到了seo工作并不是一件简单的事情。这也告诉我:以后在操作seo项目时,要注意细节,这样操作的操作才会越来越有把握。
- _- D' F7 G* W: N0 I  文章来源于上海seo公司http://seo交流teachseo.技术交流.站长交流/news-2-1.html,转载请注明出处
 

精彩评论10

正序浏览
佚名  发表于 2015-3-23 14:16:57
 
本人在此留言均为网络上复制,用于检验本人电脑键盘录入、屏幕显示的机械、光电性能。并不代表本人局部或全部同意、支持或者反对楼主观点。
 
佚名  发表于 2015-3-23 14:34:47
 
为了不让帖子沉得太快!!!为了人人知道这个~!! 我不是原创~!!但是我要把他发扬广大~!!!
 
佚名  发表于 2015-3-23 14:25:28
 
哈哈~~~相比现在没人在了 吧 哈哈~~~~
 
佚名  发表于 2015-3-23 14:22:06
 
哪个正常的人能崇拜一只蟑螂呢?
 
佚名  发表于 2015-3-23 14:40:06
 
真是有你的!
 
佚名  发表于 2015-4-15 11:34:11
 
哈哈 怎么说来眼睛小真的很好 哈 哈哈~~~~
 
佚名  发表于 2015-4-15 11:55:36
 
嘿...反了反了,,,,
 
佚名  发表于 2015-4-15 11:51:23
 
笨点也好~~~~
 
佚名  发表于 2015-4-15 11:38:13
 
老大,我好崇拜你哟
 
佚名  发表于 2015-4-15 11:36:59
 
baidu是相当能折腾我了
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


关注

粉丝

帖子

热门图文
热门帖子
排行榜
作者专栏

关注我们:微信订阅号

官方微信

APP下载

全国服务Q Q:

956130084

中国·湖北

Email:956130084@qq.com

Copyright   ©2015-2022  站长技术交流论坛|互联网技术交流平台Powered by©Discuz!技术支持:得知网络  

鄂公网安备 42018502006730号

  ( 鄂ICP备15006301号-5 )