robots规范写法与用处。

醉波 · *发表于* 2016-10-29 17:13:25

什么是robots协定?

robots协定就是搜刮引擎的爬虫协定,它的呈现就是为了告知搜刮引擎该网站中哪些页面不成以爬取而天生的协定.robots协定是可以用任何文本编纂器编纂的协定.

协定的写法:

User-agent: * 这里的*代表的所有的搜刮引擎种类,*是一个通配符

Disallow: /admin/ 这里界说是制止爬寻admin目次下面的目次

Disallow: /require/ 这里界说是制止爬寻require目次下面的目次

Disallow: /ABC/ 这里界说是制止爬寻ABC目次下面的目次

Disallow: /cgi-bin/*.htm 制止拜访/cgi-bin/目次下的所有以".htm"为后缀的URL(包括子目次).

Disallow: /*?* 制止拜访网站中所有包括问号 (?) 的网址

Disallow: /.jpg$ 制止抓取网页所有的.jpg格局的图片

Disallow:/ab/adc.html 制止爬取ab文件夹下面的adc.html文件.

Allow: /cgi-bin/ 这里界说是答应爬寻cgi-bin目次下面的目次

Allow: /tmp 这里界说是答应爬寻tmp的┞符个目次

Allow: .htm$ 仅答应拜访以".htm"为后缀的URL.

Allow: .gif$ 答应抓取网页和gif格局图片

Sitemap: 网站舆图告知爬虫这个页面是网站舆图

AlobeAttept · *发表于* 2016-11-1 13:23:57

小手一抖，经验到手！手拿酱油，低头猛走！酱油党路过，杜绝零回复

bqtklouu · *发表于* 2016-12-21 10:58:03

想骂你.却不知道从何骂起.

GoodyFouppy · *发表于* 2016-12-21 10:58:13

经过你的指点我还是没找到在哪 ~~~

alapScady · *发表于* 2016-12-21 10:58:45

哈哈~` 好久没有笑喽~

bqtklouu · *发表于* 2016-12-21 11:03:06

这就是我斗胆的一点粗略分析，每天睡觉以前，我都会把您的帖子再三拜读，拜读。

GoodyFouppy · *发表于* 2016-12-21 11:04:11

终于看完了~~~

Mqokjdvq · *发表于* 2016-12-27 12:13:49

杂觉滴~` 你~~` 嘿嘿这个想法不该从你的脑瓜儿出来拉~`

alapScady · *发表于* 2016-12-27 12:15:35

我又回复了

wwdu926a · *发表于* 2016-12-27 12:16:55

刚才游戏去了 ~~嘿嘿~~

mwxny · *发表于* 2016-12-27 12:18:11

原来...发神经是这样的啊...

buingeEvineus · *发表于* 2016-12-27 12:20:02

怎么这么跟别人不一样类~

effoggikeftor · *发表于* 2017-1-3 18:53:28

做为老人！在吧里我都懒的都不想说话！送完经验我就走！

bqtklouu · *发表于* 2017-1-3 18:54:53

想骂你.却不知道从何骂起.

seazvyt · *发表于* 2017-1-3 18:55:17

我帮不了你

robots规范写法与用处。

猜你喜欢

回复|共 25 个

回复

浏览过的版块

快捷导航