robots文件有什么用呢?
2、屏蔽搜刮 引擎蜘蛛抓取站点内重复内容和页面。
3、制止 搜刮 引擎索引网站隐私性的内容。
4、可以屏蔽一些网站中比力 大的文件,如:图片,音乐,视频等,节流 服务器资源。
5、设置网站舆图 毗连 ,方便引导蜘蛛爬取页面。
想要学习网站搭建以及SEO的搭档 可以来这个群:215--113--587 在这里,大神带你进入互联网的天下 ,在这里,你可以学习到你想要学习到的东西,在这里,绝对不会让你扫兴 !
一个网站写有robots文件是很有须要 的,假如 网站中重复的页面、内容大概 404信息过多,那么搜刮 引擎蜘蛛抓取时间 就会以为 该网站代价 较低,从而低落 对该网站的权重,如许 网站的排名就不好 了。
robots怎么写呢?
User-agent: * 这里的*代表的全部 的搜刮 引擎种类,*是一个通配符
Disallow: /admin/ 这里界说 是克制 爬寻admin目次 下面的目次
Disallow: /require/ 这里界说 是克制 爬寻require目次 下面的目次
Disallow: /ABC/ 这里界说 是克制 爬寻ABC目次 下面的目次
Disallow: /cgi-bin/*.htm 克制 访问/cgi-bin/目次 下的全部 以”.htm”为后缀的URL(包罗 子目次 )。
Disallow: /*?* 克制 访问网站中全部 包罗 问号 (?) 的网址
Disallow: /.jpg$ 克制 抓取网页全部 的.jpg格式的图片
Disallow:/ab/adc.html 克制 爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里界说 是答应 爬寻cgi-bin目次 下面的目次
Allow: /tmp 这里界说 是答应 爬寻tmp的整个目次
Allow: .htm$ 仅答应 访问以”.htm”为后缀的URL。
Allow: .gif$ 答应 抓取网页和gif格式图片
Sitemap: 网站舆图 告诉爬虫这个页面是网站舆图
下面,小编将罗列 一些robots.txt的具体 用法:
答应 全部 的搜刮 引擎访问网站全部 的部分 的robot写法:
User-agent: *
Disallow:
大概 也可以建一个空文件 robots.txt 文件,功能同上。
克制 全部 搜刮 引擎访问网站的任何部分 的robots写法:
User-agent: *
Disallow: /
克制 全部 搜刮 引擎访问网站的某几个部分 (下例中的01、02、03目次 )的robots写法:
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
克制 某个搜刮 引擎的访问(如下例中克制 百度引擎抓取)的robots写法:
User-agent: Baiduspider
Disallow: /
留意 :以上写法只克制 了百度搜刮 引擎的抓取,其他搜刮 引擎还是 可以来抓取的。
只答应 某个搜刮 引擎的访问(如下例中只答应 谷歌搜刮 引擎抓取站点内容)的robots写法:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
克制 搜刮 引擎抓取本身 网站图片(克制 图片抓取)的robots写法:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
假如 你的网站有动态和静态两种情势 的网页,你只答应 抓取静态页面(克制 动态页面)的robots写法:
User-agent: *
Disallow: /*?*
下面趁便 将各大搜刮 引擎的蜘蛛的名字分享一下(这里仅罗列 中国国内比力 常用的一些搜刮 引擎):
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
搜狗蜘蛛:sogou spider
360蜘蛛:360Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
未经本人答应 ,转发前请接洽 本人QQ:482500554
谢谢相助
发表评论