互创青年
网站优化:ROBOTS文件(协议)

网站优化:ROBOTS文件(协议)

当查找蜘蛛拜访一个站点时,它会首要查看该站点根目录下是不是存在robots.txt,假如存在,查找机器人就会按照该文件中的内容来断定拜访的规模;假如该文件不存在,一切的查找蜘蛛将能够拜访网站上一切没有被口令维护的页面。baidu官方建议,仅当您的网站包括不期望被查找引擎录入的内容时,才需求运用robots.txt文件。假如您期望查找引擎录入网站上一切内容,请勿树立robots.txt文件。

功能:robots协议用来奉告查找引擎那些页面能被抓取,哪些不能被抓取,能够屏蔽网站中比较大的文件如:图片 ,音乐 视频等节约服务器带宽;能够屏蔽站点的一些死链接。

网站优化:ROBOTS文件(协议) - 互创设计 - 1

robots文件的写法:百度站长平台

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

例. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

禁止百度蜘蛛访问其网站下其所有的目录

User-agent: Baiduspider

Disallow: /

允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

User-agent: *

Allow: /

允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

网站有三个目录对搜索引擎的访问做了限制

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

搜索引擎入口

向搜索引擎提交你的网站。只有提交了,它才有可能对你网站进行收录,才有机会展示在用户的面前

网站提交时间

1.从seo 的角度来看,网站提交各大搜索引擎最佳的时间是:确定不会对已经生成的链接和内容进行大规模改动之后。

2.任何一个搜索引擎都不喜欢经常改动的网站,因为那意味着该网站不够稳定

site

写法:在浏览器www.baidu.com 或www.Google.com 搜索页面框输入

site:www.foxea.com.cn(将www.foxea.com.cn 换成你的域名)

外链是指从别的网站导入到自己的网站的链接。

 

赞 (0)
上一篇:     下一篇:
码字很辛苦,转载请注明来自互创设计《网站优化:ROBOTS文件(协议)》

评论