User-agent: *Allow是robots文件中的一句语法,代表的意思是:允许所有的搜索引擎可以按照robots文件中的限制语法进行合理的抓取网站中的文件、目录。
obots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。robots.txt文件的格式:User-agent: 定义搜索引擎的类型,Disallow: 定义禁止搜索引擎收录的地址,Allow: 定义允许搜索引擎收录的地址。
$通配符:匹配URL结尾的字符。例如,下面的代码将允许蜘蛛抓取以 .html 为后缀的URLUser-agent: *
Allow: .html$
下面的代码将禁止蜘蛛抓取以 .html 为后缀的URL
User-agent: *
Disallow: .html$
*通配符:告诉蜘蛛匹配任意一段字符,是任意一段字符,我想像你那两种设置应该都可以。例如,下面一段代码将禁止蜘蛛抓取所有html文件:
User-agent: *
Disallow: /*.html
Allow和Disallow可以配合使用的,如果你只想禁止抓取/comment_383.html所在文件内的所有这种URL,如:/comment_383.html所在的文件夹为/abc,可以写如下代码:
User-agent: *
Disallow: /abc/.html$
这样就可以禁止抓取/abc文件夹下的以 .html 为后缀的文件了。
扩展资料:
robots文件中常用的语法:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符;
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录;
Allow: /tmp 这里定义是允许爬寻tmp的整个目录;
Allow: .htm$ 仅允许访问以".htm"为后缀的URL;
Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例。
如果还有什么不明白的地方,可以提问!
发表评论