• 【MyCnCartBE更新】MyCnCartBE v1.7发布,黑白色调新外观
  • 【中国网络适应器(Chrome插件)更新】中国网络适应器(Chrome插件)v1.3发布
  • 【Useso take over Google更新】Useso take over Google v1.7 发布
  • 【Enable Google Maps更新】Enable Google Maps v1.2 发布
  •    7个月前 (07-30)  WordPress开发 WordPress资讯 |   1 条评论  58 
    文章评分 0 次,平均分 0.0

    稍微接触过SEO的站长朋友都应该知道 robots协议(也称为爬虫协议、爬虫规则、机器人协议等),也就是通常添加到网站根目录的robots.txt 文件,它的作用在于告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,从而优化网站的收录结果和权重。

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

    知道Robots协议的作用后,下面具体说一下WordPress的robots.txt文件。

    WordPress站点默认在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。

    如果您的WordPress站点设置了禁止搜索引擎抓取,内容会是这样:

    User-agent: *
    Disallow: /

    如果你观察仔细的话,会发现这个robots.txt文件在根目录其实并不存在,是程序动态生成的,也是因为这个原因,可以通过插件或者代码来控制robots.txt输出的内容。

    比如带有用户用心的站点,需要屏蔽掉包含/user/的页面,主题的functions.php里加上:

    /**
     * 为robots.txt添加内容
     */
    add_filter( 'robots_txt', 'robots_mod', 10, 2 );
    function robots_mod( $output, $public ) {
        $output .= "Disallow: /user/"; // 禁止收录链接中包含 /user/ 的页面
        return $output;
    }

    此时 robots.txt 的内容:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /user/

    除了这个方法修改robots.txt内容之外,也可以手工创建robots.txt文件,上传到网站根目录,这种方式可能更容易理解和操作。

    比较全面的WordPress站点robots.txt文件内容:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-content/
    Disallow: /wp-includes/
    Disallow: /*/comment-page-*
    Disallow: /*?replytocom=*
    Disallow: /category/*/page/
    Disallow: /tag/*/page/
    Disallow: /*/trackback
    Disallow: /feed
    Disallow: /*/feed
    Disallow: /comments/feed
    Disallow: /?s=*
    Disallow: /*/?s=*\
    Disallow: /attachment/

    下面分别解释一下各项的作用:

    1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

    用于告诉搜索引擎不要抓取后台程序文件页面。

    2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

    禁止搜索引擎抓取评论分页等相关链接。

    3、Disallow: /category/*/page/和Disallow: /tag/*/page/

    禁止搜索引擎抓取收录分类和标签的分页。

    4、Disallow: /*/trackback

    禁止搜索引擎抓取收录trackback等垃圾信息

    5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

    禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

    6、Disallow: /?s=*和Disallow: /*/?s=*\

    禁止搜索引擎抓取站内搜索结果

    7、Disallow: /attachment/

    禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

    上面只是些基本的写法,当然还有很多,不过够用了。

     

    除特别注明外,本站所有文章均为Bruno电商技术博客原创,转载请注明出处来自http://www.brunoxu.com/wordpress-robots.html

    发表评论

    表情 格式

    1. :oops: 博主厉害呢

      谜谧珥 评论达人 LV.1 7个月前 (08-11) [0] [0]

    登录

    忘记密码 ?

    您也可以使用第三方帐号快捷登录

    切换登录

    注册