当前位置: 首页 » 帮助与支持 » 网站SEM推广 » 正文

[SEO问答]请专家分析,百度蜘蛛爬取的原理问题

放大字体  缩小字体 发布日期:2015-06-28  来源:云景网  作者:admin  浏览次数:120
核心提示:小弟不才,对百度蜘蛛的爬取的原理比较模糊后者说理解的有偏差,希望高手赐教。1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的

  小弟不才,对百度蜘蛛的爬取的原理比较模糊后者说理解的有偏差,希望高手赐教。

  1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。

  2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。

  3、根目录下.jsp格式的模版文件会被抓取吗?

  主要是对抓取的原理不太懂,写的乱糟糟的,同时希望给些资料查看。

  回复:

  1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。

  回答:百度会先访问robots.txt文件,看一下哪些目录不被收录,然后从首页开始抓取首页所放置的链接,爬取策略包括深度遍历和广度遍历。robots.txt协议说的是不想被收录,但是百度蜘蛛有时候还会爬的。

  2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。

  回答:蜘蛛是顺着链接抓的,只要你的链接用户能打开,蜘蛛就能抓,伪静态会对页面打开速度有一定的影响,页面打开速度又影响蜘蛛抓取的效率。伪静态不会生成静态文件,生成静态文件就叫做静态网页了,织梦生成的静态文件。

  3、根目录下.jsp格式的模版文件会被抓取吗?

  回答:模板文件、js、css什么的,你如果不屏蔽,蜘蛛也是会爬的。

  回复:

  我一直很稀奇一件事情,百度站长平台中的站长资讯给的资料已经够好的了,我做这行五年了,现在里面的文章过段时间就看看。可发现很多人都不知道?

  里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二,看完之后,或许对你有很大帮助。

  百度蜘蛛他进不了你的服务器去查看你的网站根目录的,他只能通过网站前台的链接往里抓取。

  所以这就要求我们,尽量做成扁平式结构:通过首页抓取所有目录页面,再通过所有目录页面抓取内容页。

 
 
[ 帮助与支持搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 

 
推荐图文
推荐帮助与支持
点击排行
>>>>>>