在我们需要获取某些网站的内容时,有可能会遇到下面这种情况。我们看到页面中章节显示顺序是正常的。如下图
正常章节顺序
但大家都知道蜘蛛或者是爬虫看到的和我们在浏览器页面看到的是不一样的,下面我们看爬虫能看到的源码是什么样的?如下图
章节排序并不是我们看到的顺序
在爬虫能看到的源码中我们看到章节的顺序并不是和页面中显示的一样。源码中章节顺序是混乱的,如果我们直接提取章节也只能获取到混乱的章节排序。这个时候我们就需要单独处理这类站点通过程序恢复章节的正确排序。
在我们需要获取某些网站的内容时,有可能会遇到下面这种情况。我们看到页面中章节显示顺序是正常的。如下图
正常章节顺序
但大家都知道蜘蛛或者是爬虫看到的和我们在浏览器页面看到的是不一样的,下面我们看爬虫能看到的源码是什么样的?如下图
章节排序并不是我们看到的顺序
在爬虫能看到的源码中我们看到章节的顺序并不是和页面中显示的一样。源码中章节顺序是混乱的,如果我们直接提取章节也只能获取到混乱的章节排序。这个时候我们就需要单独处理这类站点通过程序恢复章节的正确排序。