JavaScript 逆向

JS逆向实例一:隐藏下一页链接地址

有些网站的反爬是特殊处理了 章节内容下一页 的链接,如下图:

内容下一页并无链接地址下一页并无链接地址

我们在页面中能正常看到下一页的链接也可以正常点击跳转到下一页,但对于爬虫来说这个下一页是没有链接地址的。看页面源码如下图

内容下一页源码内容下一页源码

源码中并无下一页的链接,页面中显示的下一页实际对于爬虫来说是一张图片。这种对于通用性爬虫工具来说是无法正常获取下一页内容的。我们仅能获取到第一页,这样就导致我们获取到的全部内容都是不完整的。这个时候我们就需要使用到JS逆向技术将下一页地址还原处理然后提供给爬虫程序。

JS逆向实例二:正文内容加密输出

还有些页面正文内容是被加密显示的。如下图,浏览器中我们看到的正文内容是完整的,但源码中只有少部分明文内容。

浏览器正常显示内容浏览器正常显示内容

源码中只有少部分明文内容源码中只有少部分明文内容

加密的正文内容加密的正文内容

分析源码可以看到正文内容其实是被加密输出,然后通过js解密显示的。对于这类站点我们需要找到解密函数然后提供给爬虫程序执行解密。不然就只能获取到一大串无用的字符串。