其实说穿了,这个论坛就是著名的52pojie。小白有个软件资源分享站,一直在采集它上面的最新帖子。每天采集一次。
讲道理。它这个论坛虽然采用是dz论坛程序,但是在反爬虫方面还是做得很到位的。我之前就遇到过一次问题(详情参考这篇文章:火车头采集不到数据,源代码显示“访问验证”怎么处理?)。每隔一段时间就会更新一下反爬措施。
昨天使用都好好的,今天开工又出现未知错误。火车头抓取不到帖子列表了。我先是检查了一下火车头的网址获取范围,对比手动浏览器查看源码,没毛病啊。
老规矩。在采集内容页,增加一个测试选项,内容范围填入< html>和< /hmtl>一测试,知道原因了。“请开启JavaScript并刷新该页”。
很明显这就是反爬虫措施。
那么,怎么解决呢?
与上次的解决方案一样,带上cookie值就行了。而且这个cookie值根本你不需要登录论坛账号。直接在未登录状态下。浏览器F12,随便刷新论坛一个页面。把里面的cookie值复制到火车头即可。
至于这个cookie值可以使用多久,以上次的经验来看。直到下次更新反爬虫措施之前,都是OK的。当然,具体有待验证。
评论前必须登录!
立即登录