火车头采集器V9版使用Post方法采集Ajax页面

2024年12月27日作者 houbanye4

教程总目录：,前几天有个人进群问采集当当网的商品详细描述，我看到后没在群里说话直接开始研究了。还没研究好那人就退群了。。这两天研究另外一个教育类网站，网站列表页是通过POST方式加载的Ajax数据。下面给大家分享下火车头如何采集此类网站。

火车头采集器采集瀑布流Ajax类网站

2024年12月27日作者 houbanye4

教程总目录：,前面文章我们写了通过post请求方式采集Ajax类网站的教程，另外有很多瀑布流Ajax加载的网站无需post数据，直接可以找出列表页地址采集。下面介绍几种常见的瀑布流网站采集。

2024年12月27日作者 houbanye4

网友给的采集地址是百度搜索关键词论文，并限制搜索范围为搜狐网站。地址如下：,因为百度的搜索结果对于URL是加密的，不适合作为采集源。所以我直接在搜狐站内进行搜索，并采集相应的结果。

2024年12月27日作者 houbanye4

这两天重新给一个垃圾站开启采集工作。发现了一些问题是采集结果始终是重复2次。采集器默认设置里的“排除重复设置”不起作用。,经过研究发现可以在内容采集规则里排除重复达到效果。

2024年12月27日作者 houbanye4

本站之前介绍的都是通过web发布到网站的方式。这种方式速度相对比较慢，在采集大量数据时很耽误时间，而且对服务器资源消耗巨大。,火车头采集器默认还有其他2个发布数据的方式：