让火车头采集器只采集第一张图片的解决方法

火车头采集器是一款比较强大的采集工具,很多站长也都在使用,金华也不例外。最近金华在使用这个采集器的时候,碰上一个问题,网上搜索了很久之后都找不到答案,问了群里的朋友、官方的客服,都没有得到解决,SO,自己动手,丰衣足食!

目标:只采集第一页第一张图片

由于要采集的目标站点喜欢将一篇文章分成很多页,每一页又单独配了一张图片。我们采集的时候经常会连同内容当中所有的图片都采集下来,但是像我碰上的这个情况,又只是希望只采集第一页的第一张图片,其它分页的图片不想采集。这样做的好处是既可以节约空间,又可以组织更多的有用的文字内容展现给用户。

实现过程:

在昆哥的帮助下,终于找到一种解决方法,虽然不算完美,但至少在当前能解决这个问题

1、在任务的第二步:页面内容标签定义  这里增加一个新的标签,命名为图片,如下图

2、在图片标签中过滤出自己要的图片代码,通常是带<img alt=”” src=”” />这种格式,请不要在此标签中勾选:该标签在分页中使用,这样就只会采集第一张图片

3、在内容标签中将图片过滤,这里不要勾选下载图片

4、在发布模块中的body当中增加一个参数,如:body=[标签:图片][标签:内容]&,默认body当中只有内容标签,所以我们将我们新增的图片标签加到body当中去,在我们发布文章时将会直接将采集到的第一张图片发布到内容中去。

通过这样的方式,可以达到我们只采集第一张图片的功能。

目前对于这个小功能的建议已经提交给火车头官方了,希望在新版V7当中能够加上,使得火车头更人性化。

火车头是一个强大的工具,我们做网站不可能所有的内容都原创,适当的用好采集将会使你的网站更快的丰富起来。不建议纯采集,如谷歌站长指南当中所说的一样,一定要加上对用户有用的内容,体现出你网站的特色,避免被搜索引擎当作重复内容来处理。