wordpress自动采集插件crawling 附教程

WordPress主题
18年9月11日
编辑

知道君

释放双眼，带上耳机，听听看~！

一、关于插件

Crawling是一款WordPress下的自动采集爬虫插件，能够自动采集爬取目标网站内容并自动发布。

二、下载和安装

首先，下载最新版，得到crawling_v*.tar.gz。

然后，解压压缩包，上传到wordpress插件目录。激活插件。

使用教程

使用教程

三、任务管理

一个任务可以理解为一个爬虫，在这里你可以配置多个任务，每个任务可以单独设置参数。

每个任务单独设置的参数

以采集互联网那些事 http://www.yixieshi.com 该网站为例，这里只需要右键查看网页源代码，即可知道相应的链接 Xpath 规则是如何的，在我们目标网站中，文章的链接在网站 h2 标签下的 a 标签，所以规则就写//h2/a，即可。如下图所示。

同理，文章标题匹配方式为文章页源代码中<div class=”post-main clearfix”>标签下的 h1 标签，那么我们匹配的时候按照 Xpath 规则，写为//div[@class=”post-main clearfix”]/h1 即可，@的作用是选中 class=”post-main clearfix”的 div 标签，按照这样的规则，再将文章内容匹配的标签规则写上，即可开始采集。