wordpress自动采集插件crawling 附教程

释放双眼,带上耳机,听听看~!

一、关于插件

Crawling是一款WordPress下的自动采集爬虫插件,能够自动采集爬取目标网站内容并自动发布。

插件开源免费。爬虫漫步版权所有。

二、下载和安装

首先,下载最新版,得到crawling_v*.tar.gz。

然后,解压压缩包,上传到wordpress插件目录。激活插件。

使用教程

使用教程

三、任务管理

一个任务可以理解为一个爬虫,在这里你可以配置多个任务,每个任务可以单独设置参数。

每个任务单独设置的参数


以采集互联网那些事 http://www.yixieshi.com 该网站为例,这里只需要右键查看网页源代码,即可知道相应的链接 Xpath 规则是如何的,在我们目标网站中,文章的链接在网站 h2 标签下的 a 标签,所以规则就写//h2/a,即可。如下图所示。

wordpress自动采集插件crawling 附教程
wordpress自动采集插件crawling 附教程
wordpress自动采集插件crawling 附教程

同理,文章标题匹配方式为文章页源代码中<div class=”post-main clearfix”>标签下的 h1 标签,那么我们匹配的时候按照 Xpath 规则,写为//div[@class=”post-main clearfix”]/h1 即可,@的作用是选中 class=”post-main clearfix”的 div 标签,按照这样的规则,再将文章内容匹配的标签规则写上,即可开始采集。

wordpress自动采集插件crawling 附教程
wordpress自动采集插件crawling 附教程

还有更多高级功能,如翻页,内容过滤等,完全可以实现自定义采集目标网站内的任意内容。

不足之处,在实际运行这个插件中,发现,如果目标网站的文章链接为相对链接,则无法采集成功(此处也可能是小编对 Xpath 的规则掌握尚浅),所以选定目标网站时候,需要先查看一下,确认该网站的文章链接为绝对链接才行。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

版权申明:网站字体及图片来源于互联网,如果侵犯了您的权利,请联系我们,我们将尽快改正我们的错误,谢谢您的理解!

给TA赞赏
共{{data.count}}人
人已赞赏
WordPress主题下载软件代码

解决wordpress分享朋友圈不显示缩略图的问题插件-WX CUSTOM SHARE

2018-9-9 23:17:15

WordPress主题软件代码

『教程』VPS建立博客 安装WordPress 新手小白视频教程

2018-9-12 10:52:26

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索