之前我们在网上看到有wp-autopost插件,是自动采集的。但是需要付费。笔者自己购买使用过,后期官网经常打不开,售后服务不到位,今天仿站网为大家介绍一款开源的wordpress采集插件 WP-JPost,使用该插件需要一定的html、css 基础.知识,,在wordpress官方插件中心可以获取到该插件,也可以在自己的wordpress网站后台,安装插件处获取。
WP-JPost免费采集插件的wordpress官方下载地址:https://cn.wordpress.org/plugins/wp-jpost/
WP-JPost免费采集插件官方网址:https://www.jiloc.com/
WP-JPost免费采集插件截图:
wordpress采集插件 WP-JPost主要功能如下:
1、定向采集目标网站内容,并直接发布。
2、可以设置对应入库的分类。
3、可以自定义文章的标签。
4、可以自定义替换标题、文章内容。
5、自动另存为图片到本地。
6、自动删除内容中的所有链接。
7、加入百度翻译,可以将内容翻译成英文。
8、脚本定时自动增量功能。
如何安装WordPress采集插件WP-JPost?
方法一:在后台插件中直接搜索“wp-jpost”
方法二:在WordPress插件官网下载,然后上传安装
WordPress免费采集插件 WP-JPost如何添加采集任务?
任务名
命名请使用英文字母数字组合.
例:douban。
抓取目标网站域名(网址以/结束)
这里填写目标网站首页的地址,以/结束。
例:https://www.douban.com
抓取目标网站列表页
列表页一般都是二级页面,是栏目的具体展示页,一般是用页内跳转的链接。
例如:https://www.douban.com/group/meituikong/
入库目标分类ID
WordPress 后台 — 文章 — 分类目录 — 编译你想入库到的分类 — 查看浏览器地址栏的地址。
例:/wp-admin/term.php?taxonomy=category&tag_ID=38…
这里的tag_ID=38,这个38就是我们需要填写的值。
标签
WordPress 入库时,写入文章的标签值。多个标签请使用,分割(英文状态的逗号分隔)
例:WordPress,LaoJi,wp-jpost。
目标网站a链接元素
列表页中到二级目录的链接地址,同jQuery选择器方法。
分页格式
列表页中第二页区别列表页的地方。例:
列表页地址:https://www.douban.com/group/meituikong/
翻页后变成:https://www.douban.com/group/meituikong/discussion?start=8850
那么这里就填写:discussion?start={page}
这里的 {page} 就是翻页变化的地方。
分页最大值
这里填写翻页后最后的page值。例:
http://147hub.com/page/2052
这里翻页的最大值,即填写:2052
获取单页标题、目标单页获取元素 :title
内容页中标题、内容的标签值。同jQuery选择器方法。下面我们具体得讲述一下怎么选择元素。首先我们需要使用chrome、firefox之类的浏览器。这些浏览器都具有调试等功能。我们这里以Firefox为例。
首先分析代码,以下元素标签可以是div , h3 ,title ,span , p 等。
例:<元素标签 class=”classname”>…,那么我们应该则填入:元素标签.classname。
例:<元素标签 id=”classname”>…,那么我们应该则填入:元素标签#classname。
学习更多CSS选择器可以参考:http://www.w3schools.com/cssref/css_selectors.asp
步骤:
1、网页空白处右击 — 查看元素 。 下面会弹出一个调试器出来。
内容搜索值 、内容替换值(可以批量多个替换)
比如标题正文中带有一些原来的字符串,我想替换成我的,或者不要了。
注意:这里如想替换成一样的值,可以直接写一个。如每个替换成不同的则需要对应填。例:
搜索值:- 摔角资料, – 赛事新闻 – 摔角网, – 赛事战报, – 摔角网
替换值:
搜索值:搜索1,搜索2,搜索3
替换值:替换1,替换2,替换3
注意这里要一一对应。例如搜索2去要替换成空则替换值也需要留空(替换1,,替换2),否则就不能对应替换了。
curl设置
我们在采集时,会遇到一些网站带有https,或者做了防采集。这时我们就需要curl来帮忙。具体方法请移步:WordPress 采集插件 WP-JPost 在Windows/Linux 系统环境下安装curl 采集 带ssl的https网站 图文教程
WordPress 采集插件 wp-jpost 问答总结
[title]使用了Auto Save Image插件后目标站的图片还是抓不到?[/title]
我们需要对html代码进行分析了,查看一下目标站的图片路径是不是相对路径(即没有http:// 打头的路径),如果是相对路径的话我们这里可以使用搜索替换文字功能,将图片的前缀替换成他的绝对路径即可。
[title]宝塔面板填写curl地址后出现错误[/title]
宝塔面板 Warning: is_executable(): open_basedir
[title]0.0.5更新后为什么会出现404 错误?[/title]
由于之前的版本我们的采集页面返回的代码是404,所以我们0.1开始做了更新,将http code 从 404 变成 200.
可以将插件目录中wp-jpost.php里的 260、261行前的注释去掉,变成:
function jpost_plugin_rules() {
add_rewrite_rule('^jpost/?([^/]*)', 'index.php?jpost=jpost&$matches[1]', 'top');
add_rewrite_endpoint( 'jpost', EP_PERMALINK );
// 重置规则请删除一下2行的注释
global $wp_rewrite;
$wp_rewrite->flush_rules();
}
运行一次插件任务调试,然后再回去到原来的版本。
这样做的目的是为了重置rewrite规则并保存到数据库。
[title]使用宝塔面板后,http://laoji.org/jpost/xxx 出现404 错误?[/title]
1、检查网站是否启用了WordPress的rewrite规则,如果没有,请启用。【请注意:暂时无法兼容WordPress固定链接的 朴素 格式】
2、打开面板,对应的网站网站,设置 — 配置文件,将404的错误注释或者删除掉(从web服务移交给WordPress) :
Nginx:
error_page 404 /404.html;
Apache:
errorDocument 404 /404.html
[title]如何保存采集中的图片以及自动去除文中的所有链接?[/title]
wp-jpost 插件兼容了 Auto_Save_Image 插件,并进行了修改,使它来自动保存修改文中的图片及去除链接。
[title]刚配置完任务,点击【调试】【采集】按钮出现空白页面?[/title]
这种情况可能是插件冲突导致的,建议您禁用其他所有插件后再进行调试、采集。