DXC采集教程,很简单也很实用

dxc采集软件是一款高效易用且免费的采集软件,它支持多种网站接口,而本人搭建的佛学网采用wordpress搭建,正是其支持之一。曾经用过一些wordpress采集软件,如autopost,其耗费服务器资源不说,而且采集速度与质量都不如人意。自从在QQ群谈到autopost拖死多次vps(数据库日志撑挂)时抱怨采集插件低效时群里的朋友向我推荐dxc,顿时感觉完美了。

由于本人懂的不多,只说说dxc采集插件的简单操作方法;去dxc官方网站下载并安装,以谷歌浏览器为例。

例子一,采集对象:http://www.xuefo.net/all_1.htm

  • 我们可以看到要采集的网站文章巨多,超过2000页,我们可打开dxc采集软件并新建采集项目,在‘网址设置’中输入:http://www.xuefo.net/all_(*).htm,根据浏览该站文章列表页发现列表的地址是用数字区分页面的,会变动的地址用(*)替代,并在下方输入具体的生成数字。如下图:
  • 接下来输入文章列表中具体的文章地址规则。用谷歌浏览器打开文章列表,右键–查看网页源代码,可以看到网页源码中的一篇文章为例:<a target=”_blank” href=”/nr/article48/480464.html”>&nbsp;&nbsp;意淫猛于虎</a></font>,我们可以看到‘意淫猛于虎’是文章的名称,‘/nr/article48/480464.html’是文章的地址,而我们现在要提取的是文章的地址,可以把地址替换成[data],把文章名字替换成(*)即可。如下图,以获取字符串为例:
  • 经过上面的设置,可以让软件知道了文章列表地址与文章的地址,下面我们在‘数据获取’中设置要采集文章的内容从哪里开始到哪里停止;以文章http://www.xuefo.net/nr/article48/480464.html 为例;用谷歌浏览器打开并查看其网页源代码,发现标题代码:<font color=”#009900″ style=”font-size: 12pt; font-weight:700″>&nbsp;意淫猛于虎</font></td>
  • 在‘标题’设置中,标题规则设置成:<font color=”#009900″ style=”font-size: 12pt; font-weight:700″>&nbsp;[data]</font></td> 就是把采集的文章标题文字设置成[data]。如下图:
  • 文章标题规则设置好了,我们就开始设置文章内容采集规则;在‘数据获取’中,点击‘内容’,通过查看网页的源代码发现,文章开头前面不重复的代码中<td width=”2%” height=”auto”></td>是不错的选择,就是从这开始采集文章内容,文章结束后方发现也有一个<td width=”2%” height=”auto”></td>,发现文章内容夹在两段代码内,于是可以设置成:<td width=”2%” height=”auto”></td>[data]<td width=”2%” height=”auto”></td> 上方两段代码中的内容用[data]替代,根据个人需要,可以‘格式化’剔除不需要的东西,如链接,图片,空格,字体,颜色等等,非常强大,如下图:
  • 当然你也可以通过‘数据处理’替换或者添加。设置好之后我们可以通过测试来看看效果如何,如果有需要或者采集不到可以做出需要的修改,如下图的测试采集效果:
  • 设置无误之后,即可保存并进行采集:
  • 我发觉速度是非常的快,非常的高效。可以通过采集列表查看采集数据,如下图
  • 采集到的数据还是挺多的:
  • 采集完毕并确认无误后,在编辑采集的‘发布设置’中相应修改好自己的接口密匙即可发布采集到的文章,发布速度也很快。
  • 需要注意的是,某些网站因为历史版本或者版面需求原因,文章版面可能不尽相同,可适当添加合适的规则。

例子二,采集对象:http://www.gming.org/fxrm/fyrs/

采集规则如图:

本人水平有限,更专业的操作和更多功能请自行发掘。

 

此条目发表在日志分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。

You must enable javascript to see captcha here!