其实写个采集规则不难,只要会css语法就行,不会自己去百度脑补下,一般都是先采集列表,然后通过列表抓详情页面,每个列表其实都有css规则控制样式的。
这里推荐一个网站可以学习css选择器:
http://www.w3school.com.cn/css/css_selector_id.asp
把选择器看懂了就知道如何采集列表页和详情页。
当然你也学会了如何自己定义网页样式,一举两得,作为站长还是有必要学习的。
上面是基础知识,下面我们讲解下采集工具给我们带来了哪些方便,我是最早用采集的一批用户,那时候还没有自动入库到多个分类功能,
这个功能用起来爽,我要采集一批资源,但是我不想入库到一个分类,那么我只需要输入想入库的分类id,之后采集会随机入库到这些分类里面。
当然填写分类id的文本框你空着的时候那么就只会入库到采集分类下你选择的那个分类里。
还有一个功能就是分页:
估计有一些人直接输入页码然后就以为分页采集了,提示说的很明白!
如采集的分页是:http://wenda.so.com/c/35?pn=2,后边分页的2则你将“2”页码换成{#num},最后显示 http://wenda.so.com/c/35?pn={#num}
记住,要替换采集网址里的页码的数字,替换成{#num}。
这样才能采集不能页的数据,不然都是重复的,然后你又会问怎么没有把其它页面的数据采集过来。
最后一个功能是自动采集,这个用起来特别爽。
采集时间间隔单位是毫秒,1秒=1000毫秒。
设置2个小时自动采集一次最好,毕竟网站更新不会那么频繁。
自动采集有讲究的,就是你上面填写的那个采集url地址的网页列表是每天都会更新的,也就是更新比较频繁的页面适合自动采集,你采集窗口不要关闭,放那就在设置的时间里自动采集了。
管理员补充:
规则文件存放位置:static/caiji,caiji文件夹里存放的txt文件规则。
这个是360问答的采集规则,一行一个,有就写,没有就‘|’分开,因为这个倒最后是做拆分的。
最后到这完成一大半了,剩下的就是配置下,caiji文件夹里有个xml.php,打开:
能看懂吧,名字和你的txt的键值对,注意‘,’是英文的!
然后当你下次在采集管理页面刷新网页就能看到你新增的采集规则。
好了,我就讲这么多,欢迎吐口水!