ask2问答系统采集教程

2016-04-26 10:06发布

本采集既可以批量采集标题有可以同时采集答案,问题回答两不误,发布人和发布分类可以自己指定,回答问题人可以除发布人之外随机分配保证真实性,如果有好的回答则自动选择为最佳答案,总体评价:给力!!

输入指定网址和支持css样式的规则即可自动采集



上面我采集的是百度的一个修车问答采集列表网址

http://zhidao.baidu.com/browse/155?pn=125#list

通过火狐分析我们需要的问题所在的样式标题名可知道是它



然后我们需要知道答案,我们找到问题对应回答所在的url

http://zhidao.baidu.com/question/455189918705199445.html?fr=qlquick&entry=qb_browse_default


然后通过火狐分析回答a标签的样式名称


这样把需要的样式标题填写进去就行,注意:类名前面加".",ID前面加“#”,符合样式书写规则.

这些工作准备完点击提交会出现需要的采集数据,最后选择指定用户和分类就等着入库吧。太给力了。





下面是采集360问答网站的:

  • 经过一周的辛苦开发,又是采集插件,又是TM一个游戏让我开发,唉,在今天终于把采集做的越来越强大了。不多说,看演示:

    随便弄个站点吧,来360官方的360问答吧,网址:

    http://wenda.so.com

    360官网的哟,好了,我现在要采集我喜欢的分类,比如:



    我选择 维修保养的,网址是:http://wenda.so.com/c/272?pn=2


    好了,现在我们要做的是看看这个数据列表的问题a标签的类名


    找到了是 .wrap下的.lnk,好了,我们在后台这样填" .wrap .lnk"



    到这里你基本可以把问题采集过来了,哎呀妈呀,我还想采集问题答案呢。

    好的,我们现在采集它的答案,随便点个链接进入回答问题的页面:

    http://wenda.so.com/q/1409628862610513

    观察这个页面:

    我们用css样式分析类似的方法可以找到它的问题描述样式为 ".q-cnt"


    我们用类似的方法可以找到问题的答案所在的样式名称为“.other-ans-cnt”

    好了,到这里我们基本能采集问题和答案还有问题描述了,满足了吗,对!我们还不满足,来,

    下一步咱们把它网站用户名和头像一起扒到咱自己网站里面去,仿也仿的像点,还是他在回答这个问题。

    怎么办,还是老方法,分析用户标题和头像所在样式,我们可以看到标题的样式是“.ask-author”


    但是为了区分是其它回答的用户回答的咱们还是加上这个分类的父级分类吧,所以最后是

    这样“.answers > .ask-author",就是它:


    好了头像样式名称也可以类似知道" .answers >.pic >img"




    好了,到这里基本连用户名和头像一起弄过来了,妈妈再也不用担心网站用户数了,有了头像看着

    舒服点。

    我们看看最佳答案的样式名称".resolved-cnt"



    好了,轻轻松松已经把我们需要的数据采集过来了,反正需要什么采集什么就OK,

    想只采集问题只需要写采集的url和采集列表的样式名称就OK.






        


    http://wenda.whatsns.com/c-10.html


    升级版不在需要指定用户数,对于一下子采集多条同一个用户发布不合理,采用随机用户发布,发布到哪个分类自己

    可以指定,并且随机设置发布问题浏览数还有回答问题的点赞数,一般浏览数初期10-200,点赞数10-100之间,哈哈。

    提问时间最近的8个小时,回答时间是现在的3个小时之间,让网友误以为这个网站回答人气挺高的。吊爆了!