2016-10-19 23:01发布
我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集,列表里面能够取得每个文章的id,而每个文章又是通过一个统一的接口(参数带上那个文章id即可获取到对应的json)里面又有一部分数据需要采集然后进行数据分析。
目前有什么比较成熟的框架或者轮子能够实现我的需求吗?(要多线程,而且可以7x24小时稳定运行,因为采集数量巨大)
另外问一下,采集到的内容如何存储(百万到千万),数据里面有一些数字数据,需要进行统计分析,用mysql可以吗?或者说还有其他更加成熟简便的轮子可以用吗?
你没说什么语言什么环境。多线程的话,目前一般用nodejs、python。这两个都可以使用mysql之类的存储数据。几百万上千万不成问题。
最多设置5个标签!
你没说什么语言什么环境。多线程的话,目前一般用nodejs、python。这两个都可以使用mysql之类的存储数据。几百万上千万不成问题。
一周热门 更多>