这样的爬虫思路要怎么设计?? - whatsns开源问答社区

这样的爬虫思路要怎么设计?? 财富值11

2016-10-22 19:36发布

5条回答

1楼 · 2016-10-22 19:58.采纳回答

有问题可以继续讨论。

2楼-- · 2016-10-22 19:41

订阅了 "good_content" 的系统收到该事件，就会自动更新内容。具体是用什么来实现发布订阅模式，方法有很多。如果是在一个项目中，自己写代码实现一个就行了；如果不是一个项目，就用消息队列，或者Redis也有提供发布订阅的功能（据说不太好用，哈哈～）。

3楼-- · 2016-10-22 19:46

发布订阅模式，有优质内容就发布一个 "good_content" 事件，然后其他的网站订阅这个事件，这样不管你有多少网站，整个系统都是松耦合的。

4楼-- · 2016-10-22 19:41

首先，不用两只爬虫，一只爬虫爬去内容的时候，就可以分辨出是优质还是劣质内容，是的话，就直接发布 "good_content" 事件，你的爬虫系统就这么简单。

5楼-- · 2016-10-22 19:46

高估了自己的数据量，低估了python性能。
不用设计，花半天看scrapy文档，官方例子流程就符合你了。

这样的爬虫思路要怎么设计?? 财富值11