禁止自己的网站被爬虫爬去? 财富值76

2016-04-03 00:04发布

禁止自己的网站被爬虫爬去?有什么方法啊

3条回答

不知道你说的爬虫是指百度爬虫还是我们自己编写的爬虫。

百度爬虫按楼上的方法就好了,而防止别人的爬虫有很多方法,比如所有class,或者id都动态生成。因为爬虫解析html一般是通过class或者id来获取想要的东西的。

加一个robots.txt文件,内容:

User-agent: * Disallow: /                              

加入robots.txt,告诉爬虫希望不要爬取我的网站,但是并不会强制禁止,这只是一个约定,需要双方都去遵守。

一周热门 更多>