网络爬虫原理 | DataLearnerAI

网络爬虫原理

2016-09-08 22:03:06

2,910 阅读

java 网络爬虫

目录

#1、网络爬虫原理网络爬虫指按照一定的规则（模拟人工登录网页的方式），自动抓取网络上的程序。简单的说，就是讲你上网所看到页面上的内容获取下来，并进行存储。网络爬虫的爬行策略分为深度优先和广度优先。如下图是深度优先的一种遍历方式是A到B到D 到E 到C到 F（ABDECF）而宽度优先的遍历方式ABCDEF 。

这里写图片描述

#2、写网络爬虫的原因我将为什么写网络爬虫的原因总结为3点，分别是：（1）互联网中的数据量大，我们不能人工的去收集数据，这样会很浪费时间与金钱。而爬虫有个特点就是能批量、自动化的获取和处理数据。本人写过各大汽车论坛上的爬虫以及大众点评网，tripadvisor（国外网站）的爬虫，爬取的数据已有几千万之多，可想你如果一条条去复制，到老死也完不成吧。（2）爬虫很酷。前段日子，看到有人利用爬到了腾讯3000万QQ数据，包含（QQ号，昵称，空间名称，会员级别，头像，最新一条说说内容，最新说说的发表时间，空间简介，性别，生日，所在省份，城市，婚姻状况）的详细数据，并绘制了各种有趣的图表。（3）对于读研、读博，做数据挖掘、数据分析的人而言，没有数据做实验，是一件很蛋疼的事情。你可能每天在各种论坛问这个问那个要数据，是不是很烦呢。

#3、网络爬虫的流程

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码

返回博客列表

#5、HTTP状态码说明 HTTP状态码（HTTP Status Code）是用以表示网页服务器HTTP响应状态的3位数字代码。当我们打开一个网页时，如果网页能够返回数据，也就是说影响成功了，一般状态响应码都是200。当然状态响应码，包括很多内容，下面列举了，状态响应码，及其表示的含义，其中加错的是在爬虫中经常遇到的： 100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。 101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102：继续处理由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。 200：请求成功处理方式：获得响应的内容，进行处理 201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到处理方式：爬虫中不会遇到 202：请求被接受，但处理尚未完成处理方式：阻塞等待 204：服务器端已经实现了请求，但是没有返回新的信息。如果客户是用户代理，则无须为此更新自身的文档视图。处理方式：丢弃 300：该状态码不被HTTP/1.0的应用程序直接使用，只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃 301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源处理方式：重定向到分配的URL 302：请求到的资源在一个不同的URL处临时保存处理方式：重定向到临时的URL 304：请求的资源未更新处理方式：丢弃 400：非法请求处理方式：丢弃 401：未授权处理方式：丢弃 403：禁止处理方式：丢弃 404：没有找到处理方式：丢弃 500：服务器内部错误服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。 501：服务器无法识别服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。 502：错误网关作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。 503：服务出错由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。