Java爬虫入门简介(一) —— HttpClient请求

使用爬虫获取数据对科研来说及其重要,本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。包括HttpClient 4.3及以上版本的Header设置,请求参数设置等。

小木 4961 2017/11/08 15:24:56 HttpClient/Java/爬虫
Java爬虫入门简介(三) —— Jsoup解析HTML页面

使用爬虫获取数据对科研来说及其重要,本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。在这篇博客里,我们将简单介绍Jsoup解析HTML页面的操作。

小木 3109 2017/11/08 11:16:51 HttpClient/Java/Jsoup/爬虫
Java爬虫入门简介(二) —— HttpClient详细使用方法

使用爬虫获取数据对科研来说及其重要,本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。包括HttpClient 4.3及以上版本的Header设置,请求参数设置等。

小木 2476 2017/11/08 11:16:43 HttpClient/爬虫
Java爬虫入门简介(四)——HttpClient保存使用Cookie登录

在使用HttpClient作为客户端请求数据的时候,我们常常需要以一个用户的身份多次请求一个网站内的多种资源。例如,我一次登录后,后面希望以这个身份继续访问不用重新登录。这里就可以使用cookie了。

小木 3979 2017/11/08 11:16:09 Cookie/HttpClient/爬虫
Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问

网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录

小木 5244 2017/11/04 09:28:53 HttpClient/Java/爬虫
爬虫聚焦——以新浪微博为例

学爬虫先学思想,思想掌握了,对应代码学习技术就so easy了~

Vanessa He 2548 2017/03/29 17:35:12 思想/技术/爬虫