全国咨询/投诉热线:400-618-9090

首页技术文章正文

人工智能+Python:爬虫开发必学的8个技巧

更新时间:2017-12-18 来源:黑马程序员 浏览量:

现在,有越来越多所谓的“教程”来帮助我们提高爬虫的易用性。本人收集了一些在爬虫开发中容易出错和被难住的小问题,提供了参考的意见和想法,以便于帮助爬虫开发者。

1、爬虫乱码(网址乱码、返回页面乱码、提交数据乱码)

关于爬虫乱码有很多群友的各式各样的问题,不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因此 确定源网页的编码。

2、含有验证码表单登陆

属于post请求,即先向服务器发送表单数据,需要验证码的情况可以使用带验证码登陆的cookie解决。

3、使用代理

适用情况:限制IP地址情况,最好的办法就是维护一个代理IP池。

4、限制频率情况

限制爬虫访问网站的频率来避免被网站禁掉。

5、“反盗链”

加上Referer,伪装成浏览器。

6、自动化测试工具Selenium

Selenium是一款自动化测试工具。它能实现操纵浏览器,包括字符填充、鼠标点击、获取元素、页面切换等一系列操作。

7、验证码识别

利用开源的Tesseract-OCR。

8、多线程抓取

高并发提交采集效率。


需要更多人工智能+Python学习视频+资料+源码,请加QQ:2632311208


本文版权归黑马程序员人工智能+Python学院所有,欢迎转载,转载请注明作者出处。谢谢!


作者:黑马程序员人工智能+Python培训学院


首发:http://python.itheima.com/


javaee

python

web

ui

cloud

test

c

netmarket

pm

Linux

movies

robot

http://www.itcast.cn/subject/uizly/index.shtml?seozxuids

14天免费试学

基础班入门课程限时免费

申请试学名额

15天免费试学

基础班入门课程限时免费

申请试学名额

15天免费试学

基础班入门课程限时免费

申请试学名额

15天免费试学

基础班入门课程限时免费

申请试学名额

20天免费试学

基础班入门课程限时免费

申请试学名额

8天免费试学

基础班入门课程限时免费

申请试学名额

20天免费试学

基础班入门课程限时免费

申请试学名额

5天免费试学

基础班入门课程限时免费

申请试学名额

0天免费试学

基础班入门课程限时免费

申请试学名额

12天免费试学

基础班入门课程限时免费

申请试学名额

5天免费试学

基础班入门课程限时免费

申请试学名额

5天免费试学

基础班入门课程限时免费

申请试学名额

10天免费试学

基础班入门课程限时免费

申请试学名额
在线咨询 我要报名