Slaver端从Master端拿任务(Request/url/ID)进行数据抓取,在抓取数据的同时也生成新任务,并将任务分配给Master端。Master端只有一个Redis数据库,负责对Slaver提交的任务进行去重、加入待爬队列查看全文>>
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。查看全文>>
Selenium是一个Web的自动化测试工具,可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。查看全文>>
python爬虫用什么数据库好?Mysql和Mongdb哪家有优势?我们从Mysql、Mongdb各自特点和关系数据库和非关系数据库的特点来分析。查看全文>>
Zope是一款开源Web应用程序服务器,目前有两个相对独立的版本:Zope2系列和Zope3系列。Zope3从Zope2吸收了Zope2的经验,重写了Zope 2。它是一个采用了现代设计模式的、基于组件架构的应用服务器。有些人说Zope3是python的一个轻量级J2EE框架。查看全文>>
MongoDB是使用C++编写的、基于分布式文件存储的NoSQL数据库系统,它旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB作为文档型数据库的典型代表,它与Python结合使用的场景也比较常见。查看全文>>