Python使用自动内存管理技术,即垃圾回收机制。Python会自动跟踪内存分配,并在对象不再被引用时释放内存。垃圾回收机制是通过引用计数和循环垃圾收集算法来实现的。查看全文>>
多进程爬虫一般也被视为分布式爬虫的基础,在单机上可以使用。通常来说大型网站采用分布式来部署服务器,能够采用多进程同时间在不同的服务器上进行爬取。查看全文>>
Python自带的urllib和urllib2,也可以使用requests这种第三方库,或者Scrapy框架。urllib和urllib2模块都可以做与请求URL相关的操作,但它们提供了不同的功能。查看全文>>
循环复制是指将一个序列循环地复制多次,形成一个更长的序列。而双M结构是指将一个序列分为两个子序列,然后将它们交错组合,形成一个新的序列。查看全文>>