虚拟机(Virtual Machine)是指通过软件模拟出的具有完整硬件系统功能、运行在一个完全隔离环境中的完整计算机系统。通常人们身边只有一台供自己使用的计算机,而通过虚拟机软件可以在一台计算机中虚拟出多台计算机,每台虚拟的计算机都可以...查看全文>>
在Python中,any()和all()是用于对可迭代对象进行逻辑判断的内置函数。any()函数接受一个可迭代对象作为参数,并返回一个布尔值。查看全文>>
代理池就是有代理IP组成的池子, 它可以提供多个稳定可用的代理IP。Python实现代理池是为了从一堆不稳定代理IP中,抽取高可用代理IP, 给爬虫使用。代理池实现思路是先实现不依赖其他模块的基础模块, 然后再实现具体功能模块。查看全文>>
SortShuffleManager的运行机制主要分成两种,一种是普通运行机制,另一种是bypass运行机制。当shuffle write。查看全文>>
Spark会产生DAG图,DAG图会基于分区和宽窄依赖关系划分阶段。一个阶段的内部都是窄依赖,窄依赖内,如果形成前后1:1的分区对应关系,就可以产生许多内存迭代计算的管道。这些内存迭代计算的管道查看全文>>
在Python中,参数传递可以通过值传递或引用传递。当你将一个参数传递给一个函数时,它可以是通过值传递还是通过引用传递,取决于参数的类型和如何在函数中处理它。查看全文>>