Plotting是以构建视觉符号为核心的接口,可以结合各种视觉元素(例如,点、圆、线等其他元素)和工具(例如,缩放、保存、重置等其他工具)创建可视化图形查看全文>>
网络爬虫历经几十年的发展,技术变得更加多样化,并结合不同的需求衍生出类型众多的网络爬虫。网络爬虫按照系统结构和实现技术大致可以分为4种类型,分别是通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。接下来,对增量式爬虫和深层网络爬虫这两种爬虫分别进行介绍。查看全文>>
大家试想一下,如果需要判断的情况大于两种,if和if-else语句显然是无法完成判断的。这时,出现了if-elif判断语句,该语句可以判断多种情况...查看全文>>
优化器是数据库的核心,决定了每条语句如何执行。如果将数据库比作一支军队,那么优化器就是这支军队的主将、军师,需要运筹帷幄,决胜于千里之外。俗话说一将无能累死三军,同样的一条语句,选择不同的查询计划,最终的运行时间可能会相差很大。对优化器的研究一直是学术界比较活跃的领域,优化是永无止境,可以说在这块投入多大的精力都不为过。 从优化方法上,大致可以分为三类:查看全文>>
在大数据领域,安全永远是一个绕不开的话题。对于一个简单安装上线的 hadoop 集群,我们可以认为有如下安全隐患:如,可以人为的添加一个客户端节点,并以此假冒的客户端来获取集群数据。对于一个假冒的客户端节点,成功加入集群就能够伪装 datanode 让得到 namenode 指派的任务和数据。创建一个HDFS账户,就可以得到 hadoop 文件系统的最高权限。Kerberos 主要用来做网络通讯中的身份认证,帮助我们高效、安全的识别访问者。那么 Kerberos 是如何做身份认证的呢?查看全文>>
Kafka中的Rebalance称之为再均衡,是Kafka中确保Consumer group下所有的consumer如何达成一致,分配订阅的topic的每个分区的机制。Rebalance触发的时机有:ce触发的时机有:查看全文>>