MapReuce的核心思想是“分而治之”。所谓"分面治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分.然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果.这种思想来源于日常生活与工作时的经验,同样也完全适合技术领域。查看全文>>
Flume原是Cloudera公司提供的一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统,而后纳人到了Apache旗下,作为一个顶级开源项目。Apache Flume不仅只限于日志数据的采集,由于Flume采集的数据源是可定制的,因此Flume还可用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。查看全文>>
TiKV 集群是 TiDB 数据库的分布式 KV 存储引擎,数据以 Region 为单位进行复制和管理,运行的过程中会出现许多问题,这些问题单独拿出都能找到简单的解决方案,但是混杂在一起就不太好解决,需要从全局角度把控调整,于是出现了PD模块,下面来看调度的基本操作。查看全文>>
Kafka Eagle是一款结合了目前大数据Kafka监控工具的特点,重新研发的一块开源免费的Kafka集群优秀的监控工具。它可以非常方便的监控生产环境中的offset、lag变化、partition分布、owner等。本节我们来学习kafka的安装。查看全文>>
爬取网页其实就是通过URL获取网页信息,网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译过来的意思是专门为人类而设计的HTTP模块,该模块支持发送请求,也支持获取响应。查看全文>>