Spark会产生DAG图,DAG图会基于分区和宽窄依赖关系划分阶段。一个阶段的内部都是窄依赖,窄依赖内,如果形成前后1:1的分区对应关系,就可以产生许多内存迭代计算的管道。这些内存迭代计算的管道查看全文>>
NoSQL是Not OnlySQL的缩写,它的含义为“不仅仅是SQL”。NoSQL是一种非关系型、分布式、无须遵循ACID原则、不提供SQL功能的数据库,是对关系型数据库在灵活性和扩展性上的补充。NoSQL.的出现主要是解决大规模数据集合下数据种类多样性带来的挑战,尤其是大数据应用难题。查看全文>>
WordCount算是大数据计算领域经典的入门案例,相当于Hello World。虽然WordCount业务极其简单,但是希望能够通过案例感受背后MapReduce的执行流程和默认的行为机制,这才是关键。以下是WordCount编程实现思路查看全文>>
工欲善其事,必先利其器。Python的学习过程少不了集成开发编辑环境(IDE)。这些Python IDE会提供插件、工具等帮助开发者加快使用Python开发的速度,提高效率。这里收集了一些对开发者非常有帮助的Python IDE这些IDE的相关介绍如下所示。查看全文>>
视图是从数据库的数据表中选取出来的数据组成的逻辑窗口,它是一个虚拟机表。引入视图后,用户可以将注意力集中在关心的数据上,如果数据来源于多个基本表结构,并且搜索条件比较复杂时,需要编写的查询语句就会比较烦琐,此时可以使用视图将数据查询语句变得简单可行。查看全文>>
Doris主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩)的技术。将这三种技术整合,Mesa可以满足我们许多存储需求的需求,但是Mesa本身不提供SQL查询引擎查看全文>>