使用filter()算子过滤aggregationRDD每一行数据中行为类型为加入购物车和购买的数据,只保留行为类型为查看的数据,然后使用mapToPair()算子对过滤结果进行转换,获取每一行数据中品类被查看次数和品类ID数据,最终将转换结果加载到getViewCategoryRDD.具体代码如下。查看全文>>
对比2.4版本, 3.0在TPC-DS基准测试中,性能超过2.4版本, 达到了2倍的提升。关于Spark 3.0,有以下的新特性:查看全文>>
FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的 BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。查看全文>>
键值对存储数据库是NoSQL数据库中的一种类型,也是最简单的NoSQL数据库。键值对存储数据库中的数据是以键值对的形式来存储的。键值对存储数据库的结构示意图,如图所示。查看全文>>
代理池就是有代理IP组成的池子, 它可以提供多个稳定可用的代理IP。Python实现代理池是为了从一堆不稳定代理IP中,抽取高可用代理IP, 给爬虫使用。代理池实现思路是先实现不依赖其他模块的基础模块, 然后再实现具体功能模块。查看全文>>
SortShuffleManager的运行机制主要分成两种,一种是普通运行机制,另一种是bypass运行机制。当shuffle write。查看全文>>