首页最新资讯

全部 常见问题 新闻动态 技术文章 技术问答

    • 如何利用Spark过滤品类的行为类型?

      使用filter()算子过滤aggregationRDD每一行数据中行为类型为加入购物车和购买的数据,只保留行为类型为查看的数据,然后使用mapToPair()算子对过滤结果进行转换,获取每一行数据中品类被查看次数和品类ID数据,最终将转换结果加载到getViewCategoryRDD.具体代码如下。查看全文>>

      技术文章2023-07-12 |黑马程序员 |Spark过滤品类行为类型
    • Spark3.0的新特性有哪些?【大数据开发】

      对比2.4版本, 3.0在TPC-DS基准测试中,性能超过2.4版本, 达到了2倍的提升。关于Spark 3.0,有以下的新特性:查看全文>>

      技术文章2023-07-11 |黑马程序员 |Spark 3.0新特性,大数据Spark技术
    • FineBI是什么?怎样为FineBI配置数据源?

      FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的 BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。查看全文>>

      技术文章2023-07-04 |黑马程序员 |FineBI,FineBI配置数据源
    • 键值对存储数据库的应用场景有哪些?

      键值对存储数据库是NoSQL数据库中的一种类型,也是最简单的NoSQL数据库。键值对存储数据库中的数据是以键值对的形式来存储的。键值对存储数据库的结构示意图,如图所示。查看全文>>

      技术文章2023-06-30 |黑马程序员 |NoSQL,键值对
    • 什么是代理池?Python爬虫代理池的设计

      代理池就是有代理IP组成的池子, 它可以提供多个稳定可用的代理IP。Python实现代理池是为了从一堆不稳定代理IP中,抽取高可用代理IP, 给爬虫使用。代理池实现思路是先实现不依赖其他模块的基础模块, 然后再实现具体功能模块。查看全文>>

      技术文章2023-06-23 |黑马程序员 |代理池,Python爬虫
    • SortShuffleManager的bypass机制触发条件是什么?

      SortShuffleManager的运行机制主要分成两种,一种是普通运行机制,另一种是bypass运行机制。当shuffle write。查看全文>>

      技术文章2023-06-23 |黑马程序员 |Spark Shuffle的运行机制,bypass运行机制
和我们在线交谈!