黑马程序员

全国校区

Python大数据开发培训课程   快速了解Python大数据
关闭大数据课程介绍视频

【Python大数据课程】

数据开发比例达95%,涵盖数据开发所需工具及编程语言。语言层面包含SQL、Python、Java;数据开发涵盖SQL、Pandas、Hadoop、Hive、Spark 、Flink 多个技术生态圈,学完即可在多行业多场景完成数据开发应用。

课程
特色

万能编程语言
Python大数据助你掌控未来
  1. Python
    数据领域重要语言
  2. 国家大数据战略
    大数据人才紧缺
  3. 数字经济 引领全球
    经济社会变革
  • Python培训|Python语言发展趋势

    Python语言的TIOBE指数增长几乎触及Java,它们之间的差距仅仅只有0.57%;根据 Hacker News 招聘趋势排名,越来越多的公司要求员工掌握 Python 技能。

  • 大数据人才缺口

    大数据已成为一种战略资源,具有广阔的应用前景;《新职业—大数据工程技术人员就业景气现状分析报告》报告显示,2020年我国大数据领域人才缺口高达200万,预计2021年大数据人才缺口达到250万!

  • python大数据课程前景

    数字经济成为全球增长新动能,我国数字经济规模世界第二;数字人才成为我国经济全面数字化转型的第一资源和核心驱动力。

课程紧随市场需求
迭代升级
  • 专为0基础打造,适合初学者课程由浅入深,针对不同阶段定制不同的学习策划,学员能够活学活用,0基础也能快速掌握

  • 多行业实战项目联合百度、京东等数据行业头部公司进行课程共建,实战项目占比超80%,助力学员积累一手开发经验

  • 建立“数据开发解决方案库”对数据开发流程、难点进行提炼,建立“数据开发解决方案库”,培养学员系统化解决各种场景下数据开发的能力

  • 前沿热门技术"周"更新,助力职场晋升每周更新热点技术,让学员能够不断的持续学习先进技术和自我提升,轻松应对技术迭代

为数字化精英
量身定制学习方案
  • 0基础转行人员数据课程从Python入手,简单高效入门,最适宜零基础人员

  • 应届大学毕业生缺乏工作经验技能,对未来没有明确目标与规划,期望通过学习数据课程进入IT行业的人员

  • 计划转行人员目前工作待遇不理想,市场上升空间有限或职业瓶颈期,各行业需要突破现状实现转行的人员

  • 有基础寻求系统提升者具有一定的数据理论或基础,需要掌握系统数据技术,在实际业务中如何应用的人员

  • 数据开发技术爱好者有较强逻辑思维能力,应对复杂业务场景处理,顺应时代趋势,对数据行业感兴趣的人员

进阶式学习
构建完整知识体系

Python&SQL

从Python编程到BI及SQL实战,小白到入门华丽蜕变

数据分析及处理实战

掌握Pandas数据处理分析,多场景实战演练

Hadoop与数仓

学习Hadoop、Hive,离线教育和新零售数仓项目

Spark实战

掌握Spark框架及物流和保险实战项目

实时计算基础

Java编程到NoSQL再到消息中间件,应对不同技术需求

Flink实战

掌握Flink技术,强化面试技巧和能力

赠送课程持续提升

工作后赠送超过3个月课程,持续更新继续提升
查看完整课程大纲
企业级真实项目
锻炼职场综合能力
  • 全行业

    14大业务场景,领跑行业覆盖
  • 高标准

    亿元级研发投入,大厂深度共建
  • 真场景

    真实数据,数据链路完整
  • 深技术

    深度技术剖析,贴合市场主流
  • 快更新

    新技术新变化,第一时间进入课程
  • 严保障

    8项评审流程,4项验收标准
大数据实战平台
培养真正的数字化人才

学习大数据,你见过真的海量数据吗?你操作过真的【大规模集群】吗?你接触过真的【云服务】吗?这一切,在黑马程序员都将实现真接触!黑马程序员与知名云平台厂商—UCloud达成深度合作。为学生提供大规模服务器集群进行实战,硬件规模达到:

  • 200+英特尔志强系列CPU核心

  • 1TB+内存总量

  • 1PB+硬盘存储空间

  • 1GB/S万兆高速内网

以上资源,年成本近百万,但黑马完全免费提供给每位学生使用。真正让每个学生都能接触【真·大规模集群】和【真·大规模数据】。

大数据培训课程优势
6大项目实战流程
层层攻破技术难点
Python大数据项目

项目启动

确定项目方向、目标
需求调研、市场调研
设计产品原型

业务需求

业务需求
需求变更
业务评审
大数据开发项目设计

设计阶段

前端界面设计接口文档设计技术调研、选型 表模型设计需求详细设计
Python培训项目启动

项目启动

制定代码开发规范小组开发打包部署 表模型设计规范代码提交编写部署文档 业务开发流程单元测试 业务拆解Bug修改
python大数据项目交付

项目上线

投产交付
运维维护

测试阶段

联调测试功能测试 Bug提交性能测试 问题单跟踪产出测试报告 编写测试用例
百度、京东共建项目
衔接大厂人才需求

【金融保险】富华阳光保险

01

110

指标数量

40 亿

数据量

10

解决方案

6

课程天数
项目背景

保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。

项目体验

【新零售】亿品新零售

02

300 +

指标数量

1095 亿

数据量

20

解决方案

8

课程天数
项目背景

本项目基于一家大型连锁超市研发的大数据分析平台。是第一个深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。

项目体验

【工业互联网】一站制造

03

300 +

指标数量

30 亿

数据量

11

解决方案

8

课程天数
项目背景

通过大数据技术架构,解决工业物联网石油制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于hive数仓分层来存储各个业务指标数据,基于sparksql做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。

项目体验

【金融】今日指数证券

04

7

主题数量

42

指标数量

14

解决方案数量
项目背景

今日指数项目用于对证券市场的每日交易数据进行实时监控,该项目基于Flink框架搭建,结合HBase、Druid进行实时OLAP分析,在实时分析的平台上搭建监察预警体系,包括预警规则管理、实时预警、历史预警等。学员可以通过该项目学习到分布式实时计算、分布式数据存储等多个大数据技术解决方案。

项目体验

【物流】客快物流

05

5

主题数量

88

指标数量

12

解决方案数量
项目背景

本项目是基于大型物流公司业务研发的智慧物流大数据平台,公司业务网点覆盖国内各地,大规模的客户群体,日订单达1000W,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。

项目体验

【在线教育】知行教育

06
项目背景

受互联网+概念的催化,教育市场发展火热,越来越多的教育机构和平台不断涌现,包括有线上学习和线下培训,K12教育和职业教育等。

项目体验

【物联网】星途车联网

07

8

指标数量

21

指标数量

13

解决方案数量
项目背景

星途车联网项目通过TBOX、嵌入式、ETL、数据存储等技术,将大量的车辆数据进行快捷存储、快速计算、智能推荐,为大型车企的业务发展、商业决策提供数据支持。

项目体验

【电商】智数电商

08

50

指标数量

1200 亿

指标数量
项目背景

智数电商主要是对来自全品类B2B2C电商系统的数据进行分析,数据仓库分为离线数仓和实时数仓,技术框架依托于大数据CDH发型版构建。智数电商在业务上贴近企业实际需求,指标计算完成后采用开源BI工具Apache superset对指标数据进行可视化展示。

项目体验
学后拥有两年以上项目经验
就业高起点
Python开发职业发展路径
大数据开发就业方向

资深数据分析师
(4~6年)

数据科学家
(6~10年)

CDO(首席数据官)
(10年以上)

资深数据工程师
(4~6年)

数据架构师
(6~10年)

CTO
(10年以上)

项目经理
(4~6年)

项目总监
(6~10年)

CIO
(10年以上)

行业大咖技能深度讲解
助你攻克学习难点
  • 大数据课程研发老师

    原老师课程研究员

    北大硕士/数据分析专家
    研发成果:新浪微博系统 中新网新闻大数据推荐系统
  • 大数据培训课程研发老师

    史老师课程研究员

    技术达人/开源爱好者
    研发成果:美多商城 V逗短视频
  • 大数据培训课程研发老师

    谢老师课程研究员

    10年经验/多语言精通
    研发成果:python基础双元课程
    python高级双元课程
查看更多名师
好口碑python培训机构 体验python培训机构课程
  • 零基础数据分析体验课基础班 1

    课时:6天技术点:20项测验:1次学习方式:线下面授

    学习目标

    1. 掌握SQL的使用 2. 熟练使用BI工具 3. 对数据分析有一定认知,能够从事基础的数据分析工作

    主讲内容1Linux

    学习基础的Linux知识

    01_数据开发、数据分析行业技能及课程介绍 02_计算机入门知识介绍及Linux系统概述 03_Linux系统安装和体验 04_Linux系统网络配置和连接工具 05_Linux系统目录结构及常用命令、工具
    主讲内容2SQL

    零基础小白掌握核心必备SQL,包含了以下技术点:

    01_数据库概念和作用 02_MySQL数据类型 03_数据完整性和约束 04_数据库/表基本操作命令 05_表数据操作命令 06_where子句 07_分组聚合 08_链接查询 09_外键的使用
    主讲内容3Excel与BI工具

    通过BI工具展示excel、mysql中的数据,包含了以下技术点:

    01_Mysql数据导出Excel 02_Excel图表及透视表 03_Excel分析项目 04_Tableau介绍及基本操作 05_Tableau常用图表 06_Tableau仪表板 07_Tableau电商项目
  • Python编程高手班 1

    课时:10天技术点:57项测验:1次学习方式:线下面授

    学习目标

    1.掌握Python开发环境基本配置 2.掌握运算符、表达式、流程控制语句、数组等的使用 3.掌握字符串的基本操作 4.初步建立面向对象的编程思维 5.熟悉异常捕获的基本流程及使用方式 6.掌握类和对象的基本使用方式

    主讲内容1Python基础语法

    零基础学习Python的开始,包含了以下技术点:

    01_变量 02_标识符和关键字 03_输入和输出 04_数据类型转换 05_PEP8编码规范 06_比较/关系运算符 07_if判断语句语法格式 08_三目运算符 09_while语句语法格式 10_while 循环嵌套 11_break 和 continue 12_while 循环案例 13_for循环
    主讲内容2Python数据处理

    掌握Python的数据类型,并对其进行操作处理,包含了以下技术点:

    01_字符串定义语法格式 02_字符串遍历 03_下标和切片 04_字符串常见操作 05_列表语法格式 06_列表的遍历 07_列表常见操作 08_列表嵌套 09_列表推导式 10_元组语法格式 11_元组操作 12_字典语法格式 13_字典常见操作 14_字典的遍历
    主讲内容3函数

    能够实现Python函数的编写,包含了以下技术点:

    01_函数概念和作用、函数定义、调用 02_函数的参数 03_函数的返回值 04_函数的注释 05_函数的嵌套调用 06_可变和不可变类型 07_局部变量 08_全局变量 09_组包和拆包、引用
    主讲内容4文件读写

    能够使用python对文件进行操作,包含了以下技术点:

    01_面向对象介绍 02_类的定义和对象的创建 03_添加和获取对象属性 04_self 参数 05_init方法 06_继承 07_子类方法重写 08_类属性和实例属性 09_类方法、实例方法、静态方法
    主讲内容5面向对象

    从逐步建立起面向对象编程思想,再到会使用对象,到创建对象,再到真正理解为什么封装对象,包含了以下技术点:

    01_面向对象介绍 02_类的定义和对象的创建 03_添加和获取对象属性 04_self 参数 05_init方法 06_继承 07_子类方法重写 08_类属性和实例属性 09_类方法、实例方法、静态方法
    主讲内容6异常处理

    主要介绍了在Python编程中如何处理异常,包含了以下技术点:

    01_异常概念 02_异常捕获 03_异常的传递
    主讲内容7模块和包

    主要介绍了Python中的模块和包的体系,以及如何使用模块和包,包含了以下技术点:

    01_模块介绍 02_模块的导入 03_包的概念 04_包的导入 05_模块中的__all__ 06_模块中__name__
  • Python编程进阶高手班 2

    课时:7天技术点:9项测验:1次学习方式:线下面授

    学习目标

    掌握Python高级语法,并了解数据埋点

    主讲内容1网络编程

    01_IP地址的介绍 02_端口和端口号的介绍 03_TCP的介绍 04_socket的介绍 05_TCP网络应用的开发流程 06_基于TCP通信程序开发
    主讲内容2多任务编程

    01_多任务介绍 02_多进程的使用 03_多线程的使用 04_线程同步
    主讲内容3高级语法

    01_闭包 02_装饰器 03_深浅拷贝 04_正则
    主讲内容4数据埋点

    01_miniweb
  • SQL高手班 3

    课时:5天技术点:18项测验:1次学习方式:线下面授

    学习目标

    通过实战项目,完全掌握SQL进阶技能

    主讲内容1SQL进阶

    在掌握sql核心技能基础上,通过大量练习、边练边学,夯实sql进阶技能;宇宙最强sql进阶课程,包含以下知识点:

    01_窗口函数 02_分析函数 03_CTE表达式 04_Case When语句 05_销售报表统计实战 06_网站数据报表统计实战 07_游戏数据报表统计实战 08_火车票务数据统计实战
  • Python pandas处理分析数据高手班 4

    课时:5天技术点:57项测验:1次学习方式:线下面授

    学习目标

    精通Pandas及数据可视化技术,利用python对数据进行深度处理

    主讲内容1数据清洗

    Pandas数据处理入门,包含以下技术点:

    01_Pandas数据组合_concat连接 02_Pandas数据组合_merge数据 03_Pandas数据组合_join 04_缺失值处理_缺失值数量统计 05_缺失值处理_缺失值可视化 06_缺失值处理_删除缺失值 07_缺失值处理_填充缺失值 08_melt整理数据 09_Pandas数据类型简介 10_数据类型转换 11_分类数据类型 12_Series和DataFrame的apply方法 13_apply使用案例
    主讲内容2数据整理

    Pandas进阶使用,利用python对数据进行深度处理,包含以下技术点:

    01_单变量分组聚合 02_通过调用agg进行聚合 03_分组后transform 04_transform练习 05_透视表 06_会员存量增量分析 07_会员增量等级分布 08_增量等级占比分析&整体等级分布 09_线上线下增量分析&地区店均会员数量 10_会销比计算 11_连带率计算 12_复购率计算 13_日期时间类型介绍 14_提取日期分组案例 15_股票数据处理
    主讲内容3数据可视化

    Python数据可视化技术,包含以下技术点:

    1.Matplotlib可视化 2.Pandas可视化 3.Seaborn可视化 4.Pyecharts可视化
    主讲内容4Pandas数据分析项目

    Python数据处理、分析实战

    01_AppStore项目_数据处理 02_AppStore项目_单变量分析 03_AppStore项目_可视化和结论 04_AppStore项目_可视化和结论代码实现 05_优衣库项目_案例介绍及简单数据探索 07_优衣库项目_业务问题解读 08_优衣库项目_代码实现
  • 机器学习高手班 5

    课时:5天技术点:46项测验:1次学习方式:线下面授

    学习目标

    熟练使用统计分析级机器学习方法,进行预测分析

    主讲内容1机器学习简介

    快速了解机器学习统计分析,无论你是否有数学、统计学基础,包含的知识点如下:

    01_大数据分析与机器学习介绍 02_机器学习开发流程和用到的数据介绍 03_特征工程介绍和小结 04_机器学习算法分类 05_机器学习模型评估
    主讲内容2K近邻算法

    无数学、统计学基础也能掌握的统计分析之KNN算法,包含以下知识点:

    01_K近邻算法基本原理 02_K近邻算法进行分类预测 03_sklearn实现knn 04_训练集测试集划分 05_分类算法的评估 06_归一化和标准化 07_超参数搜索 08_预测facebook签到位置案例 09_K近邻算法总结
    主讲内容3线性回归

    无数学、统计学基础也能掌握的统计分析之线性回归,包含以下知识点:

    01_线性回归简介 02_线性回归API使用初步 03_导数回顾 04_线性回归的损失函数和优化方法 05_梯度下降推导 06_波士顿房价预测案例 07_欠拟合和过拟合 08_模型的保存和加载 09_线性回归应用-回归分析
    主讲内容4逻辑回归

    无数学、统计学基础也能掌握的统计分析之逻辑回归,包含以下知识点:

    01_逻辑回归简介 02_逻辑回归API应用案例 03_分类算法评价方法 04_逻辑回归应用_分类分析
    主讲内容5聚类算法

    无数学、统计学基础也能掌握的统计分析之逻辑回归,包含以下知识点:

    01_聚类算法的概念 02_聚类算法API的使用 03_聚类算法实现原理 04_聚类算法的评估 05_聚类算法案例
    主讲内容6决策树

    无数学、统计学基础也能掌握的统计分析之决策树,包含以下知识点:

    01_决策树算法简介 02_ 决策树分类原理 03_特征工程-特征提取 04_ 决策树算法api 05_ 决策树案例
    主讲内容7集成学习

    无数学、统计学基础也能掌握的集成学习算法,包含以下知识点:

    01_集成学习算法简介 02_Bagging和随机森林 03_随机森林案例 04_Boosting介绍 05_GBDT介绍
  • 多场景项目实战高手班 6

    课时:5天技术点:21项测验:0次学习方式:线下面授

    学习目标

    通过多场景下不同业务,做专项项目实战,掌握数据分析处理项目业务

    主讲内容1零售项目集

    基于真实零售数据集的数据分析处理项目

    01_常用指标介绍与计算 02_数据推断 03_购物篮分析 04_用户标签 05_LTV用户生命周期与BG/NBD模型 06_AB测试
    主讲内容2电商项目集

    基于电商数据集的数据分析处理项目

    01_用户行为分析 02_RFM用户价值分析 03_ABC-XYZ库存分析 04_广告效果聚类分析
    主讲内容3跨境电商项目集

    真实的分析案例,与上一个电商项目集项目的关注点不同

    01_选品分析 02_竞品分析 03_用户评论文本挖掘 04_指标体系与销售报表
    主讲内容4游戏项目集

    游戏行业分析项目

    01_游戏行业关键业务指标和分析方法 02_游戏付费分析 03_游戏道具使用分析
  • 风控分析项目高手班 7

    课时:6天技术点:39项测验:0次学习方式:线下面授

    学习目标

    完整金融风控行业解决方案

    主讲内容1金融风控项目业务背景介绍

    快速深入了解金融信贷行业,及风控业务

    01_信贷和风控介绍 02_常见零售产品和风险介绍 03_风控相关业务术语介绍 04_业务数据分析案例
    主讲内容2风控建模介绍

    掌握建模流程,技术点如下:

    01_互联网金融风控体系介绍 02_风控建模流程概述 03_风控建模流程_项目准备 04_风控建模流程_特征工程 05_风控建模流程_模型构建 06_风控建模流程_上线运营 07_业务规则挖掘案例
    主讲内容3金融风控特征工程

    以金融风控为切入点,学习特征工程方案

    01_数据准备 02_静态信息特征和时间截面特征处理 03_特征衍生 04_特征变换 05_特征变换_卡方分箱代码实现 06_特征变换_WOE代码实现 07_特征变换_类别变量编码方式总结 08_常用缺失值处理方法 09_时间序列未来信息 10_用户信息关联&小结
    主讲内容4机器学习评分卡

    通过集成学习对特征进行建模计算,技术点如下:

    01_建模流程_实验设计 02_建模流程_样本设计 03_建模流程_模型训练与评估 04_评分映射 05_逻辑回归评分卡 06_lightGBM特征筛选 07_输出模型报告 08_评分映射 09_集成学习评分卡_xgboost 10_集成学习评分卡_lightGBM 11_集成学习评分卡模型创建 12_建模流程梳理
    主讲内容5不均衡学习和异常检测

    掌握金融风控业务场景下,不均衡学习的应用,以及异常检测,技术点如下:

    01_不均衡学习介绍和代价敏感 02_不均衡学习_SMOTE算法 03_反欺诈与异常检测简介 04_异常点检测_LOF 05_异常点检测_IForest 06_异常点检测_冷启动和PreA
  • 大数据Hadoop技术栈高手班 8

    课时:6天技术点:80项测验:1次学习方式:线下面授

    学习目标

    熟悉Linux操作系统的各种命令及操作,掌握大数据的核心框架Hadoop以及其生态体系,为后续学习打下良好基础

    主讲内容1Linux基础

    掌握Linux操作系统常用命令和权限管理

    01_Linux命令使用 02_Linux命令选项的使用 03_远程登录和远程拷贝 04_Linux权限管理 05_vi编辑器使用
    主讲内容2Linux进阶

    掌握Linux操作系统进阶命令和用户权限进阶管理

    01_Sed 02_AWK 03_权限管理
    主讲内容3Hive高阶

    数据仓库HIve高阶原理和架构深入,实现企业级数仓优化,包含以下知识点:

    1.Hive原理和架构 2.Meta Store服务 3.HiveServer内置函数 4.自定义UDF和UDAF 5.数据压缩、存储格式、自动化脚本、常见性能优化
    主讲内容4大数据基础和硬件介绍

    进一步阐述大数据特点与分布式思想,知识点由浅入深,包含了以下技术点:

    1.大数据的特点 2.分布式存储概念 3.分布式计算的概念 4.服务器种类介绍、机架、交换机 5.网络拓扑、Raid、IDC数据中心 6.Linux shell编程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高级命令使用
    主讲内容5Zookeeper

    分布式软件管家,实现了集群管理与leader选举,包含了以下技术点:

    1.Zookeeper的应用场景 2.架构和原理 3.存储模型 4.选举机制 5.客户端操作
    主讲内容6HDFS

    分布式文件系统,解决了海量数据存储与容错,包含了以下技术点:

    1.HDFS设计的特点 2.Master-Slave架构 3.Block块存储、RF拷贝因子、机架感知 4.Block拷贝策略、读写流程 5.HDFS Federation、HDFS Snapshots、NameNode HA架构和原理 6.HDFS管理员常用操作、HDFS权限控制
    主讲内容7MapReduce

    分布式计算系统,解决海量数据的计算,包含了以下技术点:

    1.MapReduce架构和原理 2.Split机制 3.MapReduce并行度 4.Combiner机制 5.Partition机制、自定义Partition 6.MapReduce序列化、自定义排序、数据压缩
    主讲内容8YARN

    分布式资源调度管理器,管理服务器软件资源,包含了以下技术点:

    1.Yarn原理和架构 2.Yarn高可用 3.Container资源的封装(CPU、内存和IO) 4.资源调度策略(FIFO、Fair和Capacity)
  • 大数据开发Hive基础高手班 9

    课时:4天技术点:15项测验:0次学习方式:线下面授

    学习目标

    掌握数据仓库理论,掌握Hive框架,完成大数据体系下企业级数据仓库构建

    主讲内容1Hive基础

    数据仓库Hive,实现企业级数仓必备工具,包含以下知识点:

    1.HQL操作 2.数据类型 3.分区、分桶、临时表 4.explain执行计划详解
    主讲内容2Hive高阶

    数据仓库HIve高阶原理和架构深入,实现企业级数仓优化,包含以下知识点:

    1.Hive原理和架构 2.Meta Store服务 3.HiveServer内置函数 4.自定义UDF和UDAF 5.数据压缩、存储格式、自动化脚本、常见性能优化
  • 离线数仓项目(教育或新零售离线数据仓项目2选1)高手班 10

    课时:6天技术点:120项测验:0次学习方式:线下面授

    学习目标

    知行教育离线数仓项目(二选1)

    1、建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 2、项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 3、挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。

    进入项目体验
    主讲解决方案
    掌握离线数仓的分层与建模、大数据量场景下如何优化配置,拉链表的具体应用,新增数据的抽取和分析,更新数据的抽取和分析,以及hive函数的具体应用等。ClouderaManager可视化、自动部署和配置、Git的CodeReview功能保证项目高质量 离线数仓的分层与建模 项目涉及20多个主题,100多个指标场景 帆软BI企业级报表展示
    主讲知识点
    1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:hive 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:oozie+shell 8.OLAP系统存储:mysql 9.FineBI数据展示
  • 离线数仓项目(教育或新零售离线数据仓项目2选1)高手班 11

    课时:6天技术点:120项测验:0次学习方式:线下面授

    学习目标

    亿品新零售离线数仓项目(二选1)

    本项目基于一家大型连锁超市研发的大数据分析平台。c.黑马第一个深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。

    进入项目体验
    主讲解决方案
    项目介绍与环境准备、数据仓库的建模和分层、OLTP、ODS、DWD实现、Presto、DWB实现、DWS实现、DM、RPT、导出实现、Nifi架构 Nifi集群部署 Nifi调度使用。使用Hive、Presto、Nifi、数仓技术栈,提供新零售大型商超集团的数据存储分析以及服务监控方案
    主讲知识点
    1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:hive+presto 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:ds 8.OLAP系统存储:mysql 9.FineBI数据展示
  • Spark技术栈高手班 12

    课时:6天技术点:130项测验:1次学习方式:线下面授

    学习目标

    1.掌握Spark的RDD、DAG、CheckPoint等设计思想 2.掌握SparkSQL结构化数据处理,Spark On Hive 3.掌握SparkStreaming整合Kafka完成实时数据处理 4.掌握SparkStreaming偏移量管理及Checkpoint 5.掌握Structured Streaming整合多数据源完成实时数据处理 6.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力

    主讲内容1Spark基础

    本阶段学习Spark环境搭建及以下知识点

    1.Spark基础环境搭建 2.Spark的Standalone环境搭建 3.Spark的StandaloneHA搭建 4.SparkOnYarn环境搭建
    主讲内容2Spark core

    整个spark框架核心部分,掌握框架内部设计思想,数据流转步骤,是学习spark的基础模块,包含了以下技术点:

    1.Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程) 2.RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量 3.DAG原理(DAG思想、DAG的生成、DAG的处理过程)
    主讲内容3Spark sql

    学习spark框架的sql操作,spark与hive、hbase等外部数据源的整合操作,包含了以下技术点:

    1.Spark SQL架构和原理 2.DataFrame、DataSet DSL和SQL开发 3.Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive) 4.Spark SQL执行计划原理 5.Spark SQL性能调优
    主讲内容4SparkSQL案例

    践行场景式教学,运用了Spark阶段知识点,使用lambda加解决数据分析的应用,包含了以下技术点:

    Spark案例实战
  • 智能制造业项目和保险行业大数据项目(2选1)高手班 13

    课时:8天技术点:100项测验:0次学习方式:线下面授

    学习目标

    富华保险Spark项目(二选1)

    保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。

    进入项目体验
    主讲解决方案
    项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化。
    主讲知识点
    基于Spark轻松应对保险复杂的迭代计算
  • 智能制造业项目和保险行业大数据项目(2选1)高手班 14

    课时:8天技术点:100项测验:0次学习方式:线下面授

    学习目标

    一站制造Spark项目(二选1)

    通过大数据技术架构,解决工业物联网石油制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于hive数仓分层来存储各个业务指标数据,基于sparksql做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。

    进入项目体验
    主讲解决方案
    一站制造项目基石与前瞻、数据仓库建模方法 离线数仓分层、Sqoop数据存采集、数仓ODS&DWD层建设、数仓DWS维度层建设、数仓DWB指标层建设、数仓ST主题层建设、一站制造任务调度、Prometheus概述 实现linux服务器监控 实现mysql服务监控 实现flink服务监控 Grafana监控看板。一站制造:运营ciss系统、oa系统、erp系统一体化智能制造大数据分析系统
    主讲知识点
    1.使用主流的Hive+Spark构建离线数仓 2.基于完整的工业业务背景实现的离线和实时大数据业务丰富地地图展示可视化开发 3.基于Airflow完成大数据调度任务 4.学会使用Spark SQL处理复杂业务完整的离线采集 + 实时采集方案 5.掌握如何使用调度平台调度T+1批处理任务Spark离线任务和实时任务整合,统一由YARN做资源管理
  • 大数据Java语言高手班 15

    课时:8天技术点:100项测验:1次学习方式:线下面授

    学习目标

    掌握Java语言,并能够完成数据开发

    主讲内容1编程基础

    基础语法是编程语言的第一课,打好基础才能更好的学习后面课程,帮学员从小白到入门,包含了以下技术点:

    1.Java语言概述 2.Java开发环境搭建 3.IDEA的安装和配置 4.HelloWorld案例 5.注释,关键字,常量,变量,数据类型转换. 6.for循环.while循环,循环嵌套,控制跳转语句,break和continue 7.数组的概述和创建,数组的常见操作. 8.方法的概述和定义,方法重载,方法形参类型,方法练习
    主讲内容2面向对象

    逐步建立起面向对象编程思想,从会使用对象,到内存分析,再到真正理解为什么封装对象,包含了以下技术点:

    1.面向对象介绍 2.类和对象讲解 3.对象的内存图 4.成员变量和局部变量的区别 5.private关键字,封装,this关键字,构造方法,继承,super关键字 6.方法重写,多态 ,final ,.static ,抽象类 ,接口 ,包(package)
    主讲内容3常用类API

    培养使用java语言解决实际问题,需掌握常见的java对象与工具类,包含了以下技术点:

    1.API解释 2.Object类讲解 3.String类讲,StringBuilder类讲解,冒泡排序 4.Arrays工具类包装类 5.自动拆装箱,Date类讲解 6.SimpleDateFormat类讲解
    主讲内容4集合操作/IO操作

    建立使用集合解决不同数据类型操作的思想,包含了以下技术点:

    1.Lambda表达式 2.集合类,Collection,ArrayList 3.列表迭代器,增强for,数据结构 4.Set集合之HashSet,Map集合之HashMap 5.File类,字节流,序列化流,字符流
    主讲内容5Java基础增强

    从数据传输角度增强对java语言的掌握程度,包含了以下技术点:

    1.数据库驱动,Connection接口,JDBC步骤 2.反射介绍 ,Class类相关方法介绍 ,反射案例:代理设计模式 3.注解解释.,常用注解介绍 4.Maven基础, 依赖, Maven生命周期 ,Maven仓库 ,Maven配置文件 5.Java多线程及网络编程
    主讲内容6大数据Hadoop开发进阶

    使用java对Hadoop进行交互操作

    1.Hadoop技术栈三大组件回顾 2.HDFS的JavaAPI实战 3.Hadoop的MapReduce的JavaAPI实战 4.Hadoop存储和计算原理深入
  • 大数据NoSQL技术栈高手班 16

    课时:3天技术点:80项测验:1次学习方式:线下面授

    学习目标

    掌握Redis及Hbase

    主讲内容1分布式缓存系统

    存储效率高,适合作为中间缓存数据库使用,包含以下技术点:

    1.Redis原理及架构 2.Redis Cluster原理及架构 3.Redis常用操作
    主讲内容2万亿级NoSQL海量数据存储

    存储海量数据的列式数据库,内部高效设计解决了海量数据存储,包含了以下技术点:

    1.HBase原理及架构 2.预分区、LSM结构 3.Bloom Filter,co-processor,结合Phoneix进行优化查询
  • 实时计算基础高手班 17

    课时:4天技术点:100项测验:0次学习方式:线下面授

    学习目标

    掌握Flume以及Kafka

    主讲内容1Flume实时数据采集

    掌握Flume的使用方法

    1.Flume原理及架构 2.Source-Sink-Channal 3.文件数据源及相关配置 4.Flume断点续传
    主讲内容2分布式流处理平台

    分布消息队列存储数据,应用于低延时实时场景,包含了以下技术点:

    1.Kafka原理及架构分析 2.分布式实时计算架构和思想
    主讲内容3NoSQL社交场景大数据分析实战

    践行场景式教学,运用了NoSQL阶段知识点,解决实时数据分析的应用,包含了以下技术点:

    1.陌陌社交场景实战 2.社交大数据架构剖析 3.数据采集 4.数据ETL 5.数据分析
  • 大数据分析就业加强课高手班 18

    课时:4天技术点:60项测验:1次学习方式:线下面授

    学习目标

    核心技能知识点以及常见面试题强化学习

    主讲内容1SQL实战

    解决Python大数据常见的sql面试题,包含了以下技术点:

    1.面试题必备SQL实战; 2.SQL优化加强。
    主讲内容2Hive数据分析与面试题加强

    解决Hive数据分析开发必备面试题,包含了以下技术点:

    1.Hive基础 2.Hive拉链表 3.Hive数据仓库构建示例 4.Hive面试题
    主讲内容3Spark数据分析与面试题加强

    解决Spark开发必备面试题,包含了以下技术点:

    1.Spark基础 2.Spark离线分析 4.Spark面试题
    主讲内容4NoSQL数据分析与面试题加强

    解决NoSQL常见的面试题,从消息队列到Hbase掌握关键原理,包含了以下技术点:

    1.Kafka基础 2.Hbase基础 3.Hbase面试题
    主讲内容5大数据多行业架构剖析

    解决多行业多场景大数据架构设计,具备举一反三设计大数据架构体系能来,包含了以下技术点:

    1.数据分析流程 2.大数据架构剖析 3.多行业大数据架构设计 4.大数据存储,调度等解决方案
  • 大数据Flink技术栈高手班 19

    课时:8天技术点:90项测验:1次学习方式:线下面授

    学习目标

    1.掌握基于Flink进行实时和离线数据处理、分析 2.掌握基于Flink的多流并行处理技术 3.掌握千万级高速实时采集技术

    主讲内容1Flink Core

    新一代批流统一数据处理引擎,在计算效率和性能都有很大提升,包含了以下技术点:

    1.Flink基础
    主讲内容2Flink DataStream

    构成了flink解决实时数据处理部分,是掌握实时数据处理必备技能,包含了以下技术点:

    1.Flink DataStream的使用、 2.Kafka + Flink
    主讲内容3Flink SQL

    解决flink中的sql化开发,Flink-Sql开发必备技能,包含了以下技术点:

    1.Flink SQL开发 2.Hive + Flink SQL
    主讲内容4Flink Runtime

    是对flink任务进行调优,必须掌握的内容,包含了以下技术点:

    1.Watermark 2.Checkpoint 3.任务调度与负载均衡 4.状态管理
    主讲内容5Flink高级

    解决Flink性能监控等高阶知识,具备实时数据分析必备技能,包含以下技术点:

    1.Flink性能监控 2.Flink调优 3.Flink SQL执行计划
    主讲内容6Flink电商案例实战

    践行场景式教学,运用了flink阶段知识点,解决实时数据分析的应用,包含了以下技术点:

    Flume+Kafka+Flink+Hbase+Sqoop+Canal+MySQL实战
  • 车联网项目、金融项目和物流项目(3选1)高手班 20

    课时:8天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握基于Flink全栈进行快速OLAP分析 2.掌握基于Springboot+SwaggerUI快速构建数据服务接口 3.掌握实时高性能海量数据分析与存储 5.掌握针对Hbase调优实现Hbase存储调优 6.掌握数据报表分析 7.掌握业务数据实时大屏场景实现

    今日指数项目用于对证券市场的每日交易数据进行实时监控,该项目基于Flink框架搭建,结合HBase、Druid进行实时OLAP分析,在实时分析的平台上搭建监察预警体系,包括预警规则管理、实时预警、历史预警等。学员可以通过该项目学习到分布式实时计算、分布式数据存储等多个大数据技术解决方案。

    进入项目体验
    主讲解决方案
    Hive、HBase、HDFS数据存储、Kafka数据传输、Flink全栈数据处理、Nginx做反向代理、LSV和Keepalived负载均衡和高可用
    主讲知识点
    采集超过千万条新能源车辆的数据 实时高性能海量数据分析与存储 业务数据实时大屏场景实现
  • 车联网项目、金融项目和物流项目(3选1)高手班 21

    课时:8天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握基于Flink全栈进行快速OLAP分析 2.掌握基于Springboot+SwaggerUI快速构建数据服务接口 3.掌握实时高性能海量数据分析与存储 5.掌握针对Hbase调优实现Hbase存储调优 6.掌握数据报表分析 7.掌握业务数据实时大屏场景实现

    1、涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务 2、通过QBOX车辆终端数据收集,并解析为QSP数据、QCS数据、充电数据、HU数据 3、提供实时计算服务与离线计算服务,并通过API接口以报表和大屏展示分析结果数据

    进入项目体验
    主讲解决方案
    Hive、HBase、HDFS数据存储、Kafka数据传输、Flink全栈数据处理、Nginx做反向代理、LSV和Keepalived负载均衡和高可用
    主讲知识点
    采集超过千万条新能源车辆的数据 实时高性能海量数据分析与存储 业务数据实时大屏场景实现
  • 车联网项目、金融项目和物流项目(3选1)高手班 22

    课时:9天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握基于Flink全栈进行快速OLAP分析 2.掌握基于Springboot+SwaggerUI快速构建数据服务接口 3.掌握实时高性能海量数据分析与存储 5.掌握针对Hbase调优实现Hbase存储调优 6.掌握数据报表分析 7.掌握业务数据实时大屏场景实现

    本项目是基于大型物流公司业务研发的智慧物流大数据平台,公司业务网点覆盖国内各地,大规模的客户群体,日订单达1000W,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。

    进入项目体验
    主讲解决方案
    异构数据源、实时、离线、搜索、调度、数据服务、可视化完整架构,涵盖全生命周期项目
    主讲知识点
    基于大型物流公司快递流程,开发围绕订单、运单、仓库、B端客户、区域、画像多个主题的业务开发
返回课程目录

↑ 上拉查看下阶段课程

热点技术 “周”更新日志

课程更新日志按周更新热点/前沿技术

  • 新增2021-09-17

    · PySpark新零售分析案例· ETL、ELT区别· ETL、ELT区别· 大数据5V特点· 大数据多个应用场景

  • 更新2021-09-10

    · pandas及可视化课程迭代至v2.01· 数据分析多场景项目迭代至v1.81 · 最新版Python基础编程v2.01· 最新版Python编程进阶更新迭代至v2.01· 制定v2.0版本课程大纲

  • 升级2021-09-03

    · 完善flink的运行架构内容· 完善flink与kafka连接器的操作· 完善flink的window操作的讲义· 完善ODS层,新增和更新抽取方式,画图错误

  • 更新2021-08-27

    · Flink版本为1.13最新版· Flink table sql的整体概述 · 项目开发语言为spark官方使用最多的python语言

  • 更新2021-08-20

    · Spark语言为官方使用最多的Python语言· Spark版本为3.1.2发行版,Hadoop3.3.0,Hive3.1.2版本

专职课研团队专职教学团队

Python大数据开专职课研团队
人才筛选标准
python开发培训课研团队 python开发学习教研团队 python讲师团队人才标准

标准化研发人才画像
多维面试(五面)
研究院小组诊断测评
全链路面试流程监控

课研人员素质考核
课程设计考核
大纲设计考核
讲义撰写考核
视频录制考核
课堂试炼考核
产品全方位审评
考核答辩

技术开源历练
技术私享会
大牛技术沙龙
企业技术共享

Python大数据专职课研团队
课程研发体系标准

信息库

应用市场调研+大
数据分析
获取前沿发展方向

课题研究库

前沿热门课题深入
剖析+技术攻坚,
保障课程前瞻性

解决方案库

基于市场主流技术研
发解决方案,
应对职场难题

项目库

基于热门行业领域联合
大牛顾问团,
研发“大厂级”项目

研发人才库

来自华为、IBM等百人大牛团,每年耗资亿元,
研发行业标杆优质课程

Python大数据专职课研团队
研发老师履历
Python大数据专职教学团队
人才筛选标准
大数据培训课研团队 大数据课研团队 大数据研发讲师团队

标准化讲师画像初试技术深度
复试授课质量终试价值观

定制个性化考核方案讲师素质考核
视频录制考核排课、备课产出物考核
教育心理考核教学方法考核
课堂试讲考核正式授课答辩

学员满意度打分阶段课程评审
多维培养计划讲师晋升通道

教学团队独创三大教学法
讲透技术重难点
  • 情景式教学法将教学过程形象化的一种授课方法,集风趣、
    知识、故事场景于一体,可大大提高学员对
    知识的理解和吸收

  • 场景式授课通过分析场景特点、梳理场景流程、呈
    现给定场景下技术的实现3个步骤,向学
    员清晰的展现了开发的全流程。

  • Open教学法OPEN 教学法是由传智教育培训院首创的一套
    教学方法论,旨在「用更短的时间讲明白一个
    知识点」

Python大数据专职教学团队
研发老师履历
专属教学服务 保障学习结果
  • 入学多维测评,
    定制专属学习计划;
    目标导向式学习,
    精准定靶不脱节;
  • 随堂诊断纠错,
    扫清理解盲点;
    智能指引式建议,
    分层教学,
    因材施教;
  • 阶段效果测评,
    消除知识薄弱点;
    循序渐进式练习,
    从理论到应用;
    随时有问必答,
    攻克技术难点;
  • 学员薄弱
    知识可视化,
    精准查漏补缺;
    BI报表数据呈现,
    精准把控教学质量。
Python大数据项目课程