黑马程序员

全国校区

python培训班学费一般多少   快速了解Python+大数据开发
关闭python培训课程介绍视频

【Python+大数据开发课程】

数据开发比例达95%,涵盖数据开发所需工具及编程语言。语言层面包含SQL、Python、Java;数据开发涵盖SQL、Pandas、Hadoop、Hive、Spark 、Flink 多个技术生态圈,学完即可在多行业多场景完成数据开发应用。

课程
特色

万能编程语言
Python+大数据开发助你掌控未来
  1. Python
    数据领域重要语言
  2. 国家大数据战略
    大数据人才紧缺
  3. 数字经济 引领全球
    经济社会变革
  • Python培训|Python语言发展趋势

    Python语言的TIOBE指数增长几乎触及Java,它们之间的差距仅仅只有0.57%;根据 Hacker News 招聘趋势排名,越来越多的公司要求员工掌握 Python 技能。

  • python大数据人才缺口

    大数据已成为一种战略资源,具有广阔的应用前景;《新职业—大数据工程技术人员就业景气现状分析报告》报告显示,2020年我国大数据领域人才缺口高达200万,预计2021年大数据人才缺口达到250万!

  • python大数据课程前景

    数字经济成为全球增长新动能,我国数字经济规模世界第二;数字人才成为我国经济全面数字化转型的第一资源和核心驱动力。

课程紧随市场需求
迭代升级
  • 专为0基础打造,适合初学者课程由浅入深,针对不同阶段定制不同的学习策划,学员能够活学活用,0基础也能快速掌握

  • 多行业实战项目联合百度、京东等数据行业头部公司进行课程共建,实战项目占比超80%,助力学员积累一手开发经验

  • 建立“数据开发解决方案库”对数据开发流程、难点进行提炼,建立“数据开发解决方案库”,培养学员系统化解决各种场景下数据开发的能力

  • 前沿热门技术"周"更新,助力职场晋升每周更新热点技术,让学员能够不断的持续学习先进技术和自我提升,轻松应对技术迭代

为数字化精英
量身定制学习方案
  • 0基础转行人员数据课程从Python入手,简单高效入门,最适宜零基础人员

  • 应届大学毕业生缺乏工作经验技能,对未来没有明确目标与规划,期望通过学习数据课程进入IT行业的人员

  • 计划转行人员目前工作待遇不理想,市场上升空间有限或职业瓶颈期,各行业需要突破现状实现转行的人员

  • 有基础寻求系统提升者具有一定的数据理论或基础,需要掌握系统数据技术,在实际业务中如何应用的人员

  • 数据开发技术爱好者有较强逻辑思维能力,应对复杂业务场景处理,顺应时代趋势,对数据行业感兴趣的人员

进阶式学习
构建完整知识体系

Python&SQL

从Python编程到BI及SQL实战,小白到入门华丽蜕变

数据分析及处理实战

掌握Pandas数据处理分析,多场景实战演练

Hadoop与数仓

学习Hadoop、Hive,离线教育和新零售数仓项目

Spark实战

掌握Spark框架及物流和保险实战项目

实时计算基础

Java编程到NoSQL再到消息中间件,应对不同技术需求

Flink实战

掌握Flink技术,强化面试技巧和能力

赠送课程持续提升

工作后赠送超过3个月课程,持续更新继续提升
查看完整课程大纲
企业级真实项目
锻炼职场综合能力
  • 全行业

    14大业务场景,领跑行业覆盖
  • 高标准

    亿元级研发投入,大厂深度共建
  • 真场景

    真实数据,数据链路完整
  • 深技术

    深度技术剖析,贴合市场主流
  • 快更新

    新技术新变化,第一时间进入课程
  • 严保障

    8项评审流程,4项验收标准
大数据实战平台
培养真正的数字化人才

学习大数据,你见过真的海量数据吗?你操作过真的【大规模集群】吗?你接触过真的【云服务】吗?这一切,在黑马程序员都将实现真接触!黑马程序员与知名云平台厂商—UCloud达成深度合作。为学生提供大规模服务器集群进行实战,硬件规模达到:

  • 200+英特尔志强系列CPU核心

  • 1TB+内存总量

  • 1PB+硬盘存储空间

  • 1GB/S万兆高速内网

以上资源,年成本近百万,但黑马完全免费提供给每位学生使用。真正让每个学生都能接触【真·大规模集群】和【真·大规模数据】。

培训python好就业吗
6大项目实战流程
层层攻破技术难点
python培训班推荐|Python大数据项目课程

项目启动

确定项目方向、目标
需求调研、市场调研
设计产品原型

业务需求

业务需求
需求变更
业务评审
python培训机构哪里好|python大数据项目设计

设计阶段

前端界面设计接口文档设计技术调研、选型 表模型设计需求详细设计
python开发培训项目启动

项目启动

制定代码开发规范小组开发打包部署 表模型设计规范代码提交编写部署文档 业务开发流程单元测试 业务拆解Bug修改
python开发培训项目交付验收

项目上线

投产交付
运维维护

测试阶段

联调测试功能测试 Bug提交性能测试 问题单跟踪产出测试报告 编写测试用例
百度、京东共建项目
衔接大厂人才需求

【金融保险】富华阳光保险

01

110

指标数量

40 亿

数据量

10

解决方案

6

课程天数
项目背景

保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。

项目体验

【新零售】亿品新零售

02

300 +

指标数量

1095 亿

数据量

20

解决方案

8

课程天数
项目背景

本项目基于一家大型连锁超市研发的大数据分析平台。是第一个深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。

项目体验

【工业互联网】一站制造

03

300 +

指标数量

30 亿

数据量

11

解决方案

8

课程天数
项目背景

通过大数据技术架构,解决工业物联网石油制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于hive数仓分层来存储各个业务指标数据,基于sparksql做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。

项目体验

【金融】今日指数证券

04

7

主题数量

42

指标数量

14

解决方案数量
项目背景

今日指数项目用于对证券市场的每日交易数据进行实时监控,该项目基于Flink框架搭建,结合HBase、Druid进行实时OLAP分析,在实时分析的平台上搭建监察预警体系,包括预警规则管理、实时预警、历史预警等。学员可以通过该项目学习到分布式实时计算、分布式数据存储等多个大数据技术解决方案。

项目体验

【物流】客快物流

05

5

主题数量

88

指标数量

12

解决方案数量
项目背景

本项目是基于大型物流公司业务研发的智慧物流大数据平台,公司业务网点覆盖国内各地,大规模的客户群体,日订单达1000W,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。

项目体验

【在线教育】知行教育

06
项目背景

受互联网+概念的催化,教育市场发展火热,越来越多的教育机构和平台不断涌现,包括有线上学习和线下培训,K12教育和职业教育等。

项目体验

【物联网】星途车联网

07

8

指标数量

21

指标数量

13

解决方案数量
项目背景

星途车联网项目通过TBOX、嵌入式、ETL、数据存储等技术,将大量的车辆数据进行快捷存储、快速计算、智能推荐,为大型车企的业务发展、商业决策提供数据支持。

项目体验

【电商】智数电商

08

50

指标数量

1200 亿

指标数量
项目背景

智数电商主要是对来自全品类B2B2C电商系统的数据进行分析,数据仓库分为离线数仓和实时数仓,技术框架依托于大数据CDH发型版构建。智数电商在业务上贴近企业实际需求,指标计算完成后采用开源BI工具Apache superset对指标数据进行可视化展示。

项目体验
学后拥有两年以上项目经验
就业高起点
Python培训前景好不好
Python大数据培训职业发展方向

资深数据分析师
(4~6年)

数据科学家
(6~10年)

CDO(首席数据官)
(10年以上)

资深数据工程师
(4~6年)

数据架构师
(6~10年)

CTO
(10年以上)

项目经理
(4~6年)

项目总监
(6~10年)

CIO
(10年以上)

行业大咖技能深度讲解
助你攻克学习难点
  • python课程研发老师

    原老师课程研究员

    北大硕士/数据分析专家
    研发成果:新浪微博系统 中新网新闻大数据推荐系统
  • python培训课程研发老师

    史老师课程研究员

    技术达人/开源爱好者
    研发成果:美多商城 V逗短视频
  • python大数据培训课程研发老师

    谢老师课程研究员

    10年经验/多语言精通
    研发成果:python基础双元课程
    python高级双元课程
查看更多名师
好口碑python培训机构 体验python培训机构课程

课程大纲

  1. 基础班

    1. Python基础编程

  2. 高手班

    1. Python编程进阶 2. MySQL 3. 大数据Hadoop技术栈 4. 项目一:企业级离线数仓 5. 项目二:数仓项目分组实训 6. Pandas技术栈 7. Spark技术栈 8. 项目三:Spark离线项目(2选1)保险行业大数据项目 9. 项目三:Spark离线项目(2选1)客快物流项目 10. 实时计算基础 11. 项目四:Spark实时项目(2选1)保险行业用户画像项目 12. 项目四:Spark实时项目(2选1)客快物流实时项目 13. 就业指导+就业加强 14. 大数据实时技术栈 15. 项目五:大数据实时计算项目(3选1)星途车联网Flink实时项目 16. 项目五:大数据实时计算项目(3选1)今日指数证券Flink实时项目 17. 项目五:大数据实时计算项目(3选1)客快物流Flink实时项目

  3. 进阶课

    1. 进阶课程

  • Python基础编程基础班 1

    课时:8天技术点:52项测验:1次学习方式:线下面授

    学习目标

    1.掌握Python开发环境基本配置| 2.掌握运算符、表达式、流程控制语句、数组等的使用| 3.掌握字符串的基本操作| 4.初步建立面向对象的编程思维| 5.熟悉异常捕获的基本流程及使用方式|

    主讲内容

    1. Python基础语法零基础学习Python的开始,包含了以下技术点:

    1.变量| 2.标识符和关键字| 3.输入和输出| 4.数据类型转换| 5.PEP8编码规范| 6.比较/关系运算符| 7.if判断语句语法格式| 8.三目运算符| 9.while语句语法格式| 1.while 循环嵌套| 11.break 和 continue| 12.while 循环案例| 13.for循环|

    2. Python数据处理掌握Python的数据类型,并对其进行操作处理,包含了以下技术点:

    1.字符串定义语法格式| 2.字符串遍历| 3.下标和切片| 4.字符串常见操作| 5.列表语法格式| 6.列表的遍历| 7.列表常见操作| 8.列表嵌套| 9.列表推导式| 1.元组语法格式| 11.元组操作| 12.字典语法格式| 13.字典常见操作| 14.字典的遍历|

    3. 函数能够实现Python函数的编写,包含了以下技术点:

    1.函数概念和作用、函数定义、调用| 2.函数的参数| 3.函数的返回值| 4.函数的注释| 5.函数的嵌套调用| 6.可变和不可变类型| 7.局部变量| 8.全局变量| 9.组包和拆包、引用|

    4. 文件读写能够使用Python对文件进行操作,包含了以下技术点:

    1.文件的打开与关闭、文件的读写| 2.文件、目录操作及案例| 3.os模块文件与目录相关操作|

    5. 面向对象从逐步建立起面向对象编程思想,再到会使用对象,到创建对象,再到真正理解为什么封装对象,包含了以下技术点:

    1.面向对象介绍| 2.类的定义和对象的创建| 3.添加和获取对象属性| 4.self 参数| 5.init方法| 6.继承| 7.子类方法重写| 8.类属性和实例属性| 9.类方法、实例方法、静态方法|

    6. 异常处理主要介绍了在Python编程中如何处理异常,包含了以下技术点:

    1.异常概念| 2.异常捕获| 3.异常的传递|

    7. 模块和包主要介绍了Python中的模块和包的体系,以及如何使用模块和包,包含了以下技术点:

    1.模块介绍| 2.模块的导入| 3.包的概念| 4.包的导入| 5.模块中的..all..| 6.模块中..name..|

  • Python编程进阶高手班 1

    课时:10天技术点:30项测验:1次学习方式:线下面授

    学习目标

    1.掌握面向对象编程能力及思想| 2.掌握Python高级语法特性| 3.掌握开发中的多任务编程实现方式| 4.知道多进程多线程的原理| 5.掌握网络编程技术,能够实现网络通讯| 6.知道通讯协议原理| 7.掌握日志的使用| 8.能够使用Python对数据进行处理开发|

    主讲内容

    1. 网络编程主要学习通讯协议,以及Python实现TCP、HTTP通讯,包含了以下技术点:

    1.IP地址的介绍| 2.端口和端口号的介绍| 3.TCP的介绍| 4.Socket的介绍| 5.TCP网络应用的开发流程| 6.基于TCP通信程序开发|

    2. 多任务编程主要学习Python中多线程、多进程,包含了以下技术点:

    1.多任务介绍| 2.多进程的使用| 3.多线程的使用| 4.线程同步|

    3. 高级语法主要学习Python的高级语法,包含以下技术点:

    1.闭包| 2.装饰器| 3.迭代器| 4.深浅拷贝| 5.正则|

    4. Python编程综合项目通过前边所学知识,完成综合案例,锻炼编程能力、培养编程思维

    1. Python编程综合项目|

  • MySQL高手班 2

    课时:5天技术点:36项测验:1次学习方式:线下面授

    学习目标

    1. 掌握MySQL数据库的使用| 2. 掌握SQL语法| 3. 掌握Kettle数据迁移工具的使用| 4. 熟练使用BI可视化工具| 5. 对数据开发有一定认知,掌握BI工程师所具备的基本技能|

    主讲内容

    1. MySQL与SQL零基础小白通过MySQL数据库,掌握核心必备SQL,包含了以下技术点:

    01_数据库概念和作用| 02_MySQL数据类型| 03_数据完整性和约束| 04_数据库、表基本操作命令| 05_表数据操作命令| 06_where子句| 07_分组聚合| 08_连接查询| 09_外键的使用|

    2. Kettle与BI工具使用Kettle做数据迁移,通过BI工具展示excel、MySQL中的数据,包含了以下技术点:

    01_Kettle基本操作| 02_Kettle数据转换| 03_Kettle使用SQL脚本组件| 04_kettle Job开发| 05_FineBI基本操作| 06_FineBI常用图表| 07_FineBI仪表板| 08_综合案例|

    3. PymysqlPython与数据库交互,主要学习PyMySQL包

    01. 环境搭建| 02. Python操作数据库|

    4. Python编程综合项目通过前边所学知识,完成综合案例,锻炼编程能力、培养编程思维

    01. Python编程综合项目|

  • 大数据Hadoop技术栈高手班 3

    课时:11天技术点:46项测验:0次学习方式:线下面授

    学习目标

    1.掌握Linux常用命令,为数据开发后续学习打下的良好基础| 2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群| 3.掌握Hive的使用和调优| 4.具备Hadoop开发能力、离线数据仓库开发能力| 5.能够完成基本构建企业级数仓|

    主讲内容

    1. Linux掌握Linux操作系统常用命令和权限管理

    01_Linux命令使用| 02_Linux命令选项的使用| 03_远程登录和远程拷贝| 04_Linux权限管理| 05_vi编辑器使用| 06_集群搭建准备|

    2. 大数据基础和硬件介绍进一步阐述大数据特点与分布式思想,知识点由浅入深,包含了以下技术点:

    1.大数据的特点| 2.分布式存储概念| 3.分布式计算的概念| 4.服务器种类介绍、机架、交换机| 5.网络拓扑、Raid、IDC数据中心|

    3. Zookeeper分布式软件管家,实现了集群管理与leader选举,包含了以下技术点:

    1.Zookeeper的应用场景| 2.架构和原理| 3.存储模型| 4.选举机制| 5.客户端操作| 6.ZK集群搭建|

    4. HDFS分布式文件系统,解决了海量数据存储与容错,包含了以下技术点:

    1.HDFS设计的特点| 2.Master-Slave架构| 3.Block块存储、RF拷贝因子、机架感知| 4.Block拷贝策略、读写流程| 5.HDFS Federation、HDFS Snapshots、NameNode HA架构和原理| 6.HDFS管理员常用操作、HDFS权限控制| 7.HDFS普通集群以及HA集群搭建|

    5. MapReduce分布式计算系统,解决海量数据的计算,包含了以下技术点:

    1.MapReduce架构和原理| 2.Split机制| 3.MapReduce并行度| 4.Combiner机制、 5.Partition机制、自定义Partition| 6.MapReduce序列化、自定义排序、数据压缩|

    6. YARN分布式资源调度管理器,管理服务器软件资源,包含了以下技术点:

    1.Yarn原理和架构| 2.Yarn高可用| 3.Container资源的封装(CPU、内存和IO)| 4.资源调度策略(FIFO、Fair和Capacity)| 5.YARN高可用模式搭建|

    7. Hive基础数据仓库Hive,实现企业级数仓必备工具,包含以下知识点:

    1.HQL操作| 2.数据类型| 3.分区、分桶、临时表| 4.explain执行计划详解|

    8. Hive高阶数据仓库Hive高阶原理和架构深入,实现企业级数仓优化,包含以下知识点:

    1.Hive原理和架构| 2.Meta Store服务| 3.HiveServer内置函数| 4.自定义UDF和UDAF| 5.数据压缩、存储格式、自动化脚本、常见性能优化|

  • 项目一:企业级离线数仓高手班 4

    课时:10天技术点:120项测验:0次学习方式:线下面授

    学习目标

    1.掌握离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程| 2.行业内首个深度使用Presto的项目| 3.包括海量数据场景下如何优化配置| 4.拉链表的具体应用| 5.新增数据和更新数据的抽取和分析| 6.提供新零售大型商超集团的数据存储分析以及服务监控方案| 7.使用Git对代码进行管理|

    本项目基于一家大型连锁超市研发的大数据分析平台。黑马第一个深度使用Presto的项目,打下了坚实的项目实操能力,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。

    进入项目体验
    主讲解决方案

    掌握离线数仓的分层与建模、大数据量场景下如何优化配置,拉链表的具体应用,新增数据的抽取和分析,更新数据的抽取和分析,以及Hive函数的具体应用等。ClouderaManager可视化、自动部署和配置、Git的CodeReview功能保证项目高质量 离线数仓的分层与建模 项目涉及20多个主题,100多个指标场景 帆软BI企业级报表展示

    主讲知识点

    1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:Hive+presto 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:oozie+shell 8.OLAP系统存储:MySQL 9.FineBI数据展示

  • 项目二:数仓项目分组实训高手班 5

    课时:5天技术点:120项测验:0次学习方式:线下面授

    学习目标

    1.掌握行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程 2.真实业务逻辑,共涉及20多个主题,100多个指标,提升核心竞争力 3.包括海量数据场景下如何优化配置 4.拉链表的具体应用 5.新增数据和更新数据的抽取和分析 6.Hive函数的具体应用 7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能

    1、建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 2、项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 3、挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。

    进入项目体验
    主讲解决方案

    项目介绍与环境准备、数据仓库的建模和分层、OLTP、ODS、DWD实现、Presto、DWB实现、DWS实现、DM、RPT、导出实现、Oozie架构与部署及使用。使用Hive、Presto、Oozie、数仓技术栈,提供新零售大型商超集团的数据存储分析以及服务监控方案

    主讲知识点

    1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:Hive 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:ds 8.OLAP系统存储:MySQL 9.FineBI数据展示 10.Git代码管理

  • Pandas技术栈高手班 6

    课时:3天技术点:48项测验:1次学习方式:线下面授

    学习目标

    1.掌握离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程 2.行业内首个深度使用Presto的项目 3.包括海量数据场景下如何优化配置 4.拉链表的具体应用 5.新增数据和更新数据的抽取和分析 6.提供新零售大型商超集团的数据存储分析以及服务监控方案 7.使用Git对代码进行管理

    主讲内容

    1. Pandas及可视化技术Pandas数据处理及可视化技术,包含以下技术点:

    01. Pandas数据结构和数据类型| 02. 索引及列的操作| 03. Dataframe数据的增删改查操作| 04. Pandas常用计算函数| 05. 缺失值处理| 06. 分组、分箱、合并与变形操作| 07. DF的读取与保存以及与数据库的交互| 08. Pandas Matplotlib、Pyecharts可视化| 09. Pandas项目开发实战|

  • Spark技术栈高手班 7

    课时:8天技术点:130项测验:1次学习方式:线下面授

    学习目标

    1.掌握Spark的RDD、DAG、CheckPoint等设计思想| 2.掌握SparkSQL结构化数据处理,Spark On Hive| 3. 掌握Pandas数据处理分析,以及Pandas on Spark| 4.掌握Structured Streaming整合多数据源完成实时数据处理| 5.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力|

    主讲内容

    1. Spark基础本阶段学习Spark环境搭建及以下知识点

    1.Spark基础环境搭建 2.Spark的Standalone环境搭建 3.Spark的StandaloneHA搭建 4.SparkOnYarn环境搭建

    2. Spark Core整个spark框架核心部分,掌握框架内部设计思想,数据流转步骤,是学习spark的基础模块,包含了以下技术点:

    1.Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程) 2.RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量 3.DAG原理(DAG思想、DAG的生成、DAG的处理过程)

    3. Spark SQL学习spark框架的SQL操作,spark与Hive、HBase等外部数据源的整合操作,包含了以下技术点:

    1.Spark SQL架构和原理 2.DataFrame、DataSet DSL和SQL开发 3.Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive) 4.Spark SQL执行计划原理 5.Spark SQL性能调优

    4. Structured StreamingSpark实时计算

    1.流式处理基本概念及应用场景 2.Structured Streaming架构 3.Structured Streaming基本使用 4.Structured Streaming与其他组件配合使用

    5. Spark综合案例践行场景式教学,运用了Spark阶段知识点,使用lambda加解决数据分析的应用,包含了以下技术点:

    Spark综合案例实战

  • 项目三:Spark离线项目(2选1)保险行业大数据项目高手班 8

    课时:9天技术点:100项测验:0次学习方式:线下面授

    学习目标

    1. 快速搭建保险行业大数据平台| 2. 基于Hive+Spark SQL搭建离线数据仓库| 3. 基于SparkSQL应对轻松应对复杂的迭代计算| 4. 完成基于国内头部保险公司大数据项目开发| 5. 掌握基于Spark分析12亿报单表和8千万客户等数据| 6. 对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示| 7. 掌握基于Elasticsearch标签搜索|

    保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到Hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示

    进入项目体验
    主讲解决方案

    项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化、Elasticsearch搜索。

    主讲知识点

    基于Spark轻松应对保险复杂的迭代计算;以及用户画像

  • 项目三:Spark离线项目(2选1)客快物流项目高手班 9

    课时:9天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握Docker环境部署、管理操作| 2.掌握基于Oracle + MySQL异构数据源数据处理技术| 3.掌握基于Oracle Golden Gate以及Canal的实时采集技术| 4.掌握Kudu + Spark的快速离线数据处理、分析技术| 5.掌握Kudu + Impala即席数据分析技术| 6.掌握Kudu、Spark的调优能力|

    基于一家大型物流公司研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案。

    进入项目体验
    主讲解决方案

    涵盖离线业务和实时业务、ClickHouse实时存储和计算引擎、 Kudu + Impala准实时分析系统、基于Docker搭建异构数据源、以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、ELK全文检索、Spring Cloud数据微服务开发、实时监控地图开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程。

    主讲知识点

    1.基于Oracle + MySQL异构数据源数据处理技术 2.基于Kudu + Spark的快速离线数据处理、分析技术 3.基于Kudu + Impala即席数据分析技术 4.学会基于ClickHouse高性能存储、计算引擎技术 5.掌握基于ELK的全文检索技术

  • 实时计算基础高手班 10

    课时:4天技术点:61项测验:0次学习方式:线下面授

    学习目标

    1.掌握HBase原理及架构| 2.掌握HBase命令操作、MapReduce编程| 3.掌握Phoneix二级索引优化查询| 4.掌握ELK开发掌握Kafka原理及架构|

    主讲内容

    1. 万亿级NoSQL海量数据存储存储海量数据的列式数据库,内部高效设计解决了海量数据存储,包含了以下技术点:

    1.HBase原理及架构| 2.预分区、LSM结构| 3.Bloom Filter,co-processor,结合Phoneix进行优化查询|

    2. Flume实时数据采集掌握Flume的使用方法

    1.Flume原理及架构| 2.Source-Sink-Channal| 3.文件数据源及相关配置| 4.Flume断点续传|

    3. 分布式流处理平台分布消息队列存储数据,应用于低延时实时场景,包含了以下技术点:

    1.Kafka原理及架构分析| 2.分布式实时计算架构和思想|

    4. NoSQL社交场景大数据分析实战践行场景式教学,运用了NoSQL阶段知识点,解决实时数据分析的应用,包含了以下技术点:

    1.社交App场景实战| 2.社交大数据架构剖析| 3.数据采集| 4.数据ETL| 5.数据分析|

  • 项目四:Spark实时项目(2选1)保险行业用户画像项目高手班 11

    课时:8天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1. 用户画像架构设计| 2. 基于Hbase存储业务数据库数据| 3. 基于SparkSQL应对轻松应对标签的计算| 4. 完成基于国内头部保险公司大数据项目开发| 5. 掌握基于MySQL的五级标签构建| 6. 对统计类标签,规则类标签进行代码封装| 7. 掌握基于Elasticsearch全文检索技术|

    保险行业用户画像是基于金融保险数仓平台之上进行设计和开发,是面向投保用户的偏好、行为习惯和人口属性的画像还原,同时也包括对投保信息的画像还原。提供用户喜好和保险特征帮助营销平台提升保险营销的精准度,也方便个性化推荐系统快速准确的为每个用户推荐相关的商品。

    进入项目体验
    主讲解决方案

    项目核心架构和业务流程、Hbase数据同步开发,DolphinScheduler任务调度、Web标签管理平台、UDF函数计算、统计类标签、规则类标签、挖掘类标签等汇总计算 、Elasticsearch搜索。

    主讲知识点

    基于SparkSQL轻松应对保险行业复杂用户标签计算

  • 项目四:Spark实时项目(2选1)客快物流实时项目高手班 12

    课时:8天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握Docker环境部署、管理操作| 2.掌握基于Oracle + MySQL异构数据源数据处理技术| 3.掌握基于Oracle Golden Gate以及Canal的实时采集技术| 4.掌握基于ClickHouse高性能存储、计算引擎技术| 5.掌握基于ELK的全文检索技术| 6.掌握Kudu、Spark的调优能力| 7.掌握基于Spring Cloud的数据微服务接口开发技术|

    基于一家大型物流公司研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案。

    进入项目体验
    主讲解决方案

    涵盖离线业务和实时业务、ClickHouse实时存储和计算引擎、 Kudu + Impala准实时分析系统、基于Docker搭建异构数据源、以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、ELK全文检索、Spring Cloud数据微服务开发、实时监控地图开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程。

    主讲知识点

    1.基于Oracle + MySQL异构数据源数据处理技术 2.基于Kudu + Spark的快速离线数据处理、分析技术 3.基于Kudu + Impala即席数据分析技术 4.学会基于ClickHouse高性能存储、计算引擎技术 5.掌握基于ELK的全文检索技术

  • 就业指导+就业加强高手班 13

    课时:5天技术点:60项测验:1次学习方式:线下面授

    学习目标

    1.强化面试就业核心面试题| 2.梳理大数据架构及解决方案| 3.剖析多行业大数据架构|

    主讲内容

    1. SQL实战解决Python大数据常见的SQL面试题,包含了以下技术点:

    1.面试题必备SQL实战| 2.SQL优化加强|

    2. Hive数据分析与面试题加强解决Hive数据分析开发必备面试题,包含了以下技术点:

    1.Hive基础| 2.Hive拉链表| 3.Hive数据仓库构建示例| 4.Hive面试题|

    3. Spark数据分析与面试题加强解决Spark开发必备面试题,包含了以下技术点:

    1.Spark基础| 2.Spark离线分析| 4.Spark面试题|

    4. NoSQL数据分析与面试题加强解决NoSQL常见的面试题,从消息队列到HBase掌握关键原理,包含了以下技术点:

    1.Kafka原理加强| 2.HBase原理加强| 3.企业级HBase&Kafka面试题|

    5. 大数据多行业架构剖析解决多行业多场景大数据架构设计,具备举一反三设计大数据架构体系能来,包含了以下技术点:

    1.数据分析流程| 2.大数据架构剖析| 3.多行业大数据架构设计| 4.大数据存储,调度等解决方案|

  • 大数据实时技术栈高手班 14

    课时:6天技术点:90项测验:1次学习方式:线下面授

    学习目标

    1.掌握基于Flink进行实时和离线数据处理、分析| 2.掌握基于Flink的多流并行处理技术| 3.掌握千万级高速实时采集技术|

    主讲内容

    1. Flink Core新一代批流统一数据处理引擎,在计算效率和性能都有很大提升,包含了以下技术点:

    1.Flink基础|

    2. Flink DataStream构成了Flink解决实时数据处理部分,是掌握实时数据处理必备技能,包含了以下技术点:

    1.Flink DataStream的使用| 2.Kafka + Flink|

    3. Flink SQL解决Flink中的SQL化开发,Flink-SQL开发必备技能,包含了以下技术点:

    1.Flink SQL开发| 2.Hive + Flink SQL|

    4. Flink Runtime是对Flink任务进行调优,必须掌握的内容,包含了以下技术点:

    1.Watermark| 2.Checkpoint| 3.任务调度与负载均衡| 4.状态管理|

    5. Flink高级解决Flink性能监控等高阶知识,具备实时数据分析必备技能,包含以下技术点:

    1.Flink性能监控| 2.Flink调优| 3.Flink SQL执行计划|

    6. Flink电商案例实战践行场景式教学,运用了Flink阶段知识点,解决实时数据分析的应用,包含了以下技术点:

    Flume+Kafka+Flink+HBase+Sqoop+Canal+MySQL实战

  • 项目五:大数据实时计算项目(3选1)星途车联网Flink实时项目高手班 15

    课时:8天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握基于Flink全栈进行快速OLAP分析 2.掌握实时高性能海量数据分析与存储 3.掌握针对HBase调优实现HBase存储调优 4.掌握数据报表分析 5.掌握业务数据实时大屏场景实现

    1、涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务 2、通过QBOX车辆终端数据收集,并解析为QSP数据、QCS数据、充电数据、HU数据 3、提供实时计算服务与离线计算服务,并通过API接口以报表和大屏展示分析结果数据

    进入项目体验
    主讲解决方案

    Hive、HBase、HDFS数据存储、Kafka数据传输、Flink全栈数据处理、Nginx做反向代理、LSV和Keepalived负载均衡和高可用

    主讲知识点

    采集超过千万条新能源车辆的数据 实时高性能海量数据分析与存储 业务数据实时大屏场景实现

  • 项目五:大数据实时计算项目(3选1)今日指数证券Flink实时项目高手班 16

    课时:8天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握基于Flink全栈进行快速OLAP分析 2.掌握实时高性能海量数据分析与存储 3.掌握针对HBase调优实现HBase存储调优 4.掌握数据报表分析 5.掌握业务数据实时大屏场景实现

    今日指数项目用于对证券市场的每日交易数据进行实时监控,该项目基于Flink框架搭建,结合HBase、Druid进行实时OLAP分析,在实时分析的平台上搭建监察预警体系,包括预警规则管理、实时预警、历史预警等。学员可以通过该项目学习到分布式实时计算、分布式数据存储等多个大数据技术解决方案。

    进入项目体验
    主讲解决方案

    今日指数项目用于对证券市场的每日交易数据进行实时监控,该项目基于Flink框架搭建,结合HBase、Druid进行实时OLAP分析,在实时分析的平台上搭建监察预警体系,包括预警规则管理、实时预警、历史预警等。

    主讲知识点

    学员可以通过该项目学习到分布式实时计算、分布式数据存储等多个大数据技术解决方案。

  • 项目五:大数据实时计算项目(3选1)客快物流Flink实时项目高手班 17

    课时:8天技术点:130项测验:0次学习方式:线下面授

    学习目标

    1.掌握基于Flink全栈进行快速OLAP分析 2.掌握实时高性能海量数据分析与存储 3.掌握针对HBase调优实现HBase存储调优 4.掌握数据报表分析 5.掌握业务数据实时大屏场景实现

    本项目是基于大型物流公司业务研发的智慧物流大数据平台,公司业务网点覆盖国内各地,大规模的客户群体,日订单达1000W,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。

    进入项目体验
    主讲解决方案

    异构数据源、实时、离线、搜索、调度、数据服务、可视化完整架构,涵盖全生命周期项目

    主讲知识点

    基于大型物流公司快递流程,开发围绕订单、运单、仓库、B端客户、区域、画像多个主题的业务开发

  • 进阶课程进阶课 1

    课时:240天技术点:500项测验:0次学习方式:线上学习

    学习目标

    1. 在毕业后工作之余进行学习、继续提升| 2. 课程品类和内容持续更新、终身受益|

    主讲内容

    1. Python数据分析数据分析专项课,无论从事大数据开发、还是专门从事数据分析,升职挑战高薪必备技能

    1. Pandas开发进阶| 2. 机器学习数据挖掘统计分析| 3. 多场景分析项目| 4. 金融风控专项分析|

    2. Python后端开发如果你最终想成为融汇前后端运维测试的技术总监,那么请在工作之余学习这套课程

    1. Python Django Web开发| 2. 美多商城前后台Web项目| 3. Python自动化运维部署| 4. Python Flask Web开发| 5. 黑马头条移动端Web项目| 6. 后端高并发数据库缓存设计| 7. Python测试开发| 8. Python爬虫开发| 9. 微服务及RPC远程调用开发|

    3. Scala on SparkScala虽然式微,但如果你即将加入的团队还在使用Scala进行Spark开发,请快速学习

    1. Scala编程| 2. 基于Scala的Spark开发| 3. Scala Spark项目1:用户画像| 4. Scala Spark项目2:大数据推荐系统| 5. Scala Spark项目3:大数据反爬虫| 6. Scala Spark项目4:信号检测| 7. Scala Spark项目5:车联网|

    4. Java on Flink虽然以阿里为首的一线大厂已经开始采用Python on Flink的技术选型,但还是有部分团队采用Java on Flink,如果需要请快速学习

    1. Java编程| 2. 基于Java的NoSQL及存储框架开发| 3. 基于Java的Flink实时计算开发| 4. Java Flink项目1:车联网| 5. Java Flink项目2:金融证券| 6. Java Flink项目3:物流大数据实时计算|

    5. Flink实时计算高级进阶价值超过万元的实时计算课程,助力在职的你持续挑战高薪

    1. 实时计算基础| 2. 实时计算高阶| 3. 实时计算架构与运维| 4. Flink源码解析|

  • Python+大数据开发 V版本课程说明

    课程名称:主要针对:主要使用开发工具:

    课程介绍

返回课程目录

↑ 上拉查看下阶段课程

热点技术 “周”更新日志

Python+大数据更新日志按周更新热点/前沿技术

  • 新增2022-05-24

    · FlinkSink新特性· FlinkSQL整合Hive· 分层规范,通过对数据业务的分析,将数仓分为ODS, DWD, DWB, DM, APP五层

  • 新增2022-05-17

    · FlinkSQL&Table理论部分比重,移除过期API,使用新版API · FlinkSQL整合Kafka案例· 双流Join知识点和案例分层规范,通过对数据业务的分析,将数仓分为OD· S, DWD, DWB, DM, APP五层

  • 新增2022-05-10

    · Flink版本为1.14· 弱化DataSetAPI讲解,加强DataStreamAPI-流批一体新特性的讲解· 移除过期API,增加DataStream、Window、Watermaker新版API使用讲解

  • 新增2022-05-03

    · 实时业务-实时统计Top10热点题· 实时业务-实时统计答题最活跃的Top10年级· 实时业务-实时统计Top10热点题及所属科目

  • 新增2022-04-26

    · 数据模拟程序写入到Kafka· 实时分析学生答题情况· StructuredStreaming实时分析入口程序· python完成电商行业ETL实战· ETL基础概念· ETL完成的Pipeline构建流程

专职课研团队专职教学团队

Python+大数据开发专职课研团队
人才筛选标准
python开发培训课研团队 python开发学习教研团队 python讲师团队人才标准

标准化研发人才画像
多维面试(五面)
研究院小组诊断测评
全链路面试流程监控

课研人员素质考核
课程设计考核
大纲设计考核
讲义撰写考核
视频录制考核
课堂试炼考核
产品全方位审评
考核答辩

技术开源历练
技术私享会
大牛技术沙龙
企业技术共享

Python+大数据开发专职课研团队
课程研发体系标准

信息库

应用市场调研+大
数据分析
获取前沿发展方向

课题研究库

前沿热门课题深入
剖析+技术攻坚,
保障课程前瞻性

解决方案库

基于市场主流技术研
发解决方案,
应对职场难题

项目库

基于热门行业领域联合
大牛顾问团,
研发“大厂级”项目

研发人才库

来自华为、IBM等百人大牛团,每年耗资亿元,
研发行业标杆优质课程

Python+大数据开发专职课研团队
研发老师履历
Python+大数据开发专职教学团队
人才筛选标准
python大数据培训课研团队 python开发培训课研团队 python大数据研发讲师团队

标准化讲师画像初试技术深度
复试授课质量终试价值观

定制个性化考核方案讲师素质考核
视频录制考核排课、备课产出物考核
教育心理考核教学方法考核
课堂试讲考核正式授课答辩

学员满意度打分阶段课程评审
多维培养计划讲师晋升通道

教学团队独创三大教学法
讲透技术重难点
  • 情景式教学法将教学过程形象化的一种授课方法,集风趣、
    知识、故事场景于一体,可大大提高学员对
    知识的理解和吸收

  • 场景式授课通过分析场景特点、梳理场景流程、呈
    现给定场景下技术的实现3个步骤,向学
    员清晰的展现了开发的全流程。

  • Open教学法OPEN 教学法是由传智教育培训院首创的一套
    教学方法论,旨在「用更短的时间讲明白一个
    知识点」

Python+大数据开发专职教学团队
研发老师履历
专属教学服务 保障学习结果
  • 入学多维测评,
    定制专属学习计划;
    目标导向式学习,
    精准定靶不脱节;
  • 随堂诊断纠错,
    扫清理解盲点;
    智能指引式建议,
    分层教学,
    因材施教;
  • 阶段效果测评,
    消除知识薄弱点;
    循序渐进式练习,
    从理论到应用;
    随时有问必答,
    攻克技术难点;
  • 学员薄弱
    知识可视化,
    精准查漏补缺;
    BI报表数据呈现,
    精准把控教学质量。
python开发培训项目课程