从工厂“搬砖”转行大数据,这一次我做到了
说一下我的背景,四大天坑专业,因为在南方上大学,所以毕业了之后就去深圳了,因为学的是工科,虽然去了大城市,也没有在高楼大厦间工作,而是去了南山区的一个制药厂,整日在车间工作,工资也不高,车间主任都熬了好多年才上去,感觉也是一个一
查看详情1384阅读
大数据对全球发展影响重大
从数据大国迈向数据强国
数据来源:《“十四五”大数据产业发展规划》
人才需求大缺口1400万+
就业薪资高均薪18300元/月
升职加薪快双重晋升通道
Linux 基本命令用户管理VI权限管理网络管理SSH
MySQL DDLDMLDQL多表查询分组查询约束
Kettle 数据转换脚本组件Job开发
BI工具 基本操作常用图表仪表板
ZooKeeper 架构原理存储模型ZK集群搭建选举机制
Hadoop HDFS HDFS架构Block块存储读写流程NameNodeDataNode高可用集群
Hadoop MapReduce 核心原理执行流程Shuffle机制
Hadoop YARN YARN组件架构原理执行流程调度器
Hive HQL数据类型分区分桶拉链表元数据数据压缩存储格式原理架构性能优化
CDH CM架构组件构建CM实操
基于阿里数仓分层架构 ODSDIMDWSDWDDMADS
Hive + Presto 架构原理SQL调优集群构建
Hive 性能调优 数据倾斜JOIN调优Hive索引
调度 DSAzkabanOozie
Python编程 基本语法数据结构函数面向对象异常处理模块与包网络编程多进程多线程闭包装饰器迭代器
数据分析 Jupyter NotebookPandasMatploblibSeaborn
Spark 架构原理Spark RDDSpark DFSpark DAGSpark SQL内存迭代性能调优任务调度Pandas on SparkSpark on HiveSpark ShuffleSpark 3.x 新特性kafka原理和架构设计分布式实时计算架构和思想
用户画像及推荐解决方案 SparkSQL整合ES自定义数据源、用户画像标签构建规则、用户画像规则类标签构建、用户画像统计类标签构建
阿里云实时计算Flink 架构原理批流一体Window操作State操作DataStreamCheckpointFlink SQL任务调度负载均衡状态管理Runtime执行计划Flink性能监控与调优阿里云Flink+Kafka阿里云Flink+Paimon
数据结构 栈树图数组链表哈希表
高频算法 排序查找数组字符串链表栈队列二叉树回溯动态规划贪心复杂度
面试真题 编程语言SQLHadoop生态HiveSparkFlink
大厂架构 美团点评数仓架构小米大数据架构平安大数据架构
让数据分析更精准,开发更高效
多行业高效通用
助力企业“上云”便捷开发
13大热门行业,千亿级大数据实战
开发不必从零开始
热门数据岗位全覆盖
√适用于数据分析、离线数仓、实时数仓、用户画像、实时风控等应用场景
√全程使用SQL即可完成数仓开发,学习成本低,上手快
√StarRocks查询性能强悍,高可用,高可靠,运维简单
√以电商业务为背景,需求涵盖实时和离线全场景,主题、指标丰富
√基于Flink和Paimon实现流批一体、湖仓一体架构,极大降低开发和运维成本
√从0到1进行数仓规划和搭建,融入数仓建模和开发流程,快速提高实战能力
√提供DataWorks云产品和开源组件两套解决方案,解决不同公司需求
√涵盖数据质量、数据安全、数据标准、元数据管理等全域数据治理
√基于银行业务打造,真实还原企业数据治理全流程
√以打车业务为背景,真实还原企业业务场景和需求,方便理解与吸收
√实时基于阿里云Flink开发运用Flink CDC/Flink SQL进行编程,兼顾易用性和高效性
√离线基于DataWorks和MaxCompute开发,轻松完成数据集成、数据开发、项目运维等工作
黑马&阿里云 强强联合 研发阿里云Flink课程该课程是黑马AI+Python大数据V5.0课程新增重要内容,它基于各类企业近期招聘需求,升级了阿里云平台全套大数据技术栈内容。并由多位Apache社区贡献者联袂授课,采用六项目制驱动技术学习,从原理、实战到源码,帮助学生迈入高级开发工程师行列,满足国家数字化转型对数字人才的大量需求。
数据库分析师BI报表工程师数据运营
课程技术点PythonPandasPySparkPython数据分析项目帆软BI
数据库开发数仓开发工程师ETL工程师数据平台工程师数据治理工程师大数据运维工程师
课程技术点Hadoop技术栈Spark技术栈Flink技术栈黑马甄选项目黑马出行离线项目实时数仓项目
机器学习工程师数据挖掘工程师用户画像工程师推荐算法工程师
课程技术点数据治理用户画像推荐系统实时风控大数据系统统一数仓系统
阶段一 数据库基础
新增AI赋能
掌握国内主流AI编程大模型工具,通过嵌入DataGrip中完成业务数据分析SQL代码开发。
主讲内容
Linux操作系统、MySQL与SQL、Kettle与BI工具、电商运营指标分析
可掌握的核心能力
1.掌握MySQL数据库的使用;
2.掌握SQL语法;
3.掌握Kettle数据迁移工具的使用;
4.熟练使用BI可视化工具;
5.对数据开发有一定认知,掌握BI工程师所具备的基本技能。
可解决的现实问题
熟练掌握MySQL\SQL、Kettle以及BI工具使用,能够解决传统数仓业务开发任务。
阶段二 Hadoop技术栈
新增AI赋能
能够基于AI大模型工具辅助完成基本构建企业级数仓 掌握AI辅助编写Shell脚本、AI辅助编写Hive SQL,AI辅助进行SQL性能调优
主讲内容
大数据开发Hadoop基础、 Hive基础、Hive进阶
可掌握的核心能力
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础;
2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能够搭建Hadoop高可用HA集群;
3.掌握Hive的使用和调优;
4.具备Hadoop开发能力、离线数据仓库开发能力;
5.能够完成基本构建企业级数仓。
可解决的现实问题
熟悉Linux操作系统,以及各种Linux命令,能够解决企业级大数据集群搭建问题,为进阶大数据开发奠定基础。
阶段三 千亿级离线数仓项目
新增AI赋能
掌握AI辅助数据仓库建模、Hive SQL调优
主讲内容
大数据部署运维:Cloudera Manager、分析决策需求:数据仓库、数据采集:DataX、数据分析:Hive、数据调度:Dolphinscheduler、OLAP系统存储:PostgreSql、Fine Report数据报表与大屏、数仓建模: 范式与维度建模、五大核心主题域开发(销售域、供应链域、会员域等)
可掌握的核心能力
1.掌握泛电商行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
2.行业内首个深度讲解数仓建模模型方案的主体项目;
3.包括海量数据场景下如何优化配置;
4.掌握项目迁移能力,能够将项目迁移至泛电商的各个领域;
5.掌握在泛电商行业中关于全量与增量数据处理模式;
6.提供泛电商行业下的数据存储分析以及服务监控方案。
可解决的现实问题
能够解决企业级常见数据仓库搭建,从项目的需求、技术架构、业务架构、部署平台、ETL设计、作业调度等整套pipeline,完成大数据体系下的企业级数据仓库构建。
阶段四 千亿级离线数仓(实战)
新增AI赋能
掌握AI辅助调度脚本编写、指标体系构建
主讲内容
大数据部署运维:Cloudera Manager、分析决策需求:数据仓库、数据采集:sqoop、数据分析:Hive、分组完成项目
可掌握的核心能力
1.掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
2.真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力;
3.包括海量数据场景下如何优化配置;
4.拉链表的具体应用;
5.新增数据和更新数据的抽取和分析;
6.Hive函数的具体应用;
7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。
可解决的现实问题
按照企业级大数据开发流程,独立完成项目开发,掌握企业级多场景大数据离线数仓开发能力,从数仓分层,数仓建模,指标统计,指标展示完成完整的大数据项目。
阶段五 BI报表开发项目实战
新增AI赋能
掌握AI辅助调度脚本编写、指标体系构建
主讲内容
掌握AI辅助SQL代码开发
可掌握的核心能力
1.掌握BI报表开发需求分析
2.掌握BI报表工具
3.掌握FineReport报表
可解决的现实问题
掌握使用量最广BI报表开发工具FineReport,能够基于FineReport完成不同行业BI报表开发及业务决策。
阶段六 Python基础编程
新增AI赋能
掌握AI辅助编写Python代码开发
主讲内容
Python基础语法、Python面向对象、Python高级语法、 Python多任务编程、Python网络编程
可掌握的核心能力
1.掌握Python开发环境基本配置;
2.掌握运算符、表达式、流程控制语句、数组等的使用;
3.掌握字符串的基本操作;
4.初步建立面向对象的编程思维;
5.熟悉异常捕获的基本流程及使用方式;
6.掌握类和对象的基本使用方式;
7.知道多进程多线程的原理。
可解决的现实问题
熟练掌握Python语言,建立编程思维,使学员能够熟练使用Python技术完成程序编写。
熟练使用Python面向对象程序设计思想,掌握数据开发必备Python高级语法,解决常见Python开发问题。
阶段七 数据分析
新增AI赋能
掌握AI辅助代码编写,解决Bug、业务指标构建
主讲内容
Pandas库的使用、 数据可视化技术、数据分析常用思维与模型、数据分析报告撰写
可掌握的核心能力
1.掌握Pandas等Python数据分析库的使用
2.掌握Matplotlib,Seaborn等数据可视化库的使用
3.掌握AIPL、AARRR、RFM等常用数据分析思维与模型的使用
4.数据分析报告的撰写
5.掌握从数据处理一直到输出报告的全流程,掌握数据分析师具备的常用技能
可解决的现实问题
熟练掌握Pandas,Matplotlib,Seaborn等数据处理与可视化开源库的使用, 能够应用常用数据分析思维与模型解决业务问题并输出数据分析报告。
阶段八 Spark技术栈
新增AI赋能
掌握AI辅助编写Spark开发代码、编写SparkSOL、解决Bug、性能调优
主讲内容
大数据Spark技术栈、SparkSQL数据处理与统计分析、Spark案例实战
可掌握的核心能力
1.掌握Spark的RDD、DAG、CheckPoint等设计思想;
2.掌握SparkSQL结构化数据处理,Spark On Hive;
3.掌握Structured Streaming整合多数据源完成实时数据处理;
4.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。
可解决的现实问题
掌握全球热门的Spark技术栈,通过SparkCore和SparkSQL解决数据处理与统计分析工作,进阶高级大数据开发工程师。
阶段九 用户画像解决方案
新增AI赋能
掌握AI辅助编写PySpark开发代码、解决Bug、性能调优
主讲内容
SparkSQL整合ES自定义数据源、DS任务界面化调度、用户画像标签构建规则、用户画像规则类标签构建、用户画像统计类标签构建
可掌握的核心能力
1.掌握SparkSQL整合ES自定义数据源;
2.掌握用户画像构建流程;
3.掌握用户画像标签构建规则;
4.掌握用户画像规则类标签构建;
5.掌握用户画像统计类标签构建。
可解决的现实问题
项目提供了全行业用户画像解决方案, 使用SparkSQL+ES+DS构建企业级用户画像,通过SparkSQL+MySQL构建通用行业用户画像标签体系。
阶段十 大模型Agent应用开发
新增AI赋能
掌握AI Agent构建数据分析领域智能体,助力高效数据分析
主讲内容
基于Agent的数据库查询操作、大模型Function Cal原理与实现、Assistant APl的原理及应用、基于本地知识库搭建答疑聊天机器人
可掌握的核心能力
1.能够利用AI大模型相关技术,构建AlAgent的数据开发相关应用,助力高效数据开发
可解决的现实问题
掌握如何使用AI大模型帮助数据开发和数据分析编程效率提升,具备使用AI大模型解决问题的能力。
阶段十一 面试加强
新增AI赋能
通过AI大模型提高刷题效率
主讲内容
核心技能知识点以及常见面试题强化学习
可掌握的核心能力
1.强化面试就业核心面试题;
2.梳理大数据架构及解决方案;
3.剖析多行业大数据架构。
可解决的现实问题
对学习的内容进行整体回顾,并分析经典面试题,指导简历,面试和沟通技巧。
阶段十二 阿里云实时计算技术
新增AI赋能
掌握基础AI辅助编写需求代码、解决代码Bug
主讲内容
阿里云Flink入门、Flink SQL、Flink作业开发、阿里云Flink运维
可掌握的核心能力
1.掌握基于阿里云Flink进行实时和离线数据处理、分析;
2.掌握基于阿里云Flink的多流并行处理技术;
3.掌握FlinkCDC多数据源采集技术。
可解决的现实问题
掌握当下热门的流批一体化分布式计算框架阿里云Flink及其生态,解决实时计算经典场景问题,适应市场对阿里云Flink越发增长的需求。
阶段十三 阿里云实时计算项目
新增AI赋能
掌握基础AI辅助编写需求代码、解决代码Bug选择
主讲内容
基于阿里云Flink + Kafka + Paimon 湖仓一体技术架构,实现在线视频行业大规模流数据处理和实时分析。本项目依托 阿里云 Flink 流处理计算引擎, 通过 FlinkCDC 实时采集 RDS MySQL 数据库数据,实现数据采集的断点续传,使用Kafka 作为实时数仓,使用 Paimon 实现数据的持久化和Flink 批处理,实现计算的流批一体,数据存储的湖仓一体,采用StarRocks对接DataV完成实时业务大屏展示。
可掌握的核心能力
1.湖仓一体化解决方案基于Flink+Paimon湖仓一体技术架构;
2.基于FlinkCDC完成MySQL等数据源的数据采集;
3.FlinkSQL流批一体架构实现实时数据计算;
4.使用StarRocks进行海量多维分析;
5.掌握数据报表分析;
6.掌握业务数据实时大屏场景实现。
可解决的现实问题
采集超过千万条在线视频的数据,实时高性能海量数据分析与存储业务数据实时大屏场景实现。
学习目标
1.线上3个月进阶大数据实时开发,多行业大数据项目助力企业数字人才精英
2.皆在成就实时开发工程师,大数据架构师等,帮助学员成为优秀的实时工程师
技术阶段
· 大数据Java语言· 数据采集· NoSQL&消息中心·
实时OLAP框架· 数据湖开发· Flink技术栈
·
FlinkSQL原理到精通· 基于DataWorks全链路数据开发· 湖仓一体化解决方案·
Flink源码剖析· Flink二次开发
项目阶段
· 星途车联网实时项目· 今日指数证券实时项目
基于某B2B互联网电商平台为背景,根据订单信息、门店信息、店铺信息以及商品信息等进行分析,制作不同需求报表,以供业务人员和管理人员每天查看分析并制定相应的措施,为企业经营决策提供数据支撑,从而实现公司利益最大化。
应用场景ETL数据开发定时调度BI报表设计
项目优势完整的BI项目开发流程、全方面掌握FineReport报表开发、提供BI项目的全方位解决方案
项目以新零售业务为背景,真实还原企业业务与需求。通过从0到1的搭建和开发流程,使学生掌握离线数仓技术栈的同时,能够极大提高需求分析与开发能力。
应用场景多源数据迁移海量数据存储离线数仓设计与实现
项目优势技术架构主流、项目真实度高、教学设计合理、调优策略丰富
项目以Flink、Hudi、Hive为核心组件,打造成企业级流批一体数仓系统,具备延迟低、成本低和吞吐量大等特点,可以满足企业的所有实时和离线需求。通过项目学习,可以对流批一体的的应用有更深的理解,助力高薪就业。
应用场景流批一体数据采集流批一体数据存储流批一体数据计算
项目优势先进的流批一体架构、项目真实度高、教学设计合理
以人们息息相关的出行业务为背景,以时下火热的流批一体架构来实现的PB级数据仓库。通过学习,使同学掌握Flink和Paimon为主体的大数据技术栈,并通过数仓开发教学与实战,极大提高数仓开发能力。
应用场景流批一体数据采集流批一体数据存储流批一体数据计算
项目优势业务新颖易理解、技术先进且实用、讲练结合吸收好
随着云平台的普及,越来越多的公司使用云平台来开发大数据应用。项目采用DataWorks+MaxCompute和阿里云Flink两大主流解决方案,来实现离线数仓和实时数仓搭建,使学生充分掌握云平台的使用,并提高整体开发能力。
应用场景云平台存储云平台计算数据仓库开发
项目优势业务新颖易理解、云平台应用就业广、离线实时全覆盖
行业贡献:
受邀参加云栖大会、Apache Flink Aisa Metting、Apache CosCon Aisa
Meeting等行业大会,并发表主旨演讲
Apache Flink社区源码贡献者 2名Apache Pulsar社区贡献者 1名Apache Hudi社区贡献者 1名Apache Doris社区贡献者 1名
聚集多位Apache 社区贡献者及大厂技术讲师,联合推出行业重磅AI+Python大数据V5.0课程,通过5-6个月学习进阶数据开发工程师,获取3-4年开发经验,对标高级数据开发工程师。
AI+Python大数据V5.0学习路线概览
第一阶段第二阶段第三阶段第四阶段第五阶段
数据库基础 Hadoop技术栈 千亿级离线数仓项目 千亿级离线数仓(实战) BI报表开发项目实战
第六阶段第七阶段第八阶段第九阶段
Python基础编程 数据分析 Spark技术栈 用户画像解决方案
第十阶段第十一阶段第十二阶段第十三阶段
AI+Python大数据V5.0 五大课程优势:
优势1:AI大模型全程赋能,让数据分析更精准,开发更高效;
优势2:1000+核心业务指标,多行业高效通用;
优势3:前沿解决方案拿来即用,开发不必从零开始;
优势4:联合阿里云共建课程, 助力企业“上云”便捷开发;
优势5:课程设置全面,热门数据岗位全覆盖 。
敢以班级为单位公开就业信息的机构,只有黑马程序员!通过数千班级实施和就业结果显示,黑马程序员Python+大数据开发的课程,有效大幅提升就业薪资水平!
课程大纲
入门试学班
1. 数据库基础
高手班
1. Hadoop技术栈 2. 千亿级离线数仓项目 3. 千亿级离线数仓实战 4. BI报表开发项目实战 5. Python基础编程 6. 数据分析 7. Spark技术栈 8. 用户画像解决方案 9. 大模型Agent应用开发 10. 面试加强 11. 阿里云实时计算技术 12. 阿里云实时计算项目
Python+大数据版本V5.0
课时:8天 技术点:60项 测验:1次 学习方式:线下面授
1.掌握MySQL数据库的使用| 2.掌握SQL语法| 3.掌握Kettle数据迁移工具的使用| 4.熟练使用BI可视化工具| 5.对数据开发有一定认知,掌握BI工程师所具备的基本技能
1. MySQL与SQL零基础小白通过MySQL数据库,掌握核心必备SQL,包含了以下技术点:
1.数据库环境搭建| 2.SQL语言(DDL、DML、DQL)| 3.多表查询| 4.索引等
2. Kettle与BI工具使用Kettle做数据迁移,通过BI工具展示Excel、MySQL中的数据,包含了以下技术点:
1.数据仓库与ETL| 2.Kettle安装部署| 3.数据抽取与装载入门| 4.表输入组件| 5.表输出| 6.插入/更新| 7.switch/case等组件使用,开发Kettle作业等
3. 电商运营指标分析通过Kettle+MySQL+FineBI完成电商运营指标分析,包含了以下技术点:
1.电商业务背景| 2.案例架构| 3.数据仓库数据增量同步| 4.ETL开发| 5.指标SQL开发| 6.Kettle作业调度| 7.FineBI可视化展示等
课时:13天 技术点:8项 学习方式:线下面授
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础| 2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群| 3.掌握Hive的使用和调优| 4.具备Hadoop开发能力、离线数据仓库开发能力| 5.能够完成基本构建企业级数仓
1. Linux掌握Linux操作系统常用命令和权限管理,包含了以下技术点:
1.Linux系统安装和体验| 2.Linux系统网络配置和连接工具| 3.Linux系统目录结构| 4.Linux命令使用| 5.Linux命令选项的使用| 6.远程登录和远程拷贝| 7.Linux权限管理| 8.vi编辑器使用| 9.sed| 10.awk| 11.权限管理
2. 大数据基础和硬件介绍进一步阐述大数据特点与分布式思想,知识点由浅入深,包含了以下技术点:
1.大数据的特点| 2.分布式存储概念| 3.分布式计算的概念| 4.服务器种类介绍、机架、交换机| 5.网络拓扑、Raid、IDC数据中心| 6.Linux shell编程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高级命令使用
3. ZooKeeper分布式软件管家,实现了集群管理与leader选举,包含了以下技术点:
1.ZooKeeper的应用场景| 2.架构和原理| 3.存储模型| 4.选举机制| 5.客户端操作
4. HDFS分布式文件系统,解决了海量数据存储与容错,包含了以下技术点:
1.HDFS设计的特点| 2.Master-Slave架构| 3.Block块存储、RF拷贝因子、机架感知| 4.Block拷贝策略、读写流程| 5.HDFS Federation、HDFS Snapshots、NameNode HA架构和原理| 6.HDFS管理员常用操作、HDFS权限控
5. MapReduce分布式计算系统,解决海量数据的计算,包含了以下技术点:
1.MapReduce架构和原理| 2.Split机制| 3.MapReduce并行度| 4.Combiner机制| 5.Partition机制、自定义Partition| 6.MapReduce序列化、自定义排序、数据压缩
6. YARN分布式资源调度管理器,管理服务器软件资源,包含了以下技术点:
1.Yarn原理和架构| 2.Yarn高可用| 3.Container资源的封装(CPU、内存和IO)| 4.资源调度策略(FIFO、Fair和Capacity)
7. Hive基础数据仓库Hive,实现企业级数仓必备工具,包含以下知识点:
1.HQL操作| 2.数据类型| 3.分区、分桶、临时表| 4..explain执行计划详解
8. Hive进阶数据仓库Hive高阶原理和架构深入,实现企业级数仓优化,包含以下知识点:
1.Hive原理和架构 2.Meta Store服务 3.HiveServer内置函数 4.自定义UDF和UDAF 5.数据压缩、存储格式、自动化脚本、常见性能优化
课时:11天技术点:105项学习方式:线下面授
1.掌握泛电商行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程| 2.行业内首个深度讲解数仓建模模型方案的主体项目| 3.包括海量数据场景下如何优化配置| 4.掌握项目迁移能力,能够将项目迁移至泛电商的各个领域| 5.掌握在泛电商行业中关于全量与增量数据处理模式| 6.提供泛电商行业下的数据存储分析以及服务监控方案
本项目基于某泛电商研发的大数据分析平台。项目原型来自于某大型生鲜平台,完全模拟企业真实数仓开发模式,拥有真实的主题化开发;真实的数据结构,复杂的SQL实现过程,学生学习以后可以开发企业级离线数仓的水平。
1.项目介绍与环境准备| 2.数据迁移与数仓分层设计| 3.核心五大主题域开发| 4.基于Fine Report的大屏展示| 5.基于海豚调度的全流程项目上线实施| 5.提供新泛电商大型商超集团的数据存储分析以及服务监控方案
1.大数据部署运维:Cloudera Manager| 2.分析决策需求数据仓库:Hive| 3.数据采集:DataX| 4.数据分析:Hive| 5.数据调度:Dolphin Scheduler| 6.OLAP系统存储:Postgre SQL| 7.Fine Report数据报表与大屏| 8.数仓建模:范式与维度建模| 9.五大核心主题域开发:销售域、供应链域、会员域等
课时:4天技术点:40项学习方式:线下面授
1.掌握泛电商行业离线数仓其他主题的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程| 2.真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在泛电商行业中的核心竞争力| 3.包括海量数据场景下如何优化配置| 4.拉链表的具体应用| 5.新增数据和更新数据的抽取和分析| 6.Hive函数的具体应用| 7.Cloudera Manager可视化、自动部署和配置、Git、CodeReview功能
本项目基于某泛电商研发的大数据分析平台。项目原型来自于某大型生鲜平台,完全模拟企业真实数仓开发模式,拥有真实的主题化开发;真实的数据结构,复杂的SQL实现过程,学生学习以后可以开发企业级离线数仓的水平。
1.项目介绍与环境准备| 2.数据迁移与数仓分层设计| 3.核心五大主题域开发| 4.基于Fine Report的大屏展示| 5.基于海豚调度的全流程项目上线实施| 5.提供新泛电商大型商超集团的数据存储分析以及服务监控方案
1.大数据部署运维:Cloudera Manager| 2.分析决策需求数据仓库:Hive| 3.数据采集:DataX| 4.数据分析:Hive| 5.数据调度:Dolphin Scheduler| 6.OLAP系统存储:Postgre SQL| 7.Fine Report数据报表与大屏| 8.数仓建模: 范式与维度建模| 9.五大核心主题域开发: 销售域、供应链域、会员域等
课时:4天技术点:40项学习方式:线下面授
1.掌握BI报表开发需求分析| 2.掌握BI报表工具| 3.掌握FineReport报表
数据可视化能力早已成为新时代优秀工程师必备素养。项目结合FineReport、Python、MySQL、Kettle等主流工具,手把手带你开发一个完整的BI项目,全流程特训你的数据可视化能力,助力你迅速成为数据时代的新锐开发者。
FineReport报表开发解决方案| BI报表开发技术解决方案| 报表查询解决方案设计| 泛电商行业五大主题解决方案
1.BI报表开发需求分析| 2.BI报表工具| 3.FineReport报表入门| 4.泛电商行业五大主题的实现
课时:7天 技术点:80项 测验:1次 学习方式:线下面授
1.掌握Python开发环境基本配置| 2.掌握运算符、表达式、流程控制语句、数组等的使用| 3.掌握字符串的基本操作| 4.初步建立面向对象的编程思维| 5.熟悉异常捕获的基本流程及使用方式| 6.掌握类和对象的基本使用方式| 7.掌握网络编程技术,能够实现网络通讯| 8.知道多进程多线程的原理
1. Python基础语法零基础学习Python的开始,包含了以下技术点:
01_变量| 02_标识符和关键字| 03_输入和输出| 04_数据类型转换| 05_PEP8编码规范| 06_比较/关系运算符| 07_if判断语句语法格式| 08_三目运算符| 09_while语句语法格式| 10_while 循环嵌套| 11_break 和 continue| 12_while 循环案例| 13_for循环
2. Python数据处理掌握Python的数据类型,并对其进行操作处理,包含了以下技术点:
01_字符串定义语法格式| 02_字符串遍历| 03_下标和切片| 04_字符串常见操作| 05_列表语法格式| 06_列表的遍历| 07_列表常见操作| 08_列表嵌套| 09_列表推导式| 10_元组语法格式| 11_元组操作| 12_字典语法格式| 13_字典常见操作| 14_字典的遍历
3. 函数能够实现Python函数的编写,包含了以下技术点:
01_函数概念和作用、函数定义、调用| 02_函数的参数| 03_函数的返回值| 04_函数的注释| 05_函数的嵌套调用| 06_可变和不可变类型| 07_局部变量| 08_全局变量| 09_组包和拆包、引用
4. 文件读写能够使用Python对文件进行操作,包含了以下技术点:
01_文件的打开与关闭、文件的读写| 02_文件、目录操作及案例| 03_os模块文件与目录相关操作
5. 异常处理主要介绍了在Python编程中如何处理异常,包含了以下技术点:
01_异常概念| 02_异常捕获| 03_异常的传递
6. 模块和包主要介绍了Python中的模块和包的体系,以及如何使用模块和包,包含了以下技术点:
01_模块介绍| 02_模块的导入| 03_包的概念| 04_包的导入| 05_模块中的__all__ | 06_模块中__name__
7. Python面向对象从逐步建立起面向对象编程思想,再到会使用对象,到创建对象,再到真正理解为什么封装对象,包含了以下技术点:
01_面向对象介绍| 02_类的定义和对象的创建| 03_添加和获取对象属性| 04_self 参数| 05_init方法| 06_继承| 07_子类方法重写| 08_类属性和实例属性| 09_类方法、实例方法、静态方法
8. Python高级语法主要学习Python的高级语法,包含以下技术点:
01_闭包| 02_装饰器| 03_深浅拷贝| 04_正则
课时:8天 技术点:100项 测验:1次 学习方式:线下面授
1.掌握Pandas的使用方式 2.掌握常用数据指标计算方法 3.掌握如何使用Python进行RFM分群 4.掌握使用Python代码进行用户行为分析
1. Python数据分析基础本阶段学习如何使用Juypter_notebook和 Pandas库对数据进行处理, 包括以下技术点:
1.Jupyter Notebook的使用| 2.Pandas数据结构| 3.Pandas数据增删改查| 4.Pandas常用函数| 5.Pandas缺失值异常值处理
2. Python数据可视化本阶段学习如何使用 Matplotlib、Pandas、 Seaborn进行数据可视化,包括以下技术点
1.可视化常用图表介绍| 2.Matploblib数据可视化| 3.Pandas数据可视化| 4.Seaborn数据可视化
3. 业务数据分析实战本阶段学习如何使用Pandas,Excel等工具解决具体业务问题, 包括以下技术点:
1.Pands报表自动化| 2.常用业务分析模型介绍| 3.用户分层与分群实战| 4.用户评论分析实战| 5.用户偏好分析| 6.指标波动分析| 7.数据分析报告
课时:10天 技术点:80项 测验:1次 学习方式:线下面授
1.掌握Spark的架构和原理、RDD、DAG、CheckPoint等设计思想| 2.掌握SparkSQL结构化数据处理,Spark On Hive| 3.掌握Kafka消息队列的原理和架构设计、分布式实时计算架构和思想 4.掌握Structured Streaming整合多数据源完成实时数据处理| 5.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力
1. Spark基础本阶段学习Spark环境搭建,包含了以下技术点:
1.Spark基础环境搭建| 2.Spark的Standalone环境搭建| 3.Spark的StandaloneHA搭建| 4.SparkOnYarn环境搭建
2. Spark Core整个Spark框架核心部分,掌握框架内部设计思想,数据流转步骤,是学习Spark的基础模块,包含了以下技术点:
1.Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程)| 2.RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量 | 3.DAG原理(DAG思想、DAG的生成、DAG的处理过程)
3. Spark SQL学习Spark框架的SQL操作,Spark与Hive等外部数据源的整合操作,包含了以下技术点:
1.Spark SQL架构和原理| 2.DataFrame、DataSet DSL和SQL开发| 3.Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive)| 4.Spark SQL执行计划原理| 5.Spark SQL性能调优
4. Kafka消息队列主要讲解消息中间件核心知识,包含了以下技术点:
1.Kafka原理及架构分析| 2.分布式实时计算架构和思想| 3.陌陌社交场景实战| 4.社交大数据架构剖析
5. StructedStreaming主要讲解Spark实时计算组件,整合Kafka+StructedStreaming,包含了以下技术点:
1.流式计算基础概念| 2.Structured Streaming编程模型| 3.Structured Streaming整合Kafka| 4.Structured Streaming实时数据处理与统计分析
课时:12天技术点:100项学习方式:线下面授
1.掌握用户画像应用场景| 2.掌握用户画像系统架构| 3.掌握用户画像构建流程| 4.掌握用户画像规则类标签构建| 5.掌握用户画像统计类标签构建| 6.熟悉用户画像挖掘类标签构建| 7.掌握用户画像实时类标签构建| 8.掌握SeaTunnel数据同步组件| 9.掌握ES和Doris结果存储| 10.了解推荐系统使用
项目以电商为背景,提供全方位的标签体系、完整的标签构建流程、先进的用户画像技术架构, 使用Spark+ES+Doris完成海量数据的处理及各类标签计算与存储,充分满足企业离线和实时需求,为全行业用户画像系统提供了解决方案。
用户画像解决方案,主要针对于泛电商或保险行业完成用户标签设计与开发,提供了全行业解决方案。课程采用由浅入深,层层递进的讲解方式,让学生轻松掌握企业级用户画像系统的设计与开发全流程,项目使用的技术栈包括Spark、ES、Doris、SeaTunnel、Kafka,均为时下主流的大数据技术。
1.用户画像应用场景| 2.用户画像系统架构| 3.用户画像构建流程| 4.使用Spark Core开发规则类标签| 5.使用Spark Core和Spark SQL开发统计类标签| 6.使用Spark MLlib开发挖掘类标签| 7.使用Structured Streaming开发实时类标签| 8.使用SeaTunnel做数据同步| 9.使用ES和Doris存储结果数据| 10.使用Spark MLlib开发推荐系统
课时:2天技术点:40项学习方式:线下面授
掌握AI Agent构建数据分析领域智能体,助力高效数据分析
项目借助于AI大模型Agent技术搭建AI Agent智能体,助力更加高效数据分析
Agent数据分析智能体
1.基于Agent的数据库查询操作 2.大模型Function Cal原理与实现 3.Assistant APl的原理及应用
课时:5天 技术点:30项 学习方式:线下面授
1.强化面试就业核心面试题| 2.梳理大数据架构及解决方案| 3.剖析多行业大数据架构
1. SQL实战解决Python大数据常见的SQL面试题,包含了以下技术点:
1.面试题必备SQL实战| 2.SQL优化加强
2. Hive数据分析与面试题加强解决Hive数据分析开发必备面试题,包含了以下技术点:
1._Hive基础| 2.Hive拉链表| 3.Hive数据仓库构建示例| 4.Hive面试题
3. Spark数据分析与面试题加强解决Spark开发必备面试题,包含了以下技术点:
1.Spark基础| 2.Spark离线分析| 3.Spark面试题
4. 大数据多行业架构剖析解决多行业多场景大数据架构设计,具备举一反三设计大数据架构体系能来,包含了以下技术点:
1.数据分析流程| 2.大数据架构剖析| 3.多行业大数据架构设计| 4.大数据存储,调度等解决方案
课时:6天 技术点:80项 测验:1次 学习方式:线下面授
1.掌握基于阿里云Flink进行实时和离线数据处理、分析| 2.掌握基于阿里云Flink的多流并行处理技术| 3.掌握FlinkCDC多数据源采集技术
1. 阿里云Flink入门掌握国内最火的阿里云Flink技术,完成SQL、Python等作业提交,包含了以下技术点:
1.阿里云账号角色授权| 2.开通Flink全托管| 3.Flink SQL作业快速入门| 4.Flink JAR作业快速入门| 5.Flink Python作业快速入门| 6.数据库实时入仓快速入门| 7.日志实时入仓快速入门
2. Flink SQL掌握FlinkSQL流批一体开发流程,集成Flink核心窗口、水印、状态管理等高级功能,助力高效开发,包含了以下技术点:
1.Flink SQL开发| 2.Hive + Flink SQL| 3.Watermark| 4.Checkpoint| 5.任务调度与负载均衡| 6.状态管理| 7.Flink性能监控| 8.Flink调优| 9.Flink SQL执行计划
3. Flink作业开发掌握Flink作业开发流程,完成不同方式的作业开发和调试,包含了以下技术点:
1.作业开发| 2.SQL作业开发| 3.JAR作业开发| 4.Python作业开发| 5.作业调试| 6.模板中心| 7.管理自定义连接器| 8.管理自定义函数(UDF)
4. 阿里云Flink运维掌握Flink运维流程,针对不同场景通过不同解决方案,达到高效运维使用云平台,包含了以下技术点:
1.权限管理| 2.RAM用户授权| 3.作业操作账号授权| 4.作业启动| 5.作业停止| 6.管理作业版本| 7.修改作业配置| 8.查看作业详情| 9.查看与修改作业运行状态| 10.调优诊断| 11.查看作业性能| 12.作业智能诊断| 13.配置自动调优| 14.高性能Flink SQL优化技巧| 15.作业状态管理| 16.企业级状态后端存储介绍| 17.作业状态集管理| 18.Flink State兼容性参考
课时:7天技术点:80项学习方式:线下面授
以阿里云出行项目为例: 1.了解网约车行业背景,了解黑马出行项目需求| 2.掌握黑马出行流批一体架构,学会流批一体的具体实现方式| 3.掌握从0到1进行数仓规划和搭建,极大提高实战能力| 4.掌握阿里云平台Flink和DataWorks使用| 5.掌握基于阿里云Flink的实时数据仓库开发,熟练使用Flink SQL| 6.掌握基于MaxCompute的离线数据仓库开发,熟练使用MaxCompute SQL| 7.熟悉Paimon技术并掌握项目实战应用| 8.熟悉StarRocks技术并掌握项目实战应用| 9.熟悉Flink CDC技术并掌握项目实战应用| 10.熟练使用FineBI完成大屏开发
本项目是某出行公司基于阿里云平台打造的大数据平台。项目不仅包含实时数仓,也包含离线数仓,还包含数据建模和数据治理等内容。项目以阿里云Flink、Paimon和MaxCompute为核心打造了企业级湖仓一体、流批一体数仓系统,可以满足企业的实时和离线的所有数据统计需求。
通过对企业需求进行深入分析,设计符合企业需求的大数据平台,并从0到1完成大数据平台和数据仓库的搭建。项目采用阿里云Flink结合Paimon,完成实时计算和流批一体存储,采用DataWorks+MaxCompute完成离线数仓开发,使用DataWorks完成数据治理等内容,该方案对各行业大数据平台建设都有极强借鉴意义。
1.网约车行业背景及黑马出行公司介绍| 2.黑马出行流批一体架构设计| 3.黑马出行大数据平台搭建| 4.Flink CDC介绍与使用| 5.Paimon的原理与应用| 6.StarRocks介绍与使用| 7.基于阿里云Flink和Paimon开发实时数仓| 8.基于DataWorks和MaxCompute开发离线数仓| 9.数据仓库设计与数据建模| 10.基于DataWorks的数据治理| 11.使用FineBI完成大屏开发
课程名称: AI+Python大数据开发课程 主要使用开发工具: Hadoop3.3,Spark3.4,阿里云Flink(FlinkCDC、FlinkCEP、FlinkSQL),Hudi,Doris,Starrocks,Paimon,ElasticSearch
AI+Python大数据开发V5.0课程全新升级,全面拥抱AI大模型,采用AI+编程助力数据开发提效,紧贴各类企业招聘需求,升级面向数据分析的AI Agent智能体实现高效数据开发,升级阿里云平台全套基于云平台的大数据技术栈,全程采用六项目制驱动技术学习,助力国家数字化转型对数字人才的大量需求。
1
新增面向数据分析的AI Agent智能体实现高效数据开发,提升数据分析和查询效率。满足就业市场中数据工程师+AI大模型技能的需求,提升学生就业竞争力。
1
新增基于StarRocks统一数仓解决方案,提升数据分析和查询效率。满足就业市场中中高级数据工程师需求,提升学生就业竞争力。
1
新增基于云平台的湖仓一体解决方案,项目采用阿里云Flink结合Paimon,完成实时计算和流批一体存储,采用DataWorks+MaxCompute完成离线数仓开发,使用DataWorks完成数据治理等内容,该方案对各行业大数据平台建设都有极强借鉴意义。让学员具备基于阿里云DataWorks、MaxComputer及Flink等技术能力要求,增加学员的就业选择范围。
1
新增黑马甄选用户画像和推荐系统的全套解决方案课程,,采用大规模Spark机器学习和个性化推荐技术,达到企业级提供一站式推荐服务能力搭建平台,提升学生就业竞争力
1
优化Paimon、Hudi新技术,将技术应用到实时项目中,更加全面提升通过技术解决业务问题能力。
1
优化新版面试加强课,内容集成了大厂架构解析、SQL专项面试宝典,以及不断滚动更新的全网大数据岗位面试题讲解,助力学员高起点就业。
1
优化大数据BI报表开发项目实战阶段,通过Python+SQL+FineReport完成电商业务统计分析和大屏展示。
1
友情提示更多学习视频+资料+源码,请加QQ:2632311208。
课程名称
AI+Python大数据开发课程
课程推出时间
2024.07.20
课程版本号
5.0
技术课程
Hadoop3.3,Spark3.4,阿里云Flink(FlinkCDC、FlinkCEP、FlinkSQL),Hudi,Doris,Starrocks,Paimon,ElasticSearch
课程介绍
AI+Python大数据开发V5.0课程全新升级,全面拥抱AI大模型,采用AI+编程助力数据开发提效,紧贴各类企业招聘需求,升级面向数据分析的AI Agent智能体实现高效数据开发,升级阿里云平台全套基于云平台的大数据技术栈,全程采用六项目制驱动技术学习,助力国家数字化转型对数字人才的大量需求。
V5.0 五大课程优势
优势1:AI大模型全程赋能,让数据分析更精准,开发更高效;优势2:1000+核心业务指标,多行业高效通用;优势3:前沿解决方案拿来即用,开发不必从零开始;优势4:联合阿里云共建课程, 助力企业“上云”便捷开发;优势5:课程设置全面,热门数据岗位全覆盖 。
● AI大模型全程赋能,让数据分析更精准,开发更高效(1、AI提高学习效率:全部技术阶段融入AI编程;2、AI提高项目开发效率:全阶段项目融入AI编程;3、AI提高阅读代码效率:复杂Spark算子的底层源码解读;4、通过AI提高刷题效率:学员能够用使用AI大模型进行数据开发方向面试题问答,让刷题更高效)。
● 多位Apache社区贡献者联袂授课,从原理、实战到源码,带你迈入高级开发工程师行列。
● 课程覆盖企业级大数据六大主流解决方案,包括离线数仓解决方案、基于StarRocks统一数仓解决方案和基于云平台的湖仓一体解决方案、用户画像解决方案、推荐系统解决方案、数据治理解决方案,再现公司中真实的开发场景,目标不止于就业,而是成为各类企业争抢的大数据开发工程师。
● 课程升级主流企业级数仓解决方案,包括基于StarRocks统一数仓解决方案和基于云平台的湖仓一体解决方案,不仅可以学习到企业真实完整的业务场景,将六大技术解决方案应用到黑马甄选泛电商业务中,能胜任企业级离线数仓、实时数仓、用户画像、推荐系统、数据治理等核心大数据开发工作。
● 继V4.5版本推出黑马甄选离线数仓业务之后,V5.0版本增加了黑马甄选用户画像和推荐系统的全套解决方案课程,课程采用由浅入深,层层递进的讲解方式, 让学生轻松掌握企业级用户画像系统的设计与开发全流程,项目使用的技术栈包括Spark、ES、Doris、SeaTunnel、Kafka均为时下主流的大数据技术,项目使用Structured Streaming开发实时类标签,使用SeaTunnel做数据同步,使用ES和Doris存储结果数据及使用Spark MLlib开发推荐系统。该项目构建适合全场景的用户画像+推荐系统解决方案。
1
新增面向数据分析的AI Agent智能体实现高效数据开发,提升数据分析和查询效率。满足就业市场中数据工程师+AI大模型技能的需求,提升学生就业竞争力。
1
新增基于StarRocks统一数仓解决方案,提升数据分析和查询效率。满足就业市场中中高级数据工程师需求,提升学生就业竞争力。
1
新增基于云平台的湖仓一体解决方案,项目采用阿里云Flink结合Paimon,完成实时计算和流批一体存储,采用DataWorks+MaxCompute完成离线数仓开发,使用DataWorks完成数据治理等内容,该方案对各行业大数据平台建设都有极强借鉴意义。让学员具备基于阿里云DataWorks、MaxComputer及Flink等技术能力要求,增加学员的就业选择范围。
1
新增黑马甄选用户画像和推荐系统的全套解决方案课程,,采用大规模Spark机器学习和个性化推荐技术,达到企业级提供一站式推荐服务能力搭建平台,提升学生就业竞争力
1
优化Paimon、Hudi新技术,将技术应用到实时项目中,更加全面提升通过技术解决业务问题能力。
1
优化新版面试加强课,内容集成了大厂架构解析、SQL专项面试宝典,以及不断滚动更新的全网大数据岗位面试题讲解,助力学员高起点就业。
1
优化大数据BI报表开发项目实战阶段,通过Python+SQL+FineReport完成电商业务统计分析和大屏展示。
1
友情提示更多学习视频+资料+源码,请加QQ:2632311208。
课程名称
Python+大数据开发课程
课程推出时间
2024.04.21
课程版本号
4.5
技术课程
Hadoop3.3,Spark3.4,阿里云Flink(FlinkCDC、FlinkCEP、FlinkSQL),Hudi,Doris,Starrocks,Paimon,ElasticSearch
课程介绍
● Python大数据V4.5课程全新升级,紧贴各类企业招聘需求,升级阿里云平台全套大数据技术栈,全程采用六项目制驱动技术学习,助力国家数字化转型对数字人才的大量需求。
● 多位Apache社区贡献者联袂授课,从原理、实战到源码,带你迈入高级开发工程师行列。
● 课程覆盖企业级大数据六大主流解决方案,包括离线数仓解决方案、流批一体解决方案和湖仓一体解决方案、用户画像解决方案、推荐系统解决方案、数据治理解决方案,再现公司中真实的开发场景,目标不止于就业,而是成为各类企业争抢的大数据开发工程师。
● 课程升级主流大数据技术栈,全新Hadoop3.3,Spark3.4,阿里云实时计算Flink技术剖析和新特性使用,推出黑马甄选业务的全套解决方案课程,不仅可以学习到企业真实完整的业务场景,将六大技术解决方案应用到黑马甄选泛电商业务中,能胜任企业级离线数仓、实时数仓、用户画像、推荐系统、数据治理等核心大数据开发工作。
1
新增数据治理解决方案,结合包括元数据管理、数据标准、指标系统、数据建模等在内的数据治理能力,聚焦企业数字化转型,深挖数据价值,提升企业数据生产力。满足就业市场中中高级数据工程师需求,提升学生就业竞争力。
1
新增数据分析相关的课程内容,让学员具备数据分析岗位的能力要求,增加学员的就业选择范围。
1
新增多场景离线数仓项目解决方案,基于Starrocks数据库完成数仓的搭建,结合多场景的业务丰富学生对业务理解能力。
1
优化推荐系统解决方案,采用大规模机器学习和个性化推荐技术,达到企业级提供一站式推荐服务能力搭建平台,提升学生就业竞争力。
1
优化Paimon、StarRocks新技术,将技术应用到实时项目中,更加全面提升通过技术解决业务问题能力。
1
优化新版面试加强课,内容集成了大厂架构解析、SQL专项面试宝典,以及不断滚动更新的全网大数据岗位面试题讲解,助力学员高起点就业。
1
优化黑马甄选实时计算项目由阿里云实时计算Flink全栈开发,从FlinkCDC数据采集,Kafka实时数仓分层,Paimon数据湖构建湖仓一体架构,将数据接入Starrocks进行OLAP分析和查询,最后通过DataV完成企业级业务大屏展示。
1
优化大数据BI报表开发项目实战阶段,通过Python+SQL+FineReport完成电商业务统计分析和大屏展示。
课程名称
Python+大数据开发课程
课程推出时间
2023.08.21
课程版本号
4.0
技术课程
Hadoop3.3,Spark3.4,阿里云Flink(FlinkCDC、FlinkCEP、FlinkSQL),StarRocks,Paimon,ElasticSearch
课程介绍
● Python大数据V4.0课程全新升级,紧贴各类企业招聘需求,升级阿里云平台全套大数据技术栈,全程采用六项目制驱动技术学习,助力国家数字化转型对数字人才的大量需求。
● 多位Apache社区贡献者联袂授课,从原理、实战到源码,带你迈入高级开发工程师行列。
● 课程覆盖企业级大数据六大主流解决方案,包括离线数仓解决方案、流批一体解决方案和湖仓一体解决方案、用户画像解决方案、推荐系统解决方案、数据治理解决方案,再现公司中真实的开发场景,目标不止于就业,而是成为各类企业争抢的大数据开发工程师。
● 课程升级主流大数据技术栈,全新Hadoop3.3,Spark3.4,阿里云实时计算Flink技术剖析和新特性使用,推出黑马甄选业务的全套解决方案课程,不仅可以学习到企业真实完整的业务场景,将六大技术解决方案应用到黑马甄选泛电商业务中,能胜任企业级离线数仓、实时数仓、用户画像、推荐系统、数据治理等核心大数据开发工作。
● 项目课程实施“讲A练B”与"看图说话"新模式, 以思路分析为导向提高学员独立开发能力,并推动学员在逻辑思维与语言表达能力方向的持续提升,为学员在面试中以及在企业独立开发中打下坚实的基础
1
新增数据治理解决方案,结合包括元数据管理、数据标准、指标系统、数据建模等在内的数据治理能力,聚焦企业数字化转型,深挖数据价值,提升企业数据生产力。满足就业市场中中高级数据工程师需求,提升学生就业竞争力。
1
新增通过AIGC助力编程效率提升,完成数据开发和数据分析任务。
1
新增Paimon、StarRocks新技术,将技术应用到实时项目中,更加全面提升通过技术解决业务问题能力。
1
新增新版面试加强课,内容集成了大厂架构解析、SQL专项面试宝典,以及不断滚动更新的全网大数据岗位面试题讲解,助力学员高起点就业。
1
更新由Apache Flink1.17课程升级为阿里云实时计算Flink版,通过阿里云全套大数据组件学习,贴近中小型企业大数据开发真实环境,提升学生就业竞争力。
1
新增黑马甄选实时计算项目由阿里云实时计算Flink全栈开发,从FlinkCDC数据采集,Kafka实时数仓分层,Paimon数据湖构建湖仓一体架构,将数据接入Starrocks进行OLAP分析和查询,最后通过DataV完成企业级业务大屏展示。
1
新增大数据BI报表开发项目实战阶段,通过Python+SQL+FineReport完成电商业务统计分析和大屏展示。
1
课程名称
Python+大数据开发课程
课程推出时间
2023.01.01
课程版本号
3.2
主要使用开发工具
PyCharm,IDEA,DataGrip,FinalShell
课程介绍
● 优势1:课程升级深度调研市场需求,针对行业解决方案:离线数仓解决方案、用户画像解决方案、湖仓一体解决方案,打造多行业多场景大数据开发工程师。
● 优势2:6项目制,2大项目实战,新增PB级内存计算项目实战,应对企业级大数据开发工程师需求。
● 优势3:研究院精心研发基于实时技术栈全新架构的出行行业和电商行业大数据项目,让学生具备更强项目经验要求。
● 优势4:最短路径教会企业最实用的技术,案例练习促进吸收;每日作业夯实学习成果;阶段项目实战,学以致用。
1
新增基于Flink的悠游出行大数据平台
1
新增基于Flink的优购电商优选项目
1
新增用户画像解决方案项目,包含了新零售、电商、金融保险等多行业画像解决方案
1
升级Spark内存计算阶段项目实战
1
新增大数据Java语言基础,为Flink技术栈提供语言支持
1
新增SQL大厂面试题,贯穿课堂每日一练,提升SQL技术能力
1
新增Hudi数据湖,Hudi on Hive构建湖仓一体架构
1
新增Python版NoSQL课程,达到企业级万亿级数据存储目标
1
新增Doris、ClickHouse多维数据分析
1
优化亿品新零售项目中数仓建模理论基础,强化数仓建模工具使用
1
优化车联网项目全新架构升级
1
优化Flink技术课程版本更新至1.16,丰富实时计算新特性
1
优化Spark技术课程版本更新至3.3.0,增加Spark新特性讲解
1
优化优化Hadoop模块,增强Hive模块
1
优化优化Python编程内容,为Spark提供语言支持
1
优化ETL项目增加从HDFS到Hive的数据抽取、转换、加载方式
1
优化ETL项目增加DataX数据采集
1
优化ETL项目增加Apache DolphinScheduler调度全流程数据处理过程
1
优化Flink技术栈突出以FlinkSQL为主核心技术
课程名称
Python+大数据开发课程
课程推出时间
2022.06.01
课程版本号
3.0
主要针对
技术课程:ETL开发、NoSQL中间件课程、新版Flink课程
主要使用开发工具
PyCharm、DataGrip、FinalShell
课程介绍
● Python大数据V3.0课程全新升级,紧贴各类企业招聘需求,采用六项目制驱动技术学习,助力国家数字化转型对数字人才的大量需求
● 多位Apache社区贡献者联袂授课,从原理、实战到源码,带你迈入高级开发工程师行列
● 课程覆盖企业级大数据四大主流解决方案,包括离线数仓解决方案、用户画像解决方案、流批一体解决方案和湖仓一体解决方案,再现公司中真实的开发场景,目标不止于就业,而是成为各类企业争抢的大数据开发工程师。
● 课程升级主流大数据技术栈,全新Hadoop3.2,Spark3.2,Flink1.15技术剖析和新特性使用,推出Python全栈ETL开发课程,不仅可以学习到完整的基础ETL流程、工具,更能胜任千亿级、亚秒级等复杂数据源情况下的工作。
● 新增基于Python和SQL的Flink课程,满足就业市场中,大数据开发岗位更多的依赖SQL、Python的需求变化。
● 新增 基于Python的Kafka、Elasticsearch等全新课程,夯实实时计算开发基础能力,帮助学员掌握数据开发工程师重要技能。
● 新增 新版面试加强课,内容集成了大厂架构解析、SQL专项面试宝典,以及不断滚动更新的全网大数据岗位面试题讲解,助力学员高起点就业。
1
新增基于Python的全栈ETL开发课程,助力学员胜任ETL中高级开发岗位
1
新增全网基于PySpark技术栈的用户画像项目,替换原有旧项目,提升简历含金量
1
新增知行教育项目实战,学习完整企业级项目实战流程,让学生真正掌握大数据开发精髓
1
升级Spark技术课程为20223.2版本、Flink技术课程为20221.15版本,全网率先加入Pandas on Spark数据开发内容
1
新增FlinkSQL湖仓一体项目、FlinkSQL流批一体课程,进阶Flink高阶工程师,助力突破年薪50W
1
新增SparkSQL底层执行原理,StructuredStreaming结构化流内容
1
升级Spark3.2整合Hive3.1.2版本兼容问题
1
新增Pandas_udf函数,通过Apache Arrow框架优化数据处理速度;Pandas技术栈,能够处理中小型数据量
1
新增Python版NoSQL课程,达到企业级万亿级数据存储目标
1
新增Kafka-Python完成企业级消息队列流量削峰, 异步通信等任务
1
新增ElasticSearch技术栈,达到企业级大数据搜索工程师目标
1
升级PySpark的DataFrame操作、Flink任务调度机制以及Flink内存模型、Flink table&sql的整体概述
1
新增FlinkSQL的原理和调优、Flink on Yarn的多种部署方式、Flink transformation的八大物理分区的原理和实现、Flink的window窗口操作,以及内置水印函数的操作
1
新增Hadoop3.x新特性、Hive3.x新特性,以及数据压缩、存储格式等内容
1
升级Python基础,增加PyEcharts等BI内容,实现可视化大屏
1
新增Presto对接多数据源实现企业级大数据OLAP分析、Presto加速对Hive数仓之上数据构建大数据分析引擎,实现多维指标计算
1
新增企业级BI工具FineBI,适用于多行业项目BI大屏展示,助力企业数字决策
1
新增Flink table&sql概念和通用api介绍、sqlclient工具的使用、catalogs知识点的学习、流处理中的概念介绍
1
新增FlinkSQL中的窗口使用、FlinkSQL函数操作、Flinksql连接到外部系统
1
新增Flink源码前置基础、源码的编译和部署、Flink启动脚本的解读、yarn-per-job模式解析
1
升级车联网Web展示部分、车联网离线Hive数仓构建部分
课程名称
Python+大数据开发课程
课程推出时间
2021.06.01
课程版本号
2.0
主要针对
新零售数仓项目、云上服务器集群
主要使用开发工具
新零售数仓项目、云上服务器集群
课程介绍
● 经过不断的版本迭代,正式推出新零售数仓项目课程,替换原有的旧项目,打造过硬的项目实战经验
● 新增价值百万的UCcloud云上集群生产环境用于学习,完全云服务开发环境体验
● 新增项目实战环节,再现企业中真实工作场景,夯实开发实战能力
1
升级PySpark执行流程
1
新增Spark3.x新特性以及性能调优九项原则
1
升级Hive版本为新的3.x版本
1
新增自动导入oracle数据,自动创建hive表,自动创建hive分区,自动关联hdfs数据,自动创建文件目录,并记录自动化过程日志
1
升级Flink版本为新版
1
新增FlinkSQL&Table理论部分比重,使用新版API,使用新增FlinkSQL整合Kafka案例
1
新增美团、平安、小米大数据架构,以及百度广告业务场景大数据架构解决方案
1
新增flink的global window的操作、内置水印函数的操作
1
升级 flink的window的ReduceFunction、AggregateFunction、ProcessWindowFunction、具有增量聚合的ProcessWindowFunction、在 ProcessWindowFunction 中使用每个窗口状态
1
新增flink的state的ttl机制、state的数据结构的api升级、Queryable State知识点
1
新增Flink异步io的vertx框架实现、flink的join操作(Tumbling Window Join、Sliding Window Join、Session Window Join)
1
新增Streaming File Sink连接器的小文件操作
1
新增数据类型及序列化的原理和实现案例
1
新增Flink Action综合练习:热门销售排行TopN的使用案例、布隆过滤器结合TTL的使用案例
课程名称
Python+大数据开发课程
课程推出时间
2021.01.01
课程版本号
1.6
主要针对
Spark3.x
主要使用开发工具
Pycharm、Idea、Datagrip、FinalShell
课程介绍
● 针对Spark3.x版本的重大更新,应对就业岗位需求的快速变化,大数据课程推出基于Python的Spark课程
● 新增大数据工程师必备的SQL面试进阶强化内容,提升大数据开发工程师核心SQL能力
● 新增大厂数仓架构专题内容,提升数据仓库建设能力
1
升级Hadoop为3.3.0版本、Hive版本为3.1.2版本、HIve3.x架构
1
新增使用Python实现MR原理机制、OLAP、OLTP区别
1
新增MapReduce计算PI原理、MapReduce Python接口调用、Hadoop Streaming提交程序、ETL、ELT区别
1
新增HIve3新特性、Hive3数据压缩,存储格式、Hive CTE表达式
1
升级union联合查询、Hive知识点案例 同步为Hive3版本、Linux课程、Mysql RPM安装方式以支持hive3
1
升级Spark语言为官方推荐使用的Python语言、版本更新为Spark3.1.2发行版、adoop3.3.0、Hive3.1.2版本
1
新增PySpark的安装、任务提交方式、多种模式spark-submit、实现wordcount案例实战
1
新增Python实现RDD操作、DataFrame操作、实现Sougou分词案例、IP热度分析案例、PV-UV-TOPK案例
1
新增PySparkSQL实现基础统计操作、底层Dataframe转化RDD原理操作、实现电影评分数据集分析、离线教育案例、新零售分析案例
1
新增PySparkSQL的优化方式、分布式引擎实现、与HIve整合
课程名称
Python+大数据开发课程
课程推出时间
2020.06.01
课程版本号
1.0
主要针对
大数据引入Python语言、Pandas数据分析
主要使用开发工具
Pycharm、Idea、Datagrip
课程介绍
● 8.1版本以前的数据开发课程,需要一定Java基础和工作经验,为了帮助进入数据开发行业的零基础学员找到适宜的入门途径,大数据引入Python语言,全新升级为Python+大数据开发1.0版本。
● 学习Python大数据开发,以Python技术栈处理中小型数据集,以大数据技术栈处理海量大规模数据,成为全能企业级数据开发人才。
● 其特点适合零基础学员,从完全没有编程经验开始;课程内容宽并且深,技术大牛亲自授课;面向市场,学即可用,能让学员高薪就业。
1
新增Python基础语言课程
1
新增Python高级语言进阶课程
1
新增Python爬虫课程
1
新增Pandas数据分析课程
1
新增多场景案例分析,应对中小型数据统计分析
课程名称
云计算大数据实战班
课程推出时间
2020.01.01
课程版本号
8.0
主要针对系统
Windows、Linux、MacOS
主要使用开发工具
DataGrip、IDEA
课程介绍
● 根据大量的行业调研分析,本次课程更新以大数据开发为主线,在7.0基础上再次缩减Java课程占比,弱化各类组件安装。
● 针对大数据技术深度和广度进行升级,例如新增Spark内存管理、Flink性能优化及反压、背压原理等同时为提高学员的就业薪资,推出多行业项目解决方案,例如证券、物流等。
● 以周为单位进行课程更新升级,新增Elastic Stack、 出行、电商、视频、社交等领域大数据解决方案、 一线大厂技术架构、 新零售大数据项目实战,离线实时全覆盖。
1
新增数据仓库、ETL、BI开发
1
新增Oracle及PLSQL编程、数据微服务开发
1
新增Spark的内存管理、avro序列化数据源
1
新增continuous processing、偏移量管理机制
1
新增KafkaStreams编程、exactly-once、Kafka事务、metrics监控
1
新增Hbase的协处理器和phoneix的二级索引实现、布隆过滤器、LSM树、StoreFiles结构剖析
1
新增FLink性能优化及反压、背压指标计算原理、FlinkSQL On Hive、Flink HistoryServer、Flink的UDF、UDAF、UDTF的实现
1
新增在线教育行业、物流行业、物联网行业、证券行业项目
1
升级分布式缓存系统, 万亿级NoSQL海量数据存储, 分布式流处理平台、电商行业项目
1
删除删减 JavaWeb
课程名称
云计算大数据实战班
课程推出时间
2019.07.22
课程版本号
7.0
主要针对版本
CDH5.14、Spark2.2.0、Flink1.8、Kafka0.11.0.2、ELK6.0
主要使用开发工具
IntelliJ IDEAA
课程介绍
● 大数据技术目前在企业里面使用的越来越广泛,对大数据人才的需求越来越多,大数据的整个课程体系是由来自大型互联网、外企等具有5年以上的一线大数据高级工程师、架构师和高级机器学习工程师设计出来的,内容含金量非常高。
● 课程体系涉及的技术以企业需求为导向,课程涉及的项目也是企业里面真实的项目,通过理论、实践和真实的项目相结合,让学员能够快速、深刻的掌握大数据常用的核心技术和开发应用,同时可以满足企业对中、高端大数据人才的需求。
● 大数据课程体系除了包含常用的Hadoop、Hive、Hbase、ELK、Sqoop、Flume、Kafka、Spark等技术和项目,还新增了目前互联网比较流行的Flink、Druid、Kylin等技术和项目,同时引入了机器学习和深度学习Spark Mllib和Tensorflow等技术和项目实战。
1
新增Impala即席查询组件、Kudu列存储服务、Structured Streaming结构化数据流处理
1
新增spark MLlib数据挖掘、spark graphX图计算
1
升级Flink的基础课程和案例实战
1
新增Flink高级特性CEP、Kylin数据OLAP分析、Druid时序数据实时分析、Kettle数据ETL工具
1
新增深度学习框架Tensorflow
1
新增用户画像、数据仓库大型企业实战型项目
课程名称
云计算大数据实战班
课程推出时间
2018.09.10
课程版本号
6.0
主要针对版本
JDK1.8\CDH2.7.4\Storm1.1.1\Spark 2.1
主要使用开发工具
IntelliJ IDEA
课程介绍
● 本课程是基于V5.0的一次重大更新,汇总并收集了大数据学科一年以来15个零基础班级的授课信息、学习信息、就业信息。
● 重新调整了课程的分布情况,新增了大数据综合项目,新增了第四代大数据处理框架FLink,新增了数据库优化,新增了JVM基础及原理,新增了Spark性能调优等内容。
● 课程升级方面,主要对机器学习课程进行了升级,推荐系统项目后置变成7天的丰富课程,提升学员进入机器学习的竞争力,从而更好的从事人工智能领域相关的工作。
● 整体而言,课程在培养中高级大数据工程师的方向上又前进了一大步。
1
新增Hadoop 2.7.2\Storm1.1.1\Spark 2.1
1
新增Java virtual machine原理分析、Java高并发核心知识
1
新增数据库优化及调优、第四代大数据处理框架Apache Flink、Spark原理深入剖析及生产调优
1
新增互联网反欺诈项目实战、广告系统业务模型及CTR预估
1
新增用户画像、数据仓库大型企业实战型项目
1
升级用户画像概述/数据/建模/算法实战、推荐系统协同过滤算法实战、基于内容的推荐系统实战、基于关联规则推荐系统实战
1
升级混合推荐与CTR点击预估
1
升级Hadoop版本为CDH
课程名称
云计算大数据实战班
课程推出时间
2017.07.01
课程版本号
5.0
主要针对版本
JDK1.8\Hadoop 2.7.2\Storm1.1.1\Spark 2.1
主要使用开发工具
Eclipse、IDEA
课程介绍
● Java基础、JavaWeb核心编程、JavaWeb三大框架、网络爬虫、分布式电商网站开发等课程模块。培养学生编程能力,让零基础学员能够更好的学习大数据项目。
● 大数据方面方面,新增点击流日志收集系统、用户日志分析报表系统、用户画像系统等案例。让学员不仅仅学习到大数据技术点,能够使用大数据解决实际问题。
● 扩充机器学习课程为10天。该课程历时一年研发,深入浅出,能够让学员更好的入门机器学习,成为人工智能开发的初级工程师。
1
升级Hadoop 2.7.2\Storm1.1.1\Spark 2.1
1
新增网络爬虫开发
1
新增三大框架开发
1
新增JavaWeb核心
1
新增Java语言基础
课程名称
云计算大数据实战班
课程推出时间
2016.03.01
课程版本号
4.0
主要针对版本
JDK7.x
主要使用开发工具
Eclipse、IDEA
课程介绍
● 对比原有课程,本次课程做了重大更新,将大数据的核心技术hadoop及其生态圈技术完美的融入到了课程中。
● 课程分阶段的进行案例实战和项目实战,在大数据方面知识体系更加完整,课程更加深度有深度,更加贴近实战。
● 分阶段的进行大数据生态圈的学习,将生态圈分为离线处理,实时流计算和实现火热的spark内存计算,完美的将生态圈进行了抽离和归类,让学习变得更便捷。
1
升级Spark1.6版本
1
新增Linux操作系统和shell脚本学习
1
新增JVM内存模型分析、NIO、Netty、自定义RPC框架
1
新增电商点击流日志分析、电商实时日志告警平台、交易风控风控平台、流量日志分析分析
1
新增Spark游戏日志分析项目
1
删除KVM虚拟化技术、网络基础和OpenvSwitch技术、Ceph存储技术
1
删除CloudStack云管理平台、混合云管理平台项目
课程名称
云计算大数据实战班
课程推出时间
2015.05.15
课程版本号
3.0
主要针对版本
JDK7.x
主要使用开发工具
Eclipse、IDEA
课程介绍
● 本次更新将大数据和虚拟化这两大热门技术加入到课程体系中,在大数据方面知识体系更加完整,课程更加深度有深度,更加贴近实战。
● 在虚拟化方面,选择了在云计算领域常用的虚拟化、网络、存储等技术,并通过Apache CloudStack技术整合,在此基础上开发混合云管理平台。
1
升级Hadoop2.0版本、Hive优化课程
1
新增电信流量运营分析项目、混合云管理平台项目
1
新增Scala函数式编程、Spark内存计算、KVM虚拟化技术
1
新增网络基础和OpenvSwitch技术
1
新增Ceph存储技术、CloudStack云管理平台
课程名称
云计算大数据实战班
课程推出时间
2014.02.15
课程版本号
2.0
主要针对版本
JDK6.x
主要使用开发工具
Eclipse
课程介绍
● 随着近年来云计算大数据的大力发展,市场对相关人才需求急增,所以本版课程在原有的云计算课程进行了颠覆性的改革,把原来只有1天的课程扩展为7天,加入了Hadoop生态圈的相关技术。
1
升级云计算课程、Hadoop集群部署、优化HDSF、MapReduce案例
1
新增Hadoop生态圈相关技术:Zookeeper、Hive、Hbase、Sqoop、Flume
1
新增Storm实时计算技术和案例
1
新增黑马论坛日志分析项目
课程名称
云计算大数据实战班
课程推出时间
2012.02.15
课程版本号
1.0
主要针对版本
JDK6.0
主要使用开发工具
Eclipse
课程介绍
● 近期云计算概念火爆异常,传智教育敏锐的嗅探到大数据技术的悄然兴起,并预测大数据技术将会像雨后春笋一样快速发展,所以传智教育与时俱进在课程中引入了1天的云计算课程,作为拥有大数据课程的培训机构,传智教育大数据实战班助力学员可以掌握新的技术,拓宽学员的就业方向,增强就业竞争力。
1
新增云计算课程:云计算和大数据相关概念
1
新增Hadoop 1.0伪分布式环境部署
1
新增HDFS、MapReduce应用案例
教师录取率<3%,从源头把控师资,带你过关斩将掌握每一个知识点
用数据驱动教学,贯通教/学/练/测/评,为每一位学员私人定制学习计划和就业服务
学前入学多维测评
学前目标导向式学习
学中随堂诊断纠错
学中阶段效果测评
学后在线作业试题库
学后问答社区查漏补缺
保障BI报表数据呈现
就业面试指导就业分析
就业流程
全信息化处理
学员能力
雷达图分析
定制个性化
就业服务
技术面试题
讲解
就业指导课
面试项目分析
HR面试攻略
模拟企业
真实面试
专业简历指导
面试复盘辅导
风险预警
企业黑名单提醒
老学员毕业后即可加入传智汇精英社区,持续助力学员职场发展
传智教育旗下IT互联网精英社区,以汇聚互联网前沿技术为核心,以传递、分享为己任,联合经纬创投、创新工场、京东人工智能、华为等众多关注互联网的知名机构及企业、行业大咖,共同研究中国互联网深度融合、跨界渗透、整合汇聚、相互促进的信息化资源共享平台。
行业沙龙
高端人脉
职场资源
技术研习
文科生转行学计算机,薪资爆炸式提升
赢麻了!选择黑马学大数据,一举拿下银行offer
计算机小白的成长之路,学长有话说
零基础的我,如何拿下24koffer
30而已,怕啥!年薪22W学长转行大数据面试经!
我是怎么拿下20k的?学长面试经验分享
"汽车评估师"跨行大数据,选对职业很重要!
从工厂到大厂,裸辞后凭实力逆袭24k
说一下我的背景,四大天坑专业,因为在南方上大学,所以毕业了之后就去深圳了,因为学的是工科,虽然去了大城市,也没有在高楼大厦间工作,而是去了南山区的一个制药厂,整日在车间工作,工资也不高,车间主任都熬了好多年才上去,感觉也是一个一
查看详情1384阅读
顺利学完了基础班,然后自然而然就到了就业班,就业班的知识更难,但是这也是工作中会遇到的,但是有老师和同学的鼓励,我也克服了一个个困难,解决了一个又一个bug,不得不说,写了百来行代码运行成功的那一刻 真是的是很让人兴奋的。
查看详情16835阅读
学习it技术本质上是对人的常规思维方式的一次重构,在刚开始的时候我会因为脱产学习而感到焦虑,晚上睡不着。我无数次在下晚自习之后走在回家的路上,路灯昏黄的灯光透过行道树的树叶的打在我身上的时候,思考某个知识点我是否完全掌握。同时也很庆
查看详情17364阅读
通过在网上了解到传智,经过网上的查询,觉得大数据的发展前景还是不错的,大数据主要涉及到数据的处理和应用,会用到相应的数据处理和应用软件,相对于之前的机械行业,大数据是一个新兴并且高速发展的行业,并且待遇方面相对其他软件行业相对更高
查看详情3247阅读
我起初是对口升学大专生 学习了四年的汽修,原本以为以后的生活就是没日没夜的和汽车打交道,由于自己的性格及自命不凡的生活目标,出校门第一份工作就是销售。经过了一年的汽车销售工作后感觉还是想体验更大的社会生活压力,就选择了房产销
查看详情2387阅读
9970元/月平均薪资
15900元/月最高薪资
100%就业率
58人月薪过万
*学员就业信息统计数据为数据库中实时调取的真实相关数据,非广告宣传