保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。立即体验
一线城市薪资高
二三线紧随其后
国家实施大数据战略
大数据专业人才紧缺
数字经济引领全球
经济社会发生变革
0基础转行人员数据课程从Python入手
简单高效入门快
适宜零基础人员学习
应届毕业生缺乏工作经验技能
未来没有明确规划
通过学习本课入行IT
互联网转行人员目前工作待遇不理想
市场上升空间有限
需要突破现状转行
有基础寻求系统提升者具有一定的数据理论或基础
需要掌握系统数据技术
在实际业务中如何应用
适合零基础学员课程由浅入深/数据量由小到大
逐步掌握各业务场景下的数据处理
热门技术周更新一线大厂行业专家/年亿元级研发投入
以“周”为单位更新前沿技术
项目驱动式教学多行业多项目实战
提升实战能力 入职即能快速上手
课程贴合市场需求课程与时俱进不断融入热门技术栈
打造学完即上岗人才
还原真实工作场景参与真实项目开发流程
锻炼独立分析、解决问题的能力
积累实际工作经验真实数据业务需求转化
企业级真项目涵盖14大主流行业
Python编程基础
Python编程进阶
SQL基础
ETL实战
Hadoop技术栈
千亿级离线数仓项目
千亿级离线数仓项目实战
Spark技术栈
用户画像解决方案
PB级内存计算项目实战
就业指导&就业加强
Flink技术栈
亚秒级实时计算项目
主要内容
· Python基础语法· Python数据处理· 函数· 文件读写· 异常处理· 模块和包
可解决的现实问题
熟练掌握Python语言,建立编程思维,使学员能够熟练使用Python技术完成程序编写。
可掌握的核心能力
1.掌握Python开发环境基本配置;
2.掌握运算符、表达式、流程控制语句、数组等的使用;
3.掌握字符串的基本操作;
4.初步建立面向对象的编程思维;
5.熟悉异常捕获的基本流程及使用方式;
6.掌握类和对象的基本使用方式。
主要内容
· 面向对象· 网络编程· 多任务编程· 高级语法· Python编程综合项目
可解决的现实问题
熟练使用Python面向对象程序设计思想,掌握数据开发必备Python高级语法,解决常见Python开发问题。
可掌握的核心能力
1.掌握网络编程技术,能够实现网络通讯;
2.知道通讯协议原理;
3.掌握开发中的多任务编程实现方式;
4. 知道多进程多线程的原理。
主要内容
· MySQL与SQL· Kettle与BI工具· Pymysql
可解决的现实问题
熟练掌握MySQL\SQL、Kettle以及BI工具使用,能够解决传统数仓业务开发任务。
可掌握的核心能力
1. 掌握MySQL数据库的使用;
2. 掌握SQL语法;
3. 掌握Kettle数据迁移工具的使用;
4. 熟练使用BI可视化工具;
5. 对数据开发有一定认知,掌握BI工程师所具备的基本技能。
主要内容
· ETL概念与工具· Python ETL实战· BI
可解决的现实问题
掌握Python完成数据ETL实战,能够解决中小型数据量数据处理相关任务。
可掌握的核心能力
1. 掌握ETL的相关概念;
2. 掌握基于Python语言完成ETL任务开发实战;
3. 基于ETL实战锻炼Python编程能力,包括(元数据管理、数据模型、项目配置、单元测试、工具方法抽取等);
4. 掌握BI数据分析实战。
主要内容
· Linux· 大数据基础和硬件介绍· Zookeeper· HDFS· MapReduce· YARN· Hive基础· Hive高阶
可解决的现实问题
熟悉Linux操作系统,以及各种Linux命令,能够解决企业级大数据集群搭建问题,为进阶大数据开发奠定基础。
可掌握的核心能力
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础;
2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群;
3.掌握Hive的使用和调优;
4.具备Hadoop开发能力、离线数据仓库开发能力;
5.能够完成基本构建企业级数仓。
主要内容
· 大数据部署运维:Cloudera Manager· 分析决策需求:数据仓库· 数据采集:sqoop· 数据分析:Hive· 历史数据快照:拉链表· 数据更新后的统计分析:拉链表· 数据调度:oozie+shell· OLAP系统存储:MySQL· FineBI数据展示
可解决的现实问题
能够解决企业级常见数据仓库搭建,从项目的需求、技术架构、业务架构、部署平台、ETL设计、作业调度等整套pipeline,完成大数据体系下的企业级数据仓库构建。
可掌握的核心能力
1.掌握零售行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
2.行业内首个深度使用Presto的项目;
3.包括海量数据场景下如何优化配置;
4.拉链表的具体应用;
5.新增数据和更新数据的抽取和分析;
6.提供新零售大型商超集团的数据存储分析以及服务监控方案。
主要内容
· 大数据部署运维:Cloudera Manager· 分析决策需求:数据仓库· 数据采集:sqoop· 数据分析:Hive+presto· 历史数据快照:拉链表· 数据更新后的统计分析:拉链表· 数据调度:ds· OLAP系统存储:MySQL· FineBI数据展示
可解决的现实问题
按照企业级大数据开发流程,独立完成项目开发,掌握企业级多场景大数据离线数仓开发能力,从数仓分层,数仓建模,指标统计,指标展示完成完整的大数据项目。
可掌握的核心能力
1.掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
2.真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力;
3.包括海量数据场景下如何优化配置;
4.拉链表的具体应用;
5.新增数据和更新数据的抽取和分析;
6.Hive函数的具体应用;
7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。
主要内容
· Pandas基础· Pandas数据处理实战· Spark基础· Spark Core· Spark SQL· SparkSQL案例· Kafka· Elasticsearch
可解决的现实问题
掌握全球最热门的Spark技术栈,通过SparkCore和SparkSQL解决数据处理与统计分析工作,进阶高级大数据开发工程师。
可掌握的核心能力
1.掌握Spark的RDD、DAG、CheckPoint等设计思想;
2.掌握SparkSQL结构化数据处理,Spark On Hive;
3.掌握Structured Streaming整合多数据源完成实时数据处理;
4.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。
主要内容
· 1SparkSQL整合ES自定义数据源· DS任务界面化调度· 用户画像标签构建规则· 用户画像规则类标签构建· 用户画像统计类标签构建
可解决的现实问题
项目提供了全行业用户画像解决方案, 使用SparkSQL+ES+DS构建企业级用户画像,通过SparkSQL+MySQL构建通用行业用户画像标签体系。
可掌握的核心能力
1. SparkSQL整合ES自定义数据源;
2. DS任务界面化调度;
3. 用户画像标签构建规则;
4. 用户画像规则类标签构建;
5. 用户画像统计类标签构建。
主要内容
项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化。
可解决的现实问题
基于Spark全栈技术构建企业级大数据开发平台,学生分组独立完成项目实战,能够胜任常见大数据平台开发工作,助力企业实现数字化转型
可掌握的核心能力
1.快速搭建保险行业大数据平台;
2.基于Hive+Spark SQL搭建离线数据仓库;
3.基于SparkSQL应对轻松应对复杂的迭代计算;
4.完成基于国内头部保险公司大数据项目开发;
5.掌握基于Spark分析12亿报单表和8千万客户等数据;
6.对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。
主要内容
· SQL实战· Hive数据分析与面试题加强· Spark数据分析与面试题加强· NoSQL数据分析与面试题加强· 大数据多行业架构剖析
可解决的现实问题
对学习的内容进行整体回顾,并分析经典面试题,指导简历,面试和沟通技巧助力高薪offer。
可掌握的核心能力
1.强化面试就业核心面试题;
2.梳理大数据架构及解决方案;
3.剖析多行业大数据架构。
主要内容
· Flink Core· Flink DataStream· Flink SQL· Flink Runtime· Flink高级· Flink电商案例实战
可解决的现实问题
掌握当下热门的流批一体化分布式计算框架Flink及其生态,解决实时计算经典场景问题,适应市场对Flink越发增长的需求。
可掌握的核心能力
1.掌握基于Flink进行实时和离线数据处理、分析;
2.掌握基于Flink的多流并行处理技术;
3.掌握千万级高速实时采集技术。
主要内容
· Flink· FlinkSQL· FlinkCDC· Doris· Hudi· Hudi on Hive FIneBI
可解决的现实问题
采集超过千万条在线视频的数据,实时高性能海量数据分析与存储业务数据实时大屏场景实现。
可掌握的核心能力
1.湖仓一体化解决方案基于Flink+Hudi湖仓一体技术架构;
2.基于FlinkCDC完成MySQL等数据源的数据采集;
3.FlinkSQL流批一体架构实现实时数据计算;
4.使用Apache Doris进行海量多维分析;
5.掌握数据报表分析;
6.掌握业务数据实时大屏场景实现。
保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。立即体验
通过大数据技术架构,解决工业物联网石油制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于hive数仓分层来存储各个业务指标数据,基于sparksql做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。立即体验
本项目基于一家大型连锁超市研发的大数据分析平台。是第一个深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。立即体验
学习大数据,你见过真的海量数据吗?你操作过真的【大规模集群】吗?你接触过真的【云服务】吗?这一切,在黑马程序员都将实现真接触!
黑马程序员与知名云平台厂商—UCloud达成深度合作。为学生提供大规模服务器
集群进行实战,硬件规模达到:
相同的工作场景,开发不必从零开始,解决方案可以拿来即用。黑马整合紧跟市场趋势,建立“Python+大数据开发解决方案库”,80+技术解决方案,覆盖职场常见技术难题,让学员成为团队技术问题解决最高效的人。
涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务通过 QBOX 车辆终端数据收集,并解析为 QSP 数据、QCS 数据、充电数据、HU 数据提供实时计算服务与离线计算服务,并通过 API 接口以报表和大屏展示分析结果数据
建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用
实时监控证券市场的市场每日的业务交易,实现对证券市场交易数据的统计分析搭建监察预警体系,包括:预警规则管理,实时预警,历史预警,监察历史数据分析等股市行情交易数据实时采集、实时数据分析、多维分析,即席查询,实时大屏监控展示高性能处理,流处理计算引擎采用的是 Flink,实时处理 100 万笔/s 的交易数据
涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务通过 QBOX 车辆终端数据收集,并解析为 QSP 数据、QCS 数据、充电数据、HU 数据提供实时计算服务与离线计算服务,并通过 API 接口以报表和大屏展示分析结果数据
基于一家大型物流公司研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等 ,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案
基于一家大型物流公司研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等 ,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案
基于一家大型物流公司研发的智慧物流大数据平台,日订单上千万,围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等 ,提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案
基于垂直电商平台构建的用户全方位画像,完整抽取出一个用户的信息全貌 ,业务围绕商品、订单、用户基础信息及行为信息等数据,实现用户和商品基础标签、组合标签、微观画像、标签查询等业务场景,提供了企业级多 方位业务决策分析。
数据分析不仅是(大)数据开发中重要流程,也是(大)数据开发的最终目的;越来越多的企业要求(大)数据工程师承担部分数据 分析的工作
信用风险是金融监管机构重点关注的风险,关乎金融系统运行的稳定。在实际业务开展和模型构建过程中,面临着高维稀疏特征以及样本不平衡等各种问题,如何应用机器学习等数据挖掘方法提高信用风险的评估和预测能力,是各家金融机构积极探索的方向。
确定项目方向目标需求调研
需求分析需求分解
架构设计技术选型数据生命周期数据来源数据分层
小组开发环境搭建数据采集数仓建设定时任务主题开发代码提交文档撰写数据回测
聚集多位Apache 社区贡献者及一线大厂技术讲师,联合推出行业重磅Python大数据V3.0课程,通过5-6个月学习进阶数据开发工程师,获取3-4年开发经验,对标高级数据开发工程师,冲刺年薪30w
Python+大数据V3.0学习路线概览
第一阶段第二阶段第三阶段第四阶段第五阶段
Python编程基础 Python编程进阶 SQL基础 项目一 ETL实战 Hadoop技术栈
第六阶段第七阶段第八阶段第九阶段
项目二 千亿级离线数仓项目 项目三 千亿级离线数仓项目实战 Spark技术栈 项目四 用户画像解决方案
第十阶段第十一阶段第十二阶段第十三阶段第十四阶段
升级V3.0课程亮点:
敢以班级为单位公开就业信息的机构,只有黑马程序员!通过数千班级实施和就业结果显示,黑马程序员Python+大数据开发的课程,有效大幅提升就业薪资水平!
课程大纲
基础班
1. Python编程基础
高手班
1. Python编程进阶 2. SQL基础 3. ETL实战 4. Hadoop技术栈 5. 千亿级离线数仓项目 6. 千亿级离线数仓项目实战 7. Spark技术栈 8. 用户画像解决方案 9. PB级内存计算项目 10. 就业指导&就业加强 11. Flink技术栈 12. 亚秒级实时计算项目
进阶班
1. 亚秒级实时进阶课
Python+大数据课程升级版本3.0
课时:8天技术点:48项测验:1次学习方式:线下面授
1.掌握Python开发环境基本配置| 2.掌握运算符、表达式、流程控制语句、数组等的使用| 3.掌握字符串的基本操作| 4.初步建立面向对象的编程思维| 5.熟悉异常捕获的基本流程及使用方式| 6.掌握类和对象的基本使用方式
1. Python基础语法零基础学习Python的开始,包含了以下技术点:
01_变量| 02_标识符和关键字| 03_输入和输出| 04_数据类型转换| 05_PEP8编码规范| 06_比较/关系运算符| 07_if判断语句语法格式| 08_三目运算符| 09_while语句语法格式| 10_while 循环嵌套| 11_break 和 continue| 12_while 循环案例| 13_for循环
2. Python数据处理掌握Python的数据类型,并对其进行操作处理,包含了以下技术点:
01_字符串定义语法格式| 02_字符串遍历| 03_下标和切片| 04_字符串常见操作| 05_列表语法格式| 06_列表的遍历| 07_列表常见操作| 08_列表嵌套| 09_列表推导式| 10_元组语法格式| 11_元组操作| 12_字典语法格式| 13_字典常见操作| 14_字典的遍历
3. 函数能够实现Python函数的编写,包含了以下技术点:
01_函数概念和作用、函数定义、调用| 02_函数的参数| 03_函数的返回值| 04_函数的注释| 05_函数的嵌套调用| 06_可变和不可变类型| 07_局部变量| 08_全局变量| 09_组包和拆包、引用
4. 文件读写能够使用Python对文件进行操作,包含了以下技术点:
01_文件的打开与关闭、文件的读写| 02_文件、目录操作及案例| 03_os模块文件与目录相关操作
5. 异常处理主要介绍了在Python编程中如何处理异常,包含了以下技术点:
01_异常概念| 02_异常捕获| 03_异常的传递
6. 模块和包主要介绍了Python中的模块和包的体系,以及如何使用模块和包,包含了以下技术点:
01_模块介绍| 02_模块的导入| 03_包的概念| 04_包的导入| 05_模块中的__all__| 06_模块中__name__
课时:7天技术点:108项测验:1次学习方式:线下面授
1.掌握网络编程技术,能够实现网络通讯| 2.知道通讯协议原理 | 3.掌握开发中的多任务编程实现方式| 4. 知道多进程多线程的原理A
1. 面向对象从逐步建立起面向对象编程思想,再到会使用对象,到创建对象,再到真正理解为什么封装对象,包含了以下技术点:
01_面向对象介绍| 02_类的定义和对象的创建| 03_添加和获取对象属性| 04_self 参数| 05_init方法| 06_继承| 07_子类方法重写| 08_类属性和实例属性| 09_类方法、实例方法、静态方法
2. 网络编程主要学习通讯协议,以及Python实现TCP、HTTP通讯,包含了以下技术点:
01_IP地址的介绍| 02_端口和端口号的介绍| 03_TCP的介绍| 04_Socket的介绍| 05_TCP网络应用的开发流程| 06_基于TCP通信程序开发|
3. 多任务编程主要学习Python中多线程、多进程,包含了以下技术点:
01_多任务介绍| 02_多进程的使用| 03_多线程的使用| 04_线程同步
4. 高级语法主要学习Python的高级语法,包含以下技术点:
01_闭包| 02_装饰器| 03_迭代器| 04_深浅拷贝| 05_正则
5. Python编程综合项目通过前边所学知识,完成综合案例,锻炼编程能力、培养编程思维
01_Python编程综合项目
课时:4天技术点:70项测验:1次学习方式:线下面授
1. 掌握MySQL数据库的使用| 2. 掌握SQL语法| 3. 掌握Kettle数据迁移工具的使用| 4. 熟练使用BI可视化工具| 5. 对数据开发有一定认知,掌握BI工程师所具备的基本技能
1. MySQL与SQL零基础小白通过MySQL数据库,掌握核心必备SQL,包含了以下技术点:
01_数据库概念和作用| 02_MySQL数据类型| 03_数据完整性和约束| 04_数据库、表基本操作命令| 05_表数据操作命令| 06_where子句| 07_分组聚合| 08_连接查询| 09_外键的使用
2. Kettle与BI工具使用Kettle做数据迁移,通过BI工具展示excel、MySQL中的数据,包含了以下技术点:
01_Kettle基本操作| 02_Kettle数据转换| 03_Kettle使用SQL脚本组件| 04_kettle Job开发| 05_FineBI基本操作| 06_FineBI常用图表| 07_FineBI仪表板| 08_综合案例
3. PymysqlPython与数据库交互,主要学习PyMySQL包
01. 环境搭建| 02. Python操作数据库
课时:6天技术点:48项测验:0次学习方式:线下面授
1. 掌握ETL的相关概念| 2. 掌握基于Python语言完成ETL任务开发实战| 3. 基于ETL实战锻炼Python编程能力,包括(元数据管理、数据模型、项目配置、单元测试、工具方法抽取等)| 4. 掌握BI数据分析实战
ETL项目基于国内某大型零售企业旗下出品各类收银机为基础,在全国十多个省份有上50万家店铺使用,机器通过联网每次将售卖商品数据上传到公司后台.利用ETL平台完成数据抽取转化加载工作,助力学生达到初中级ETL工程师目标。
进入项目体验完整PythonETL解决方案,Kettle数据采集解决方案。DS调度解决方案,基于FineBi的BI解决方案。
1.ETL概念与工具| 2.Python ETL实战| 3.基于FineBI完成数据分析实战| 4.将收银机上传到后台的<订单>数据采集到数仓中| 5.将后台中的商品库数据采集到数仓中| 6。将后台的程序日志采集到数仓中
课时:11天技术点:120项测验:1次学习方式:线下面授
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础| 2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群| 3.掌握Hive的使用和调优| 4.具备Hadoop开发能力、离线数据仓库开发能力| 5.能够完成基本构建企业级数仓
1. Linux掌握Linux操作系统常用命令和权限管理,包含了以下技术点:
01_Linux命令使用| 02_Linux命令选项的使用| 03_远程登录和远程拷贝| 04_Linux权限管理| 05_vi编辑器使用| 06_集群搭建准备
2. 大数据基础和硬件介绍进一步阐述大数据特点与分布式思想,知识点由浅入深,包含了以下技术点:
01_大数据的特点| 02_分布式存储概念| 03_分布式计算的概念| 04_服务器种类介绍、机架、交换机| 05_网络拓扑、Raid、IDC数据中心
3. Zookeeper分布式软件管家,实现了集群管理与leader选举,包含了以下技术点:
01_Zookeeper的应用场景| 02_架构和原理| 03_存储模型| 04_选举机制| 05_客户端操作| 06_ZK集群搭建
4. HDFS分布式文件系统,解决了海量数据存储与容错,包含了以下技术点:
01_HDFS设计的特点| 02_Master-Slave架构| 03_Block块存储、RF拷贝因子、机架感知| 04_Block拷贝策略、读写流程| 05_HDFS Federation、HDFS Snapshots、NameNode HA架构和原理| 06_HDFS管理员常用操作、HDFS权限控制| 07_HDFS普通集群以及HA集群搭建
5. MapReduce分布式计算系统,解决海量数据的计算,包含了以下技术点:
01_MapReduce架构和原理| 02_Split机制| 03_MapReduce并行度| 04_Combiner机制| 05_Partition机制、自定义Partition| 06_MapReduce序列化、自定义排序、数据压缩
6. YARN分布式资源调度管理器,管理服务器软件资源,包含了以下技术点:
01_Yarn原理和架构| 02_Yarn高可用| 03_Container资源的封装(CPU、内存和IO)| 04_资源调度策略(FIFO、Fair和Capacity)| 05_YARN高可用模式搭建
7. Hive基础数据仓库Hive,实现企业级数仓必备工具,包含以下知识点:
01_HQL操作| 02_数据类型| 03_分区、分桶、临时表| 04_explain执行计划详解
8. Hive高阶数据仓库Hive高阶原理和架构深入,实现企业级数仓优化,包含以下知识点:
01_Hive原理和架构| 02_Meta Store服务| 03_HiveServer内置函数| 04_自定义UDF和UDAF| 05_数据压缩、存储格式、自动化脚本、常见性能优化
课时:11天技术点:105项测验:0次学习方式:线下面授
1.掌握零售行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程| 2.行业内首个深度使用Presto的项目| 3.包括海量数据场景下如何优化配置| 4.拉链表的具体应用| 5.新增数据和更新数据的抽取和分析| 6.提供新零售大型商超集团的数据存储分析以及服务监控方案
本项目基于一家大型连锁超市研发的大数据分析平台。黑马第一个深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。
进入项目体验掌握离线数仓的分层与建模、大数据量场景下如何优化配置,拉链表的具体应用,新增数据的抽取和分析,更新数据的抽取和分析,以及Hive函数的具体应用等。ClouderaManager可视化、自动部署和配置、Git的CodeReview功能保证项目高质量 离线数仓的分层与建模 项目涉及20多个主题,100多个指标场景 帆软BI企业级报表展示
1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:Hive 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:oozie+shell 8.OLAP系统存储:MySQL 9.FineBI数据展示
课时:5天技术点:40项测验:0次学习方式:线下面授
1.掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程| 2.真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力| 3.包括海量数据场景下如何优化配置| 4.拉链表的具体应用| 5.新增数据和更新数据的抽取和分析| 6.Hive函数的具体应用| 7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能
1、建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 2、项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 3、挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。
进入项目体验项目介绍与环境准备、数据仓库的建模和分层、OLTP、ODS、DWD实现、Presto、DWB实现、DWS实现、DM、RPT、导出实现、Oozie架构与部署及使用。使用Hive、Presto、Oozie、数仓技术栈,提供新零售大型商超集团的数据存储分析以及服务监控方案
1.大数据部署运维:Cloudera Manager 2.分析决策需求:数据仓库 3.数据采集:sqoop 4.数据分析:Hive+presto 5.历史数据快照:拉链表 6.数据更新后的统计分析:拉链表 7.数据调度:ds 8.OLAP系统存储:MySQL 9.FineBI数据展示
课时:15天技术点:108项测验:1次学习方式:线下面授
1.掌握Spark的RDD、DAG、CheckPoint等设计思想| 2.掌握SparkSQL结构化数据处理,Spark On Hive| 3.掌握Structured Streaming整合多数据源完成实时数据处理| 4.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力
1. Pandas基础Pandas数据处理及可视化技术,包含以下技术点:
01_ Pandas数据结构| 02_ 索引操作| 03_列名操作| 04_Dataframe数据的增删改查操作| 05_Pandas常用计算函数
2. Pandas数据处理实战利用所学的Python Pandas,以及可视化技术,完成数据处理项目实战:
01_缺失值处理| 02_Pandas数据类型| 03_分组与分箱操作| 04_DF合并与变形操作| 05_DF的读取与保存
3. Spark基础本阶段学习Spark环境搭建及以下知识点:
01_Spark基础环境搭建| 02_Spark的Standalone环境搭建| 03_Spark的StandaloneHA搭建| 04_SparkOnYarn环境搭建
4. Spark Core整个spark框架核心部分,掌握框架内部设计思想,数据流转步骤,是学习spark的基础模块,包含了以下技术点:
01_Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程)| 02_RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量 | 03_DAG原理(DAG思想、DAG的生成、DAG的处理过程)
5. Spark SQL学习spark框架的SQL操作,spark与Hive等外部数据源的整合操作,包含了以下技术点:
01_Spark SQL架构和原理| 02_DataFrame、DataSet DSL和SQL开发| 03_Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive)| 04_Spark SQL执行计划原理| 05_Spark SQL性能调优
6. SparkSQL案例践行场景式教学,运用了Spark阶段知识点,使用lambda加解决数据分析的应用,包含了以下技术点:
01_Spark多场景案例实战
课时:8天技术点:80项测验:0次学习方式:线下面授
1.SparkSQL整合ES自定义数据源| 2.DS任务界面化调度| 3.用户画像标签构建规则| 4.用户画像规则类标签构建| 5.用户画像统计类标签构建
通过用户画像解决方案,完成数据存储和分析、用户标签。
进入项目体验用户画像解决方案,主要针对于保险行业完成用户标签设计,提供了全行业解决方案,课程采用由浅入深,层层递进的讲解方式, 让你轻松掌握企业级用户画像的使用, 使用SparkSQL+ES+DS构建企业级用户画像。
1. SparkSQL整合ES自定义数据源 2. DS任务界面化调度 3. 用户画像标签构建规则 4. 用户画像规则类标签构建 5. 用户画像统计类标签构建
课时:5天技术点:88项测验:0次学习方式:线下面授
1.快速搭建保险行业大数据平台| 2.基于Hive+Spark SQL搭建离线数据仓库| 3.基于SparkSQL应对轻松应对复杂的迭代计算| 4.完成基于国内头部保险公司大数据项目开发| 5.掌握基于Spark分析12亿报单表和8千万客户等数据| 6.对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示| 7.离线数仓项目实战| 8.用户画像项目实战
保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到Hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。
进入项目体验项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化、用户画像解决方案。
基于Spark轻松应对保险复杂的迭代计算、基于SparkSQL完成用户画像实战、基于ES完成标签存储与检索。
课时:5天技术点:40项测验:0次学习方式:线下面授
1.强化面试就业核心面试题 2.梳理大数据架构及解决方案| 3.剖析多行业大数据架构
1. SQL实战解决Python大数据常见的SQL面试题,包含了以下技术点:
01_面试题必备SQL实战| 02_SQL优化加强。
2. Hive数据分析与面试题加强解决Hive数据分析开发必备面试题,包含了以下技术点:
01_Hive基础| 02_Hive拉链表| 03_Hive数据仓库构建示例| 04_Hive面试题
3. Spark数据分析与面试题加强解决Spark开发必备面试题,包含了以下技术点:
01_Spark基础| 02_Spark离线分析| 04_Spark面试题
4. NoSQL数据分析与面试题加强解决NoSQL常见的面试题,从消息队列到HBase掌握关键原理,包含了以下技术点:
01_Kafka基础| 02_HBase基础| 03_HBase面试题
5. 大数据多行业架构剖析解决多行业多场景大数据架构设计,具备举一反三设计大数据架构体系能来,包含了以下技术点:
01_数据分析流程| 02_大数据架构剖析| 03_多行业大数据架构设计| 04_大数据存储,调度等解决方案
课时:6天技术点:88项测验:1次学习方式:线下面授
1.掌握基于Flink进行实时和离线数据处理、分析| 2.掌握基于Flink的多流并行处理技术| 3.掌握千万级高速实时采集技术
1. Flink Core新一代批流统一数据处理引擎,在计算效率和性能都有很大提升,包含了以下技术点:
01_Flink基础
2. Flink DataStream构成了Flink解决实时数据处理部分,是掌握实时数据处理必备技能,包含了以下技术点:
01_Flink DataStream的使用| 02_Kafka + Flink
3. Flink SQL解决Flink中的SQL化开发,Flink-SQL开发必备技能,包含了以下技术点:
01_Flink SQL开发| 02_Hive + Flink SQL
4. Flink Runtime是对Flink任务进行调优,必须掌握的内容,包含了以下技术点:
01_Watermark| 02_Checkpoint| 03_任务调度与负载均衡| 04_状态管理
5. Flink高级解决Flink性能监控等高阶知识,具备实时数据分析必备技能,包含以下技术点:
01_Flink性能监控| 02_Flink调优| 03_Flink SQL执行计划
6. Flink电商案例实战践行场景式教学,运用了Flink阶段知识点,解决实时数据分析的应用,包含了以下技术点:
01_Flume+Kafka+Flink+HBase+Sqoop+Canal+MySQL实战
课时:8天技术点:80项测验:0次学习方式:线下面授
1.湖仓一体化解决方案基于Flink+Hudi湖仓一体技术架构| 2.基于FlinkCDC完成MySQL等数据源的数据采集| 3.FlinkSQL流批一体架构实现实时数据计算| 4.使用Apache Doris进行海量多维分析| 5.掌握数据报表分析| 6.掌握业务数据实时大屏场景实现
基于Flink+Hudi湖仓一体技术架构,实现了在线视频行业实时数据处理和分析。项目采用流处理计算引擎Flink,实时处理千万数据量的视频流数据,基于FlinkCDC完成MySQL等数据源的数据采集,通过Hudi On Hive构建湖仓一体架构,结合数据湖和数据仓库优势,建立湖仓一体化。
Flink,FlinkSQL,FlinkCDC,Doris,Hudi,Hudi,on Hive,FIneBI。
采集超过千万条新能源车辆的数据 实时高性能海量数据分析与存储 业务数据实时大屏场景实现
课时:106天技术点:1000项测验:0次学习方式:线上学习
1.线上3个月进阶大数据实时开发,多行业大数据项目助力企业数字人才精英| 2.皆在成就实时开发工程师,大数据架构师等,帮助学员成为站在金字塔顶端的实时工程师
1. 大数据Java语言大数据生态多语言开发,为进阶实时数据开发奠定基础
1_编程基础| 2_面向对象| 3_常用类| 4_集合操作| 5_IO操作| 6_Java基础增强| 7_JDBC| 8_Maven| 9_爬虫案例
2. 数据采集掌握实时计算中组件,数据开发工程师重要技能
1_Flume| 2_DataX| 3_实时采集
3. NoSQL&消息中心分布式存储和消息队列专项课,从原理到源码,助力多场景存储技术架构选型,升值加薪必备技能。
1_分布式缓存Redis| 2_消息队列Kafka| 3_Hbase| 4_ELK技术栈| 5_消息队列Pulsar
4. 实时OLAP框架掌握实时OLAP框架,数据开发工程师重要技能。
1_实时OLAP框架ClickHouse| 2_实时OLAP框架Doris
5. 数据湖开发数据湖技术专题课程,完成湖仓一体架构进阶。
1_Hudi 基础入门篇| 2_Hudi 应用进阶篇| 3_Hudi 实战案例篇
6. Flink技术栈Apache Flink作为当下最流行的实时技术,深度剖析底层原理,实现高级实时开发工程师进阶。
1_Flink基础| 2_Flink DataStream的使用| 3_Kafka + Flink| 4_Flink SQL开发| 5_Hive + Flink SQL| 6_Flink CDC| 7_Flink CEP /Flink CEP SQL| 8_Watermark| 9_Checkpoint| 10_任务调度与负载均衡| 11_状态管理| 12_Flink性能监控
7. FlinkSQL原理到精通全网流批一体架构首选FlinkSQL,进阶技术+业务专家。
1_Flink SQL开发| 2_Hive + Flink SQL| 3_Flink性能监控| 4_Flink调优| 5_Flink SQL执行计划| 6_FlinkSQL案例实战
8. 星途车联网实时项目掌握车联网大数据实时业务场景开发,助力物联网行业高薪挑战。
1_Hive| 2_HBase| 3_HDFS数据存储| 4_Kafka数据传输| 5_Flink全栈数据处理| 6_Nginx做反向代理| 7_LSV和Keepalived负载均衡和高可用
9. 今日指数证券实时项目掌握金融业务数据实时场景实,助力金融行业高薪挑战。
1_创建原始数据hbase的二级索引| 2_Flink业务分析驾驶行程划分| 3_flink驾驶行程业务分析| 4_将实时车辆中在围栏中的车辆信息与mysql中已存在围栏中的车辆信息合并| 5_TimeWindow流连接广播状态流结果流连接省、市广播状态流
10. 基于DataWorks全链路数据开发掌握智慧出行实时项目业务数据实时场景,覆盖全网所有DataWorks平台大数据。
1_智慧出行实时项目业务数据实时场景异构数据源采集| 2_基于DataWorks的大数据平台设计| 3_出行行业可视化完整架构,涵盖全生命周期项目
11. 湖仓一体化解决方案掌握基于湖仓一体的在线视频实时分析项目,助力大数据新技术企业应用。
1_湖仓一体完整解决方案| 2_基于Flink的在线视频数据处理与分析| 3_基于Hidi的在线视频数据数据湖构建
12. Flink源码剖析全网最全Flink源码课程,从原理到源码,深挖技术底层,助力Flink性能调优,大数据架构师必备技能。
1_Apache Flink设计理念与基本架构| 2_Flink DataStream的设计与实现源码分析| 3_Flink 运行时的核心原理与实现| 4_Flink 任务提交与执行| 5_状态管理与容错| 6_网络通信| 7_内存管理
13. Flink二次开发掌握Flink二次开发流程,个性化解决企业大数据平台技术选型,助力在职的你持续高薪,大数据架构师必备技能。
1_基于PyFlink的PR提交| 2_Flink的源码二次开发流程| 3_Flink的源码二次开发需求分析| 4_Flink的源码二次开发实现过程| 5_PyFlink相关功能二次开发
课程名称:主要针对:主要使用开发工具:
课程名称
Python+大数据开发课程
课程推出时间
2022.06.01
课程版本号
3.0
主要针对
行业解决方案:离线数仓解决方案、用户画像解决方案、Kappa架构解决方案、湖仓一体解决方案
技术课程:ETL开发、NoSQL中间件课程、新版Flink课程
主要使用开发工具
PyCharm、DataGrip、FinalShell
课程介绍
● Python大数据V3.0课程全新升级,紧贴各类企业招聘需求,采用六项目制驱动技术学习,助力国家数字化转型对数字人才的大量需求
● 多位Apache社区贡献者联袂授课,从原理、实战到源码,带你迈入高级开发工程师行列
● 课程覆盖企业级大数据四大主流解决方案,包括离线数仓解决方案、用户画像解决方案、流批一体解决方案和湖仓一体解决方案,再现公司中真实的开发场景,目标不止于就业,而是成为各类企业争抢的大数据开发工程师。
● 课程升级主流大数据技术栈,全新Hadoop3.2,Spark3.2,Flink1.15技术剖析和新特性使用,全行业首推Python全栈ETL开发课程,不仅可以学习到完整的基础ETL流程、工具,更能胜任千亿级、亚秒级等复杂数据源情况下的工作。
● 新增基于Python和SQL的Flink课程,满足就业市场中,大数据开发岗位更多的依赖SQL、Python的需求变化。
● 新增 基于Python的Kafka、Elasticsearch等全新课程,夯实实时计算开发基础能力,帮助学员掌握数据开发工程师重要技能。
● 新增 新版面试加强课,内容集成了大厂架构解析、SQL专项面试宝典,以及不断滚动更新的全网大数据岗位面试题讲解,助力高薪offer。
1
新增基于Python的全栈ETL开发课程,助力学员胜任ETL中高级开发岗位
1
新增全网首个基于PySpark技术栈的用户画像项目,替换原有旧项目,提升简历含金量
1
新增知行教育项目实战,学习完整企业级项目实战流程,让学生真正掌握大数据开发精髓
1
升级Spark技术课程为2022最新3.2版本、Flink技术课程为2022最新1.15版本,全网率先加入Pandas on Spark数据开发内容
1
新增FlinkSQL湖仓一体项目、首推FlinkSQL流批一体最新课程,进阶Flink高阶工程师,助力突破年薪50W
1
新增SparkSQL底层执行原理,StructuredStreaming结构化流内容
1
升级Spark3.2整合Hive3.1.2版本兼容问题
1
新增Pandas_udf函数,通过Apache Arrow框架优化数据处理速度;Pandas技术栈,能够处理中小型数据量
1
新增Python版NoSQL课程,达到企业级万亿级数据存储目标
1
新增Kafka-Python完成企业级消息队列流量削峰, 异步通信等任务
1
新增ElasticSearch技术栈,达到企业级大数据搜索工程师目标
1
升级PySpark的DataFrame操作、Flink任务调度机制以及Flink内存模型、Flink table&sql的整体概述
1
新增FlinkSQL的原理和调优、Flink on Yarn的多种部署方式、Flink transformation的八大物理分区的原理和实现、Flink的window窗口操作,以及内置水印函数的操作
1
新增Hadoop3.x新特性、Hive3.x新特性,以及数据压缩、存储格式等内容
1
升级Python基础,增加PyEcharts等BI内容,实现可视化大屏
1
新增Presto对接多数据源实现企业级大数据OLAP分析、Presto加速对Hive数仓之上数据构建大数据分析引擎,实现多维指标计算
1
新增企业级BI工具FineBI,适用于多行业项目BI大屏展示,助力企业数字决策
1
新增Flink table&sql概念和通用api介绍、sqlclient工具的使用、catalogs知识点的学习、流处理中的概念介绍
1
新增FlinkSQL中的窗口使用、FlinkSQL函数操作、Flinksql连接到外部系统
1
新增Flink源码前置基础、源码的编译和部署、Flink启动脚本的解读、yarn-per-job模式解析
1
升级车联网Web展示部分、车联网离线Hive数仓构建部分
1
友情提示更多学习视频+资料+源码,请加QQ:2632311208。
课程名称
Python+大数据开发课程
课程推出时间
2021.06.01
课程版本号
2.0
主要针对
新零售数仓项目、云上服务器集群
主要使用开发工具
新零售数仓项目、云上服务器集群
课程介绍
● 经过不断的版本迭代,正式推出新零售数仓项目课程,替换原有的旧项目,打造过硬的项目实战经验
● 新增价值百万的UCcloud云上集群生产环境用于学习,完全云服务开发环境体验
● 新增项目实战环节,百分百再现企业中真实工作场景,夯实开发实战能力
1
升级PySpark执行流程
1
新增Spark3.x新特性以及性能调优九项原则
1
升级Hive版本为最新的3.x版本
1
新增自动导入oracle数据,自动创建hive表,自动创建hive分区,自动关联hdfs数据,自动创建文件目录,并记录自动化过程日志
1
升级Flink版本为最新版
1
新增FlinkSQL&Table理论部分比重,使用新版API,使用新增FlinkSQL整合Kafka案例
1
新增美团、平安、小米大数据架构,以及百度广告业务场景大数据架构解决方案
1
新增flink的global window的操作、内置水印函数的操作
1
升级 flink的window的ReduceFunction、AggregateFunction、ProcessWindowFunction、具有增量聚合的ProcessWindowFunction、在 ProcessWindowFunction 中使用每个窗口状态
1
新增flink的state的ttl机制、state的数据结构的api升级、Queryable State知识点
1
新增Flink异步io的vertx框架实现、flink的join操作(Tumbling Window Join、Sliding Window Join、Session Window Join)
1
新增Streaming File Sink连接器的小文件操作
1
新增数据类型及序列化的原理和实现案例
1
新增Flink Action综合练习:热门销售排行TopN的使用案例、布隆过滤器结合TTL的使用案例
课程名称
Python+大数据开发课程
课程推出时间
2020.06.01
课程版本号
1.6
主要针对
Spark3.x
主要使用开发工具
Pycharm、Idea、Datagrip、FinalShell
课程介绍
● 针对Spark3.x版本的重大更新,应对就业岗位需求的快速变化,大数据课程全网首次推出基于Python的Spark课程
● 新增大数据工程师必备的SQL面试进阶强化内容,提升大数据开发工程师核心SQL能力
● 新增大厂数仓架构专题内容,提升数据仓库建设能力
1
升级Hadoop为3.3.0版本、Hive版本为3.1.2版本、HIve3.x架构
1
新增使用Python实现MR原理机制、OLAP、OLTP区别
1
新增MapReduce计算PI原理、MapReduce Python接口调用、Hadoop Streaming提交程序、ETL、ELT区别
1
新增HIve3新特性、Hive3数据压缩,存储格式、Hive CTE表达式
1
升级union联合查询、Hive知识点案例 同步为Hive3版本、Linux课程、Mysql RPM安装方式以支持hive3
1
升级Spark语言为官方推荐使用的Python语言、版本更新为Spark3.1.2发行版、adoop3.3.0、Hive3.1.2版本
1
新增PySpark的安装、任务提交方式、多种模式spark-submit、实现wordcount案例实战
1
新增Python实现RDD操作、DataFrame操作、实现Sougou分词案例、IP热度分析案例、PV-UV-TOPK案例
1
新增PySparkSQL实现基础统计操作、底层Dataframe转化RDD原理操作、实现电影评分数据集分析、离线教育案例、新零售分析案例
1
新增PySparkSQL的优化方式、分布式引擎实现、与HIve整合
课程名称
Python+大数据开发课程
课程推出时间
2020.06.01
课程版本号
1.0
主要针对
大数据引入Python语言、Pandas数据分析
主要使用开发工具
Pycharm、Idea、Datagrip
课程介绍
● 8.1版本以前的数据开发课程,需要一定Java基础和工作经验,为了帮助进入数据开发行业的零基础学员找到最适宜的入门途径,大数据引入Python语言,全新升级为Python+大数据开发1.0版本。
● 学习Python大数据开发,以Python技术栈处理中小型数据集,以大数据技术栈处理海量大规模数据,成为全能企业级数据开发人才。
● 其特点适合零基础学员,从完全没有编程经验开始;课程内容宽并且深,技术大牛亲自授课;面向市场,学即可用,能让学员高薪就业。
1
新增Python基础语言课程
1
新增Python高级语言进阶课程
1
新增Python爬虫课程
1
新增Pandas数据分析课程
1
新增多场景案例分析,应对中小型数据统计分析
课程名称
云计算大数据实战班
课程推出时间
2020.06.01
课程版本号
8.0
主要针对系统
Windows、Linux、MacOS
主要使用开发工具
DataGrip、IDEA
课程介绍
● 根据大量的行业调研分析,本次课程更新以大数据开发为主线,在7.0基础上再次缩减Java课程占比,弱化各类组件安装。
● 针对大数据技术深度和广度进行升级,例如新增Spark内存管理、Flink性能优化及反压、背压原理等同时为提高学员的就业薪资,推出多行业项目解决方案,例如证券、物流等。
● 以周为单位进行课程更新升级,新增Elastic Stack、 出行、电商、视频、社交等领域大数据解决方案、 一线大厂技术架构、 新零售大数据项目实战,离线实时全覆盖。
1
新增数据仓库、ETL、BI开发
1
新增Oracle及PLSQL编程、数据微服务开发
1
新增Spark的内存管理、avro序列化数据源
1
新增continuous processing、偏移量管理机制
1
新增KafkaStreams编程、exactly-once、Kafka事务、metrics监控
1
新增Hbase的协处理器和phoneix的二级索引实现、布隆过滤器、LSM树、StoreFiles结构剖析
1
新增FLink性能优化及反压、背压指标计算原理、FlinkSQL On Hive、Flink HistoryServer、Flink的UDF、UDAF、UDTF的实现
1
新增在线教育行业、物流行业、物联网行业、证券行业项目
1
升级分布式缓存系统, 万亿级NoSQL海量数据存储, 分布式流处理平台、电商行业项目
1
删除删减 JavaWeb
课程名称
云计算大数据实战班
课程推出时间
2019.07.22
课程版本号
7.0
主要针对版本
CDH5.14、Spark2.2.0、Flink1.8、Kafka0.11.0.2、ELK6.0
主要使用开发工具
IntelliJ IDEAA
课程介绍
● 大数据技术目前在企业里面使用的越来越广泛,对大数据人才的需求越来越多,大数据的整个课程体系是由来自大型互联网、外企等具有5年以上的一线大数据高级工程师、架构师和高级机器学习工程师设计出来的,内容含金量非常高。
● 课程体系涉及的技术以企业需求为导向,课程涉及的项目也是企业里面真实的项目,通过理论、实践和真实的项目相结合,让学员能够快速、深刻的掌握大数据常用的核心技术和开发应用,同时可以满足企业对中、高端大数据人才的需求。
● 大数据课程体系除了包含常用的Hadoop、Hive、Hbase、ELK、Sqoop、Flume、Kafka、Spark等技术和项目,还新增了目前互联网比较流行的Flink、Druid、Kylin等技术和项目,同时引入了机器学习和深度学习Spark Mllib和Tensorflow等技术和项目实战。
1
新增Impala即席查询组件、Kudu列存储服务、Structured Streaming结构化数据流处理
1
新增spark MLlib数据挖掘、spark graphX图计算
1
升级Flink的基础课程和案例实战
1
新增Flink高级特性CEP、Kylin数据OLAP分析、Druid时序数据实时分析、Kettle数据ETL工具
1
新增深度学习框架Tensorflow
1
新增用户画像、数据仓库大型企业实战型项目
课程名称
云计算大数据实战班
课程推出时间
2018.09.10
课程版本号
6.0
主要针对版本
JDK1.8\CDH2.7.4\Storm1.1.1\Spark 2.1
主要使用开发工具
IntelliJ IDEA
课程介绍
● 本课程是基于V5.0的一次重大更新,汇总并收集了大数据学科一年以来15个零基础班级的授课信息、学习信息、就业信息。
● 重新调整了课程的分布情况,新增了大数据综合项目,新增了第四代大数据处理框架FLink,新增了数据库优化,新增了JVM基础及原理,新增了Spark性能调优等内容。
● 课程升级方面,主要对机器学习课程进行了升级,推荐系统项目后置变成7天的丰富课程,提升学员进入机器学习的竞争力,从而更好的从事人工智能领域相关的工作。
● 整体而言,课程在培养中高级大数据工程师的方向上又前进了一大步。
1
新增Hadoop 2.7.2\Storm1.1.1\Spark 2.1
1
新增Java virtual machine原理分析、Java高并发核心知识
1
新增数据库优化及调优、第四代大数据处理框架Apache Flink、Spark原理深入剖析及生产调优
1
新增互联网反欺诈项目实战、广告系统业务模型及CTR预估
1
新增用户画像、数据仓库大型企业实战型项目
1
升级用户画像概述/数据/建模/算法实战、推荐系统协同过滤算法实战、基于内容的推荐系统实战、基于关联规则推荐系统实战
1
升级混合推荐与CTR点击预估
1
升级Hadoop版本为CDH
课程名称
云计算大数据实战班
课程推出时间
2017.07.01
课程版本号
5.0
主要针对版本
JDK1.8\Hadoop 2.7.2\Storm1.1.1\Spark 2.1
主要使用开发工具
Eclipse、IDEA
课程介绍
● Java基础、JavaWeb核心编程、JavaWeb三大框架、网络爬虫、分布式电商网站开发等课程模块。培养学生编程能力,让零基础学员能够更好的学习大数据项目。
● 大数据方面方面,新增点击流日志收集系统、用户日志分析报表系统、用户画像系统等案例。让学员不仅仅学习到大数据技术点,能够使用大数据解决实际问题。
● 扩充机器学习课程为10天。该课程历时一年研发,深入浅出,能够让学员更好的入门机器学习,成为人工智能开发的初级工程师。
1
升级Hadoop 2.7.2\Storm1.1.1\Spark 2.1
1
新增网络爬虫开发
1
新增三大框架开发
1
新增JavaWeb核心
1
新增Java语言基础
课程名称
云计算大数据实战班
课程推出时间
2016.03.01
课程版本号
4.0
主要针对版本
JDK7.x
主要使用开发工具
Eclipse、IDEA
课程介绍
● 对比原有课程,本次课程做了重大更新,将大数据的核心技术hadoop及其生态圈技术完美的融入到了课程中。
● 课程分阶段的进行案例实战和项目实战,在大数据方面知识体系更加完整,课程更加深度有深度,更加贴近实战。
● 分阶段的进行大数据生态圈的学习,将生态圈分为离线处理,实时流计算和实现最火热的spark内存计算,完美的将生态圈进行了抽离和归类,让学习变得更便捷。
1
升级Spark1.6版本
1
新增Linux操作系统和shell脚本学习
1
新增JVM内存模型分析、NIO、Netty、自定义RPC框架
1
新增电商点击流日志分析、电商实时日志告警平台、交易风控风控平台、流量日志分析分析
1
新增Spark游戏日志分析项目
1
删除KVM虚拟化技术、网络基础和OpenvSwitch技术、Ceph存储技术
1
删除CloudStack云管理平台、混合云管理平台项目
课程名称
云计算大数据实战班
课程推出时间
2015.05.15
课程版本号
3.0
主要针对版本
JDK7.x
主要使用开发工具
Eclipse、IDEA
课程介绍
● 本次更新将大数据和虚拟化这两大热门技术加入到课程体系中,在大数据方面知识体系更加完整,课程更加深度有深度,更加贴近实战。
● 在虚拟化方面,选择了在云计算领域常用的虚拟化、网络、存储等技术,并通过Apache CloudStack技术整合,在此基础上开发混合云管理平台。
1
升级Hadoop2.0版本、Hive优化课程
1
新增电信流量运营分析项目、混合云管理平台项目
1
新增Scala函数式编程、Spark内存计算、KVM虚拟化技术
1
新增网络基础和OpenvSwitch技术
1
新增Ceph存储技术、CloudStack云管理平台
课程名称
云计算大数据实战班
课程推出时间
2014.02.15
课程版本号
2.0
主要针对版本
JDK6.x
主要使用开发工具
Eclipse
课程介绍
● 随着近年来云计算大数据的大力发展,市场对相关人才需求急增,所以本版课程在原有的云计算课程进行了颠覆性的改革,把原来只有1天的课程扩展为7天,加入了Hadoop生态圈的相关技术。
1
升级云计算课程、Hadoop集群部署、优化HDSF、MapReduce案例
1
新增Hadoop生态圈相关技术:Zookeeper、Hive、Hbase、Sqoop、Flume
1
新增Storm实时计算技术和案例
1
新增黑马论坛日志分析项目
课程名称
云计算大数据实战班
课程推出时间
2012.02.15
课程版本号
1.0
主要针对版本
JDK6.0
主要使用开发工具
Eclipse
课程介绍
● 近期云计算概念火爆异常,传智教育敏锐的嗅探到大数据技术的悄然兴起,并预测大数据技术将会像雨后春笋一样快速发展,所以传智教育与时俱进在课程中引入了1天的云计算课程,作为首个拥有大数据课程的培训机构,传智教育大数据实战班助力学员可以掌握最新的技术,拓宽学员的就业方向,增强就业竞争力。
1
新增云计算课程:云计算和大数据相关概念
1
新增Hadoop 1.0伪分布式环境部署
1
新增HDFS、MapReduce应用案例
源源不断引进大厂技术大牛,专业研发课程升级、迭代,与企业需求实时接轨
教师录取率<3%,从源头把控师资,带你过关斩将掌握每一个知识点
用数据驱动教学,贯通教/学/练/测/评,为每一位学员私人定制学习计划和就业服务
学前入学多维测评
学前目标导向式学习
学中随堂诊断纠错
学中阶段效果测评
学后在线作业试题库
学后问答社区查漏补缺
保障BI报表数据呈现
就业全面指导就业
就业流程
全信息化处理
学员能力
雷达图分析
定制个性化
就业服务
技术面试题
讲解
就业指导课
面试项目分析
HR面试攻略
模拟企业
真实面试
专业简历指导
面试复盘辅导
风险预警
企业黑名单提醒
老学员毕业后即可加入传智汇精英社区,持续助力学员职场发展,一次学习永久服务
传智教育旗下IT互联网精英社区,以汇聚互联网前沿技术为核心,以传递、分享为己任,联合经纬创投、创新工场、京东人工智能、华为等众多关注互联网的知名机构及企业、行业大咖,共同研究中国互联网深度融合、跨界渗透、整合汇聚、相互促进的信息化资源共享平台。
行业沙龙
高端人脉
职场资源
技术研习
9970元/月平均薪资
15900元/月最高薪资
100%就业率
58人月薪过万
*学员就业信息统计数据为数据库中实时调取的真实相关数据,非广告宣传