如何进入大数据领域,学习路线是什么?
第一阶段是JAVASE+MYSQL+JDBC,主要学习Java语言的一些概念,比如字符、白进程控制、面向对象、进程线程、枚举反射等。,学习MySQL数据库的安装卸载及相关操作,学习JDBC的实现原理和Linux的基础知识,这是大数据的初级阶段。
第二阶段是分布式理论介绍,主要讲解CAP理论、数据分布模式、一致性、2PC和3PC、大数据集成架构。涉及的知识点有一致性、可用性、分区容忍度、数据分布、2PC进程、3PC进程、哈希方法、一致哈希等等。
第三阶段是数据存储和计算(线下场景),主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR和DAG(1T)、hive(5T)、Impala(6544
第四部分主要讲解了多库建设的历史背景,离线多库项目的技术分析——有我车(5T)架构,多维数据模型处理kylin(3.5T)的部署安装,离线多库项目——有我车升级加入kylin进行多维分析。
第五阶段分布式计算引擎主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu,通过一个p2p平台项目实现spark多数据源的读写。
第六阶段是数据存储和计算(实时场景),主要讲解数据通道Kafka、实时数据仓库druid、流数据处理flink和SparkStreaming,通过讲解某个流量号使你能够整合知识点。
第七阶段,elasticsearch主要针对数据搜索进行讲解,包括全文搜索技术、ES安装操作、索引、创建索引、添加、删除、检查、索引、映射、过滤。
第八阶段是数据治理,主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血缘与数据质量、Hive Hook、Spark Listener等等。
第九阶段,针对BI系统主要介绍了两种技术,Superset和Graphna,包括基本介绍、安装、数据源创建、表操作和数据探索分析。
第十阶段是数据挖掘,主要讲解机器学习中的数学体系,Spark Mlib机器学习算法库,Python scikit-learn机器学习算法库,机器学习结合大数据项目。
对大数据分析感兴趣的朋友,不妨从看大数据分析书籍开始!哔哩哔哩上有很多大数据教学视频,从基础到高级,都挺不错的。知识点非常详细,有完整版的学习路线图。也可以自己去看看,下载学习。