高雪
大数据开发工程师
5年经验
2024-08-11
个人介绍:1、 深入理解MapReduce的Shuffle机制,理解HDFS的读写流程,深入理解Yarn的提交流程,理解Hadoop的调度器,掌握Hadoop集群的调优
2、 熟练掌握Flink的DataStream编程,理解Flink的状态,了解checkpoint机制,熟悉Flink框架,了解Table api和sql编程
3、熟悉掌握Hive的架构,精通编写HQL,掌握Hive的相关调优手段
4、熟悉Spark框架,深入理解Spark on Yarn的提交流程,掌握Spark的两种核心Shuffle的工作流程,理解Spark中的血缘概念,理解Spark中的缓存机制和Checkpoint机制
5、熟悉掌握Kafka的架构,理解ISR和分区分配策略,熟悉Kafka的事务,熟悉使用Kafka的API,掌握Kafka的参数调优
6、熟悉掌握Flume框架对日志进行采集,可以自定义Flume拦截器,理解Put和Take事务,掌握Flume的优化
7、熟悉Zookeeper的框架,了解选举机制
8、理解Canal的工作原理,搭建Canal来实时监控MySql中的数据
9、熟悉海豚调度器的使用
10、熟悉使用Linux的常用命令
11、熟悉Redis的工作原理及应用,了解Redis持久化、穿透以及雪崩
项目经验:项目名称:网络舆情态势感知平台
项目技术:Kafka,Flink,Redis,ES,DS,HDFS,Yarn,Flume
项目概述:在国产V10麒麟系统中搭建CDH6.3.2集群,实现对每天爬取的舆情数据进行分层处理,清洗好的数据发送到ES集群,供前后端人员使用
项目职责:
1、 负责CDH集群的搭建和维护
2、 负责舆情实时数仓的搭建
3、 负责Kafka集群中的数据清洗和入库
4、 负责数据质量监控体系的搭建和维护
技术要点:
1、利用Flink算子对数据进行清洗过滤打标,将处理好的数据写入ES集群
2、利用Redis做数据去重以及获取数据中的信源信息和用户信息,周期性的导入ES集群供爬虫人员使用
3、利用SimHash算法对长文本数据进行局部敏感哈希,通过计算汉明距离来判断相似性
4、利用Flume组件将爬虫爬取到的原始数据从Kafka中导入HDFS,作为数据备份
5、利用Kafka Admin API实现对消费者组的监控,并对接钉钉,周期性显示消费积压信息
6、加入Flink_metrics,实现对消费过程中数据流向监控,利用Promethues+Grafana对metrics数据进行大屏显示
7、利用海豚调度器管理和调度Flink程序
项目名称:智慧大屏离线数仓分析系统
项目技术:HDFS,MySql,Sqoop,Spark,Hive
项目概述:搭建数据存储平台,实现用户行为和业务数据仓库的分层搭建,对数仓的数据进行指标分析,生成报表给PM和其他人员
项目职责
1、负责用户行为数仓的分层搭建
2、负责业务数据数仓的分层搭建
3、针对数据仓库中的数据,分析各种指标,例如:统计大屏的GDPR同意/不同意比例,统计设备的日活与留存情况,统计每天的广告的播放量,统计大屏搭载的浏览器使用时长以及使用的具体时间等等
技术要点
1、 数据仓库分层之ODS,DWD层:开启动态分区,采用Snappy进行压缩,存储格式为orc
2、 自定义UDF函数对公共字段进行解析,自定义UDTF函数对事件字段进行解析
3、 大表Join小表时,采用广播小表的方式来减少Shuffle的数量,减少数据倾斜,提高运算速度
4、 在RDD中配置Kryo序列化缓存(内存紧张的时候),减少网络传输量
5、 利用Coalesce函数来减少分区数,防止产生过多小文件
6、 使用SparkSQL的窗口函数来实现热门广告/大屏的TopN及交易总额
7、 当计算数据量特别大的指标,机器的内存不够,可采用Hive来进行计算(比如计算每种种大屏的全年销售情况的指标)
8、 HDFS优化:小文件的处理,编辑日志与镜像日志的存储路径尽量分开,提高服务器节点上YARN可使用的物理内存总量
技 能:
其他