1、 深入理解MapReduce的Shuffle机制,理解HDFS的读写流程,深入理解Yarn的提交流程,理解Hadoop的调度器,掌握Hadoop集群的调优 2、 熟练掌握Flink的DataStream编程,理解Flink的状态,了解checkpoint机制,熟悉Flink框架,了解Table api和sql编程 3、熟悉掌握Hive的架构,精通编写HQL,掌握Hive的相关调优手段 4、熟悉Spark框架,深入理解Spark on Yarn的提交流程,掌握Spark的两种核心Shuffle的工作流程,理解Spark中的血缘概念,理解Spark中的缓存机制和Checkpoint机制 5、熟悉掌握Kafka的架构,理解ISR和分区分配策略,熟悉Kafka的事务,熟悉使用Kafka的API,掌握Kafka的参数调优 6、熟悉掌握Flume框架对日志进行采集,可以自定义Flume拦截器,理解Put和Take事务,掌握Flume的优化 7、熟悉Zookeeper的框架,了解选举机制 8、理解Canal的工作原理,搭建Canal来实时监控MySql中的数据 9、熟悉海豚调度器的使用 10、熟悉使用Linux的常用命令 11、熟悉Redis的工作原理及应用,了解Redis持久化、穿透以及雪崩
个人介绍
项目经验
项目名称:网络舆情态势感知平台 项目技术:Kafka,Flink,Redis,ES,DS,HDFS,Yarn,Flume 项目概述:在国产V10麒麟系统中搭建CDH6.3.2集群,实现对每天爬取的舆情数据进行分层处理,清洗好的数据发送到ES集群,供前后端人员使用 项目职责: 1、 负责CDH集群的搭建和维护 2、 负责舆情实时数仓的搭建 3、 负责Kafka集群中的数据清洗和入库 4、 负责数据质量监控体系的搭建和维护 技术要点: 1、利用Flink算子对数据进行清洗过滤打标,将处理好的数据写入ES集群 2、利用Redis做数据去重以及获取数据中的信源信息和用户信息,周期性的导入ES集群供爬虫人员使用 3、利用SimHash算法对长文本数据进行局部敏感哈希,通过计算汉明距离来判断相似性 4、利用Flume组件将爬虫爬取到的原始数据从Kafka中导入HDFS,作为数据备份 5、利用Kafka Admin API实现对消费者组的监控,并对接钉钉,周期性显示消费积压信息 6、加入Flink_metrics,实现对消费过程中数据流向监控,利用Promethues+Grafana对metrics数据进行大屏显示 7、利用海豚调度器管理和调度Flink程序 项目名称:智慧大屏离线数仓分析系统 项目技术:HDFS,MySql,Sqoop,Spark,Hive 项目概述:搭建数据存储平台,实现用户行为和业务数据仓库的分层搭建,对数仓的数据进行指标分析,生成报表给PM和其他人员 项目职责 1、负责用户行为数仓的分层搭建 2、负责业务数据数仓的分层搭建 3、针对数据仓库中的数据,分析各种指标,例如:统计大屏的GDPR同意/不同意比例,统计设备的日活与留存情况,统计每天的广告的播放量,统计大屏搭载的浏览器使用时长以及使用的具体时间等等 技术要点 1、 数据仓库分层之ODS,DWD层:开启动态分区,采用Snappy进行压缩,存储格式为orc 2、 自定义UDF函数对公共字段进行解析,自定义UDTF函数对事件字段进行解析 3、 大表Join小表时,采用广播小表的方式来减少Shuffle的数量,减少数据倾斜,提高运算速度 4、 在RDD中配置Kryo序列化缓存(内存紧张的时候),减少网络传输量 5、 利用Coalesce函数来减少分区数,防止产生过多小文件 6、 使用SparkSQL的窗口函数来实现热门广告/大屏的TopN及交易总额 7、 当计算数据量特别大的指标,机器的内存不够,可采用Hive来进行计算(比如计算每种种大屏的全年销售情况的指标) 8、 HDFS优化:小文件的处理,编辑日志与镜像日志的存储路径尽量分开,提高服务器节点上YARN可使用的物理内存总量
接单发单客服
添加客服微信,接单发单快人一步!
相关程序员推荐
少风 视觉工程师 4年经验
应用类视觉需求可联系我
dqzboy 高级运维工程师 7年经验
我是一名拥有超过7年运维经验的工程师,专注于容器技术、K8s集群管理以及DevOps流程。在互联网企业中,我负责过多个项目的方案规划和搭建维护,具备丰富的技术敏感度和故障排查经验。我熟悉阿里云、腾讯云、AWS等主流云服务平台,并对新兴技术保持浓厚兴趣,成功在多个项目中实现技术落地。
码农 5年经验
五年后端开发经验,一年前端开发经验,精通php开发语言,精通uniapp,vue2,做过许多类型的项目,分销商城类,erp类,展示类,同城陪玩,企业管理,家教,充电桩,合同签约,借贷,租房,医疗器材等
leon 5年经验
本人擅长Python、Golang等后端Wev开发;擅长多种数据库操作;擅长小程序、网络、算法相关的项目开发;并且有一群靠谱且技术过硬的小伙伴;本人崇尚合作精神,是一个遵守规则的人。