ID:22666
高雪   大数据开发工程师  
公司信息:视若飞信息科技有限公司
工作经验: 5年
薪资价格:700/天
所在区域: 西安
浏览次数:205次
登录次数:53次
最近登录:2024-08-11
认证情况:
掌握技能: 其他  
立即预约
立即收藏
沟通需求
程序员接单发单

微信扫码,联系客服沟通需求

个人介绍
1、	深入理解MapReduce的Shuffle机制,理解HDFS的读写流程,深入理解Yarn的提交流程,理解Hadoop的调度器,掌握Hadoop集群的调优
2、	熟练掌握Flink的DataStream编程,理解Flink的状态,了解checkpoint机制,熟悉Flink框架,了解Table api和sql编程
3、熟悉掌握Hive的架构,精通编写HQL,掌握Hive的相关调优手段
4、熟悉Spark框架,深入理解Spark on Yarn的提交流程,掌握Spark的两种核心Shuffle的工作流程,理解Spark中的血缘概念,理解Spark中的缓存机制和Checkpoint机制 
5、熟悉掌握Kafka的架构,理解ISR和分区分配策略,熟悉Kafka的事务,熟悉使用Kafka的API,掌握Kafka的参数调优
6、熟悉掌握Flume框架对日志进行采集,可以自定义Flume拦截器,理解Put和Take事务,掌握Flume的优化
7、熟悉Zookeeper的框架,了解选举机制
8、理解Canal的工作原理,搭建Canal来实时监控MySql中的数据
9、熟悉海豚调度器的使用
10、熟悉使用Linux的常用命令
11、熟悉Redis的工作原理及应用,了解Redis持久化、穿透以及雪崩
项目经验
项目名称:网络舆情态势感知平台
项目技术:Kafka,Flink,Redis,ES,DS,HDFS,Yarn,Flume
项目概述:在国产V10麒麟系统中搭建CDH6.3.2集群,实现对每天爬取的舆情数据进行分层处理,清洗好的数据发送到ES集群,供前后端人员使用
项目职责:
1、	负责CDH集群的搭建和维护
2、	负责舆情实时数仓的搭建
3、	负责Kafka集群中的数据清洗和入库
4、	负责数据质量监控体系的搭建和维护
技术要点:
1、利用Flink算子对数据进行清洗过滤打标,将处理好的数据写入ES集群
2、利用Redis做数据去重以及获取数据中的信源信息和用户信息,周期性的导入ES集群供爬虫人员使用
3、利用SimHash算法对长文本数据进行局部敏感哈希,通过计算汉明距离来判断相似性
4、利用Flume组件将爬虫爬取到的原始数据从Kafka中导入HDFS,作为数据备份
5、利用Kafka Admin API实现对消费者组的监控,并对接钉钉,周期性显示消费积压信息
6、加入Flink_metrics,实现对消费过程中数据流向监控,利用Promethues+Grafana对metrics数据进行大屏显示
7、利用海豚调度器管理和调度Flink程序
   项目名称:智慧大屏离线数仓分析系统
项目技术:HDFS,MySql,Sqoop,Spark,Hive
项目概述:搭建数据存储平台,实现用户行为和业务数据仓库的分层搭建,对数仓的数据进行指标分析,生成报表给PM和其他人员
项目职责
1、负责用户行为数仓的分层搭建
2、负责业务数据数仓的分层搭建
3、针对数据仓库中的数据,分析各种指标,例如:统计大屏的GDPR同意/不同意比例,统计设备的日活与留存情况,统计每天的广告的播放量,统计大屏搭载的浏览器使用时长以及使用的具体时间等等
技术要点
1、	数据仓库分层之ODS,DWD层:开启动态分区,采用Snappy进行压缩,存储格式为orc
2、	自定义UDF函数对公共字段进行解析,自定义UDTF函数对事件字段进行解析
3、	大表Join小表时,采用广播小表的方式来减少Shuffle的数量,减少数据倾斜,提高运算速度
4、	在RDD中配置Kryo序列化缓存(内存紧张的时候),减少网络传输量
5、	利用Coalesce函数来减少分区数,防止产生过多小文件
6、	使用SparkSQL的窗口函数来实现热门广告/大屏的TopN及交易总额
7、	当计算数据量特别大的指标,机器的内存不够,可采用Hive来进行计算(比如计算每种种大屏的全年销售情况的指标)
8、	HDFS优化:小文件的处理,编辑日志与镜像日志的存储路径尽量分开,提高服务器节点上YARN可使用的物理内存总量
发布需求
点击发布需求,客服审核通过后会展示订单,程序员会在任务下报名,招聘专员也会在1小时内与您联系,帮助您精准找到符合要求的程序员!
接单发单客服
程序员接单客服微信
添加客服微信,接单发单快人一步!
相关程序员推荐
少风 视觉工程师 4年经验
应用类视觉需求可联系我
dqzboy 高级运维工程师 7年经验
我是一名拥有超过7年运维经验的工程师,专注于容器技术、K8s集群管理以及DevOps流程。在互联网企业中,我负责过多个项目的方案规划和搭建维护,具备丰富的技术敏感度和故障排查经验。我熟悉阿里云、腾讯云、AWS等主流云服务平台,并对新兴技术保持浓厚兴趣,成功在多个项目中实现技术落地。
码农 5年经验
五年后端开发经验,一年前端开发经验,精通php开发语言,精通uniapp,vue2,做过许多类型的项目,分销商城类,erp类,展示类,同城陪玩,企业管理,家教,充电桩,合同签约,借贷,租房,医疗器材等
leon 5年经验
本人擅长Python、Golang等后端Wev开发;擅长多种数据库操作;擅长小程序、网络、算法相关的项目开发;并且有一群靠谱且技术过硬的小伙伴;本人崇尚合作精神,是一个遵守规则的人。
立即预约
意见反馈