掌握Linux 基础操作命令,能够编写简单的 Shell 脚本 熟练Mysql,Oracle等主流数据库,能够基于MySQL等数据处理引擎进行数据开发 熟悉Hadoop组件的Hdfs读写流程、MapReduce计算流程、Yarn资源调度 掌握Hive窗口函数及内置函数的使用,能够基于Hive进行数据开发 熟悉Flink流计算框架,有过实时项目经验熟悉Flink内部运行机制 熟悉Spark架构的执行流程以及工作原理,以及RDD之间的依赖和Spark的容错机制 熟悉Hbase架构原理及读写流程、rowkey设计原则、Hbase性能优化 掌握Kafka基本原理,使用Kafka消息中间件存储并消费数据 熟悉使用Flume完成日志采集,使用Sqoop完成义务数据的导入 熟练使用阿里数据中台DataWorks DI、DataHub等数据接入组件 熟练Azkaban、sqoop、dataX等开源的ETL调度、同步工具 熟悉Clickhouse、Kylin、Presto等OLAP引擎的原理以及源码 熟练使用FineBI、Sugar等可视化报表组件 熟悉数据仓库建设和维度建模,有较丰富的离线或实时数仓建设和数据 ETL 设计开发的经验
ID:22508
立即预约
立即收藏
沟通需求
微信扫码,联系客服沟通需求
个人介绍
项目经验
通过Flume程序实时监控采集商城日志数据文件,实时采集到kafka作为原始日志数据 使用FlinkCDC实时迁移Mysql中的用户行为数据存到kafka中构建ods层 调用重分区算子,rescale,rebalance,shuffle解决kafka的topic分区之间数据不均匀,防止数据倾斜 负责构建dwd层通过Flink应用程序使用操作符对ods层数据进行清洗,过滤等操作 使用redis作为热点数据的旁路缓存,使用Flink的异步IO实现对外部系统的异步访问,提高程序性能 构建DWS宽表:通过预加载,双流join,lookupjoin实现维度关联,将宽表数据存入Clickhouse 使用异步IO实现连续发送多个请求,提高并发效果,减少多请求等待带来的消耗 通过ReplacingMergeTree保证最终一致性,查询时的sql语法加上去重逻辑,保证ClickHouse的一致性 利用web ui定位,查看火焰图平顶,并分析GC日志,调整资源解决Flink反压 ADS层指标:产品总数,上架商品的sku/spu数,交易成功指标数,浏览下单数,支付买家数等 使用DataV调用接口进行可视化报表展示 参与将项目部署到Flink on Yarn,通过WebUI查看资源使用,以提高集群的资源利用率 负责阿里云离线项目的整体架构设计和实施,包括技术选型、系统数据流程设计等 使用Flume等日志采集工具进行日志采集和聚合 利用MaxCompute等大数据计算框架进行数据处理和分析,为项目提供数据支持 使用Quick BI、DataV等工具进行数据可视化展示,为项目提供直观的数据视图 负责数据的安全性和隔离性,采取必要的措施防止数据异常和敏感数据泄露 设置定时调度任务,对项目进行监控和管理,确保项目的正常运行
接单发单客服
添加客服微信,接单发单快人一步!
相关程序员推荐
王于辰 全栈开发工程师 3年经验
擅长写vue springboot 项目以及微信小程序 uniapp
杭州紫冰科技有限公司 AI、前后端开发 4年经验
我们是一支来自阿里、美团由软件高级工程师、算法工程师组成的高端软件研发团队。团队小而精,自2022年成立以来,为客户提供十几个软件解决方案。设计领域为门户网站、CRM系统、智能化系统、AI大模型、计算机视觉领域。已经有大量的项目开发经验。
少风 视觉工程师 4年经验
应用类视觉需求可联系我
码农 5年经验
五年后端开发经验,一年前端开发经验,精通php开发语言,精通uniapp,vue2,做过许多类型的项目,分销商城类,erp类,展示类,同城陪玩,企业管理,家教,充电桩,合同签约,借贷,租房,医疗器材等