核心职责
1、数据存储与管理 (数据库核心):
-负责设计、开发、部署和维护大规模分布式数据库系统(如 HBase, Cassandra, ClickHouse, Druid, TiDB 等)或数据仓库/湖仓解决方案(如 Hive, Spark SQL on HDFS/S3, Iceberg/Hudi/Delta Lake, BigQuery, Redshift 等)。
-设计和优化数据模型、分区策略、索引以及存储格式,确保数据的高效存储和访问。
2、实时数据处理 (流式计算核心):
-设计、开发和运维基于流式计算引擎 (如 Apache Flink, Apache Spark Streaming, Kafka Streams, Storm 等) 的实时数据管道。
-利用消息队列 (如 Apache Kafka, Pulsar, RocketMQ) 构建高效、低延迟的数据摄入和传输通道。
3、平台与协作:
-参与大数据基础平台(如 Hadoop, Spark, Kubernetes 等)的搭建、优化和日常运维支持。
-编写高质量、可维护、可测试的代码(常用语言如 Java, Scala, Python, SQL)。
任职要求
1、全日制统招本科及以上学历,计算机等相关专业,5年以上大数据开发经验。
2、扎实的 Java 或 Scala 或 Python 编程基础。3、精通 SQL 语言,具备复杂 SQL 编写和深度优化的能力。
4、深入理解数据库原理: 熟悉关系型数据库(如 MySQL, PostgreSQL)和至少一种主流分布式 NoSQL 数据库 (如 HBase, Cassandra) 或MPP 分析型数据库 (如 ClickHouse, Greenplum) 或云数仓 (如 BigQuery, Redshift, Snowflake) 的核心原理、架构和使用。
5、深入理解流式计算: 精通至少一种主流流式计算框架 (尤其是 Apache Flink 或 Spark Streaming),理解其运行时架构、状态管理、容错机制、时间窗口、水位线等核心概念。
6、熟练掌握 Apache Kafka 或其他主流消息队列的原理、部署、优化和使用。
7、熟悉大数据生态核心组件,如 Hadoop (HDFS, YARN), Apache Spark (Core, SQL)。
8、熟悉 Linux 操作系统和常用命令。
9、熟悉数据仓库建模理论(如维度建模)。
10、电力或新能源行业从业经验更佳。
本招聘信息相关内容*终以双方所签署的劳动合同约定内容为准
更多