职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
一、岗位职责
1.算力集群建设与运维
o监控算力集群的性能指标,如 CPU 利用率、内存使用率、网络带宽等。
o根据业务需求和性能数据,对集群进行优化和调整。
o通过调整系统参数、优化算法等方式,提高集群的计算效率和响应速度。
o参与 GPU 集群的日常管理、运维,协助制定相关产品方案和技术路线,确保产品能够支持高并发和高性能计算需求。
2.资源管理与分配
o合理规划和分配算力资源,确保各业务部门的需求得到满足。
o对资源使用情况进行监控和统计,提出资源优化建议。
o根据不同项目的优先级和资源需求,动态分配计算资源,提高资源利用率。
3.安全管理
o确保算力集群的系统安全,包括设置访问权限、安装防火墙、防范病毒和恶意攻击等。
o定期进行安全漏洞扫描和修复,保障数据的安全和隐私。
4.技术研究与创新
o关注行业***动态,研究和引入新的算力集群技术和平台。
o参与公司内部的技术交流和分享,提升团队整体技术水平。
o协助进行 GPU 集群的总体规划与建设,提供 AI 服务器、网络技术支持。
二、任职要求
1.教育背景
o计算机科学、电子工程、信息技术等相关专业本科及以上学历。
2.工作经验
o具有1年以上算力集群管理和维护经验。
o有大型数据中心或云计算环境工作经验者优先。
3.技术技能
o熟悉 Linux 平台,掌握Shell/Python、Docker,了解 IB、RoCE 网络,有 NVIDIA 等 GPU 集群部署、调度、管理、优化经验者优先。
o实施过 GPU/DPU 集群的网络规划、大规模部署、性能调优和整体交付,熟悉 IB 组网,有组织裸机和虚机等方式的 GPU 资源和服务经验者优先。
o熟悉英伟达 AI 套件(含 CUDA、NCCL、Tools 及各种调优、部署工具)。
o熟悉主流监控软件zabbix/Prometheus。
4.能力素质
o具备较强的问题解决能力和故障排查能力,能够快速定位和解决复杂问题。
o具有良好的团队合作精神和沟通能力,能够与不同部门协作。
o有较强的学习能力和创新精神,能够适应快速变化的技术环境。
1.算力集群建设与运维
o监控算力集群的性能指标,如 CPU 利用率、内存使用率、网络带宽等。
o根据业务需求和性能数据,对集群进行优化和调整。
o通过调整系统参数、优化算法等方式,提高集群的计算效率和响应速度。
o参与 GPU 集群的日常管理、运维,协助制定相关产品方案和技术路线,确保产品能够支持高并发和高性能计算需求。
2.资源管理与分配
o合理规划和分配算力资源,确保各业务部门的需求得到满足。
o对资源使用情况进行监控和统计,提出资源优化建议。
o根据不同项目的优先级和资源需求,动态分配计算资源,提高资源利用率。
3.安全管理
o确保算力集群的系统安全,包括设置访问权限、安装防火墙、防范病毒和恶意攻击等。
o定期进行安全漏洞扫描和修复,保障数据的安全和隐私。
4.技术研究与创新
o关注行业***动态,研究和引入新的算力集群技术和平台。
o参与公司内部的技术交流和分享,提升团队整体技术水平。
o协助进行 GPU 集群的总体规划与建设,提供 AI 服务器、网络技术支持。
二、任职要求
1.教育背景
o计算机科学、电子工程、信息技术等相关专业本科及以上学历。
2.工作经验
o具有1年以上算力集群管理和维护经验。
o有大型数据中心或云计算环境工作经验者优先。
3.技术技能
o熟悉 Linux 平台,掌握Shell/Python、Docker,了解 IB、RoCE 网络,有 NVIDIA 等 GPU 集群部署、调度、管理、优化经验者优先。
o实施过 GPU/DPU 集群的网络规划、大规模部署、性能调优和整体交付,熟悉 IB 组网,有组织裸机和虚机等方式的 GPU 资源和服务经验者优先。
o熟悉英伟达 AI 套件(含 CUDA、NCCL、Tools 及各种调优、部署工具)。
o熟悉主流监控软件zabbix/Prometheus。
4.能力素质
o具备较强的问题解决能力和故障排查能力,能够快速定位和解决复杂问题。
o具有良好的团队合作精神和沟通能力,能够与不同部门协作。
o有较强的学习能力和创新精神,能够适应快速变化的技术环境。
工作地点
地址:南充蓬安县太和桥
查看地图
求职提示:用人单位发布虚假招聘信息,或以任何名义向求职者收取财物(如体检费、置装费、押金、服装费、培训费、身份证、毕业证等),均涉嫌违法,请求职者务必提高警惕。
职位发布者
孟大卫HR
北京光环新网科技股份有限公司
- 互联网·电子商务
- 500-999人
- 国内上市公司
- 东城区东中街9号东环广场A座二层