[Infra] Senior System Engineer (AI Infrastructure)

직군

R&D

경력사항

경력 10년 이상

👋 우리 팀을 소개합니다.

Infra 팀은 노타의 AI Model Optimization & Compression Workload와 On-device AI Validation Pipeline을 떠받치는 기반 Infrastructure를 설계·구축하고 운영 가능한 형태로 정착시키는 역할을 담당합니다.

GPU Self-Service Platform, Data Center Backbone Network, Distributed Storage(Ceph), Local LLM Gateway, Edge Device Farm, Security & Access Control(ZTNA·Bastion·Vault), Observability, FinOps, DevSecOps 표준화까지 폭넓은 영역을 다루며, NetsPresso·NVA 플랫폼 및 사내 R&D 과제(On-device AI Agent 등)가 안정적으로 구동될 수 있도록 단순 유지보수가 아닌 실질적인 플랫폼 구축과 운영 표준화를 동시에 추진하고 있습니다.

이번 포지션은 시스템 엔지니어링 깊이(Hardware·OS·Network·Storage 레이어)와 플랫폼 빌더 역량(R&D 사용자가 셀프서비스로 쓸 내부 플랫폼을 제품처럼 만들고 운영)을 동시에 요구하는 자리입니다. AI Infrastructure 전반을 횡단하며 구축부터 운영 안정화·플랫폼화까지 직접 끌고 갈 수 있는 실행형 Core Engineer 역할입니다.

📌 해당 포지션으로 합류하신다면

인프라 통합 핵심 과제들을 실제로 구축하고 운영하게 됩니다.

해당 포지션은 노타의 모델 경량화 플랫폼(NetsPresso)과 On-device AI 사업, Nota Vision Agent 등 사내 R&D 과제가 안정적으로 구동되는 기반을 직접 책임지는 자리입니다.

설계 → 구축 → 검증 → 운영 → 장애 복구 → 거버넌스까지의 Full Cycle을 직접 끌고 가며, 같은 문제가 두 번 발생하지 않도록 Runbook·Checklist·Operating Standard를 자산으로 남기는 일이 핵심입니다. 또한 R&D 사용자가 인프라팀에 매번 요청하지 않고도 셀프서비스로 자원을 쓸 수 있도록, 운영 가능한 시스템을 넘어 사용 가능한 플랫폼으로 추상화하는 일까지 책임집니다.

AI Workload는 일반 웹 서비스와 달리 대용량 GPU Memory, High-bandwidth Network, Multi-precision Inference, 6~12개월 주기의 Accelerator 세대 교체라는 고유한 제약을 갖습니다. 이와 같은 제약을 직접 다루며 운영 가능한 인프라를 만드는 과정에서, 폭넓고 깊이 있는 AI Platform & Systems Engineer 커리어를 확장할 수 있습니다.

팀의 주요 Mission:
GPU Self Service Platform: Hypervisor 기반 사내 공용 GPU Self Service Platform의 운영 안정화 및 고도화 (Quota·RBAC·Audit Log·FinOps·Idle Reclaim)
AI Infrastructure 확장: NVIDIA DGX Series Multi-node 도입·운영, NVA GPU Staging 구축, 신규 GPU/NPU 도입 및 IDC Power 인프라 운영·확장 대응
Data Center Network 현대화: IDC 100G Backbone Cutover (Enterprise Switch 기반 vPC/MLAG Active-Active 구성), Branch Office Network 10/25/100G 고도화
Distributed Storage: Ceph Cluster(S3/CephFS/RBD) 구축/운영, NAS Data Migration, Hypervisor 연동
Security Compliance: ISO 27001 갱신, ISMS-P 기반 Cloud Data Management Platform, Vault Secret Lifecycle, SCA/SBOM Platform 운영
Identity & Access: ZTNA(SASE 기반) + HA Bastion Platform (SSO 연동)
Observability: Zabbix & Prometheus/Grafana Integrated Dashboard, GPU Showback/Chargeback Pipeline
DevSecOps: Golden Image Factory, Container Image Build Standard CI/CD, Supply Chain Attack 차단 정책
Local LLM Gateway: vLLM 기반 Local LLM Service Gateway 및 통합 Authentication/Logging
Edge Device Farm: 다양한 타깃 디바이스 Asset Management·Remote Control Portal, 차세대 AI 검증용 Edge Hardware 독립 인프라

다루는 영역:
GPU·AI Accelerator Platform: Datacenter-grade(A100/H100/H200/B200/B300, DGX System), Workstation-grade(RTX PRO Ada & Blackwell Series), Consumer-grade(RTX 20/30/40/50 Series), Edge AI Device(Jetson Orin·Thor Series, Automotive SoC, Non-CUDA NPU 등)
AI Training·Serving Network/Storage: High-bandwidth Fabric(10~800G), RDMA for Distributed Training, Ceph base large volume Dataset·Model Artifact Storage
Access Control·Security·Audit: ZTNA, Bastion, Secret Lifecycle, AI Model Asset·Training Data 보호 관점의 Security Architecture, ISO 27001 / ISMS-P Compliance
Observability·DevSecOps: GPU Utilization, Model Serving Metrics, Training Job Tracking, Showback/Chargeback, Golden Image, Supply Chain Security
Edge Device Lab: 다양한 타깃 디바이스의 Asset Management, Remote Operations, Benchmarking 환경

✅ 주요 업무

GPU Self-service Platform 운영 안정화·고도화 및 AI Training·Inference Workload 자원 운영 정책 수립 (Scheduling, MIG Partitioning, Multi-tenancy, Quota, Idle Reclaim)
Data Center·Branch Network 구축, 검증, 운영 — 10~800G High-bandwidth Backbone, RDMA/RoCE, vPC/MLAG Active-Active, Power·Rack Infrastructure 포함
Ceph Distributed Storage(S3/CephFS/RBD) 구축·운영, Dataset·Model Artifact 공용 인프라(Training Data·Checkpoint·Model Registry Backend) 운영
AI Asset Protection 관점의 Identity·Access Control·Security·Audit 체계 구축·운영 (Vault, Bastion, ZTNA), ISO 27001 / ISMS-P Compliance 대응
Infrastructure Observability 구축 (Zabbix, Prometheus/Grafana, GPU Showback/Chargeback) 및 DevSecOps 운영 표준화 (Golden Image, CI/CD, SCA/SBOM)
Local LLM Service Gateway 인프라 운영 (vLLM 기반 Model Serving, 통합 Authentication·Logging)
Edge Device Farm 구축·운영 (Jetson Orin·Thor, Automotive SoC, 기타 NPU Board, Remote Control Portal 및 Asset Management)
운영 문서화(Documentation), Runbook, Validation System, Governance Process 정착

✅ 자격요건

다음 자격 요건중 4개 이상 경험자(경력 10년 이상)

GPU 또는 AI Accelerator가 포함된 Server 환경의 구축·운영 경험 — NVIDIA Driver·CUDA Stack 관리, GPU 자원 분배, Thermal·Power·Rack 설계 등 AI Workload 특유의 운영 이슈를 다뤄본 경험
Public Cloud Production 운영 경험 — AWS / GCP / Azure 중 하나 이상에서 IaaS·Network·IAM·Cost Management를 운영한 경험
Hypervisor·Virtualization Platform 2개 이상 실무 운영 경험 — OpenNebula, VMware ESXi/vSphere, OpenShift, Proxmox VE, KVM/QEMU, Hyper-V, Nutanix AHV 등 (Live Migration·HA·Storage Integration·PCIe Passthrough/SR-IOV 포함)
Datacenter-grade Network 구축·운영 경험 — 10~400G Backbone, vPC/MLAG, VLAN/VXLAN Design, Enterprise Switch 패밀리 중 하나 이상의 실무 경험
Distributed Storage 또는 SDS 운영 경험 — Ceph(S3/CephFS/RBD), GlusterFS, MinIO, ZFS Cluster 등 중 하나 이상의 Production 운영 및 Data Migration·High Availability 설계 경험
Kernel·Driver·Device Layer Debugging 경험 — Linux Troubleshooting을 넘어 GPU Driver 충돌, PCIe Topology Issue, NUMA·IRQ Tuning 등을 다뤄본 경험
AI Workload성 장애 대응 경험 — Training Job Interruption, OOM, NCCL/Communication Library Issue, Distributed Training Synchronization Failure 등의 진단·복구
AI Researcher·Engineer의 요구사항을 Infrastructure 언어로 번역해 풀어낸 경험 — "학습이 느려요" 를 NCCL Tuning·Storage IOPS·Network RDMA·CPU Bottleneck 중 어디인지 좁혀가는 능력
새로운 Accelerator 세대·AI Infrastructure Ecosystem 변화에 능동적으로 적응하며 운영 체계에 반영할 수 있는 분
해외 출장 및 여행에 결격 사유가 없는 분 (Vendor 미팅·해외 Data Center·R&D 파트너사 방문 등)

✅ 우대사항

다음 5개 영역 중 3개 이상 영역에서 실무 경험이 있는 분을 우대합니다. (각 영역 내 모든 항목을 충족할 필요는 없으며, 영역의 일부 경험으로도 인정됩니다.)

Platform & Provisioning
자체 Self-service IaaS/PaaS 또는 GPU Platform 구축·운영 경험, Hypervisor 기반 Cluster 운영 경험
Bare-metal Provisioning — PXE/iPXE, Foreman, MAAS, OpenStack Ironic, Tinkerbell 등을 활용한 대규모 서버·GPU 노드 자동 프로비저닝 체계 구축·운영
BMC·OOB 관리 — IPMI, Redfish, iDRAC, iLO, BMC Firmware Update, Out-of-Band 원격 복구·자동화 운영
GPU Virtualization·Sharing — NVIDIA vGPU, MIG, GPU Passthrough, SR-IOV, Kubernetes Device Plugin
AI Workload Platform
AI Model Serving·Training Platform — Kubernetes, vLLM/Triton/TGI, Ray, Slurm, Kubeflow, MLflow 등
Local LLM 운영 — Open-model vLLM Serving, 통합 Gateway(Authentication·Logging·Routing) 구축
AI Workload Observability — DCGM Exporter, Prometheus/Grafana, NVIDIA Nsight, Zabbix, GPU Metric 기반 알람 설계
Network & FinOps
High-performance Network·Data Center Infrastructure — InfiniBand/RoCE, NVLink/NVSwitch, 10~800G Switching, vPC/MLAG Active-Active, Power·Rack Design
GPU or Infrastructure FinOps — Showback/Chargeback, GPU Hourly Rate Cost Modeling, Mandatory Tagging, Spot·Reserved Instance Strategy
Security & Identity
Security Compliance 실무 — ISO 27001 / ISMS-P 갱신·신규 인증, SCA/SBOM Platform 운영, Supply Chain Attack 대응 정책 수립
Identity & Access Platform 운영 — Secret Management, ZTNA/SASE, OAuth·SSO Integration
DevSecOps 운영 — Golden Image Factory, Container Image Build CI/CD, SIEM Integration
Edge & Operations
Edge Device 운영 — Jetson Orin·Thor, Automotive SoC, Embedded NPU 등 ARM 기반 Edge Linux 환경의 Provisioning·Remote Control·Asset Management 경험. Cross-compile Toolchain·Yocto/Buildroot·OTA Update 체계 운영 경험 우대
운영 안정화 — 장애 복구, DR Rehearsal, Cutover Validation, 운영 Runbook 정착 경험

✅ 채용 절차

서류 검토 → 1차 인터뷰 → 2차 인터뷰 → 3차 인터뷰 → 처우 협의 → 최종 선발

(절차 간에 추가적인 과제가 있을 수 있습니다.)

🤓 팀의 메세지

우리는 단순히 장비를 붙이고 운영하는 인력이 아니라, 회사의 AI 인프라 기반을 실제로 설계하고 구축하고 검증하고 운영할 수 있는 시스템 엔지니어를 찾고 있습니다. 복잡한 환경 속에서도 구조를 만들고, 기준을 정하고, 운영 가능한 상태로 정착시키는 일에 보람을 느끼는 분이라면 잘 맞는 포지션입니다.

지원 전, 확인해주세요! 👀

해당 공고는 상시 채용으로, 채용 완료 시 조기 마감될 수 있습니다.
이력서 내 연봉 정보 등 민감한 개인 정보가 기재되어 있다면, 해당 서류는 검토되지 않을 수 있습니다.
제출해 주신 내용 중 허위 사실이 있을 경우 채용이 취소될 수 있습니다.
채용 전 레퍼런스 체크가 있음을 알려드립니다.
최종 인터뷰 합격 시 별도로 처우를 협의합니다.
입사 후 시용기간이 있으며, 이에 대한 처우는 차등을 두지 않음을 알려드립니다.
국가보훈대상자 및 장애인은 관련 법규에 의거하여 우대합니다.
장애인 고용 촉진을 위한 행정적 절차 확인이 필요한 경우, 장애인 등록증 사본을 기타 서류 란에 선택적으로 제출하실 수 있습니다. 제출 여부는 전형 평가에 어떠한 영향도 미치지 않습니다.
R&D 모든 포지션에서 전문연구요원, 산업기능요원으로 근무가 가능합니다. (단, 산업기능요원 현역 신규 편입의 경우 불가능)

🔎 읽어보면 도움 되는 관련 자료

[Infra] Senior System Engineer (AI Infrastructure)

👋 우리 팀을 소개합니다.

📌 해당 포지션으로 합류하신다면

인프라 통합 핵심 과제들을 실제로 구축하고 운영하게 됩니다.

팀의 주요 Mission:
GPU Self Service Platform: Hypervisor 기반 사내 공용 GPU Self Service Platform의 운영 안정화 및 고도화 (Quota·RBAC·Audit Log·FinOps·Idle Reclaim)
AI Infrastructure 확장: NVIDIA DGX Series Multi-node 도입·운영, NVA GPU Staging 구축, 신규 GPU/NPU 도입 및 IDC Power 인프라 운영·확장 대응
Data Center Network 현대화: IDC 100G Backbone Cutover (Enterprise Switch 기반 vPC/MLAG Active-Active 구성), Branch Office Network 10/25/100G 고도화
Distributed Storage: Ceph Cluster(S3/CephFS/RBD) 구축/운영, NAS Data Migration, Hypervisor 연동
Security Compliance: ISO 27001 갱신, ISMS-P 기반 Cloud Data Management Platform, Vault Secret Lifecycle, SCA/SBOM Platform 운영
Identity & Access: ZTNA(SASE 기반) + HA Bastion Platform (SSO 연동)
Observability: Zabbix & Prometheus/Grafana Integrated Dashboard, GPU Showback/Chargeback Pipeline
DevSecOps: Golden Image Factory, Container Image Build Standard CI/CD, Supply Chain Attack 차단 정책
Local LLM Gateway: vLLM 기반 Local LLM Service Gateway 및 통합 Authentication/Logging
Edge Device Farm: 다양한 타깃 디바이스 Asset Management·Remote Control Portal, 차세대 AI 검증용 Edge Hardware 독립 인프라

다루는 영역:
GPU·AI Accelerator Platform: Datacenter-grade(A100/H100/H200/B200/B300, DGX System), Workstation-grade(RTX PRO Ada & Blackwell Series), Consumer-grade(RTX 20/30/40/50 Series), Edge AI Device(Jetson Orin·Thor Series, Automotive SoC, Non-CUDA NPU 등)
AI Training·Serving Network/Storage: High-bandwidth Fabric(10~800G), RDMA for Distributed Training, Ceph base large volume Dataset·Model Artifact Storage
Access Control·Security·Audit: ZTNA, Bastion, Secret Lifecycle, AI Model Asset·Training Data 보호 관점의 Security Architecture, ISO 27001 / ISMS-P Compliance
Observability·DevSecOps: GPU Utilization, Model Serving Metrics, Training Job Tracking, Showback/Chargeback, Golden Image, Supply Chain Security
Edge Device Lab: 다양한 타깃 디바이스의 Asset Management, Remote Operations, Benchmarking 환경

✅ 주요 업무

GPU Self-service Platform 운영 안정화·고도화 및 AI Training·Inference Workload 자원 운영 정책 수립 (Scheduling, MIG Partitioning, Multi-tenancy, Quota, Idle Reclaim)
Data Center·Branch Network 구축, 검증, 운영 — 10~800G High-bandwidth Backbone, RDMA/RoCE, vPC/MLAG Active-Active, Power·Rack Infrastructure 포함
Ceph Distributed Storage(S3/CephFS/RBD) 구축·운영, Dataset·Model Artifact 공용 인프라(Training Data·Checkpoint·Model Registry Backend) 운영
AI Asset Protection 관점의 Identity·Access Control·Security·Audit 체계 구축·운영 (Vault, Bastion, ZTNA), ISO 27001 / ISMS-P Compliance 대응
Infrastructure Observability 구축 (Zabbix, Prometheus/Grafana, GPU Showback/Chargeback) 및 DevSecOps 운영 표준화 (Golden Image, CI/CD, SCA/SBOM)
Local LLM Service Gateway 인프라 운영 (vLLM 기반 Model Serving, 통합 Authentication·Logging)
Edge Device Farm 구축·운영 (Jetson Orin·Thor, Automotive SoC, 기타 NPU Board, Remote Control Portal 및 Asset Management)
운영 문서화(Documentation), Runbook, Validation System, Governance Process 정착

✅ 자격요건

다음 자격 요건중 4개 이상 경험자(경력 10년 이상)

GPU 또는 AI Accelerator가 포함된 Server 환경의 구축·운영 경험 — NVIDIA Driver·CUDA Stack 관리, GPU 자원 분배, Thermal·Power·Rack 설계 등 AI Workload 특유의 운영 이슈를 다뤄본 경험
Public Cloud Production 운영 경험 — AWS / GCP / Azure 중 하나 이상에서 IaaS·Network·IAM·Cost Management를 운영한 경험
Hypervisor·Virtualization Platform 2개 이상 실무 운영 경험 — OpenNebula, VMware ESXi/vSphere, OpenShift, Proxmox VE, KVM/QEMU, Hyper-V, Nutanix AHV 등 (Live Migration·HA·Storage Integration·PCIe Passthrough/SR-IOV 포함)
Datacenter-grade Network 구축·운영 경험 — 10~400G Backbone, vPC/MLAG, VLAN/VXLAN Design, Enterprise Switch 패밀리 중 하나 이상의 실무 경험
Distributed Storage 또는 SDS 운영 경험 — Ceph(S3/CephFS/RBD), GlusterFS, MinIO, ZFS Cluster 등 중 하나 이상의 Production 운영 및 Data Migration·High Availability 설계 경험
Kernel·Driver·Device Layer Debugging 경험 — Linux Troubleshooting을 넘어 GPU Driver 충돌, PCIe Topology Issue, NUMA·IRQ Tuning 등을 다뤄본 경험
AI Workload성 장애 대응 경험 — Training Job Interruption, OOM, NCCL/Communication Library Issue, Distributed Training Synchronization Failure 등의 진단·복구
AI Researcher·Engineer의 요구사항을 Infrastructure 언어로 번역해 풀어낸 경험 — "학습이 느려요" 를 NCCL Tuning·Storage IOPS·Network RDMA·CPU Bottleneck 중 어디인지 좁혀가는 능력
새로운 Accelerator 세대·AI Infrastructure Ecosystem 변화에 능동적으로 적응하며 운영 체계에 반영할 수 있는 분
해외 출장 및 여행에 결격 사유가 없는 분 (Vendor 미팅·해외 Data Center·R&D 파트너사 방문 등)

✅ 우대사항

Platform & Provisioning
자체 Self-service IaaS/PaaS 또는 GPU Platform 구축·운영 경험, Hypervisor 기반 Cluster 운영 경험
Bare-metal Provisioning — PXE/iPXE, Foreman, MAAS, OpenStack Ironic, Tinkerbell 등을 활용한 대규모 서버·GPU 노드 자동 프로비저닝 체계 구축·운영
BMC·OOB 관리 — IPMI, Redfish, iDRAC, iLO, BMC Firmware Update, Out-of-Band 원격 복구·자동화 운영
GPU Virtualization·Sharing — NVIDIA vGPU, MIG, GPU Passthrough, SR-IOV, Kubernetes Device Plugin
AI Workload Platform
AI Model Serving·Training Platform — Kubernetes, vLLM/Triton/TGI, Ray, Slurm, Kubeflow, MLflow 등
Local LLM 운영 — Open-model vLLM Serving, 통합 Gateway(Authentication·Logging·Routing) 구축
AI Workload Observability — DCGM Exporter, Prometheus/Grafana, NVIDIA Nsight, Zabbix, GPU Metric 기반 알람 설계
Network & FinOps
High-performance Network·Data Center Infrastructure — InfiniBand/RoCE, NVLink/NVSwitch, 10~800G Switching, vPC/MLAG Active-Active, Power·Rack Design
GPU or Infrastructure FinOps — Showback/Chargeback, GPU Hourly Rate Cost Modeling, Mandatory Tagging, Spot·Reserved Instance Strategy
Security & Identity
Security Compliance 실무 — ISO 27001 / ISMS-P 갱신·신규 인증, SCA/SBOM Platform 운영, Supply Chain Attack 대응 정책 수립
Identity & Access Platform 운영 — Secret Management, ZTNA/SASE, OAuth·SSO Integration
DevSecOps 운영 — Golden Image Factory, Container Image Build CI/CD, SIEM Integration
Edge & Operations
Edge Device 운영 — Jetson Orin·Thor, Automotive SoC, Embedded NPU 등 ARM 기반 Edge Linux 환경의 Provisioning·Remote Control·Asset Management 경험. Cross-compile Toolchain·Yocto/Buildroot·OTA Update 체계 운영 경험 우대
운영 안정화 — 장애 복구, DR Rehearsal, Cutover Validation, 운영 Runbook 정착 경험

✅ 채용 절차

서류 검토 → 1차 인터뷰 → 2차 인터뷰 → 3차 인터뷰 → 처우 협의 → 최종 선발

(절차 간에 추가적인 과제가 있을 수 있습니다.)

🤓 팀의 메세지

우리는 단순히 장비를 붙이고 운영하는 인력이 아니라, 회사의 AI 인프라 기반을 실제로 설계하고 구축하고 검증하고 운영할 수 있는 시스템 엔지니어를 찾고 있습니다. 복잡한 환경 속에서도 구조를 만들고, 기준을 정하고, 운영 가능한 상태로 정착시키는 일에 보람을 느끼는 분이라면 잘 맞는 포지션입니다.

지원 전, 확인해주세요! 👀

해당 공고는 상시 채용으로, 채용 완료 시 조기 마감될 수 있습니다.
이력서 내 연봉 정보 등 민감한 개인 정보가 기재되어 있다면, 해당 서류는 검토되지 않을 수 있습니다.
제출해 주신 내용 중 허위 사실이 있을 경우 채용이 취소될 수 있습니다.
채용 전 레퍼런스 체크가 있음을 알려드립니다.
최종 인터뷰 합격 시 별도로 처우를 협의합니다.
입사 후 시용기간이 있으며, 이에 대한 처우는 차등을 두지 않음을 알려드립니다.
국가보훈대상자 및 장애인은 관련 법규에 의거하여 우대합니다.
장애인 고용 촉진을 위한 행정적 절차 확인이 필요한 경우, 장애인 등록증 사본을 기타 서류 란에 선택적으로 제출하실 수 있습니다. 제출 여부는 전형 평가에 어떠한 영향도 미치지 않습니다.
R&D 모든 포지션에서 전문연구요원, 산업기능요원으로 근무가 가능합니다. (단, 산업기능요원 현역 신규 편입의 경우 불가능)

👋 우리 ​팀을 ​소개합니다.

📌 해당 포지션으로 합류하신다면

✅ 주요 업무

✅ 자격요건

✅ 채용 절차

🤓 팀의 메세지

지원 전, 확인해주세요! 👀

🔎 읽어보면 도움 되는 관련 자료

👋 우리 ​팀을 ​소개합니다.

📌 해당 포지션으로 합류하신다면

✅ 주요 업무

✅ 자격요건

✅ 채용 절차

🤓 팀의 메세지

지원 전, 확인해주세요! 👀

🔎 읽어보면 도움 되는 관련 자료

👋 우리 팀을 소개합니다.

👋 우리 팀을 소개합니다.