미리보기
기본 정보
커뮤니케이션을 통해 더 나은 다음을 만들어 가도록 노력하는 소프트웨어 엔지니어입니다. 서비스 뿐만이 아닌 서비스를 같이 만들어가는 동료들을 위해 기여할 수 있는 부분을 항상 고민하고 개선합니다. 새로운 도전에 주저하지 않고, 유연하고 발빠르게 변화에 적응하고 대응하도록 노력합니다. 나 뿐만이 아닌 누군가의 목표 달성에 있어, 필수불가결한 존재가 되고자 합니다.
기술 스택
경력
주식회사커먼컴퓨터
Software Engineer
사내 인프라 관리
Public Cloud 비용 약 60% 감소
GKE 기반 Kubernetes 환경 운영
Multi Region Unmanaged Cluster 구축 / 운영
인프라 문서화를 통한 사내 개발자들과 공유
Kubernetes
,MicroK8s
,Google Cloud Platform
,Istio
,Cloudflare
,Prometheus
,Grafana
,Harbor
,Docker
,Shell
IaaS Platform 개발 담당
ExpressJS 기반 Backend 개발 담당
ESXi Hypervisor PoC 담당
AWS EventBridge Scheduler 를 사용한 스케줄러 개발
ExpressJS
,AWS
,ESXi
,Typescript
,Google Cloud Platform
,Docker
,Jest
(2년 1개월 | 정규직)
프로젝트
주식회사 커먼컴퓨터
IaaS Platform 개발
하이브리드 클라우드 기반 IaaS 플랫폼 인프라 설계 및 API 서버 개발
On-Premise Baremetal Hypervisor 구축
On-Premise 환경에 Hypervisor(ESXi)를 설치하고, GPU Passthrough 설정을 통해 가상머신에서도 GPU 리소스를 활용 가능하도록 구성.
GPU 미인식 이슈 발생 시, ESXi의 IOMMU 설정 및 VM 구성 변경, NVIDIA 공식 문서 및 커뮤니티 포럼을 참조하여 다수의 테스트를 반복한 끝에 문제를 해결.
SSH 기반 RPC 통신 구조를 구성하여 ESXi 위 VM의 상태 제어 및 리소스 관리 자동화 테스트 진행.
Typescript 와 Express.js 기반 Backend 개발
API 개발 전 API 디자인 문서 작성을 통해 설계를 개선, 유지보수성과 확장성을 고려하여 Dependency Injection 구조 적용.
ESXi, AWS, GCP 와 같은 외부 모듈을 사용한 각 구현에 대한 불필요한 의존성을 방지하고, 독립적인 구조에 맞춰 빠르게 구현하고 적용할 수 있는 구조를 채택
성공적인 의존성 주입 구조를 통해 Test Code를 효율적으로 작성
AWS EventBridge Scheduler를 활용, 서버 대여 기간 종료 시점에 맞춰 VM 자동 종료 및 예약 기능을 구현함으로써 리소스 낭비를 최소화.
온프레미스 및 클라우드 통합 스케줄링 및 클린업 로직 구현
사용자가 직접 OS, GPU, 네트워크 설정(Ingress, Egress) 을 선택할 수 있도록 API 구현하여 유연한 환경 커스터마이징 제공.
OS, Cuda 버전을 선택할 수 있도록 Dockerfile 을 작성하여 폭 넓은 선택 사항 제공
3개월간 AI 협력 업체와의 베타 테스트를 통해 시스템의 안정성과 성능 검증, 테스트 기간 동안 오류 없이 AI 개발이 가능하다는 긍정적 피드백 수령.
기존 수동 서버 설정 프로세스를 자동화하고, 사내 개발자들이 셀프서비스 방식으로 가상 서버를 대여할 수 있는 플랫폼을 제공, 내부 개발 효율성 향상
주식회사 커먼컴퓨터
사내 인프라 관리
Multi-region Managed/Unmanaged Kubernetes Cluster 구축 / 운영
On-Premise 장비에 Microk8s 를 통한 Unmanaged Kubernetes Cluster 구축
기존 환경의 수동 환경 제어, 과도한 권한 부여와 같은 문제점을 해결
Kubernetes Dashboard 와 Prometheus, Grafana 를 통한 모니터링을 구축하여 사내 개발자들이 직접 환경에 VPN 을 통해 접속해서 제어하는 문제 상황 해결
수동으로 직접 GPU 현황을 확인해 배포를 진행하게 되는 문제 상황 해결
Multi-region IDC 간 안전한 통신을 위해 Site-to-Site VPN 구축
Switch Stacking 을 통해 네트워크 다운타임 최소화
Public Cloud 상의 70개의 Research / Engineering Container 마이그레이션 / 안정화
Public Cloud 의 Untrusted Fragile User's GPU 워크로드를 On-Premise Cluster 로 마이그레이션을 통한 30%의 비용 감축과 사용성 확보
Cloudflare 와의 연동을 통해 Zero Trust 구축
Cloudflare Tunnel 을 통한 보안 연결 제공
GKE 기반 Istio 상에서 약 100,000 개의 Production Container 운영과 트러블슈팅
VPC-Native Cluster 의 IP 고갈 해결
100K 의 Pod 개수를 통한 역산을 통해 적절한 VPC/Subnet 계산
보조 IP Range 추가와 Node Pool 추가를 통한 해결
과도한 컨테이너 트래픽 사용 상황 해결
On-Premise Cluster 에 Harbor 구축 진행
컨테이너 트래픽 캐싱 환경 구축과 대역폭 확보로 인한 기존 GCR 비용에서 40% 감축
Kubernetes 버전 무중단 업그레이드
Node Pool Canary Upgrade 진행
주식회사 커먼컴퓨터
Runo
무중단 배포가 가능한 Backend API 서버 설계 / 개발
Express.js 기반 Backend API 개발
Event Trigger 에 의해 실행되어 NFT 관련 로직들을 수행
Web3.js 를 사용해 Ethereum Contract 와 통신 수행
Firebase Realtime Database 에 NFT Metadata 저장, 관리
특정 시간에 맞는 로직 실행을 위한 Scheduler 개발
GCP Cloud Scheduler 를 사용해 매일 특정 시간 NFT 의 Reward 지급과 성장을 진행
약 650 개의 NFT 의 Trait 의 정상적인 업데이트 진행
Backend 서버와 Ethereum 간의 통신을 위한 Event Poller 개발
Firebase Functions 를 사용해 Ethereum 상의 데이터를 주기적으로 가져오는 Poller 개발
Firebase Realtime Database 에 저장된 NFT Metadata 와 Polling 된 데이터와의 오차를 통해 Event Trigger 실행
무중단 배포를 위한 CI/CD 구성
Bitbucket, Bitbucket Pipelines, GCP Cloud Build 를 통한 CI/CD 설계
자기소개
하이브리드 클라우드 기반 IaaS 플랫폼 인프라 설계와 API 서버 개발을 주도해온 경험을 가지고 있습니다. 가상화 구축을 통해 가상 머신에서 GPU 리소스를 활용할 수 있도록 구성한 경험이 있습니다. 이 과정에서 Typescript + Express.js 를 기반으로 Backend 개발을 진행하여 API 디자인 문서와 리뷰를 통해 효율적인 구조를 채택하여 협업 과정에서 개발 효율성과 유지보수성을 향상한 경험이 있습니다.
Unmanaged Kubernetes Cluster를 구축하고, 대시보드와 모니터링 체계를 구축하여 사내 개발자들의 효율성을 높이고, 사내 인프라의 시각화를 향상 주도한 경험이 있으며, GKE 에서 100,000개의 Production Container를 운영하면서 발생한 문제들을 해결하고 안정적으로 운영한 경험이 있습니다. 이러한 경험을 통해 기업의 비용을 감축시키고 개발 효율성을 크게 향상시켰습니다.
교육
42Seoul
사설 교육
2020.09. ~ 2021.11.
수료
중앙대학교
대학교(학사) | 전자전기공학부(전자공학전공)
2018.03. ~ 2022.02.
졸업
자격증
AWS Certified Solutions Architect
Associate | Amazon Web Services
2024.12.