성장과 도전으로 다져진 데이터 엔지니어

데이터 엔지니어 직무는 데이터를 수집, 저장, 처리하여 분석 가능한 상태로 만드는 인프라와 시스템을 구축하고 유지하는 역할을 합니다. 데이터플랫폼 엔지니어는 데이터 엔지니어링을 통해 데이터 기반의 의사결정을 지원하며, AI와 머신러닝 모델 적용을 위한 시스템을 설계하고 운영하는 중요한 역할을 합니다.

저는 데이터 엔지니어링 데브코스를 통해 Airflow, Spark, AWS, Docker 등 최신 기술을 학습하고, 이를 실제 프로젝트에 적용하여 실무 능력을 향상시켰습니다. 특히, 공공데이터 API를 활용한 노인 일자리 분석 프로젝트에서 Airflow를 사용해 ETL 파이프라인을 구축하며, 데이터 수집, 적재, 처리, 시각화의 전 과정을 직접 수행했습니다. 이 경험을 통해 데이터 파이프라인 설계와 구현에 대한 이해를 쌓았습니다. 또한, Spark를 활용한 대규모 데이터 전처리와 Superset을 이용한 시각화 작업을 통해 대용량 데이터 처리 및 분석 역량을 강화했습니다.

데브코스 수료 후, 현업 데이터 엔지니어들과의 커피챗을 통해 실무에서의 조언을 얻으며, 데이터 엔지니어에게는 기술적 역량뿐만 아니라 다양한 분야의 사람들과 소통하는 능력이 중요하다는 것을 깨달았습니다. 이를 보완하기 위해 네이버 부스트코스와 데이스쿨에서 AI 개발 경험을 쌓았으며, 이후 Airflow, Spark, boto3 등 데브코스에서 다룬 기술을 심화 학습하여 기술적 이해도를 높였습니다.

저는 이러한 경험을 통해 실무에서의 전문성을 키우는 것뿐만 아니라, 다양한 프로젝트를 통해 창의적인 문제 해결 능력과 협업 역량을 함께 발전시킬 수 있는 데이터 엔지니어로 성장하고자 합니다. 앞으로도 지속적인 학습과 도전을 통해 데이터플랫폼 엔지니어링 역량을 꾸준히 발전시키는 데이터 엔지니어가 되겠습니다.

가장 많은 노력을 쏟아부었던 경험 - 분업, 도전, 협력으로 해결한 데이터 수집의 어려움

데브코스에서 팀원들과 함께 노인일자리 데이터를 수집하는 과정에서 발생한 문제를 해결한 경험이 있습니다. 프로젝트의 목표는 5개년 치의 노인일자리 데이터를 수집하는 것이었지만, API 과다 호출로 인한 서버 응답 거부와 데이터 수집 시간 지연이라는 두 가지 문제가 발생했습니다. 당시 데이터 수집을 담당하는 인원은 총 4명이었고, 2인 1조로 나뉘어 각각의 문제를 해결하기로 했습니다.

효율적인 문제 해결을 위해 한 사람이 아이디어를 내면 다른 한 사람이 즉시 테스트하는 방식으로 분업하여 해결책을 모색했습니다. 단순한 아이디어라도 적극적으로 시도하며 문제에 접근했고, 그 결과 응답 거부 오류가 발생하더라도 반복 호출을 통해 정상적으로 응답을 받을 수 있다는 점을 발견해 문제를 해결했습니다. 하지만 다른 조에서는 여전히 데이터 수집 지연 문제를 해결하지 못하고 있어, 주저하지 않고 도와주기로 결정했습니다.

아이디어를 제안하는 2명, 구현을 담당하는 1명, 그리고 구현을 보조하는 1명으로 역할을 명확히 분담하여 문제 해결에 나섰습니다. 아이디어 제안자들은 문제의 근본 원인과 최적의 해결 방안을 논의하며 다양한 접근 방식을 제시했고, 구현 담당자는 이를 빠르게 테스트하여 실용성을 검증했습니다. 이 과정에서 threading 모듈을 활용한 멀티쓰레드 구현을 시도하여 데이터 수집 시간을 획기적으로 단축할 수 있었습니다.

이 경험을 통해 공동의 목표를 달성하기 위해서는 철저한 분업, 끊임 없는 도전, 적극적인 협력이 필수적이라는 것을 깨달았습니다. 각자의 역할이 명확히 정의되고, 아이디어가 신속하게 실행되며, 서로가 주인의식을 가지고 협력할 때 팀의 효율성이 극대화된다는 것을 몸소 경험할 수 있었습니다.

데이터 엔지니어링 관련 직무에 지원하게 된 구체적인 동기와 개발 경험

학부 연구생 시절, 데이터 ETL 자동화 및 시스템화의 필요성을 몸소 경험하며 데이터 엔지니어를 꿈꾸게 되었습니다. 학부연구생 때, 배터리 충방전 실험 데이터를 추출하여 가공한 후 대학원 연구생에게 전달하는 업무를 담당했습니다. 이 과정에서 대용량 데이터를 Excel로 수작업 처리하며 많은 시간이 소요되고, USB와 외장 하드의 물리적 손상으로 인해 데이터 유실되는 등 비효율적인 부분을 경험하였습니다. 이러한 경험을 통해 데이터 ETL 과정의 자동화와 시스템화의 필요성을 절실히 느꼈으며, 이를 계기로 데이터 엔지니어링에 관심을 갖게 되었습니다.

군 전역 후 데이터 엔지니어가 되기 위해 ‘프로그래머스 데이터 엔지니어링 데브코스’를 통해 관련 지식을 쌓았습니다. 특히, ‘공공데이터 API를 이용한 노인 일자리 분석’ 팀 프로젝트에서는 Airflow를 활용해 배치 ETL 파이프라인을 개발하고, Superset을 이용해 데이터를 시각화했습니다. 또한, ‘오픈소스 트렌드 분석’ 프로젝트에서는 EMR Data Process 개발 및 데이터 플랫폼 관리 등을 수행하며, 학습한 지식을 실제 프로젝트에 적용하며 데이터 엔지니어로서의 역량을 키웠습니다.
학부연구생 시절 느낀 데이터 처리의 자동화 및 시스템화 필요성과 군 전역 후 지식 습득 및 팀 프로젝트를 통해 키운 역량을 바탕으로, 효율적이고 배터리 데이터 플랫폼 및 파이프라인 개발에 기여하겠습니다.