채용공고 올리기

박성재님을 응원해보세요!

지금 만족하고 있어요

미리보기

기본 정보

이름
박성재
직업
데이터 엔지니어
이메일
gndan4@gmail.com
간단 소개

안녕하세요. 지속적 성장을 추구하며, 커뮤니케이션의 중요성을 인지하고 있는 개발자 박성재입니다. 꾸준히 갈고 닦아 실속있는 개발자로서 기능하고자 합니다.

경력

회사명

네이버주식회사

직급 | 부서 | 근무 유형

사원 | Intelligent Data | 재직 중

근무 기간

2021.07. ~ 재직 중 (3년 11개월)

담당 업무

주요 업무: 대안신용평가 데이터 파이프라인 개발 및 유지보수

기술 스택

기술 스택

Python, Airflow, Kubernetes, Apache Spark, Hadoop, SQL, Git, github-actions, React, JavaScript, Shell Script, Docker

프로젝트

프로젝트명

대안신용평가 데이터 파이프라인 개발 및 유지보수

소속/기관명

네이버 주식회사

프로젝트 기간

2021.09. ~ 진행 중

프로젝트 내용

데이터 파이프라인 개발 및 유지보수

  • 전사 각 도메인 데이터 입수 & 요구사항에 맞는 피쳐 생성 및 사용자 키 기반 조인
  • 원천 데이터 또는 요구 사항 변경에 따라 기존 파이프라인 쿼리 변경 및 과거 데이터 소급 적용
  • 사용 기술: Apache Airflow, Hadoop, Hive, Spark, Presto, Trino

메타데이터 플랫폼 DataHub 배포 및 테이블 계보(lineage) 표현

  • 주요 목적: 데이터 가시성 강화 및 유지보수 편의성 증대
  • 사내 k8s 클러스터에 시스템 배포
  • 사용 기술: docker, k8s, helm

대량 데이터 서빙을 위한 DB의 클라우드 전환 (진행중)

  • 요구사항: 수천만 row x 수백 colum 규모의 테이블 데이터 OLTP 서빙
  • 파일 기반 DB -> k8s로 전환하기 위한 리서치 및 부하 테스트
  • 사용 기술: docker, k8s, helm, spark
프로젝트명

데이터랩 서비스 데이터 생성 배치 시스템 클라우드 이관

소속/기관명

네이버 주식회사

프로젝트 기간

2023.08. ~ 2023.10.

프로젝트 내용

기존 시스템

  • cdp 클러스터에 데이터를 저장(하둡) 및 처리(spark)
  • CI/CD: Jenkins
  • 스파크 작업 제출 환경: 클러스터 내의 서버에서 제출

이관 후 시스템

  • 사내 공통 플랫폼에 저장(하둡) 및 처리(spark)

  • CI/CD: GitHub Actions, git-sync

  • 스파크 작업 제출 환경: k8s 클러스터 내부 pod에서 사내 공용 spark 클러스터로 제출

  • 사용 기술: docker, k8s, Github Actions, hadoop, spark

프로젝트명

데이터박스 파일반출심사 도구 제작

소속/기관명

네이버 주식회사

프로젝트 기간

2023.03. ~ 진행 중

프로젝트 내용
  • 파일 반출 심사를 위한 내부 인하우스 툴 제작
  • 심사 목록 엑셀 파일로 다운로드, 파일 크기 점검, 사내 SSO 연동, 파일 업로드, 파일 미리보기 기능 등 심사를 용이하게 하기 위한 기능 제공
  • 사용 기술: FastAPI, React.js
프로젝트명

기타 업무

소속/기관명

네이버 주식회사

프로젝트 기간

2021.09. ~ 진행 중

프로젝트 내용
  • 네이버 쇼핑 데이터 분석을 위한 데이터 입수 지원
  • LLM 기반 RAG(Retrieval Augmented Generation) 시스템 PoC 진행을 위한 Milvus Vector Store 배포
  • 데이터 가시성 강화를 위한 메타정보 관리
    • WIKI 문서화
    • 다수 Hive 테이블에 테이블 코멘트 및 컬럼 코멘트 추가
  • 데이터 보관 관련 기존 Policy 보완
    • 테이블 별 용량 조사 및 보관 기한 산정. 레거시 데이터 삭제
    • 오래된 데이터 삭제 코드 모듈화 하여 기존 데이터 파이프라인에 일괄 추가
    • 레거시 데이터 삭제를 통한 클러스터 용량 확보 - 1000TiB 이상
  • 팀 내 입수 시스템 개선
    • spark3 작업 제출 환경 구성
      • Spark-History 서버 연동 설정
      • spark - hive 연동 설정
      • 최적화 관련 옵션 설정(Dynamic Allocation, Adaptive Query Execution 등)
      • 일부 파이프라인 Hive -> Spark 작업 전환 및 최적화로 작업 시간 3배 이상 단축 -> 마트 생성 지연 개선
  • 입수 중단된 레거시 소스코드 파악 및 제거

자격증

자격증명

CKA (Certified Kubernetes Administrator)

점수 | 발급기관

LF-ivlwjn5j40 | Linux Foundataion

취득연월

2023.09.

교육

소속/기관명

SSAFY

종류 | 전공

사설 교육

재학 기간 | 재학 상태

2021.01. ~ 2021.07. | 졸업

소속/기관명

서울대학교

종류 | 전공

대학원(석사) | 심리학

재학 기간 | 재학 상태

2019.03. ~ 2021.02. | 졸업

소속/기관명

서강대학교

종류 | 전공

대학교(학사) | 철학 & 심리학 복수전공

재학 기간 | 재학 상태

2013.03. ~ 2019.02. | 졸업

소속/기관명

상산고등학교

종류 | 전공

고등학교

재학 기간 | 재학 상태

2010.03. ~ 2013.02. | 졸업

댓글