채용공고 올리기

박성재님을 응원해보세요!

지금 만족하고 있어요

미리보기

기본 정보

이름
박성재
직업
데이터 엔지니어
간단 소개

안녕하세요. 지속적 성장을 추구하며, 커뮤니케이션의 중요성을 인지하고 있는 개발자 박성재입니다. 꾸준히 갈고 닦아 실속있는 개발자로서 기능하고자 합니다.

경력

회사명

네이버주식회사

직급 | 부서 | 근무 유형

사원 | Intelligent Data | 재직 중

근무 기간

2021.07. ~ 재직 중 (3년 3개월)

담당 업무

주요 업무: 대안신용평가 데이터 파이프라인 개발 및 유지보수

기술 스택

기술 스택

Python, Airflow, Kubernetes, Apache Spark, Hadoop, SQL, Git, github-actions, React, JavaScript, Shell Script, Docker

프로젝트

프로젝트명

대안신용평가 데이터 파이프라인 개발 및 유지보수

소속/기관명

네이버 주식회사

프로젝트 기간

2021.09. ~ 진행 중

프로젝트 내용

데이터 파이프라인 개발 및 유지보수

 

  • 전사 각 도메인 데이터 입수 & 요구사항에 맞는 피쳐 생성 및 사용자 키 기반 조인
  • 원천 데이터 또는 요구 사항 변경에 따라 기존 파이프라인 쿼리 변경 및 과거 데이터 소급 적용
  • 사용 기술: Apache Airflow, Hadoop, Hive, Spark, Presto, Trino

메타데이터 플랫폼 DataHub 배포 및 테이블 계보(lineage) 표현

 

  • 주요 목적: 데이터 가시성 강화 및 유지보수 편의성 증대
  • 사내 k8s 클러스터에 시스템 배포
  • 사용 기술: docker, k8s, helm

대량 데이터 서빙을 위한 DB의 클라우드 전환 (진행중)

  • 요구사항: 수천만 row x 수백 colum 규모의 테이블 데이터 OLTP 서빙
  • 파일 기반 DB -> k8s로 전환하기 위한 리서치 및 부하 테스트
  • 사용 기술: docker, k8s, helm, spark
프로젝트명

데이터랩 서비스 데이터 생성 배치 시스템 클라우드 이관

소속/기관명

네이버 주식회사

프로젝트 기간

2023.08. ~ 2023.10.

프로젝트 내용

기존 시스템

  • cdp 클러스터에 데이터를 저장(하둡) 및 처리(spark)
  • CI/CD: Jenkins
  • 스파크 작업 제출 환경: 클러스터 내의 서버에서 제출

이관 후 시스템

  • 사내 공통 플랫폼에 저장(하둡) 및 처리(spark)
  • CI/CD: GitHub Actions, git-sync
  • 스파크 작업 제출 환경: k8s 클러스터 내부 pod에서 사내 공용 spark 클러스터로 제출

  • 사용 기술: docker, k8s, Github Actions, hadoop, spark
프로젝트명

데이터박스 파일반출심사 도구 제작

소속/기관명

네이버 주식회사

프로젝트 기간

2023.03. ~ 진행 중

프로젝트 내용
  • 파일 반출 심사를 위한 내부 인하우스 툴 제작
  • 심사 목록 엑셀 파일로 다운로드, 파일 크기 점검, 사내 SSO 연동, 파일 업로드, 파일 미리보기 기능 등 심사를 용이하게 하기 위한 기능 제공
  • 사용 기술: FastAPI, React.js
프로젝트명

기타 업무

소속/기관명

네이버 주식회사

프로젝트 기간

2021.09. ~ 진행 중

프로젝트 내용
  • 네이버 쇼핑 데이터 분석을 위한 데이터 입수 지원
  • LLM 기반 RAG(Retrieval Augmented Generation) 시스템 PoC 진행을 위한 Milvus Vector Store 배포
  • 데이터 가시성 강화를 위한 메타정보 관리
    • WIKI 문서화
    • 다수 Hive 테이블에 테이블 코멘트 및 컬럼 코멘트 추가
  • 데이터 보관 관련 기존 Policy 보완
    • 테이블 별 용량 조사 및 보관 기한 산정. 레거시 데이터 삭제
    • 오래된 데이터 삭제 코드 모듈화 하여 기존 데이터 파이프라인에 일괄 추가
    • 레거시 데이터 삭제를 통한 클러스터 용량 확보 - 1000TiB 이상
  • 팀 내 입수 시스템 개선
    • spark3 작업 제출 환경 구성
      • Spark-History 서버 연동 설정
      • spark - hive 연동 설정
      • 최적화 관련 옵션 설정(Dynamic Allocation, Adaptive Query Execution 등)
      • 일부 파이프라인 Hive -> Spark 작업 전환 및 최적화로 작업 시간 3배 이상 단축 -> 마트 생성 지연 개선
  • 입수 중단된 레거시 소스코드 파악 및 제거

자격증

자격증명

CKA (Certified Kubernetes Administrator)

점수 | 발급기관

LF-ivlwjn5j40 | Linux Foundataion

취득연월

2023.09.

교육

소속/기관명

SSAFY

종류 | 전공

사설 교육

재학 기간 | 재학 상태

2021.01. ~ 2021.07. | 졸업

소속/기관명

서울대학교

종류 | 전공

대학원(석사) | 심리학

재학 기간 | 재학 상태

2019.03. ~ 2021.02. | 졸업

소속/기관명

서강대학교

종류 | 전공

대학교(학사) | 철학 & 심리학 복수전공

재학 기간 | 재학 상태

2013.03. ~ 2019.02. | 졸업

소속/기관명

상산고등학교

종류 | 전공

고등학교

재학 기간 | 재학 상태

2010.03. ~ 2013.02. | 졸업

댓글