본문 바로가기
데이터 수집(3) 수집 전략 완전히 새로운 프로젝트로 시작할 때는 올바른 데이터 수집 전략을 선택하기가 어렵다. 그래서 가장 많이 쓰는 세 가지 데이터 유형(정형 데이터, 텍스트 데이터, 이미지 데이터)에 관한 몇 가지 전략을 추천하고자 한다. 정형 데이터 정형 데이터는 데이터베이스나 디스크에 파일 형식으로 저장될 때가 많으며 표 형식의 데이터를 지원한다. 데이터가 데이터베이스에 있다면 CSV로 내보내거나 PrestoExampleGen 또는 BigQueryExampleGen 컴포넌트로 데이터를 직접 사용할 수 있다. 표 형식 데이터를 지원하는 파일 형식으로 저장된 디스크에서 사용할 수 있는 데이터는 CSV로 변환하고 CsvExampleGen 컴포넌트를 사용하여 파이프라인으로 수집해야 한다. 데이터양이 수백 메가바이트 이상..
데이터 수집(2) 데이터 준비 각 ExampleGen 컴포넌트를 사용하여 데이터셋의 input_config와 output_config을 구성할 수 있다. 데이터셋을 점진적으로 수집하려면 span을 입력 구성으로 정의할 수 있다. 또한 데이터를 분할하는 방법도 구성할 수 있다. 평가 및 테스트 데이터셋과 함께 학습 데이터셋을 생성할 때가 많은데, 출력 구성으로 이런 전처리 작업을 정의할 수 있다. 데이터셋 분할 파이프라인 후반부에는 학습 중에 머신러닝 모델을 평가하고 모델 분석 단계에서 테스트하려고 한다. 따라서 데이터셋을 필요한 하위 집합으로 분할해두면 좋다. 단일 데이터셋을 하위 집합으로 분할 학습, 평가, 테스트 데이터셋을 각각 6:2:2의 비율로 분할해보았다. 비율 설정은 hash_buckets으로 정의할 수 있다...
데이터 수집(1) 기본 TFX 설정고 ML 메타데이터스토어를 사용하여 데이터셋을 다양한 컴포넌트에서 활용할 수 있도록 파이프라인으로 데이터를 수집하는 방법을 설명하겠다. TFX는 파일이나 서비스에서 데이터를 수집하는 컴포넌트를 제공한다. 필자는 1.2.0 버전을 사용하였다. 환경은 Windows에서 Jupyternotebook을 사용한다. !pip install tfx==1.2.0 데이터 수집의 개념 데이터를 읽거나 요청하여 수집한 후 수집된 데이터셋을 다음 컴포넌트로 전달하기 전에 가용 데이터를 별도의 데이터셋 (ex. 학습 및 검증 데이터셋)으로 나눈다. 그런 다음 데이터셋을 tf.Example로 표시된 데이터가 포함된 TFRecord 파일로 변환한다. TFRecord 대용량 데이터셋 스트리밍에 최적화된 경량 형식이다..
Machine Learning Pipeline 머신러닝 파이프라인의 필요성 Model Lifecycle 단계를 자동화할 수 있다는 것은 머신러닝 파이프라인의 중요한 이점이다. 새로운 훈련 데이터를 사용하려면 데이터 검증, 전처리, 모델 훈련, 분석 및 배포를 포함하는 워크플로를 재설정해야 한다. 많은 데이터 사이언스팀이 이런 단계를 수작업으로 수행하지만 비용이 많이 들고 잦은 오류를 발생시킨다. 머신러닝 파이프라인의 장점 기존 모델 유지보수에서 벗어나 새 모델에 집중할 수 있는 능력 자동화된 머신러닝 파이프라인을 사용하면 데이터 사이언티스트가 기존 모델을 유지 보수하지 않아도 된다. 많은 데이터 사이언티스트들이 이전에 개발한 모델을 최신 상태로 유지하는 데 많은 시간을 소비한다. 스크립트를 수동으로 실행하여 학습 데이터를 전처리하거나, 일회성 배포 ..