데이터 수집(1) 기본 TFX 설정고 ML 메타데이터스토어를 사용하여 데이터셋을 다양한 컴포넌트에서 활용할 수 있도록 파이프라인으로 데이터를 수집하는 방법을 설명하겠다. TFX는 파일이나 서비스에서 데이터를 수집하는 컴포넌트를 제공한다. 필자는 1.2.0 버전을 사용하였다. 환경은 Windows에서 Jupyternotebook을 사용한다. !pip install tfx==1.2.0 데이터 수집의 개념 데이터를 읽거나 요청하여 수집한 후 수집된 데이터셋을 다음 컴포넌트로 전달하기 전에 가용 데이터를 별도의 데이터셋 (ex. 학습 및 검증 데이터셋)으로 나눈다. 그런 다음 데이터셋을 tf.Example로 표시된 데이터가 포함된 TFRecord 파일로 변환한다. TFRecord 대용량 데이터셋 스트리밍에 최적화된 경량 형식이다.. Machine Learning Pipeline 머신러닝 파이프라인의 필요성 Model Lifecycle 단계를 자동화할 수 있다는 것은 머신러닝 파이프라인의 중요한 이점이다. 새로운 훈련 데이터를 사용하려면 데이터 검증, 전처리, 모델 훈련, 분석 및 배포를 포함하는 워크플로를 재설정해야 한다. 많은 데이터 사이언스팀이 이런 단계를 수작업으로 수행하지만 비용이 많이 들고 잦은 오류를 발생시킨다. 머신러닝 파이프라인의 장점 기존 모델 유지보수에서 벗어나 새 모델에 집중할 수 있는 능력 자동화된 머신러닝 파이프라인을 사용하면 데이터 사이언티스트가 기존 모델을 유지 보수하지 않아도 된다. 많은 데이터 사이언티스트들이 이전에 개발한 모델을 최신 상태로 유지하는 데 많은 시간을 소비한다. 스크립트를 수동으로 실행하여 학습 데이터를 전처리하거나, 일회성 배포 .. 이전 1 2 다음