본문 바로가기
데이터 수집(3) 수집 전략 완전히 새로운 프로젝트로 시작할 때는 올바른 데이터 수집 전략을 선택하기가 어렵다. 그래서 가장 많이 쓰는 세 가지 데이터 유형(정형 데이터, 텍스트 데이터, 이미지 데이터)에 관한 몇 가지 전략을 추천하고자 한다. 정형 데이터 정형 데이터는 데이터베이스나 디스크에 파일 형식으로 저장될 때가 많으며 표 형식의 데이터를 지원한다. 데이터가 데이터베이스에 있다면 CSV로 내보내거나 PrestoExampleGen 또는 BigQueryExampleGen 컴포넌트로 데이터를 직접 사용할 수 있다. 표 형식 데이터를 지원하는 파일 형식으로 저장된 디스크에서 사용할 수 있는 데이터는 CSV로 변환하고 CsvExampleGen 컴포넌트를 사용하여 파이프라인으로 수집해야 한다. 데이터양이 수백 메가바이트 이상..
데이터 수집(1) 기본 TFX 설정고 ML 메타데이터스토어를 사용하여 데이터셋을 다양한 컴포넌트에서 활용할 수 있도록 파이프라인으로 데이터를 수집하는 방법을 설명하겠다. TFX는 파일이나 서비스에서 데이터를 수집하는 컴포넌트를 제공한다. 필자는 1.2.0 버전을 사용하였다. 환경은 Windows에서 Jupyternotebook을 사용한다. !pip install tfx==1.2.0 데이터 수집의 개념 데이터를 읽거나 요청하여 수집한 후 수집된 데이터셋을 다음 컴포넌트로 전달하기 전에 가용 데이터를 별도의 데이터셋 (ex. 학습 및 검증 데이터셋)으로 나눈다. 그런 다음 데이터셋을 tf.Example로 표시된 데이터가 포함된 TFRecord 파일로 변환한다. TFRecord 대용량 데이터셋 스트리밍에 최적화된 경량 형식이다..