데이터 수집(2) 데이터 준비 각 ExampleGen 컴포넌트를 사용하여 데이터셋의 input_config와 output_config을 구성할 수 있다. 데이터셋을 점진적으로 수집하려면 span을 입력 구성으로 정의할 수 있다. 또한 데이터를 분할하는 방법도 구성할 수 있다. 평가 및 테스트 데이터셋과 함께 학습 데이터셋을 생성할 때가 많은데, 출력 구성으로 이런 전처리 작업을 정의할 수 있다. 데이터셋 분할 파이프라인 후반부에는 학습 중에 머신러닝 모델을 평가하고 모델 분석 단계에서 테스트하려고 한다. 따라서 데이터셋을 필요한 하위 집합으로 분할해두면 좋다. 단일 데이터셋을 하위 집합으로 분할 학습, 평가, 테스트 데이터셋을 각각 6:2:2의 비율로 분할해보았다. 비율 설정은 hash_buckets으로 정의할 수 있다... 이전 1 다음