목적
- on-premise hdfs에서 s3로 데이터 올릴 때 get, put으로 데이터를 올리는 과정이 번거롭다
방법
hadoop distcp -Dfs.s3a.access.key=$AWS_ACCESS_KEY -Dfs.s3a.secret.key=$AWS_SECRET_KEY -Dfs.s3a.endpoint=$AWS_END_POINT $HDFS_SOURCE_PATH s3a://$S3_DEST_PATH
- fs.s3a.endpoint의 경우 AWS 서비스 엔드포인트를 참고 (ex. s3.ap-northeast-2.amazonaws.com)
반응형
'Hadoop' 카테고리의 다른 글
[Hadoop] 특수문자(wildcard)가 들어간 경로 삭제 (0) | 2020.06.09 |
---|---|
[Hadoop] Distcp 시 Check-sum mismatch 현상 (0) | 2020.06.08 |
댓글