본문 바로가기

Hadoop3

[Hadoop] HDFS에서 S3로 Distcp 목적 on-premise hdfs에서 s3로 데이터 올릴 때 get, put으로 데이터를 올리는 과정이 번거롭다 방법 hadoop distcp -Dfs.s3a.access.key=$AWS_ACCESS_KEY -Dfs.s3a.secret.key=$AWS_SECRET_KEY -Dfs.s3a.endpoint=$AWS_END_POINT $HDFS_SOURCE_PATH s3a://$S3_DEST_PATH fs.s3a.endpoint의 경우 AWS 서비스 엔드포인트를 참고 (ex. s3.ap-northeast-2.amazonaws.com) 2022. 1. 17.
[Hadoop] 특수문자(wildcard)가 들어간 경로 삭제 상황 특수문자가 들어간 다음과 같은 경로는 일반적인 hdfs dfs -rm -r ...을 이용 시 파일 삭제는 되지 않고 휴지통에 파일 복제만 진행된다. 예시) 다음의 디렉토리가 존재한다. \$ drwx------ - hdfs supergroup 0 2020-06-09 20:00 /my_root/sub_dir/2020** 다음의 명령을 입력 시 디렉토리 내용이 휴지통에 정상적으로 들어가나 기존의 디렉토리에도 데이터가 남아있었다.\$ hdfs dfs -rm -r /my_root/sub_dir/2020** 해결 과정 별표(asterisk)가 특수문자이기에 발생한 문제이다. escape 문자를 이용하여 디렉토리를 삭제한다. 다음의 명령을 입력 시에도 데이터가 정상적으로 삭제되지 않았다.\$ hdfs dfs -.. 2020. 6. 9.
[Hadoop] Distcp 시 Check-sum mismatch 현상 상황 Distcp시에 IOException이 발생하며 다음과 같은 에러메시지가 나온다. Error: java.io.IOException: File copy failed: ... Caused by: java.io.IOException: Couldn't run retriable-command: ... Caused by: java.io.IOException: Check-sum mismatch between ... Source and target differ in block-size. Use -pb to preserve block-sizes during copy. Alternatively, skip checksum-checks altogether, using -skipCrc. (NOTE: By skipp.. 2020. 6. 8.
반응형