[Hadoop] HDFS에서 S3로 Distcp

Sun 의 공부 블로그

최근글
인기글

Today :
Yesterday :

기타

[Hadoop] HDFS에서 S3로 Distcp

공부의 Sun 2022. 1. 17. 20:00

목적

on-premise hdfs에서 s3로 데이터 올릴 때 get, put으로 데이터를 올리는 과정이 번거롭다

방법

hadoop distcp -Dfs.s3a.access.key=$AWS_ACCESS_KEY -Dfs.s3a.secret.key=$AWS_SECRET_KEY -Dfs.s3a.endpoint=$AWS_END_POINT $HDFS_SOURCE_PATH s3a://$S3_DEST_PATH

fs.s3a.endpoint의 경우 AWS 서비스 엔드포인트를 참고 (ex. s3.ap-northeast-2.amazonaws.com)

'기타' 카테고리의 다른 글

뉴스 링크 모음 (0)	2025.01.15
[AWS] python으로 s3에 있는 parquet 파일 읽기 (0)	2022.02.03
[Spark] json->parquet 저장시 특수문자 해결 (0)	2021.10.07
[Spark] json -> parquet로 저장시 스키마 충돌 문제 해결 (0)	2021.10.06
[Postgresql] 테이블 DDL 확인하기 (0)	2021.09.14

현재글[Hadoop] HDFS에서 S3로 Distcp

Sun 의 공부 블로그

[Hadoop] HDFS에서 S3로 Distcp

목적

방법

'기타' 카테고리의 다른 글

'기타'의 다른글

티스토리툴바

[Hadoop] HDFS에서 S3로 Distcp

목적

방법

'기타' 카테고리의 다른 글

'기타'의 다른글

관련글

티스토리툴바