빅데이터 관리/Hadoop

하둡 기본 명령어 - 1

잘잔디 2023. 5. 9. 12:04

  • 의사가상분산 모드
    • 분산되어 있지 않은 PC를 분산된 것처럼 보이게 하는 방식 - 하둡을 연습하기 위해 만든 거임

하둡 명령어는 대부분 리눅스 명령어와 유사하다

1. 블록 관련 명령어

hadoop ls

  • hadoop fs -ls
  • /user/root/temp에 ls 하기 hadoop fs -ls /user/root/temp

데이터 넣기 리눅스 → 하둡

  • hadoop fs -put 파일이름 저장할 경로
  • 하둡은 데이터를 분산하는 기준(block size)이 존재한다.
    • block size 보다 작은 데이터는 분산하여 저장하지 않는다.
  • hadoop fs -D dfs.block.size=1048576 -put 파일이름 저장할 경로
    • 를 사용하여 block size를 지정하여 저장가능하다.

2. 디렉터리 관련 명령어

directory 만들기

  • hadoop fs -mkdir /user/root/temp
    • 권한이 없어서 suer의 홈디렉터리에 만든 것

directory 삭제하기

  • hadoop fs -rm -R /user/test/test2
    • -R 옵션은 디렉토리 내의 디렉터리까지 보여줌
    • test2 디렉터리와 디렉토리 내부를 삭제

grep 사용하기

  • hadoop fs -ls R | grep test
    • test가 들어간 모든 폴더 파일 조회

3. 데이터 입/출력 관련 명령어

파일 복사 하둡 → 하둡

  • hadoop fs -cp 복사할파일 복사될 파일경로/파일이름
    • ex) hadoop fs -cp /test/data.txt /test/test1/data2.txt

파일 출력

  • hadoop fs -cat 파일이름
  • hadoop fs -tail 파일이름

파일 복사하기 하둡 → 리눅스

  • hadoop fs -get 하둡에 있는 파일이름 리눅스경로
    • ex) hadoop fs -get test/data.txt home/hadoop/tmp/

디렉터리 합치기 getmerge 하둡 → 리눅스

  • HDFS 디렉토리 내부의 파일을 하나로 합친다.
  • hadoop fs -getmerge 디렉터리경로 합칠 파일이름
    • ex) hadoop fs -getmerge /test/ merged.txt

파일 만들기

  • hadoop fs - touchz 파일경로/파일이름

파일 합치기 appendTofile 리눅스 → 하둡

  • appendToFile 명령어로 입력할 파일을 지정하지 않고 “-”을 사용하면 사용자가 수동으로 입력 가능
  • 입력 후 컨트롤 + c 단축키로 입력을 종료

checksum

  • hadoop fs -checksum 파일경로/파일이름
  • 해당 파일의 체크섬 관련 정보를 확인할 수 있음

count

  • 현재 디렉터리의 디렉토리 개수, 파일 개수, 전체 파일의 용량을 볼 수 있음.

  • 11 : 디렉토리 개수(현재 디렉토리 포함)
  • 5 : 파일 개수
  • 14452828 : 디렉토리 내의 파일 전체 용량

4. 검색 관련 명령어.

find

  • HDFS 내의 파일을 찾을 때 사용
  • hadoop fs -find 파일경로 -name test*
  • 옵션으로 -name test*를 주고, test로 시작하는 파일을 찾으면 결과가 출력됨.

getfacl

  • 해당 디렉터리의 경로와 디렉토리 소유자, 그룹명을 알려줌

5. 권한 관련 명령어

chmod

  • 권한 변경 가능
  • hadoop fs -chmod 777 파일이름

chown

  • 파일의 소유자명 변경
  • hadoop fs -chown 변경할 유저 파일이름
    • ex) hadoop fs -chown TestOwner /test.csv

chgrp

  • 파일의 그룹명 변경
  • hadoop fs -chgrp 변경할 그룹명 파일이름

기타 명령어

version

  • 현재 사용 중인 하둡의 버전을 확인할 수 있다.
  • hadoop version

dfsadmin

  • 현재 사용하는 노드들에 대한 정보를 한눈에 볼 수 있다.
  • hadoop dfsadmin -report

truncate

  • 지정한 숫자만큼 파일의 길이를 맞춰줌
  • hadoop fs -turncate 길이지정 파일이름

du

  • 현재 디렉터리 내 파일의 용량 확인
  • -h 옵션을 주면 보기 편하게 단위를 줄여줌
  • hadoop fs -du -h 디렉터리경로

df

  • 파일시스템의 경로, 파일시스템 크기, 사용 중인 크기, 사용공간, 사용률을 보여준다.
  • 마찬가지로 -h 옵션으로 보기 편하게 단위를 줄여준다.
  • hadoop fs -df -h 디렉터리경로