빅데이터 관리

빅데이터 관리/Hadoop

PIG 기본 명령어 - 1

PIG란 대용량 데이터를 다루기 위한 스크립트 언어이다. MapReduce는 분산처리를 가능하게 해주는 서비스이지만 한 번 처리를 위해서는 복잡한 java 로직이 필요하다. 이는 너무 어렵기 때문에 PIG와 HIVE라는 언어가 만들어졌다. PIG는 데이터 구조를 자세히 검토할 수 있는 여러 명령어를 제공하며, 입력데이터의 대표 부분 집합에 대해 표본실행이 가능하다는 장점이 있다.(오류 점검에 사용) 또한 확장가능성도 높다. 다만 소량의 데이터에는 MapReduce 과부하가 발생하기 떄문에 비효율적이다. Hortonworks HDP 3.0을 다운로드하여 설치해 줍니다. https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.0.0/release-notes/content/r..

빅데이터 관리/Hadoop

FLUME - Tomcat 연결해보기

하둡 설치에 대해서 궁금하시다면 메일 바랍니다. 따로 자료 공유 드리겠습니다. 데이터를 수집하여 하둡에 분산 저장한다. 몽고 DB도 하둡같은 기술을 사용하여 분산저장으로 구현한다. FLUME은 txt 같은 로그파일을 수집할 때 많이 사용한다. Sqoop은 정형데이터를 수집할 때 많이 사용한다. 리눅스 설정 가상머신 4개를 만들어 하둡 분산환경 시스템을 구축하자. HDFS :Hadoop Distributed file system Web Server : Tomcat, Nginx : txt 파일로 로그를 관리함 → Agent의 설정으로 5분에 한 번씩 하둡에 저장하는 등의 방식으로 설정 가능. - Web Server 대신에 Linux System(다중사용자용 로그발생관리), FTP 등이 들어가기서 해당 장소에..

빅데이터 관리/Hadoop

하둡 기본 명령어 - 1

의사가상분산 모드 분산되어 있지 않은 PC를 분산된 것처럼 보이게 하는 방식 - 하둡을 연습하기 위해 만든 거임 하둡 명령어는 대부분 리눅스 명령어와 유사하다 1. 블록 관련 명령어 hadoop ls hadoop fs -ls /user/root/temp에 ls 하기 hadoop fs -ls /user/root/temp 데이터 넣기 리눅스 → 하둡 hadoop fs -put 파일이름 저장할 경로 하둡은 데이터를 분산하는 기준(block size)이 존재한다. block size 보다 작은 데이터는 분산하여 저장하지 않는다. hadoop fs -D dfs.block.size=1048576 -put 파일이름 저장할 경로 를 사용하여 block size를 지정하여 저장가능하다. 2. 디렉터리 관련 명령어 dir..

빅데이터 관리/리눅스

리눅스 기초 - 2

문서 편집 리눅스의 편집기 종류 GUI 환경인 그놈에서 제공하는 gedit 유닉스에서부터 사용했던 행 편집기(라인 편집기)와 화면 편집기 sudo gedit test, txt 현재 디렉터리 아래에 gui 에디터 (메모장) 열기 GUI를 제공하지 않는 터미널 환경에서는 사용 불가능 하다 - 이럴 때 사용되는 편집기가 vi이다. 모드형과 비모드형 편집기 모드형 • 입력 모드와 명령 모드가 구분 • 입력 모드 : 텍스트를 입력할 수 있는 모드 • 명령 모드 : 텍스트를 수정하고, 삭제하고, 복사와 붙이기 등 편집을 하는 모드 • 같은 글자라도 입력 모드에서는 텍스트로 처리하여 입력되고, 명령 모드에서는 텍스트로 입력되는 것이 아니라 편집 명령으로 사용 • vi는 모드형 편집기 비모드형 • 입력 모드와 명령 모..

빅데이터 관리/리눅스

리눅스 기초

특징 공개 소프트웨어이며 무료로 사용할 수 있음 유닉스와의 완벽한 호환성을 유지 서버용 운영체제로 많이 사용 편리한 GUI 환경을 제공 구조 커널 리눅스의 핵심 프로세스/메모리/파일시스템/장치관리 컴퓨터의 모든 자원 초기화 및 제어 기능 셀 사용자 인터페이스 명령해석 프로그래밍기능 배시 셸을 기본으로 사용 응용 프로그램 각종 프로그래밍 개발 도구 문서 편집 도구 네트워크 관련 도구 등 리눅스 명령 사용법 노란색 동그라미 쳐진 검색 버튼을 클릭해서 terminal검색 명령어들은 사실 각 기능별로 c로 짜여진 함수 같은 개념이라 생각하면 된다, 리눅스 명령어는 쉘 기반이기 때문에 terminal에서 입력해주어야 한다. pwd : 현재 위치 상위 디렉터리로 이동하기 : cd.. 디렉터리 내 폴더, 파일 보기 ..

빅데이터 관리/리눅스

윈도우 리눅스 설치

빅데이터 처리를 위해서 하둡이나 pig 등등 우리가 필요로 하는 환경이 4개이다. 이를 해결하기 위해 완전 분산으로 4개의 리눅스 환경을 준비하는 방법이 있는데, 너무 오랜 시간이 걸리기 때문에 연습용으로는 추천하지 않는다.(실제로는 이걸 사용) 의사 분산 모드는 물리적으로는 한대이지만 마치 여러 대인 것처럼 만드는 방법으로 연습용으로 사용하기 적절하다. 의사 분산 모드로 환경을 만들기 위해서 위 이미지 파일을 기준으로 실습을 진행하는 글을 정리하겠습니다. 관련 파일을 저도 받은 자료다 보니 공유할 수 없는 글임을 미리 알립니다. 윈도우 리눅스 설치 VirtualBox 설치 경로 : www.virtualbox.org/ 다운로드하여준 후 exe 파일을 실행시켜 기본설정대로 next를 눌러 설치한다. 정상 ..

잘잔디
'빅데이터 관리' 카테고리의 글 목록 (2 Page)