파이썬/Pandas

파이썬/Pandas

6. Pandas 추가 메서드 - 3

DataFrame merge() SQL과 비슷한 부분이 많음. merge함수는 key를 기준으로 두 데이터 프레임의 공통 column 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이때 기준이 되는 column, row의 데이터를 key라고 한다. df1 = pd.DataFrame({ '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007], '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희'] }, columns=['고객번호', '이름']) df1 고객번호 이름 0 1001 둘리 1 1002 도우너 2 1003 또치 3 1004 길동 4 1005 희동 5 1006 마이콜 6 1007 영희 df2 = pd.DataFrame({ '..

파이썬/Pandas

5.Pandas 추가 메서드 - 2

DataFrame fillna() 메서드 fillna() 메서드는 NaN값을 원하는 값으로 바꿀 수 있다. 첫 인자로 변경하고자 하는 값을 전달하면 된다. value값으로 column label을 key로 갖는 딕셔너리를 전달하여 column마다 NaN을 대치하는 값을 각각 설정가능. limit 키워드 인자에 숫자를 전달하여 그 숫자만큼 column마다 변경 횟수를 제한할 수 있다. DataFrame을 value로 전달해서 NaN값을 대체할 수 있습니다. 다만 column label과 row index가 일치하지 않으면 적용되지 않는다. # np.nan 으로 NaN값 만들 수 있음. df = pd.DataFrame([[np.nan,2,np.nan,0], [3,4,np.nan,1], [np.nan,np.n..

파이썬/Pandas

4.Pandas 추가 메서드 - 1

Series 데이터 개수 세기 count() 메서드 = 개수를 세주는데~ NaN 값은 세지 않는다. 누락된 부분(NaN)을 찾을 때 유용하다. DataFrame에 count()메서드를 사용하면 각 열마다 데이터 개수를 세고, Series로 반환한다. s = pd.Series(range(10)) s[3] = np.nan print('count : ',s.count(),'\\nlen : ',len(s),end ='\\n\\n') # len은 길이만. s 데이터 시각화 수업에 배울 seaborn 패키지에 titanic호의 승객 데이터도 있다. 아래 예제처럼 DataFrame으로 읽어올 수 있다. import seaborn as sns titanic = sns.load_dataset('titanic') tita..

파이썬/Pandas

3.Pandas - DataFrame - 2

DataFrame 고급 인덱싱 Pandas에서 2차원 인덱싱을 지원을 하기 위한 추가적인 인덱서 속성 loc = label 값 기반의 2차원 인덱싱 중 row에 대한 Series 추출에 사용 row인덱싱 값은 정수 또는 row index 데이터이고, column 인덱싱 값은 label 문자열이다. loc인덱서의 인덱싱 값은 다음 중 하나이다. index 데이터 index 데이터 슬라이스 index 데이터 리스트 같은 row인덱스를 가지는 boolean Series 또는 위의 값들을 반환하는 함수 loc 인덱서는 column에 대한 label 인덱싱이나 label 리스트 인 덱시은 불가능하다 iloc = 순서를 나타내는 정수 기반의 2차원 인덱싱. column label 인덱싱이나 슬라이싱으로 사용할 경우..

파이썬/Pandas

2.Pandas - DataFrame - 1

DataFrame 2차원 array에 index값을 붙인 형태와 비슷하다. 행 index 뿐만 아니라 열 index도 따로 지정이 가능하다. 데이터프레임은 전치(transpose)를 포함하여 2차원 array가 가지는 대부분의 속성이나 메서드를 지원한다. 산술연산은 row와 column 모두 적용된다. series 객체를 갖는 dictionary라고 이해해도 된다. DataFame 생성 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다. 각각의 열에 대한 이름(label)을 키로 가지는 dictionary를 만든다 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열 방향 index는 columns 인수로 행방향 index는 index인수로 지정한다. data = { "빨강": ['..

파이썬/Pandas

1. Pandas Series

Pandas = Panel Datas = Series나 table 형태로 데이터를 나타낼 수 있다. 이러한 데이터를 다루기 위한 클래스를 제공하는 패키지 Series class = NumPy에서 제공하는 1차원 배열과 그 모양이 비슷하다. 하지만 배열과 다르게 index를 추가하여 index와 value를 가지는 배열을 말한다. Series 객체 생성시 첫 인수로 data, 두 번째 인수로 idnex를 넣는다. data값으로 iterable,배열,scalar value, dict(key와 index를 동일하게 사용하거나 생략)를 사용할 수 있다. index는 data와 length가 동일해야한다. label 이 꼭 유일(unique)할 필요는 없다. index는 hashable 한 type만 올 수 있다..

잘잔디
'파이썬/Pandas' 카테고리의 글 목록