목록IT (35)
Susan and Data

원핫인코딩 [원핫인코딩] - scikit-learn의 머신러닝 알고리즘은 입력값으로 문자열을 받는 것을 허락하지 않음. - 이를 위한 전처리 방법이 원핫인코딩 - 고유값에 해당하는 컬럼에만 1, 나머지 컬럼에는 0 [함수] 1. select_dtyps: 열에 포함된 데이터들을 type 기준으로 인덱싱 * include=None, exclude=None 2. map: 각 요소에 특정한 함수를 적용시킬 때 사용하는 함수(단일컬럼) 3. pd.get_dummies: 더미로 가변수화 * 수치형 데이터로만 변환을 하게 되면 서로 간의 관계성이 생성되어(ex. B형과 AB형은 0형이다.) 잘못된 학습일 일어날 수 있으므로 0과1이라는 False, True값을 넣어줌으로서 문제를 막아줌. 4. prefix: 공통된 ..

데이터프레임 연산 Q. 아래의 내용으로 데이터프레임 생성 '통계':[60,70,80,85,75], '미술':[50,55,80,100,95], '체육':[70,65,50,95,100] Q. 통계+미술+체육의 합계 Q. '합계' 컬럼 생성 후 통계+미술+체육 합계 데이터 추가 Q. '평균' 컬럼 생성 후 합계/3으로 계산한 데이터 추가

apply, lambda, map [DataFrame 인덱싱] 방법 내용 df[] df['column'] 해당 컬럼 인덱싱 df['column', 'column'] 해당 리스트의 컬럼 인덱싱 df['row':'row'] 첫번째 지정한 row부터 마지막으로 지정한 row까지 인덱싱 df.loc[] df.loc[:, 'column'] 모든 row의 해당 컬럼 인덱싱 df.loc[:, ['column', 'column']] 모든 row의 해당 리스트의 컬럼 인덱싱 df.loc[:, 'column':'column'] 모든 row의 첫번째 지정한 column부터 마지막으로 지정한 column까지 인덱싱 df.iloc[] df.iloc[인덱스값] 지정한 인덱스 값에 해당하는 row 및 column 인덱싱 df.il..

데이터 타입 변경 [함수] 1. df.info: 열 타입 및 결측값 갯수 확인 가능 2. dtypes: 생성한 데이터프레임의 각 열의 데이터 타입을 한 번에 확인 가능 3. dtype: 컬럼을 지정하여 데이터 타입 확인 가능 4. astype: 열의 요소의 dtype 변경 5. mode: 가장 빈번하게 측정되는 값 6. fillna: 데이터프레임에서 결측값을 원하는 값으로 변경 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) 7. to_datetime: datetime 타입으로 변경 [dt 연산자] dt 연산자 내용 dt.year 연도 추출 dt.month 월 추출 dt.day 일 추출 dt.hour 시간 추출 dt.minute 분 ..

concat & merge [함수] 1. df.copy: 데이터 복사 2. pd.concat: 데이터프레임 합치기 * 열: axis=1 3. pd.merge: 데이터프레임을 설정한 기준대로 합치는 것(어떤 column을 기준으로 하는 지 등) 4. reset_index: 설정 인덱스를 제거하고 기본 인덱스로 변경 5. df.drop: 열 삭제 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) Q. row 기준으로 데이터 합친 후 index 재정의 Q. column 기준으로 데이터 합치기 Q. 결측값이 있는 데이터 합치기(merge 사용) Q. 정렬 순서가 다른 2개의 데이터프레임을 '이름'을 기준으로 합치고, 정렬기준은 df로 지정 Q..

결측값 [함수] 1. df.info: 열 타입 및 결측값 갯수 확인 가능 2. mode: 가장 빈번하게 측정되는 값 3. fillna: 데이터프레임에서 결측값을 원하는 값으로 변경 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) 4. dropna: 데이터프레임 내 결측값이 포함된 레이블을 제거 * axis: {0:index / 1:columns} / how: {'any': 결측치가 존재하면 제거 / 'all': 모두 결측치면 제거} 5. reset_index: 설정 인덱스를 제거하고 기본 인덱스로 변경 6. df.drop: 열 삭제 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경..

2021년 상반기 지역별 배달음식 평균주문금액 [함수] 1. df.copy: 데이터 복사 2. df.info: 열 타입 및 결측값 갯수 확인 가능 3. df.drop: 열 삭제 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) 4. min: 최소값을 찾아 리턴 5. max: 최대값을 찾아 리턴 6. sum: 요소들의 합을 리턴 7. mean: 자료의 합을 자료의 갯수로 나눈 값 8. median: 자료를 크기 순으로 정렬했을 때 정 가운데에 있는 값 9. mode: 가장 빈번하게 측정되는 값 10. groupby: 같은 값을 하나로 묶어 통계 또는 집계 결과를 얻기 위해 사용 11. reset_index: 설정 인덱스를 제거하고 기본 ..

2021년 상반기 지역별 배달음식 평균주문금액 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 [함수] 1. pd.read_csv: 판다스 라이브러리 호출 후 csv 파일 불러오기 2. isin: 컬럼이 list의 값을 포함하고 있는지 검사 3. df.info: 열 타입 및 결측값 갯수 확인 가능 4. df.isna: 결측치 유무 확인 가능 5. isnull: 결측치 행 확인 6. notnull: 결측치가 아닌 행 확인 [DataFrame 인덱싱] 방법 내용 df[] df['column'] 해당 컬럼 인덱싱 df['column', 'column'] 해당 리스트의 컬럼 인덱싱 df['row':'row'] 첫번째 지정한 ..

2021년 상반기 지역별 배달음식 평균주문금액 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 [함수] 1. pd.read_csv: 판다스 라이브러리 호출 후 csv 파일 불러오기 2. df.info: 열 타입 및 결측값 갯수 확인 가능 3. df.describe: 통계량을 요약하여 출력 4. df.head: 데이터의 상단부분 출력 5. df.tail: 데이터의 하단부분 출력 6. df.sort_index: index를 기준으로 오름차순 정렬 7. df.sort_index(ascending=False): index를 기준으로 내림차순 정렬 8. df.sort_values(by='정렬할 컬럼'): 특정 컬럼을 기준으로 ..

데이터프레임 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 Q. 아래의 내용을 list로 만든 후 데이터프레임에 저장 ['1호선', '서울역', 17896, 15468] ['2호선', '강남역', 22794, 21657] ['3호선', '신사역', 24131, 25592] Q. 아래의 내용으로 컬럼명 변경 ['지하철노선', '역명', '승차총승객수', '하차총승객수'] Q. 아래의 내용을 list로 만든 후 데이터프레임에 저장하고, 컬럼명 변경 list: ['1호선', '서울역', 17896, 15468], ['2호선', '강남역', 22794, 21657], ['3호선', '신사역', 24131, 25592] co..