목록IT (20)
Susan and Data

원핫인코딩 [원핫인코딩] - scikit-learn의 머신러닝 알고리즘은 입력값으로 문자열을 받는 것을 허락하지 않음. - 이를 위한 전처리 방법이 원핫인코딩 - 고유값에 해당하는 컬럼에만 1, 나머지 컬럼에는 0 [함수] 1. select_dtyps: 열에 포함된 데이터들을 type 기준으로 인덱싱 * include=None, exclude=None 2. map: 각 요소에 특정한 함수를 적용시킬 때 사용하는 함수(단일컬럼) 3. pd.get_dummies: 더미로 가변수화 * 수치형 데이터로만 변환을 하게 되면 서로 간의 관계성이 생성되어(ex. B형과 AB형은 0형이다.) 잘못된 학습일 일어날 수 있으므로 0과1이라는 False, True값을 넣어줌으로서 문제를 막아줌. 4. prefix: 공통된 ..

데이터프레임 연산 Q. 아래의 내용으로 데이터프레임 생성 '통계':[60,70,80,85,75], '미술':[50,55,80,100,95], '체육':[70,65,50,95,100] Q. 통계+미술+체육의 합계 Q. '합계' 컬럼 생성 후 통계+미술+체육 합계 데이터 추가 Q. '평균' 컬럼 생성 후 합계/3으로 계산한 데이터 추가

데이터 타입 변경 [함수] 1. df.info: 열 타입 및 결측값 갯수 확인 가능 2. dtypes: 생성한 데이터프레임의 각 열의 데이터 타입을 한 번에 확인 가능 3. dtype: 컬럼을 지정하여 데이터 타입 확인 가능 4. astype: 열의 요소의 dtype 변경 5. mode: 가장 빈번하게 측정되는 값 6. fillna: 데이터프레임에서 결측값을 원하는 값으로 변경 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) 7. to_datetime: datetime 타입으로 변경 [dt 연산자] dt 연산자 내용 dt.year 연도 추출 dt.month 월 추출 dt.day 일 추출 dt.hour 시간 추출 dt.minute 분 ..

concat & merge [함수] 1. df.copy: 데이터 복사 2. pd.concat: 데이터프레임 합치기 * 열: axis=1 3. pd.merge: 데이터프레임을 설정한 기준대로 합치는 것(어떤 column을 기준으로 하는 지 등) 4. reset_index: 설정 인덱스를 제거하고 기본 인덱스로 변경 5. df.drop: 열 삭제 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) Q. row 기준으로 데이터 합친 후 index 재정의 Q. column 기준으로 데이터 합치기 Q. 결측값이 있는 데이터 합치기(merge 사용) Q. 정렬 순서가 다른 2개의 데이터프레임을 '이름'을 기준으로 합치고, 정렬기준은 df로 지정 Q..

결측값 [함수] 1. df.info: 열 타입 및 결측값 갯수 확인 가능 2. mode: 가장 빈번하게 측정되는 값 3. fillna: 데이터프레임에서 결측값을 원하는 값으로 변경 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) 4. dropna: 데이터프레임 내 결측값이 포함된 레이블을 제거 * axis: {0:index / 1:columns} / how: {'any': 결측치가 존재하면 제거 / 'all': 모두 결측치면 제거} 5. reset_index: 설정 인덱스를 제거하고 기본 인덱스로 변경 6. df.drop: 열 삭제 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경..

2021년 상반기 지역별 배달음식 평균주문금액 [함수] 1. df.copy: 데이터 복사 2. df.info: 열 타입 및 결측값 갯수 확인 가능 3. df.drop: 열 삭제 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) 4. min: 최소값을 찾아 리턴 5. max: 최대값을 찾아 리턴 6. sum: 요소들의 합을 리턴 7. mean: 자료의 합을 자료의 갯수로 나눈 값 8. median: 자료를 크기 순으로 정렬했을 때 정 가운데에 있는 값 9. mode: 가장 빈번하게 측정되는 값 10. groupby: 같은 값을 하나로 묶어 통계 또는 집계 결과를 얻기 위해 사용 11. reset_index: 설정 인덱스를 제거하고 기본 ..

2021년 상반기 지역별 배달음식 평균주문금액 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 [함수] 1. pd.read_csv: 판다스 라이브러리 호출 후 csv 파일 불러오기 2. isin: 컬럼이 list의 값을 포함하고 있는지 검사 3. df.info: 열 타입 및 결측값 갯수 확인 가능 4. df.isna: 결측치 유무 확인 가능 5. isnull: 결측치 행 확인 6. notnull: 결측치가 아닌 행 확인 [DataFrame 인덱싱] 방법 내용 df[] df['column'] 해당 컬럼 인덱싱 df['column', 'column'] 해당 리스트의 컬럼 인덱싱 df['row':'row'] 첫번째 지정한 ..

2021년 상반기 지역별 배달음식 평균주문금액 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 [함수] 1. pd.read_csv: 판다스 라이브러리 호출 후 csv 파일 불러오기 2. df.info: 열 타입 및 결측값 갯수 확인 가능 3. df.describe: 통계량을 요약하여 출력 4. df.head: 데이터의 상단부분 출력 5. df.tail: 데이터의 하단부분 출력 6. df.sort_index: index를 기준으로 오름차순 정렬 7. df.sort_index(ascending=False): index를 기준으로 내림차순 정렬 8. df.sort_values(by='정렬할 컬럼'): 특정 컬럼을 기준으로 ..

구구단 Q. 2 X 1 = 2 출력 Q. 구구단 2단 출력 Q. 구구단 함수 생성 Q. 각 단마다 구구단 생성 2 X 1 = 2 3 X 1 = 3 4 X 1 = 4 2 X 2 = 4 3 X 2 = 6 4 X 2 = 8 ...... 2 X 9 = 18 3 X 9 = 18 4 X 9 = 36 (공백) 5 X 1 = 5 6 X 1 = 6 7 X 1 = 7 ...... 5 X 9 = 45 6 X 9 = 54 8 X 9 = 72 (공백) 8 X 1 = 8 9 X 1 = 9 ...... 8 X 9 = 72 9 X 9 = 81