목록파이썬 (26)
Susan and Data

원핫인코딩 [원핫인코딩] - scikit-learn의 머신러닝 알고리즘은 입력값으로 문자열을 받는 것을 허락하지 않음. - 이를 위한 전처리 방법이 원핫인코딩 - 고유값에 해당하는 컬럼에만 1, 나머지 컬럼에는 0 [함수] 1. select_dtyps: 열에 포함된 데이터들을 type 기준으로 인덱싱 * include=None, exclude=None 2. map: 각 요소에 특정한 함수를 적용시킬 때 사용하는 함수(단일컬럼) 3. pd.get_dummies: 더미로 가변수화 * 수치형 데이터로만 변환을 하게 되면 서로 간의 관계성이 생성되어(ex. B형과 AB형은 0형이다.) 잘못된 학습일 일어날 수 있으므로 0과1이라는 False, True값을 넣어줌으로서 문제를 막아줌. 4. prefix: 공통된 ..

데이터프레임 연산 Q. 아래의 내용으로 데이터프레임 생성 '통계':[60,70,80,85,75], '미술':[50,55,80,100,95], '체육':[70,65,50,95,100] Q. 통계+미술+체육의 합계 Q. '합계' 컬럼 생성 후 통계+미술+체육 합계 데이터 추가 Q. '평균' 컬럼 생성 후 합계/3으로 계산한 데이터 추가

apply, lambda, map [DataFrame 인덱싱] 방법 내용 df[] df['column'] 해당 컬럼 인덱싱 df['column', 'column'] 해당 리스트의 컬럼 인덱싱 df['row':'row'] 첫번째 지정한 row부터 마지막으로 지정한 row까지 인덱싱 df.loc[] df.loc[:, 'column'] 모든 row의 해당 컬럼 인덱싱 df.loc[:, ['column', 'column']] 모든 row의 해당 리스트의 컬럼 인덱싱 df.loc[:, 'column':'column'] 모든 row의 첫번째 지정한 column부터 마지막으로 지정한 column까지 인덱싱 df.iloc[] df.iloc[인덱스값] 지정한 인덱스 값에 해당하는 row 및 column 인덱싱 df.il..

데이터 타입 변경 [함수] 1. df.info: 열 타입 및 결측값 갯수 확인 가능 2. dtypes: 생성한 데이터프레임의 각 열의 데이터 타입을 한 번에 확인 가능 3. dtype: 컬럼을 지정하여 데이터 타입 확인 가능 4. astype: 열의 요소의 dtype 변경 5. mode: 가장 빈번하게 측정되는 값 6. fillna: 데이터프레임에서 결측값을 원하는 값으로 변경 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) 7. to_datetime: datetime 타입으로 변경 [dt 연산자] dt 연산자 내용 dt.year 연도 추출 dt.month 월 추출 dt.day 일 추출 dt.hour 시간 추출 dt.minute 분 ..

concat & merge [함수] 1. df.copy: 데이터 복사 2. pd.concat: 데이터프레임 합치기 * 열: axis=1 3. pd.merge: 데이터프레임을 설정한 기준대로 합치는 것(어떤 column을 기준으로 하는 지 등) 4. reset_index: 설정 인덱스를 제거하고 기본 인덱스로 변경 5. df.drop: 열 삭제 * axis: {0:index / 1:columns} / inplace: 원본 변경 여부(True일 경우, 원본 변경) Q. row 기준으로 데이터 합친 후 index 재정의 Q. column 기준으로 데이터 합치기 Q. 결측값이 있는 데이터 합치기(merge 사용) Q. 정렬 순서가 다른 2개의 데이터프레임을 '이름'을 기준으로 합치고, 정렬기준은 df로 지정 Q..

2021년 상반기 지역별 배달음식 평균주문금액 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 [함수] 1. pd.read_csv: 판다스 라이브러리 호출 후 csv 파일 불러오기 2. isin: 컬럼이 list의 값을 포함하고 있는지 검사 3. df.info: 열 타입 및 결측값 갯수 확인 가능 4. df.isna: 결측치 유무 확인 가능 5. isnull: 결측치 행 확인 6. notnull: 결측치가 아닌 행 확인 [DataFrame 인덱싱] 방법 내용 df[] df['column'] 해당 컬럼 인덱싱 df['column', 'column'] 해당 리스트의 컬럼 인덱싱 df['row':'row'] 첫번째 지정한 ..

2021년 상반기 지역별 배달음식 평균주문금액 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 [함수] 1. pd.read_csv: 판다스 라이브러리 호출 후 csv 파일 불러오기 2. df.info: 열 타입 및 결측값 갯수 확인 가능 3. df.describe: 통계량을 요약하여 출력 4. df.head: 데이터의 상단부분 출력 5. df.tail: 데이터의 하단부분 출력 6. df.sort_index: index를 기준으로 오름차순 정렬 7. df.sort_index(ascending=False): index를 기준으로 내림차순 정렬 8. df.sort_values(by='정렬할 컬럼'): 특정 컬럼을 기준으로 ..

데이터프레임 [데이터사이언스 라이브러리] 1. import pandas as pd: 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 라이브러리 Q. 아래의 내용을 list로 만든 후 데이터프레임에 저장 ['1호선', '서울역', 17896, 15468] ['2호선', '강남역', 22794, 21657] ['3호선', '신사역', 24131, 25592] Q. 아래의 내용으로 컬럼명 변경 ['지하철노선', '역명', '승차총승객수', '하차총승객수'] Q. 아래의 내용을 list로 만든 후 데이터프레임에 저장하고, 컬럼명 변경 list: ['1호선', '서울역', 17896, 15468], ['2호선', '강남역', 22794, 21657], ['3호선', '신사역', 24131, 25592] co..

카페 주문 프로그램 [모듈] 1. time: 운영 체제가 제공하는 다양한 시간 기능을 다루는 모듈 [함수] 1. time.sleep: 입력한 초만큼 프로그램 일시정지 2. items: 딕셔너리에 있는 키와 값들의 쌍을 얻을 수 있음. Q. 카페에서 주문을 받고, 음료를 제공한 후 log를 남겨라. 카페 메뉴 1. 아메리카노(음료 만드는 시간: 1초) 2. 라떼(음료 만드는 시간: 2초) 3. 바닐라라떼(음료 만드는 시간: 3초) 4. 녹차라떼(음료 만드는 시간: 3초) 5. 콜드브루(음료 만드는 시간: 1초) 코드를 작성할 때 함수를 사용하는 것이 쉽지 않았다. 하드코딩은 유지보수를 어렵게 만들기 때문에 그 점을 어떻게 개선해나가야 할지 고민을 많이 했다. (1) 카페 프로그램 사용 시 추후 자주 변경 ..

클래스 [클래스] 1. 클래스: 객체를 표현하기 위한 문법(ex. 게임을 만든다고 하면 기사, 마법사, 궁수, 사제 등 직업별로 클래스를 만들어서 표현 가능) [함수] 1. __init__: 초기화를 위한 함수(반드시 첫 번째 인수로 self를 지정해야 함.) [할당연산자] 할당연산자 내용 = 왼쪽 변수에 오른쪽 값을 할당 += 왼쪽 변수에 오른쪽 값을 더하고, 그 결과를 왼쪽 변수에 할당 -= 왼쪽 변수에 오른쪽 값을 빼고, 그 결과를 왼쪽 변수에 할당 *= 왼쪽 변수에 오른쪽 값을 곱하고, 그 결과를 왼쪽 변수에 할당 /= 왼쪽 변수에 오른쪽 값을 나누고, 그 결과를 왼쪽 변수에 할당 %= 왼쪽 변수에 오른쪽 값을 나눈 후 그 나머지를 왼쪽 변수에 할당 //= 왼쪽 변수에 오른쪽 값을 나눈 후 그 몫..