AI 모델링 기초
·
자격증/AICE
출처 : 더에이아이랩 AICE Associate특강, Chat GPT scikit-learn을 이용한 학습 데이터 분할 train_test_split 함수사용자가 전체 데이터를 직접 나누면 번거롭고, 학습에 적합하도록 분배하기도 어려움scikit-learn의 train_test_split 함수를 활용하면 쉽게 데이터 분할 가능 from sklearn.model_selection import train_test_splitx_train, x_valid, y_train, y_valid = train_test_split(data, target, test_size=None,train_size=None, random_state=None, shuffle=True, stratify=None)test_size : 전..
데이터 전처리 기초
·
자격증/AICE
출처 : 더에이아이랩 AICE Associate특강, Chat GPT pandas에서 axis 의미axis 값방향설명axis=0세로 방향행 기준으로 연산, 즉 열(column) 단위 합계axis=1가로 방향열 기준으로 연산, 즉 행(row) 단위 합계 결측치 처리 결측치데이터가 빠져 있는 값파이썬에서는 결측치를 ‘NaN’으로 표기 결측치 확인info() 메서드로 인덱스 범위(RangeIndex), 컬럼별 non-null 수 확인RangeIndex 정보의 entries 수와 컬럼 정보의 컬럼별 non-null 수를 비교해보면 결측치 존재 여부 확인 가능 결측치 수 확인isnull() : 값이 null이면 True, null이 아니면 False 반환isnull().sum(axis=0) : 데이터프..
데이터 수집 및 분석 기초
·
자격증/AICE
출처 : 더에이아이랩 AICE Associate특강 import문import pandas as pdimport sklearn as skPandas를 별칭 pd로 불러오기scikit-learn을 별칭 sk로 임포트하기 데이터 불러오기 데이터 불러오기df = pd.read_csv('데이터 경로', encoding, ...) 데이터 저장하기df.to_csv('저장할 경로') 교차표(Crosstab) 확인pd.crosstab(index=인덱스, columns=컬럼) arrival_timeAfternoonNight…Bangalore699214338 Delhi800712007 데이터 살펴보기 데이터 살펴보기df = pd.read_csv('../data/hotel_bookings.csv', encodi..