Logistic Regression독립변수의의 선형 결합을 이용하여 사건의 발생 가능성을 예측할 때 사용되는 통계기법 로지스틱 회귀의 목적은 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 독립변수의 선형 결합을 이용하여 사건의 발생가능성을 예측하는 통계적 기법을 활용한것(일어날 확률/일어나지 않을 확률) 결과적으로 로지스틱 회귀의 y값은 0~1 사이의 확률값이 된다. 종속변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 classification 기법으로 볼 수 있다. logistic regression 은 데이터가 두 집단(0또는 1)로 나뉘어져 있는 경우에 사용된다. Python Logi..
T-Test 란 T-Test (Two-Sample Test / Student's T Test) 란 두 집단의 평균을 비교하는 통계적 검정 방법이다단순히 차이의 존재 여부를 떠나 두 집단의 비교가 통계적으로 유의미한가 를 검정한다. 다른말로는, 이 두 모집단의 차이가 우연에 의해서인지 아닌지를 검정한다. Example 1 ) 감기에 걸렸을때 약을 먹었을때 치유되는 기간과 먹지 않았을때 자연적으로 치유되는 기간을 비교할 수 있다. 두가지 case 의 차이가 유의미한지 검정하기 위해서는 여러명의 사람에게 평균적으로 비슷한 기간이 걸리는지 테스트를 할 필요가 있다. (약을 먹었을때 평균 3일, 자연치유가 평균 5일이 걸렸을 시 이 결과가 repeatable 한가? 우연에 의해서 혹은 다른 요인에 의해 차이가 나..
one-hot-encoding몇 가지로 분류할 수 있는 데이터를 범주형 변수라고 한다. one hot encoding 범주를 column 으로 만들고, 각각해당하는 칸의 정보를 1로 표시하고 나머지를 0으로 표시하는 방법이다. 소스코드 df_one_hot_encoded = pd.get_dummies(titanic.embarked)titanic = pd.concat([titanic, df_one_hot_encoded], axis=1) 결과물get_dummies 로 one hot encoding 을 만들어줌 Titanic 에 추가 pandas - get_dummies Convert categorical variable into dummy/indicator variables pandas - concatconc..
value_counts어떤 값들이 있는지 대략적으로 보기. 종류와 개수를 새어준다. stud_alcoh1['Pstatus'].value_counts() s.str.contains(' string ')series 데이터에 .str 을 붙여 text data 를 변형할 수 있다. stud_alcoh1.famsize.str.contains('G') isin포함 한다면 True, 포함하지 않는다면 False mother_job = stud_alcoh1.loc[stud_alcoh1.Mjob.isin(['at_home', 'services']), ['Mjob','Fjob', 'reason']] df.aggnumpy.ptp 편차 구하기 chipo.groupby('order_id')['item_price'].agg(n..
1. Pandas (Python Data Analysis Library) - 파이썬을 사용한 데이터 분석에서 가장 선호되고, data munging/wrangling (데이터를 분석하기 위하여 데이터를 여러 형태로 변환하는것) 을 위하여 가장 널리 쓰이는 오픈소스 라이브러리이다. - 고유하게 정의한 자료구조 (Dataframe, Serise) 를 활용하여 빅데이터 분석에 있어 높은 수준의 퍼포먼스를 발휘하게 해준다. - 기존의 Excel 로 하던 모든 분석을 Pandas 를 사용하여 더 큰 스케일에 빠르고 효울적으로 적용할 수 있다. - Python 의 데이터타입인 Tuple, Dictionary, Array 만 사용하여 데이터 분석을 하기에는 어려운 점이 많기 때문에 Excel 과 비슷한 row 와 c..