전체 글
-
<TIL> 2024-01-23내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 23. 21:19
오늘 진행한 일 스파르타 제공 기초 통계학 강의 수강 완료 통계학 강의 내용 복습 및 블로그 작성 오늘은 스파르타에서 제공해준 통계학 기초 강의를 수강 완료했다. 몇 학점 이상은 들어야 배울 수 있는 통계학적 내용에 대해서 5시간이라는 짧은 시간 내에 담아내는 것은 사실 무리가 아니었나 생각이 들었다. 팀프로젝트를 같이 진행하게 될 조원들도 강의 내용에 대해서 상당히 난감해하는 것이 느껴졌다. 어제는 가설 검정에서 배운 내용을 블로그에 정리하였고 정리한 내용에 이어서 오늘 마저 가설 검정에 대해서 정리하였다. 그리고 오늘 배운 통계 검정 방법에 대해서 블로그를 작성하였다. 내일부터는 제공된 데이터 시각화 강의를 수강할 예정인데, 시각화 부분은 추후에 블로그에 남기더라도 통계에 관한 부분을 좀 더 꼼꼼히 ..
-
<통계학> t검정(t-test) - 1데이터 분석 관련 공부 2024. 1. 23. 20:57
t검정이란 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설검정이다. 어느 특정한 집단의 평균의 값을 추정하거나 두 집단의 평균 차이를 검정할 때 사용할 수 있다. t분포란? t분포는 표준 정규분포처럼 0을 중심으로한 종 형태의 대칭 분포인데, 그 꼬리가 표준정규분포보다 두껍다.t분포는 자유도에 따라서 모습이 변하는데 표본의 크기가 많아질수록 점점 정규분포에 근사한다. t분포는 정규분포인 모집단의 평균을 추정해야하는데 표본의 크기가 작고 모집단의 분산을 알 수 없을 때 이용한다. 위는 자유도와 유의수준에 따른 t값을 나타낸 t분포표이다. 단측 검정일 땐 유의수준과 자유도에 해당하는 값을 찾으면되고 양측 검정인 경우에는 유의 수준을 절반으로 나누어서 음수와 양수에 해당하는 t값을 찾으면된다. t..
-
<통계학> 통계적 가설 검정 -2 (신뢰수준, 1종 오류, 2종 오류)데이터 분석 관련 공부 2024. 1. 23. 14:13
귀무가설, 대립가설, 유의확률 및 유의수준에서 이어지는 내용이다. 앞서의 내용은 https://jinhyunbae.tistory.com/126 링크를 참조 통계적 가설 검정 -1 (귀무가설, 대립가설, p-value) 통계적 가설검정(statistical hypothesis)이란 통계적 추론의 하나로 모집단의 실제 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성의 여부를 판정하는 과정을 의미한다(이 jinhyunbae.tistory.com 신뢰 수준과 신뢰 구간 신뢰수준 (Confidence Level) 일반적으로 p-value가 연구를 시작할 때 세운 기준 수치보다 작으면 귀무가설이 틀렸다고 판단하여 기각하게 되는데 이러한 기준이 되는 수치를 신뢰 수준 혹은 신뢰도라고 한다. ..
-
<TIL> 2024-01-22내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 22. 23:13
오늘 진행한 일 기초 통계학 강의 수강 통계학 강의 내용 복습 및 블로그 작성 오늘은 스파르타에서 제공해준 통계학 기초 강의를 수강하였다. 통계는 학부, 대학원 통틀어서 9학점 정도 강의를 수강했다. 그런데 아무래도 내가 통계학과 출신이 아니라서 그런 거겠지만 항상 기초 개념들이 어렴풋이 다 생각은 나는데 구체적인 개념 정의를 정확하게 설명할 수준은 못되는 거 같다. 그래서 복습한다는 생각으로 차근차근 공부를 시작했다. 스파르타에서 제공해주는 강의는 대체로 짧은 시간 내에 많은 내용을 함축해야하다보니 생략된 부분이 참 많다. 그래서 강의를 기반으로해서 구체적으로 내가 파고들어서 다시 공부를 해야했다. 오늘은 통계의 기초적인 정리와 가설 검정에 대해서 공부했고 부족한 부분들 레퍼런스 찾아가며 블로그에 정리..
-
<통계학> 통계적 가설 검정 -1 (귀무가설, 대립가설, p-value)데이터 분석 관련 공부 2024. 1. 22. 22:48
통계적 가설검정(statistical hypothesis)이란 통계적 추론의 하나로 모집단의 실제 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성의 여부를 판정하는 과정을 의미한다(이군희, 사회과학연구방법론 법문사 2001 p367). 간단히 가설 검정 혹은 가설 검증이라고 부른다. 통계적 가설이란 특정한 주장을 모수를 이용해 나타낸 형태를 지칭한다. ex) 한국 성인 남자 평균 신장은 172cm이다. 통계적 가설의 구분 이러한 통계적 가설은 귀무가설과 대립가설 두 가지로 나뉜다. 귀무 가설(영가설, Null hypothesis) 귀무가설이란 기존의 통념, 일반적인 개념으로 차이가 없거나 의미가 없는 경우의 가설로 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설이..
-
<통계학> 큰 수의 법칙, 중심극한정리데이터 분석 관련 공부 2024. 1. 22. 21:56
큰 수의 법칙(대수의 법칙, Law of Large Numbers)이란 큰 수의 법칙은 기댓값에서 어떠한 확률을 가진 사건을 무한히 실행하면 그 사건의 결과는 평균에 수렴하는 현상을 말함 따라서 표본 집단의 크기가 커지면 커질수록 그 표본 평균이 모집단의 평균과 가까워진다 여기서 무한히 반복하는 것은 복원추출을 기반으로 하며 각 사건은 동일해야한다. 그렇다면 표본의 수가 무한히 크다면 이 표본들의 평균이 보여주는 확률 분포는 어떻게 될 것인가? 이를 다루는 것이 바로 중심 극한 정리이다. 중심극한정리(Central Limit Theorem, CLT)란 평균 μ , 표준편차 σ를 가지는 모집단 분포에서 iid 한 표본을 충분히 많이 추출한다면, 표본 평균은 정규분포에 근사하게 된다. 중심극한정리가 성립되는..
-
<WIL> 2024년 1월 3주차 회고내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 19. 23:56
이번 주차는 프로젝트로 인해서 눈코 뜰 새 없이 바쁘게 흘러간 한 주였다. 지난 주 부터 시작된 프로젝트 였고 열심히 찾은 데이터를 DB에 적재하고 적당히 EDA만 해놨었는데 이번 주는 그렇게 찾은 데이터를 정제하고 분석을 위한 쿼리를 짜고 짠 쿼리를 Python과 연동하여 시각화하고 시각화한 자료를 통해 PPT를 만들어 발표까지 진행했다. 열심히 한 EDA 덕에 적절한 분석을 통해 마케팅 전략까지 세우는 프로세스를 해볼 수 있었고 오랜만에 남들 앞에서 발표하는 경험 또한 해볼 수 있었다. 발표는 튜터님께 좋은 평가를 받았고 개인적으로도 이번 과제는 상당히 만족할 수 있었다. 화기애애한 팀 분위기 속에서 모두가 열심히 참여해서 으쌰으쌰하면서 프로젝트를 진행했기 때문에 더 좋았던 것 같다. 팀 내의 누구보..
-
<TIL> 2024-01-19내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 1. 19. 23:56
오늘 진행한 일 기초 통계학 강의 수강 팀 프로젝트 내용 블로그 작성 기초 통계학 및 데이터 시각화 주차가 오늘부터 진행되었고 스파르타를 통해 지급받은 기초 통계학 강의를 수강하기 시작하였다. 통계학은 학부, 대학원을 통틀어 3번이나 강의를 수강했었다. 잘 아는 내용을 복습하는 느낌으로 들으려고 강의를 듣기 시작했는데 마케팅의 관점에서 통계를 다루는 것은 익숙하지 않구나를 강의를 들으면서 느낄 수 있었다. 연구를 위해 수집된 데이터가 아닌 실무에서 발생한 데이터를 정제하고 고민해서 통계를 낸 뒤 다시 이를 실무에 적용하는 프로세스는 상당히 낯선 것으로 다가왔다. 다음주부터는 남은 통계학 강의를 잘 수강해서 실무 관점에서 통계를 다루는 법을 잘 익혀보고자 한다. 기초 프로젝트를 마무리하고 아직까지 내용이 ..