데이터 분석 관련 공부
-
<통계학> t검정(t-test) - 1데이터 분석 관련 공부 2024. 1. 23. 20:57
t검정이란 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설검정이다. 어느 특정한 집단의 평균의 값을 추정하거나 두 집단의 평균 차이를 검정할 때 사용할 수 있다. t분포란? t분포는 표준 정규분포처럼 0을 중심으로한 종 형태의 대칭 분포인데, 그 꼬리가 표준정규분포보다 두껍다.t분포는 자유도에 따라서 모습이 변하는데 표본의 크기가 많아질수록 점점 정규분포에 근사한다. t분포는 정규분포인 모집단의 평균을 추정해야하는데 표본의 크기가 작고 모집단의 분산을 알 수 없을 때 이용한다. 위는 자유도와 유의수준에 따른 t값을 나타낸 t분포표이다. 단측 검정일 땐 유의수준과 자유도에 해당하는 값을 찾으면되고 양측 검정인 경우에는 유의 수준을 절반으로 나누어서 음수와 양수에 해당하는 t값을 찾으면된다. t..
-
<통계학> 통계적 가설 검정 -2 (신뢰수준, 1종 오류, 2종 오류)데이터 분석 관련 공부 2024. 1. 23. 14:13
귀무가설, 대립가설, 유의확률 및 유의수준에서 이어지는 내용이다. 앞서의 내용은 https://jinhyunbae.tistory.com/126 링크를 참조 통계적 가설 검정 -1 (귀무가설, 대립가설, p-value) 통계적 가설검정(statistical hypothesis)이란 통계적 추론의 하나로 모집단의 실제 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성의 여부를 판정하는 과정을 의미한다(이 jinhyunbae.tistory.com 신뢰 수준과 신뢰 구간 신뢰수준 (Confidence Level) 일반적으로 p-value가 연구를 시작할 때 세운 기준 수치보다 작으면 귀무가설이 틀렸다고 판단하여 기각하게 되는데 이러한 기준이 되는 수치를 신뢰 수준 혹은 신뢰도라고 한다. ..
-
<통계학> 통계적 가설 검정 -1 (귀무가설, 대립가설, p-value)데이터 분석 관련 공부 2024. 1. 22. 22:48
통계적 가설검정(statistical hypothesis)이란 통계적 추론의 하나로 모집단의 실제 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성의 여부를 판정하는 과정을 의미한다(이군희, 사회과학연구방법론 법문사 2001 p367). 간단히 가설 검정 혹은 가설 검증이라고 부른다. 통계적 가설이란 특정한 주장을 모수를 이용해 나타낸 형태를 지칭한다. ex) 한국 성인 남자 평균 신장은 172cm이다. 통계적 가설의 구분 이러한 통계적 가설은 귀무가설과 대립가설 두 가지로 나뉜다. 귀무 가설(영가설, Null hypothesis) 귀무가설이란 기존의 통념, 일반적인 개념으로 차이가 없거나 의미가 없는 경우의 가설로 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설이..
-
<통계학> 큰 수의 법칙, 중심극한정리데이터 분석 관련 공부 2024. 1. 22. 21:56
큰 수의 법칙(대수의 법칙, Law of Large Numbers)이란 큰 수의 법칙은 기댓값에서 어떠한 확률을 가진 사건을 무한히 실행하면 그 사건의 결과는 평균에 수렴하는 현상을 말함 따라서 표본 집단의 크기가 커지면 커질수록 그 표본 평균이 모집단의 평균과 가까워진다 여기서 무한히 반복하는 것은 복원추출을 기반으로 하며 각 사건은 동일해야한다. 그렇다면 표본의 수가 무한히 크다면 이 표본들의 평균이 보여주는 확률 분포는 어떻게 될 것인가? 이를 다루는 것이 바로 중심 극한 정리이다. 중심극한정리(Central Limit Theorem, CLT)란 평균 μ , 표준편차 σ를 가지는 모집단 분포에서 iid 한 표본을 충분히 많이 추출한다면, 표본 평균은 정규분포에 근사하게 된다. 중심극한정리가 성립되는..
-
<Python, SQL> pymysql 라이브러리(with Pandas DataFrame)데이터 분석 관련 공부 2024. 1. 12. 12:27
pymysql pymysql 라이브러리란 이름 그대로 MySQL을 Python 환경에서 사용할 수 있게 만들어주는 라이브러리이다. 우선 pip install pymysql로 라이브러리를 설치했다면 mysql 작업환경에서 DB와 테이블을 생성해주어야한다. 나는 DBeaver에서 MySQL을 연결하여 DB와 데이터 테이블을 생성해주었다. pymysql 라이브러리로 mysql을 연결하는 코드는 위와 같다. 먼저 필요한 라이브러리를 import 해준다. import pymysql import pandas as pd 그리고 connection 객체를 pymysql의 connect() 함수를 이용해 연결해준다. 이 때 호스트명, 유저 이름, 패스워드, DB 이름 등이 파라미터로 필요하다. host_name = '1..
-
<SQL : MySQL> RECURSIVE(재귀 쿼리)데이터 분석 관련 공부 2024. 1. 9. 14:04
SQL을 하다보면 연속적인 숫자 데이터를 생성할 필요가 있을 수 있다. 이 때 프로그래밍이라면 반복문을 돌려서 쉽게 해결할 수 있는데 SQL에는 해당하는 기능이 없을까 SQL에서는 재귀 쿼리를 이용하여 해당 문제를 해결한다. 재귀 쿼리는 프로그래밍 언어에서 재귀함수와 유사하게 동작한다. MySQL에는 WITH문 뒤에 RECURSIVE문을 붙여 재귀적으로 CTE를 하는 것을 통해 이를 구현한다. WITH RECURSIVE는 세 가지 부분으로 구성된다. 재귀 CTE의 기본 결과 집합을 형성하는 초기 쿼리를 앵커멤버 (Anchor member) 라고 부른다. UNION ALL 아래에 재귀 쿼리 부분은 CTE의 이름을 참조하는 쿼리로 재귀멤버 (Recursive member) 라고 부른다. 마지막으로 재귀 멤버..
-
데이터 리터러시(Data Literacy) -2데이터 분석 관련 공부 2024. 1. 3. 19:52
본 블로그는 스파르타의 데이터 리터러시 강의를 듣고 간략하게 정리한 것이다.) 데이터 리터러시(Data Literacy) -1 (본 블로그는 스파르타의 데이터 리터러시 강의를 듣고 간략하게 정리한 것이다.) 데이터 리터러시(Data Literacy) 데이터 리터러시의 정의 데이터를 읽는 능력 데이터를 이해하는 능력 데이터를 비 jinhyunbae.tistory.com 데이터 유형 정량적 데이터 수치로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음 데이터가 숫자 형태로 존재하기 때문에 통계 분석이 용이함 개인의 해석이나 주관이 적게 작용하는 객관성을 가짐 지표로 만들기 용이함 수치형 설문조사, 인구 통계, 비즈니스 데이터, 마케팅 데이터, 로그 데이터 등이 있음 정성적 데이터 비수치적 정보로 사..
-
데이터 리터러시(Data Literacy) -1데이터 분석 관련 공부 2024. 1. 3. 15:00
(본 블로그는 스파르타의 데이터 리터러시 강의를 듣고 간략하게 정리한 것이다.) 데이터 리터러시(Data Literacy) 데이터 리터러시의 정의 데이터를 읽는 능력 데이터를 이해하는 능력 데이터를 비판적으로 분석하는 능력 결과를 의사소통에 활용할 수 있는 능력 데이터 리터러시란 데이터 수집과 원천을 이해하고 데이터에 대한 활용법을 이해하며, 데이터를 통한 핵심 지표를 이해하는 것이다. 데이터 분석가가 갖추어야할 중요한 소프트 스킬이다. 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어준다 데이터 분석 오류 데이터 리터러시 문제로 인해 데이터 분석에서 오류를 범하는 경우가 많다. 대표적인 오류 사례는 다음과 같다. 1. 심슨의 역설(Simpson's Paradox) 부분에서 성립한 대소 관계가 부분..