Chapter 1: 자료와 통계학
1. 통계학의 개념과 응용
- 통계학(Statistics) 정의
자료를 수집, 분석, 표현, 해석하는 예술이자 과학으로, 평균, 중앙값, 비율, 최댓값 등 다양한 수치를 통해 비즈니스와 경제환경을 이해하는 데 도움을 준다. - 응용 분야
- 회계학: 감사 시 통계적 표본 이론 활용
- 경제학: 경제 미래 예측에 통계정보 이용
- 재무학: 주가수익비율(P/E Ratio), 배당수익률 등으로 투자 분석
- 마케팅: 전자스캐너 등으로 고객 데이터 수집
- 생산관리: 품질관리차트로 생산품 모니터링
- 정보시스템: 네트워크 성능 평가에 활용
2. 자료와 자료집합
- 자료(data): 표현 및 해석을 위해 수집, 분석, 요약되는 사실과 숫자
- 자료집합(data set): 특정 연구를 위해 수집된 모든 자료
- 원소, 변수, 관측값
- 원소(elements): 자료가 수집되는 대상(예: 회사)
- 변수(variable): 각 원소에서 측정하고자 하는 구체적 특성
- 관측값(observation): 특정 원소에 대해 측정된 변수의 값
- 자료의 총 개수는 ‘원소 수 × 변수 수’로 산정
3. 자료의 측정척도
- 명목척도 (Nominal Scale)
- 자료의 특성을 이름이나 기호로 표현 (예: 학과 분류)
- 순서척도 (Ordinal Scale)
- 자료의 순서가 의미가 있음 (예: 학년 분류)
- 구간척도 (Interval Scale)
- 값들 간의 차이를 일정한 단위로 표현 (예: SAT 점수, 차이의 의미만 있음)
- 비율척도 (Ratio Scale)
- 순서 및 차이 뿐 아니라 두 값의 비율도 의미 있음 (예: 거리, 높이, 학점 등, 0이 절대적 의미)
4. 자료의 유형과 시간적 성격
- 범주형 자료 vs. 정량적 자료
- 범주형 자료: 레이블이나 이름으로 구분 (명목/순서척도)
- 정량적 자료: 수치로 표현, 사칙연산 가능 (구간/비율척도)
- 횡단면자료 (Cross-sectional Data)
- 특정 시점에 수집된 자료 (예: 2013년 오하이오 건물 허가 건수)
- 시계열자료 (Time Series Data)
- 여러 기간에 걸쳐 수집된 자료 (예: 지난 36개월간 건물 허가 건수)
5. 자료의 출처
- 회사 내부 자료: 생산, 재고, 판매, 고객정보 등
- 정부 기관: 인구조사, 경제, 노동, 통계청 등 (예: www.census.gov, www.bls.gov)
- 인터넷 및 API: 대용량 자료 취득 및 오픈 데이터
- 통계적 연구
- 관측연구: 자연환경에서 관측 및 기록 (예: 흡연자와 비흡연자 비교)
- 실험연구: 주요 변수에 영향을 주는 다른 변수들을 조절하여 연구 (예: 백신 실험 연구)
6. 자료 수집의 이슈
- 시간 문제: 정보 수집에 소요되는 시간, 시의성 문제
- 비용 문제: 자료 제공기관의 비용 요구 가능성
- 수집 오류: 부주의한 자료 수집으로 인한 오류 가능성
7. 기술통계학 (Descriptive Statistics)
- 목적: 자료를 요약, 정리하여 쉽게 이해할 수 있도록 표현
- 표와 그래프: 도수분포표, 비율분포표, 히스토그램 등을 활용하여 자료 시각화
- 수치적 기술통계량: 평균, 중앙값, 최빈값, 범위 등
- 예) 허드슨 자동차 수리점 사례 – 50건의 엔진 수리 비용 평균 $79
8. 통계적 추론
- 모집단과 표본
- 모집단: 연구의 관심 대상 전체
- 표본: 모집단의 일부로, 이 표본을 통해 전체 특성 추정
- 추정과 검정: 표본을 바탕으로 모집단 특성 추정 및 가설 검정
9. 엑셀을 이용한 통계분석
- 엑셀의 활용
- 자료 입력: 데이터를 엑셀 시트에 정리
- 함수 및 수식 사용: AVERAGE, MEDIAN, MODE 등 기본 통계함수 활용
- 도구 사용: 데이터 분석 도구로 표, 그래프 등 시각적 표현
- 실제 예시: 허드슨 자동차 수리점의 엔진 수리비용 데이터를 기반으로 평균 계산 및 도수분포표 작성
10. 데이터웨어하우징과 데이터마이닝
- 데이터웨어하우징:
- 대규모 데이터를 수집, 저장, 관리하는 시스템
- 예) 월마트의 거래 데이터, 비자의 초당 거래 처리
- 데이터마이닝:
- 통계, 수학, 컴퓨터 과학 기법을 결합하여 데이터 내 유용한 정보 추출
- 응용 분야: 소매업, 금융, 통신 등 고객 행동 분석 및 미래 예측
- 주요 기법: 다중 회귀, 로지스틱 회귀, 상관 분석, 머신러닝 등
- 모형의 신뢰성: 표본에 맞춰진 모형이 다른 데이터에도 적용될 수 있는지 검증 필요
11. 통계분석을 위한 윤리적 가이드라인
- 비윤리적 행태 방지
- 부정확한 표본, 데이터 분석, 그래프 표현, 요약 통계 사용 등
- 통계 분석 시 준수 사항
- 공정하고 객관적인 자세 유지
- 데이터 수집, 분석, 표현 과정에서 비윤리적 가능성 배제
- 미통계협회 가이드라인
- 전문성, 고객과 고용주에 대한 책무, 연구 주제와 팀 동료에 관한 책임 등 8개 분야, 총 67개 세부 가이드라인
'Data Analysis' 카테고리의 다른 글
[0] 빅데이터 분석 개요 (1) | 2025.03.10 |
---|