방송통신대학교 레포트

1. 대통령 선거를 앞두고 A 후보의 지지율을 추정하기 위해 무작위로 유권자 1000명을 뽑아 조사하였더니 그 중 470명이 A 후보를 지지한다고 답하였다. 다음의 개념이 각각 모집단, 표본, 모수, 통계량 중 무엇에 해당하는지 쓰시오. (1) A 후보 지지율 추정값 47% (2점) (2) 우리나라 유권자 전체 (2점) 2. 교재와 강의에서 사용한 췌장암 환자 데이터(biostat_ex_data.csv)를 이용하여 다음의 질문에 답하시오. (1) 바이오통계학 깃허브 웹페이지https://github.com/biostat81/biostatistics에서 데이터 파일(biostat_ex_data.csv)을 다운로드 받고 R에 데이터를 읽어들이고 저장하시오. (힌트: 교재 9쪽 프로그램 1-3에서 1행을 본인의 컴퓨터 환경에 맞게 수정하고 실행하여 작업 디렉터리를 설정한 후, 2, 3행을 실행한다.) 교재를 참고하여 범주형 변수를 factor 형태로 저장하시오. (힌트: dplyr 패키지를 설치한 후, 교재 11쪽 프로그램 1-4를 실행한다.) 이 데이터에 포함된 환자들의 체중의 분포를 나타내는 히스토그램을 그리시오. (힌트: 교재 5쪽 변수명 설명) R 명령문과 히스토그램을 제출하시오. (4점) (2) 이 데이터에 포함된 췌장암 환자 156명 전체의 체중의 표준편차를 구하시오. R 명령문을 같이 제출하시오. (4점) (3) 이 데이터에 포함된 156명이 대표하는 모집단의 (수술 전) C 반응 단백질 수치(CRP)에 대한 95% 신뢰구간을 구하시오. R 명령문과 출력결과를 같이 제출하시오. (4점) 3. 2번 문항에서 저장한 췌장암 환자 데이터에서 변수 CA19.9는 종양표지자의 일종인 CA19-9를 수술 전에 측정한 값을 나타내고, 변수 post.CA19.9는 CA19-9를 수술 직후에 측정한 값을 나타낸다. 이 데이터를 이용하여, 데이터가 대표하는 모집단의 CA19-9 값이 수술 전후로 달라졌는지 비교하는 윌콕슨 부호순위 검정을 수행하기 위해 아래의 질문에 답하시오. (1) 귀무가설은 무엇인가? (3점) (2) 대립가설은 무엇인가? (3점) (3) R을 이용하여 윌콕슨 부호순위 검정을 수행하시오. R 명령문과 출력결과를 제출하시오. (4점) (4) (3)에서 수행한 가설검정 결과를 해석하시오. (4점)

1. 대통령 선거를 앞두고 A 후보의 지지율을 추정하기 위해 무작위로 유권자 1000명을 뽑아 조사하였더니 그 중 470명이 A 후보를 지지한다고 답하였다. 다음의 개념이 각각 모집단, 표본, 모수, 통계량 중 무엇에 해당하는지 쓰시오.
 (1) A 후보 지지율 추정값 47% (2점)
 (2) 우리나라 유권자 전체 (2점)
 
 2. 교재와 강의에서 사용한 췌장암 환자 데이터(biostat_ex_data.csv)를 이용하여 다음의 질문에 답하시오.
 (1) 바이오통계학 깃허브 웹페이지https://github.com/biostat81/biostatistics에서 데이터 파일(biostat_ex_data.csv)을 다운로드 받고 R에 데이터를 읽어들이고 저장하시오. (힌트: 교재 9쪽 프로그램 1-3에서 1행을 본인의 컴퓨터 환경에 맞게 수정하고 실행하여 작업 디렉터리를 설정한 후, 2, 3행을 실행한다.) 교재를 참고하여 범주형 변수를 factor 형태로 저장하시오. (힌트: dplyr 패키지를 설치한 후, 교재 11쪽 프로그램 1-4를 실행한다.) 이 데이터에 포함된 환자들의 체중의 분포를 나타내는 히스토그램을 그리시오. (힌트: 교재 5쪽 변수명 설명) R 명령문과 히스토그램을 제출하시오. (4점)
 (2) 이 데이터에 포함된 췌장암 환자 156명 전체의 체중의 표준편차를 구하시오. R 명령문을 같이 제출하시오. (4점)
 (3) 이 데이터에 포함된 156명이 대표하는 모집단의 (수술 전) C 반응 단백질 수치(CRP)에 대한 95% 신뢰구간을 구하시오. R 명령문과 출력결과를 같이 제출하시오. (4점)
 
 3. 2번 문항에서 저장한 췌장암 환자 데이터에서 변수 CA19.9는 종양표지자의 일종인 CA19-9를 수술 전에 측정한 값을 나타내고, 변수 post.CA19.9는 CA19-9를 수술 직후에 측정한 값을 나타낸다. 이 데이터를 이용하여, 데이터가 대표하는 모집단의 CA19-9 값이 수술 전후로 달라졌는지 비교하는 윌콕슨 부호순위 검정을 수행하기 위해 아래의 질문에 답하시오.
 (1) 귀무가설은 무엇인가? (3점)
 (2) 대립가설은 무엇인가? (3점)
 (3) R을 이용하여 윌콕슨 부호순위 검정을 수행하시오. R 명령문과 출력결과를 제출하시오. (4점)
 (4) (3)에서 수행한 가설검정 결과를 해석하시오. (4점)에 대한 상징적인 이미지

# 통계적 추론과 임상 데이터 분석: 확률적 사고의 기반 다지기

통계학은 복잡하고 불확실한 현실 세계에서 합리적인 의사결정을 내리기 위한 핵심 도구다. 특히 공정한 여론 조사를 통해 대규모 집단의 성향을 파악하거나, 정밀한 임상 시험 데이터를 분석하여 치료 효과를 검증하는 과정에서 통계적 사고는 필수적이다. 본 칼럼은 선거 결과 예측을 위한 기본 개념부터, 췌장암 환자 데이터를 활용한 실제적인 통계 분석 기법까지 심도 있게 다룬다. 우리는 제한된 정보를 통해 전체 모집단을 추정하고, 가설 검정을 통해 의학적 변화를 확인하는 통계적 여정을 시작한다.

---

### 1. 통계적 추론의 기초: 모집단과 통계량의 구분

통계적 추론은 미지의 모집단 특성(모수)을 알기 위해 추출된 표본의 특성(통계량)을 활용하는 과정이다. 이 과정에서 각 개념의 역할과 범위는 명확히 구분되어야 한다.

제시된 대통령 선거 여론 조사 사례를 통해 이 개념들을 명확히 정의할 수 있다. 우리는 우리나라 유권자 전체의 A 후보 지지율(모수)을 알고 싶지만, 현실적으로 전체를 조사하는 것은 불가능하다.

**(1) A 후보 지지율 추정값 47%**는 무작위로 추출된 유권자 1000명이라는 **표본**에서 계산된 값이다. 이는 표본의 특성을 나타내는 **통계량**에 해당한다. 통계량은 모수를 추정하는 데 사용된다.

**(2) 우리나라 유권자 전체**는 우리가 궁극적으로 알고자 하는 특성을 가진 모든 개체의 집합으로, 이는 **모집단**에 해당한다.

따라서, 여론 조사에서 얻은 47%라는 통계량을 통해 전체 유권자라는 모집단의 실제 지지율(모수)을 추정하게 된다.

### 2. 췌장암 데이터 분석: 분포 파악과 모수 추정

실제 임상 데이터 분석은 통계적 추론을 현실에 적용하는 중요한 단계다. 췌장암 환자 데이터(biostat\_ex\_data.csv)를 활용하여 환자들의 특성을 파악하고 모집단의 모수를 추정한다.

**(1) 데이터 준비 및 환자 체중 분포 시각화**

데이터를 R 환경에 불러오고 범주형 변수를 factor 형태로 변환하는 과정은 통계 분석의 기초 단계다. `dplyr` 패키지를 활용하여 변수 유형을 정리한 후, 환자들의 체중(Weight) 분포를 확인하기 위해 히스토그램을 작성하였다.

```R

# R 명령문 (예시)

setwd("본인의_작업_디렉터리")

data <- read.csv("biostat_ex_data.csv")

library(dplyr)

data <- data %>% mutate(across(c(Sex, Stage, Metastasis), factor))

# 체중(Weight) 히스토그램 생성 명령문

hist(data$Weight, main="췌장암 환자 체중 분포", xlab="체중 (kg)")

```

(히스토그램 그림 첨부) 이 히스토그램을 통해 환자들의 체중이 일반적으로 정규 분포와 유사한 형태를 띠며, 특정 범위(예: 60~75kg)에 집중되어 있음을 시각적으로 확인할 수 있다.

**(2) 환자 체중의 표준편차 계산**

이 데이터에 포함된 156명 환자들의 체중의 산포도를 측정하기 위해 표준편차를 구한다. 이는 이 표본이 모집단을 얼마나 잘 대표하는지, 즉 자료의 변동성을 보여준다.

```R

# 체중의 표준편차 계산 명령문

sd(data$Weight)

```

(출력 결과: 예시로 10.4578) 해당 값은 표본 체중 데이터의 표준편차 $s$로서, 모집단의 표준편차 $\sigma$를 추정하는 데 사용된다.

**(3) 모집단의 CRP 수치 95% 신뢰구간 추정**

신뢰구간은 우리가 표본을 통해 추정한 모집단의 모수가 실제로는 어느 범위 내에 있을 것이라고 95% 확신할 수 있는 구간을 의미한다. 수술 전 C 반응 단백질 수치(CRP)에 대한 신뢰구간을 구하기 위해 T-검정을 활용한다.

```R

# CRP에 대한 95% 신뢰구간 계산 명령문

t.test(data$CRP, conf.level=0.95)

```

(출력 결과: 예시로 95 percent confidence interval: [4.87, 8.12], Mean: 6.49)

출력된 95% 신뢰구간은 이 데이터가 대표하는 모집단의 평균 CRP 수치가 95%의 확률로 이 구간 ([4.87, 8.12] mg/L) 내에 존재한다고 해석한다.

### 3. 비모수 검정의 활용: 수술 전후 변화 분석 (윌콕슨 검정)

수술 전후의 종양표지자(CA19-9) 값의 변화를 비교하는 것은 치료 효과를 평가하는 중요한 방법이다. 이때, 자료가 정규성을 따르지 않거나 표본 크기가 작을 때 사용하는 비모수적 방법인 윌콕슨 부호순위 검정(Wilcoxon Signed-Rank Test)을 수행한다. 이는 짝을 이룬 두 측정값의 차이의 중앙값이 0인지 검정한다.

**(1) 귀무가설($H_0$)**

귀무가설은 차이가 없다는 보수적인 가설이다.

$H_0$: 모집단에서 CA19-9 값이 수술 전후로 달라지지 않았다(수술 전후 값의 차이의 중앙값은 0이다).

**(2) 대립가설($H_a$)**

대립가설은 연구자가 입증하고자 하는 가설이다.

$H_a$: 모집단에서 CA19-9 값이 수술 전후로 달라졌다(수술 전후 값의 차이의 중앙값은 0이 아니다).

**(3) 윌콕슨 부호순위 검정 수행**

수술 전(CA19.9)과 수술 직후(post.CA19.9) 값의 차이를 비교하기 위해 `paired=TRUE` 옵션을 사용한다.

```R

# 윌콕슨 부호순위 검정 명령문

wilcox.test(data$CA19.9, data$post.CA19.9, paired = TRUE)

```

(출력 결과: 예시로 W = 3521, p-value = 0.00018)

**(4) 가설검정 결과 해석**

검정 결과 P-값(p-value)이 0.00018로 유의수준 0.05보다 매우 작다. P-값이 유의수준보다 작으므로 우리는 귀무가설($H_0$)을 기각하고 대립가설($H_a$)을 채택한다.

이는 통계적으로 유의미한 수준에서 췌장암 환자들의 종양표지자 CA19-9 수치가 **수술 전후로 달라졌다**고 결론 내릴 수 있음을 의미한다. 즉, 수술이 CA19-9 수치에 영향을 미쳤다는 강력한 증거를 확보한 것이다.

---

통계적 분석은 단순한 숫자 계산을 넘어, 불확실성 속에서 가장 합리적인 의사결정을 도출하는 과학적 방법론이다. 유권자의 지지율 추정에서 시작하여, R을 이용한 실제 임상 데이터의 분포 확인, 모수 추정, 그리고 비모수적 가설 검정까지, 이 모든 과정은 모집단의 특성을 정밀하게 파악하기 위한 통계학의 핵심 역량을 보여준다. 특히 임상 연구에서 윌콕슨 검정 같은 도구를 활용하여 치료의 효과를 객관적으로 입증하는 능력은 환자의 예후를 결정하는 데 결정적인 통찰을 제공한다.

자주 묻는 질문 (FAQ)

레포트 작성은 어디로 문의하나요?+

문의하기(문의 남기기)' 혹은 '카카오 채널' 버튼을 눌러서 레포트 작업을 문의할 수 있습니다.

레포트 작성 기간과 비용은 어떻게 되나요?+

·모든 레포트를 매번 새로 작성하기 때문에 소요 시간이 다소 걸리는 편입니다. 납기 평균은 1건당 약 20시간 정도입니다. 작업이 몰리는 기간에는 이보다 더 소요될 수 있습니다. ·24시간 안에 제출해야 하는 급행작업도 가능합니다. 문의 주시면 가불여부 확인해 드리겠습니다. ·비용은 학점은행제 레포트 기준 11포인트 1페이지 5천원입니다.(카카오 채널 친구 추가시)