콘텐츠
특이 치는 다른 값과는 거리가있는 데이터 세트의 값입니다. 특이 치는 실험 또는 측정 오류 또는 긴 꼬리 모집단으로 인해 발생할 수 있습니다. 전자의 경우, 통계 분석을 수행하기 전에 특이 치를 식별하고 데이터에서 제거하여 표본 모집단을 정확하게 나타내지 않도록 결과를 버릴 수 있기 때문에 바람직 할 수 있습니다. 특이 치를 식별하는 가장 간단한 방법은 사 분위수 방법입니다.
데이터를 오름차순으로 정렬하십시오. 예를 들어 데이터 세트 {4, 5, 2, 3, 15, 3, 3, 5}를 사용하십시오. 정렬 된 예제 데이터 세트는 {2, 3, 3, 3, 4, 5, 5, 15}입니다.
중앙값을 찾으십시오. 이것은 데이터 포인트의 절반이 더 크고 절반이 더 작은 수입니다. 짝수 개의 데이터 포인트가있는 경우 중간 2 개가 평균화됩니다. 예제 데이터 세트의 경우 중간 지점은 3과 4이므로 중앙값은 (3 + 4) / 2 = 3.5입니다.
위 사 분위수 Q2를 구합니다. 이것은 데이터의 25 %가 더 큰 데이터 포인트입니다. 데이터 세트가 짝수이면 사 분위 주위의 2 점을 평균합니다. 예제 데이터 세트의 경우 이는 (5 + 5) / 2 = 5입니다.
낮은 사 분위수 Q1을 구합니다. 이것은 데이터의 25 %가 더 작은 데이터 포인트입니다. 데이터 세트가 짝수이면 사 분위 주위의 2 점을 평균합니다. 예제 데이터의 경우 (3 + 3) / 2 = 3입니다.
사 분위수 범위 IQ를 얻으려면 상위 사 분위수에서 사 분위수를 빼십시오. 예제 데이터 세트의 경우 Q2 – Q1 = 5 – 3 = 2입니다.
사 분위수 범위에 1.5를 곱하십시오. 이것을 위쪽 사 분위수에 더하고 아래쪽 사 분위수에서 빼십시오. 이 값을 벗어난 데이터 포인트는 경미한 특이 치입니다. 예제 세트의 경우 1.5 x 2 = 3; 따라서 3 – 3 = 0 및 5 + 3 = 8입니다. 따라서 0보다 작거나 8보다 큰 값은 온화한 특이 치입니다. 이는 15가 경미한 이상치에 해당함을 의미합니다.
사 분위수 범위에 3을 곱하십시오.이를 상위 사 분위수에 더하고 아래 사 분위수에서 빼십시오. 이 값을 벗어난 데이터 포인트는 극단적 인 이상치입니다. 예제 세트의 경우 3 x 2 = 6; 따라서 3 – 6 = –3 및 5 + 6 = 11이므로 –3보다 작거나 11보다 큰 값은 극단적 인 이상치입니다. 이것은 15가 극단적 인 이상치라는 것을 의미합니다.