콘텐츠
비즈니스, 정부 및 학술 활동에는 거의 항상 데이터 수집 및 분석이 필요합니다. 수치 데이터를 표현하는 방법 중 하나는 그래프, 히스토그램 및 차트를 이용하는 것입니다. 이러한 시각화 기술을 통해 사람들은 문제에 대한 더 나은 통찰력을 얻고 솔루션을 고안 할 수 있습니다. 간격, 군집 및 특이 치는 수학적 분석에 영향을 미치고 시각적 표현에서 쉽게 볼 수있는 데이터 세트의 특성입니다.
데이터의 구멍
간격은 데이터 세트에서 누락 된 영역을 나타냅니다. 예를 들어, 과학 실험에서 화씨 50도에서 화씨 100도 사이의 온도 데이터를 수집하지만 70도에서 80도 사이의 온도 데이터는 수집하지 않으면 데이터 세트의 차이를 나타냅니다. 이 데이터 세트의 선 그림에는 온도가 50에서 70 사이, 다시 80에서 100 사이에 "x"표시가 있지만 70에서 80 사이에는 아무 것도 없습니다. 연구원들은 더 깊이 파고 특정 데이터 포인트가 표시되지 않는 이유를 탐색 할 수 있습니다 수집 된 샘플에서.
고립 된 그룹
클러스터는 격리 된 데이터 포인트 그룹입니다. 데이터 세트를 나타내는 방법 중 하나 인 라인 플롯은 데이터 세트에서 발생 빈도를 나타 내기 위해 특정 숫자 위에 "x"표시가있는 라인입니다. 클러스터는 작은 간격 또는 데이터 하위 집합으로 이러한 "x"마크의 모음으로 표시됩니다. 예를 들어 10 명의 학생으로 구성된 시험의 점수가 74, 75, 80, 72, 74, 75, 76, 86, 88 및 73 인 경우 선 그림에서 가장 "x"표시는 72- ~ 76 점수 간격. 이것은 데이터 클러스터를 나타냅니다. 74와 75의 빈도는 2이지만 다른 모든 점수의 경우 1입니다.
극한에서
특이 치는 극단적 인 값, 즉 데이터 세트의 다른 값을 크게 벗어난 데이터 포인트입니다. 특이 치는 데이터 세트에서 대부분의 숫자보다 현저히 작거나 커야합니다. "극단적"의 정의는 연구에 참여한 분석가의 상황과 합의에 달려 있습니다. 특이 치는 노이즈라고도하는 잘못된 데이터 포인트이거나 조사중인 현상 및 데이터 수집 방법 자체에 대한 유용한 정보를 포함 할 수 있습니다. 예를 들어, 수업 점수가 대부분 70-80 범위에 있지만 몇 개의 점수가 50 점 미만이면 특이 치를 나타낼 수 있습니다.
함께 모아서
데이터 세트의 간격, 특이 치 및 군집은 수학적 분석 결과에 영향을 줄 수 있습니다. 간격 및 클러스터는 데이터 수집 방법에서 오류를 나타낼 수 있습니다. 예를 들어, 전화 설문 조사에서 저소득 주택 단지 또는 고급 교외 주거 지역과 같은 특정 지역 코드 만 조사하고 인구의 넓은 단면적이 아닌 경우 데이터에 간격과 클러스터가있을 가능성이 있습니다. . 특이 치는 데이터 세트의 평균 또는 평균 값을 왜곡 할 수 있습니다. 예를 들어, 50, 55, 65 및 90의 네 가지 숫자로 구성된 데이터 세트의 평균 또는 평균 값은 65입니다. 그러나 특이 치 90이 없으면 평균은 약 57입니다.