데이터에 대한 확률 분포 유형을 결정하는 방법

차례:

Anonim

시스템 또는 프로세스에서 데이터를 수집 한 후 다음 단계는 어떤 유형의 확률 분포가 있는지 판별하는 것입니다. 확률 분포의 유형은 이산 유니폼, 베누 울리, 이항, 이항 음수, 푸 아송, 기하학, 연속 유니폼, 일반 (벨 곡선), 지수, 감마 및 베타 분포입니다. 가능성의 목록에서 몇 가지라도 좁히면 어느 것이 가장 가까운 R 제곱 값인지 훨씬 더 빠르게 결정됩니다.

필요한 항목

  • 그래프 소프트웨어

  • R 제곱 값을 계산하는 방법 (최적 분석)

데이터 유형의 시각적 표현을 위해 데이터를 플롯합니다.

하나의 데이터 분포를 결정하기위한 첫 번째 단계 중 하나, 따라서 데이터를 모델링하는 데 사용할 수식 유형을 결정하는 것 중 하나는 불가능할 수있는 것을 배제하는 것입니다. • 데이터 세트에 피크가있는 경우 이산 된 균일 분포가 될 수 없습니다. • 데이터에 피크가 두 개 이상있는 경우 포아송 또는 이항식이 아닙니다. • 단일 커브가 있고 2 차 피크가없고 각면에 느린 슬로프가있는 경우 포아송 또는 감마 분포 일 수 있습니다. 그러나 그것은 불연속 한 균일 분포가 될 수 없다. • 데이터가 고르게 분포되어 있고 한쪽으로 비뚤어지지 않는 경우 감마 또는와 이블 분포를 배제하는 것이 안전합니다. • 함수가 그래프 분포의 중간에 균등 분포 또는 피크를 갖는 경우 기하 분포 또는 지수 분포가 아닙니다. • 요인의 발생이 환경 변수에 따라 다르면 아마도 Poisson 분포가 아닐 것입니다.

확률 분포 유형이 좁혀지면 각 가능한 확률 분포 유형에 대해 R 제곱 분석을 수행합니다. R 제곱 값이 가장 높은 값이 가장 정확합니다.

하나의 이상 치 데이터 포인트를 제거하십시오. 그런 다음 R 제곱을 다시 계산합니다. 동일한 확률 분포 유형이 가장 근접한 일치로 나타나면, 이것이 데이터 세트에 사용할 정확한 확률 분포라는 높은 확신이 있습니다.

  • 데이터에 다중 피크가 광범위하게 분포되어있는 경우 두 개의 개별 프로세스가 진행 중이거나 샘플링중인 제품이 혼합되어있을 가능성이 있습니다. 데이터를 다시 생각한 다음 다시 분석하십시오.

경고

이후 데이터 세트에 대해 생성 된 방정식의 유효성을 검사하여 데이터 세트에 대해 여전히 정확한지 확인합니다. 환경 요인과 공정 드리프트가 현재 방정식과 모델을 부정확하게 만들 가능성이 있습니다.