Средно срещу медиана срещу режим
Средната стойност, медианата и режимът са основните показатели на централната тенденция, използвани в описателната статистика. Те са напълно различни един от друг и случаите, в които се използват за обобщаване на данните, също са различни.
Означава
Средната аритметична стойност е сумата от стойностите на данните, разделена на броя на стойностите на данните, т.е.
Ако данните са от извадковото пространство, това се нарича извадка средно (
), което е описателна статистика на извадката. Въпреки че е най-често използваната описателна мярка за извадка, тя не е надеждна статистика. Той е много чувствителен към отклоненията и трептенията.
Например, помислете за средния доход на гражданите на определен град. Тъй като всички стойности на данните се сумират и след това се разделят, доходът на изключително богат човек влияе значително върху средната стойност. Следователно, средните стойности не винаги са добро представяне на данните.
Също така, в случай на променлив сигнал, токът, преминаващ през елемент, периодично варира от положителната посока до отрицателната посока и обратно. Ако вземем средния ток, преминаващ през елемента за един период, той ще даде 0, което означава, че през елемента не е преминал ток, което очевидно не е вярно. Следователно и в този случай средната аритметична стойност не е добра мярка.
Средната аритметична стойност е добър показател, когато данните са разпределени равномерно. За нормално разпределение средната стойност е равна на режим и медиана. Той също така има най-ниските остатъци, когато се има предвид грешката на средния квадрат; следователно, най-добрата описателна мярка, когато се изисква да представлява набор от данни с един номер.
Медиана
Стойностите на средната точка от данни след подреждането на всички стойности на данните във възходящ ред се определят като медиана на набора от данни. Медианата е 2-ри квартил, 5-ти децил и 50-ти процентил.
• Ако броят на наблюденията (точките от данни) е нечетен, тогава медианата е наблюдението точно в средата на подредения списък.
• Ако броят на наблюденията (точките от данни) е четен, тогава медианата е средната стойност на двете средни наблюдения в подредения списък.
Медианата разделя наблюдението на две групи; т.е. група (50%) от стойности по-високи и група (50%) от стойности по-ниски от медианата. Медианите се използват специално при изкривени разпределения и представляват данни доста по-добре от аритметичната средна стойност.
Режим
Режимът е най-често срещаното число в набор от наблюдения. Режимът на набор от данни се изчислява чрез намиране на честотата на всеки елемент в набора.
• Ако нито една стойност не се появи повече от веднъж, тогава наборът от данни няма режим.
• В противен случай всяка стойност, която се среща с най-голяма честота, е режим на набора от данни.
В набор могат да съществуват повече от 1 режим; следователно режимът не е уникална статистика за набор от данни. При еднакво разпределение има един режим. Режимът на дискретно разпределение на вероятностите е точката, в която функцията на вероятностната маса достига най-високата си точка. Превеждайки отгоре интерпретации, можем да кажем, че глобалните максимуми са режими.
Помислете за прилагането и на трите мерки към следния набор от данни.
ДАННИ: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Средно = (1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25 = 8.12
Медиана = 9 (13-ти елемент)
Режим = 9 (честота 9 = 5)
Каква е разликата между среден, среден и режим?
• Средната аритметика е сумата от стойностите (наблюденията), разделена на броя на наблюденията. Това не е надеждна статистика и силно зависи от нормалното естество на разпределение в рамките на разглежданото разпределение. Едно отделно отклонение може да причини значително изместване в средната стойност, давайки относително подвеждащи стойности. Концепцията може да бъде разширена до геометрична средна, хармонична средна, претеглена средна и т.н.
• Медианата е средните стойности на набора от наблюдения и тя е относително по-малко засегната от извънредни стойности. Тя може да даде добра оценка като обобщена статистика в силно изкривени случаи.
• Режимът е най-често срещаните стойности за наблюдение в набора от данни. Ако разпределението е положително изкривено, режимът лежи вляво до медианата и, ако е отрицателно изкривен, режимът лежи точно към медианата.
• Ако е положително изкривено, средната стойност е точно към медианата; ако отрицателно изкривената средна стойност е вляво от медианата.
• При нормалното разпределение и трите, средният, режим и медиана са равни.