Statistischer Mittelwert, Median, Modus und Bereich
Was sind statistischer Mittelwert, Median, Modus und Bereich?
Die Begriffe Mittelwert, Median, Modus und Bereich beschreiben Eigenschaften von statistischen Verteilungen. In der Statistik ist eine Verteilung die Menge aller möglichen Werte für Begriffe, die definierte Ereignisse darstellen. Der Wert eines Begriffs, der als Variable ausgedrückt wird, wird als Zufallsvariable bezeichnet.
Es gibt zwei Haupttypen von statistischen Verteilungen. Der erste enthält diskrete Zufallsvariablen. Das bedeutet, dass jeder Begriff einen präzisen, isolierten numerischen Wert hat. Der zweite Haupttyp von Verteilungen enthält eine kontinuierliche Zufallsvariable. Eine kontinuierliche Zufallsvariable ist eine Zufallsvariable, bei der die Daten endlich viele Werte annehmen können. Wenn ein Term jeden Wert innerhalb eines ununterbrochenen Intervalls oder eine Spanne annehmen kann, spricht man von einer Wahrscheinlichkeitsdichtefunktion.
IT-Fachleute müssen die Definition von Mittelwert, Median, Modus und Bereich verstehen, um Kapazitäten zu planen und die Last auszugleichen, Systeme zu verwalten, Wartungsarbeiten durchzuführen und Probleme zu beheben. Darüber hinaus ist das Verständnis statistischer Begriffe wichtig für das wachsende Feld der Datenwissenschaft.
Wie werden Mittelwert, Median, Modus und Bereich im Rechenzentrum verwendet?
Das Verständnis der Definition von Mittelwert, Median, Modus und Bereich ist für IT-Fachleute im Rechenzentrumsmanagement wichtig. Für viele relevante Aufgaben muss der Administrator den Mittelwert, den Median, den Modus oder den Bereich oder häufig eine Kombination davon berechnen, um eine statistisch signifikante Menge, einen Trend oder eine Abweichung von der Norm aufzuzeigen. Das Ermitteln von Mittelwert, Median, Modus und Bereich ist nur der Anfang. Der Administrator muss diese Informationen dann anwenden, um die Ursachen eines Problems zu untersuchen, künftige Anforderungen genau vorherzusagen oder akzeptable Arbeitsparameter für IT-Systeme festzulegen.
Bei der Arbeit mit einem großen Datensatz kann es nützlich sein, den gesamten Datensatz durch einen einzigen Wert darzustellen, der den mittleren oder durchschnittlichen Wert des gesamten Satzes beschreibt. In der Statistik wird dieser Einzelwert als zentrale Tendenz bezeichnet, und Mittelwert, Median und Modus sind allesamt Möglichkeiten, ihn zu beschreiben. Um den Mittelwert zu ermitteln, addieren Sie die Werte im Datensatz und dividieren Sie dann durch die Anzahl der addierten Werte. Um den Median zu ermitteln, listen Sie die Werte des Datensatzes in numerischer Reihenfolge auf und bestimmen, welcher Wert in der Mitte der Liste steht. Um den Modus zu ermitteln, bestimmen Sie, welcher Wert im Datensatz am häufigsten vorkommt. Der Bereich, das heißt die Differenz zwischen dem größten und dem kleinsten Wert im Datensatz, beschreibt, wie gut die zentrale Tendenz die Daten repräsentiert. Wenn die Spanne groß ist, ist die zentrale Tendenz nicht so repräsentativ für die Daten, wie wenn die Spanne klein wäre.
Mittelwert
Der gebräuchlichste Ausdruck für den Mittelwert einer statistischen Verteilung mit einer diskreten Zufallsvariable ist der mathematische Durchschnitt aller Terme. Zur Berechnung werden die Werte aller Terme addiert und dann durch die Anzahl der Terme dividiert. Der Mittelwert einer statistischen Verteilung mit einer kontinuierlichen Zufallsvariable, auch Erweiterungswert genannt, wird durch die Integration des Produkts der Variablen mit ihrer durch die Verteilung definierten Wahrscheinlichkeit ermittelt. Der Erwartungswert wird mit dem griechischen Kleinbuchstaben mu (µ) bezeichnet.
Median
Der Median einer Verteilung mit einer diskreten Zufallsvariable hängt davon ab, ob die Anzahl der Terme in der Verteilung gerade oder ungerade ist. Ist die Anzahl der Terme ungerade, so ist der Median der Wert des Terms in der Mitte. Das ist der Wert, bei dem die Anzahl der Terme mit Werten größer oder gleich diesem Wert gleich der Anzahl der Terme mit Werten kleiner oder gleich diesem Wert ist. Wenn die Anzahl der Terme gerade ist, ist der Median der Durchschnitt der beiden mittleren Terme, so dass die Anzahl der Terme mit Werten größer oder gleich diesem Wert gleich der Anzahl der Terme mit Werten kleiner oder gleich diesem Wert ist.
Der Median einer Verteilung mit einer kontinuierlichen Zufallsvariable ist der Wert m, bei dem die Wahrscheinlichkeit mindestens 1/2 (50 Prozent) beträgt, dass ein zufällig ausgewählter Punkt auf der Funktion kleiner oder gleich m ist, und die Wahrscheinlichkeit mindestens 1/2 beträgt, dass ein zufällig ausgewählter Punkt auf der Funktion größer oder gleich m ist.
Modus
Der Modus einer Verteilung mit einer diskreten Zufallsvariable ist der Wert des Terms, der am häufigsten auftritt. Es ist nicht ungewöhnlich, dass eine Verteilung mit einer diskreten Zufallsvariable mehr als einen Modus hat, insbesondere wenn es nicht viele Terme gibt. Das ist dann der Fall, wenn zwei oder mehr Terme gleich häufig oder häufiger als jeder der anderen auftreten.
Eine Verteilung mit zwei Modi wird als bimodal bezeichnet. Eine Verteilung mit drei Modi wird als trimodal bezeichnet. Der Modus einer Verteilung mit einer kontinuierlichen Zufallsvariable ist der Maximalwert der Funktion. Wie bei diskreten Verteilungen kann es auch hier mehr als einen Modus geben.
Bereich
Der Bereich einer Verteilung mit einer diskreten Zufallsvariable ist die Differenz zwischen dem Maximalwert und dem Minimalwert. Bei einer Verteilung mit einer kontinuierlichen Zufallsvariable ist der Bereich die Differenz zwischen den beiden Extrempunkten auf der Verteilungskurve, an denen der Wert der Funktion auf Null fällt. Für jeden Wert, der außerhalb des Bereichs einer Verteilung liegt, ist der Wert der Funktion gleich 0.
Verwendung des Mittelwerts zur Bestimmung der Leistungsaufnahme
Um den Mittelwert zu berechnen, addieren Sie alle Zahlen in einer Menge und teilen Sie die Summe durch die Gesamtzahl der Zahlen. Ein Beispiel: In einem Rack eines Rechenzentrums nehmen fünf Server jeweils 100, 98, 105, 90 und 102 Watt auf. Die mittlere Leistungsaufnahme des Racks wird berechnet als (100 + 98 + 105 + 90 + 102 W) / 5 Server = ein berechneter Mittelwert von 99 Watt pro Server. Intelligente Stromverteilungseinheiten melden die mittlere Leistungsaufnahme des Racks an die Systemverwaltungssoftware.
Verwendung des Medians zur Kapazitätsplanung
Im Rechenzentrum werden Mittelwerte und Mediane oft über einen längeren Zeitraum hinweg verfolgt, um Trends zu erkennen, die bei der Kapazitätsplanung oder der Vorhersage von Stromkosten berücksichtigt werden. Der statistische Median ist die mittlere Zahl in einer Reihe von Zahlen. Um den Median zu ermitteln, ordnen Sie jede Zahl nach ihrer Größe; die Zahl in der Mitte ist der Median. Ordnen Sie für die fünf Server im Rack die Leistungsaufnahmen vom niedrigsten zum höchsten Wert: 90 Watte, 98 Watt, 100 Watt, 102 Watt und 105 Watt. Der Median der Leistungsaufnahme des Racks beträgt 100 Watt. Bei einer geraden Zahlenfolge bilden Sie den Durchschnitt der beiden mittleren Zahlen. Hätte das Rack beispielsweise einen sechsten Server, der 110 Watt aufnimmt, wäre die neue Zahlenreihe 90 Watt, 98 Watt, 100 Watt, 102 Watt, 105 Watt und 110 Watt. Ermitteln Sie den Median, indem Sie den Mittelwert der beiden mittleren Zahlen bilden: (100 + 102) / 2 = 101 Watt.
Verwendung des Modus zur Ermittlung einer Basislinie
Der Modus ist die Zahl, die in einer Reihe von Zahlen am häufigsten vorkommt. Bei den obigen Beispielen für den Stromverbrauch von Servern gibt es keinen Modus, da jedes Element anders ist. Angenommen, der Administrator hat die Leistungsaufnahme eines gesamten Network Operations Center (NOC) gemessen, und die Zahlenreihe lautet 90 Watt, 104 Watt, 98 Watt, 98 Watt, 105 Watt, 92 Watt, 102 Watt, 100 Watt, 110 Watt, 98 Watt, 210 Watt und 115 Watt. Der Modus ist 98 Watt, da diese Messung unter den 12 Servern am häufigsten vorkommt. Der Modus hilft, das häufigste Auftreten eines Merkmals zu identifizieren. Es ist möglich, zwei Modi (bimodal), drei Modi (trimodal) oder mehr Modi innerhalb größerer Mengen von Zahlen zu haben.
Verwendung der Spanne zur Identifizierung von Ausreißern
Die Spanne ist die Differenz zwischen dem höchsten und dem niedrigsten Wert innerhalb einer Zahlenreihe. Um den Bereich zu berechnen, subtrahieren Sie die kleinste Zahl von der größten Zahl in der Menge. Wenn ein Rack mit sechs Servern 90 Watt, 98 Watt, 100 Watt, 102 Watt, 105 Watt und 110 Watt umfasst, beträgt der Bereich der Leistungsaufnahme 110 Watt – 90 Watt = 20 Watt.
Der Bereich gibt an, wie stark die Zahlen in einem Satz variieren. Viele IT-Systeme arbeiten innerhalb eines akzeptablen Bereichs; ein Wert, der über diesen Bereich hinausgeht, könnte beim IT-Personal eine Warnung oder einen Alarm auslösen. Um die Varianz in einem Datensatz zu ermitteln, subtrahieren Sie jede Zahl vom Mittelwert und quadrieren Sie dann das Ergebnis. Ermitteln Sie den Durchschnitt dieser quadrierten Differenzen, und das ist die Varianz in der Gruppe. In unserer ursprünglichen Gruppe von fünf Servern betrug der Mittelwert 99. Der 100-Watt-Server weicht vom Mittelwert um 1 Watt ab, der 105-Watt-Server um sechs Watt etc.. Die Quadrate der einzelnen Differenzen sind 1, 1, 36, 81 und 9. Um die Varianz zu berechnen, addiert man also 1 + 1 + 36 + 81 + 9 und teilt durch fünf. Die Varianz beträgt 25,6. Die Standardabweichung gibt an, wie weit alle Zahlen in einer Menge voneinander entfernt sind. Die Standardabweichung wird berechnet, indem man die Quadratwurzel aus der Varianz zieht. In diesem Beispiel beträgt die Standardabweichung 5,1.
Der Interquartilsbereich, die mittlere fünfzigste oder mittlere Streuung einer Zahlenreihe, entfernt die Ausreißer – die höchsten und niedrigsten Zahlen in einer Reihe. Bei einer großen Menge von Zahlen teilen Sie diese gleichmäßig in niedrigere und höhere Zahlen auf. Ermitteln Sie dann den Median jeder dieser Gruppen. Ermitteln Sie den Interquartilsbereich, indem Sie den unteren Median vom oberen Median subtrahieren. Wenn die Leistungsaufnahme eines Racks mit sechs Servern von unten nach oben wie folgt angeordnet ist – 90, 98, 100, 102, 105, 110 – unterteilen Sie die Menge in niedrige Zahlen (90, 98, 100) und hohe Zahlen (102, 105, 110). Finden Sie den Median für jede Zahl: 98 und 105. Subtrahiere den unteren Median vom oberen Median (105 Watt – 98 Watt = 7 Watt), das ist der Interquartilsbereich dieser Server.