Um die gegebenen Mengen für X und Y zu standardisieren, werden wir zuerst berechnen Durchschnitt, Varianz, Standardabweichung der Bevölkerung.
Im nächsten Schritt müssen wir jeden einzelnen Wert in jedem Satz von seinem Mittelwert und dann in letzten Schritt subtrahieren, müssen wir die Werte erhalten, aus der 2. Stufe teilen, durch die Standardabweichung, die nichts aber ein Z-Scores der Menge (und Einzelwert, sagen Xi). Dadurch erhalten wir einen Mittelwert von 0 und eine Standardabweichung von 1 für beide X- und Y-Sätze .
Dies ist standardisierter Zustand, weil wir immer Mittelwert als Null und Standardabweichung als einen für alle Sätze erhalten (in Ihrem Fall X und Y).
Wir werden auch die Beziehungen zwischen geordneten Paaren untersuchen.
Wenn wir an bestimmten Standardbeziehung aussehen wie Co-Varianz Korrelation ist die Steigung am besten passende Linie, die Y gegen X-Plots, dann die Y-Abschnitt werden sie das gleiche für die ursprünglichen Werte und die standardisierten Werte oder werden sie anders sein? Und wenn sie anders sind, wie anders werden sie sein und warum?
Dies war der Kontext der Frage.
Was ich in R versucht, ist wie folgt:
Ihr Datensatz ist:
X <- c(12, 15, 23, 4, 9, 36, 10, 16, 67, 45, 58, 32, 40, 58, 33)
# and
Y <- c(1.5, 3.3, 10, 2.1, 8.3, 6.3, 4, 5.1, 1.4, 1.6, 1.8, 3.1, 2.2, 4, 3)
Statistiken für Originaldaten, wobei n = 15 Beobachtungen für X und Y jeweils
# Variance
VarX <- sum((X - mean(X))^2)/15 ## Which gives us Variance of X set as 374.5156
VarY <- sum((Y - mean(Y))^2)/15 ## Which gives us Variance of Y set as 6.226489
# Standard Deviation
sdX <- sqrt(VarX) ## Which gives us Std. Dev. of X set as 19.3524
sdY <- sqrt(VarY) ## Which gives us Std. Dev. of Y set as 2.495293
# Z-scores
Z_Score_X <- (X - mean(X))/sdX
Z_Score_Y <- (Y - mean(Y))/sdY
# A Check, mean of ZScores should be close or equal to 0
# and Std. Dev. must be close or equal to 1
round(mean(Z_Score_X), 0) # Yes, it is 0
round(sd(Z_Score_X), 0) # Yes, it is 1
round(mean(Z_Score_Y), 0) # Yes, it is 0
round(sd(Z_Score_Y), 0) # Yes, it is 1
Dies ist die standardisierte Bedingung, bei der wir den gleichen Mittelwert und die Standardabweichung für X und Y haben (wie in den obigen Fällen des Z-Score-Datensatzes).
Jetzt werden wir die Beziehungen zwischen geordneter Paare Blick in Wenn wir an bestimmten Standardbeziehung aussehen wie coveriance Korrelation, die Steigung ist am besten passende Linie, die Y gegen X-Plots, dann die Y-Abschnitt werden sie das sein Gleiches für die ursprünglichen Werte und die standardisierten Werte oder werden sie unterschiedlich sein? Und wenn sie anders sind, wie anders werden sie und warum?
Lassen Sie uns den Rest berechnen ...
Zuerst betrachten wir die Co-Varianz von X und Y ... Kovarianz (X, Y) = (1/n) * Summierung (i = 1 bis n) von Produkten von (Xi - mean (X)) und (Yi - Mittelwert (Y)) und zusammen, Xi und Yi sind in geordnete Paar (nicht vergessen, Schritt 3 oben, der Z-Scores)
# Covariance for older sets (X, Y)
covXY <- (1/15) * sum((X - mean(X))*(Y - mean(Y)))
# Covariance for New sets (Z_Score_X, Z_Score_Y)
covXYZ <- (1/15) * sum((Z_Score_X - mean(Z_Score_X))*(Z_Score_Y - mean(Z_Score_Y)))
Als nächstes werden wir am Hang aussehen wird (Beta) der besten Anpassung von (X und Y)
Rückruf, Beta = Steigung = Delta_Y/Delta_X
# Slope for old set (X, Y)
Beta_X_Y <- round(lm(Y ~ X)$coeff[[2]], 2)
# Slope for standardized values in new set (Z_Score_z, Z_Score_z1)
Beta_ZScoreXY <- round(lm(Z_Score_X ~ Z_Score_Y)$coeff[[2]], 2)
Bitte beachten Sie, dass Intercept für die standardisierten Werte immer sein wird ZERO Der Grund dafür ist, dass die Mittel für die standardisierten Wert immer am besten passende Linie sind und Null sind (wie in unserem Fall von Z_Score_X, Z_Score_Y, die Mittel sind 0, 0). Mit anderen Worten, die Best-Fit-Linie für standardisierte Daten muss durch den Ursprung gehen. Obwohl nicht immer notwendig, aber es ist so zu erwarten.
# Intercept for old set
Intercept_X_Y <- round(lm(Y ~ X)$coeff[[1]], 2)
# 5.17
# Intercept for standardized set, should be zero
Intercept_ZScore_X_Y <- round(lm(Z_Score_Y ~ Z_Score_X)$coeff[[1]], 2)
# Yes, it is 0
Schließlich haben wir bei Korrelation aussehen wird, die Kovariate von X und Y geteilt durch die Standardabweichung von X-mal Standardabweichung von Y
# Correlation of old set
CorrelationXY <- round(covXY/(sdX * sdY), 2)
# Variance for new set
VarZScoreX <- sum((Z_Score_X - mean(Z_Score_X))^2)/15
VarZScoreY <- sum((Z_Score_Y - mean(Z_Score_Y))^2)/15
sdZScoreX <- sqrt(VarZScoreX)
sdZScoreY <- sqrt(VarZScoreY)
# Correlation of new set
correlation_ZScore_X_Y <- round(covXYZ/(sdZScoreX * sdZScoreY), 2)
Daher ist gleich, was sehen wir hier , dass die Gesamtsache, die konstant bleibt für alte Daten oder neue Reihe von standardisierten (z-Score) Daten, ist die Korrelation (in unserem Fall ist es -0,34). Die Korrelation ist UNVERÄNDERT. Ein weiterer Punkt zu beachten, für jeden standardisierten Satz, die Steigung, die Kovarianz sind gleich der Korrelation (alle -0,34 in unserem Fall) und der Schnittpunkt der standardisierten Menge ist gleich Null.
Sie können Matrizen/Vektoren in ** R ** mit 'scale (x)' standardisieren und Sie können die Korrelation zwischen zwei Vektoren mit 'cor (x, y)' finden. Also, was Sie gefragt sind, ist (vielleicht?) 'Cor (Skala (X), Skala (Y)), aber Skalierung und Standardisierung ist für die Korrelation irrelevant, dh Sie erhalten das gleiche Ergebnis von' cor (X, Y) '. – Therkel
@Therkel, es scheint, dass Sie den Kontext der Frage nicht richtig verstanden haben. –