2016-08-03 4 views
1

Ich habe vor kurzem begonnen, mit einem riesigen Datensatz zu arbeiten, von medizinischen Notfall Service zur Verfügung gestellt. Ich habe ca. 25.000 räumliche Punkte von Vorfällen.Punktmuster Ähnlichkeit und Vergleich

Ich suche Bücher und Internet seit einiger Zeit und bin mehr und mehr verwirrt darüber, was zu tun ist und wie es geht.

Die Punkte sind natürlich sehr geclustert. Ich berechnete K, L und G Funktion dafür und sie bestätigen ernsthafte Clusterbildung.

Ich habe auch Population Point Dataset - ein Punkt für jeden Bürger, der in ähnlicher Weise als Vorfälle Datensatz gruppiert ist (Vorfälle passieren Menschen, so gibt es eine starke Verbindung zwischen diesen beiden Datensätze).

Ich möchte diese beiden Datensätze vergleichen, um herauszufinden, ob sie in ähnlicher Weise verteilt sind. Ich möchte wissen, ob es Orte gibt, wo es mehr Vorfälle gibt, verglichen mit der Bevölkerung. Mit anderen Worten, ich möchte einen Populationsdatensatz verwenden, um die Intensität zu erklären und dann herauszufinden, ob der Ereignisdatensatz dieser Intensität entspricht. Die Annahme ist, dass Vorfälle in Bezug auf die Bevölkerung zufällig erscheinen sollten.

Ich möchte ein Diagramm der Region mit Informationen erhalten, bei denen es mehr oder weniger Vorfälle als erwartet gibt, wenn die Vorfälle zufällig bei Personen passiert sind.

Wie würden Sie es mit R machen?

Sollte ich Kest oder Kinhom verwenden, um K-Funktion zu berechnen? Ich lese die Beschreibung, aber immer noch nicht verstehen, was ist ein grundlegender Unterschied zwischen ihnen.

Ich versuchte mit KCross, aber wie ich herausgefunden, einer der beiden Datensätze sollte CSR - völlig räumlich zufällig sein. Ich fand auch Kcross.inhom, sollte ich das für meine Daten verwenden?

Wie kann ich ein Diagramm (Bild) von Vorfallabweichungen bezüglich der Bevölkerung erhalten?

Ich hoffe, ich fragte klar.

Vielen Dank für Ihre Zeit, um meine Frage zu lesen und noch mehr danke, wenn Sie eine meiner Fragen beantworten können.

Mit freundlichen Grüßen!

Jernej

Antwort

2

Ich habe keine Zeit, alle Fragen vollständig zu beantworten, aber hier sind einige Hinweise.

HAFTUNGSAUSSCHLUSS: Ich bin ein Mitverfasser der spatstat Paket und das Buch Spatial Point Patterns: Methodology and Applications with R so habe ich eine Präferenz für die Verwendung dieser (und ich glaube wirklich, das sind die besten Werkzeuge für Ihr Problem).

Konzeptionelle Frage: Wie groß ist Ihre Lernregion und macht es Sinn, die Punkte als überall in der Region verteilt zu behandeln oder sind sie auf das Straßennetz beschränkt?

Für jetzt werde ich davon ausgehen, dass wir davon ausgehen können, dass sie überall verteilt sind.Ein einfacher Ansatz wäre, die Bevölkerungsdichte unter Verwendung von density.ppp zu schätzen und dann ein Poisson-Modell an die Vorfälle mit der Bevölkerungsdichte als Intensität anzupassen, wobei ppm verwendet wird. Dies wäre wahrscheinlich ein vernünftiges Nullmodell, und wenn das zu den Daten passt, kann man im Grunde sagen, dass Vorfälle "völlig zufällig im Raum stattfinden, wenn man die ungleiche Bevölkerungsdichte kontrolliert". Weitere Informationen density.ppp und ppm sind in den Kapiteln 6 und 9 von 1, und natürlich in den spatstat Hilfedateien.

Wenn Sie zusammenfassende Statistiken wie die K/L/G/F/J-Funktionen verwenden, sollten Sie immer die inhom-Versionen verwenden, um die Bevölkerungsdichte zu berücksichtigen. Dies wird in Kapitel 7 von 1 behandelt.

Es könnte auch interessant sein, das relative Risiko (relrisk) zu sehen, wenn Sie alle Ihre Punkte zu einem markierten Punktmuster mit zwei Arten kombinieren (Hintergrund und Vorfälle). Siehe Kapitel 14 von 1.

Leider sind nur die Kapitel 3, 7 und 9 von 1 als kostenlose Beispielkapitel verfügbar, aber ich hoffe, Sie haben Zugriff darauf in Ihrer Bibliothek oder haben die Möglichkeit, sie zu kaufen.

+0

Vielen Dank für Ihre Antwort, es hat mir sehr geholfen :) Sollte ich kppm anstelle von ppm verwenden? – JerT

+1

Wenn Sie ein inhomogenes Poisson-Modell mit 'ppm' anpassen und bestimmen, dass die Datenpunkte mehr geclustert sind als mit diesem Modell erklärt, können Sie' kppm' verwenden (oder 'interaction = AreaInter (R)' hinzufügen, wobei 'R' etwas ist Art des Interaktionsbereichs - siehe Kapitel 13 des Buches. –

+0

Es tut mir sehr leid, Sie zu stören, aber ich habe zusätzliche Frage zu ppm. Ich berechnete die Dichte meiner Population, aber nachdem ich immer wieder die spatstat-Hilfe gelesen habe, habe ich keine Ahnung, wie ich diese berechnete Dichte verwenden soll. Wenn ich es als Kovariate verwende und die Vorfälle ppp anpasse, gibt die Plot-Funktion an, dass dort nichts zu plotten ist - flache Oberfläche. ist das ok: fit = ppm (inc_ppp, ~ dens_pop) – JerT