Ich versuche, eine bivariate ccdf
des Datensatzes zu plotten, die beide x
und y
Werte hat.Bivariate CDF/CCDF Verteilung Python
Univariate Ich kann sehr gut plotten, unten ist die Eingabe und der Code ist für universellen Datensatz.
Eingabe: Dies sind nur die ersten 20 Zeilen der Datenpunkte. Die Eingabe hat 1000 Zeilen, von denen col[1]
und col[3]
geplottet werden müssen, da sie eine Benutzer- und Schlüsselwort-Häufigkeitsbeziehung besitzen.
tweetcricscore 34 #afgvssco 51
tweetcricscore 23 #afgvszim 46
tweetcricscore 24 #banvsire 12
tweetcricscore 456 #banvsned 46
tweetcricscore 653 #canvsnk 1
tweetcricscore 789 #cricket 178
tweetcricscore 625 #engvswi 46
tweetcricscore 86 #hkvssco 23
tweetcricscore 3 #indvsban 1
tweetcricscore 87 #sausvsvic 8
tweetcricscore 98 #wt20 56
Code: univeriate-Datensatz
import numpy as np
import matplotlib.pyplot as plt
from pylab import*
import math
from matplotlib.ticker import LogLocator
data = np.genfromtxt('keyword.csv', delimiter=',', comments=None)
d0=data[:,1]
X0 = np.sort(d0)
cdf0 = np.arange(len(X0))/float(len(X0))
ccdf0 = 1 - cdf0
plt.plot(X0,ccdf0, color='b', marker='.', label='Keywords')
plt.legend(loc='upper right')
plt.xlabel('Freq (x)')
plt.ylabel('ccdf(x)')
plt.gca().set_xscale("log")
#plt.gca().set_yscale("log")
plt.show()
ich für bivariate Datenpunkte für einige Option suchen. Ich habe Seaborn Bivariate Distribution verwiesen, aber ich kann es nicht in den richtigen Zusammenhang mit meinem Datensatz setzen.
Jeder alternative Vorschlag in Python, Matplotlib, Seaborn sind willkommen .. Vielen Dank im Voraus.
Ihr Beispiel hat nur einen bestimmten Wert in einer der Spalten, daher bin ich mir nicht sicher, ob ich den Punkt der bivariaten Dichteabschätzung sehe. –
Ich habe erwähnt, es ist nur die ersten 20 Zeilen .. Die Daten sind bereits sortiert .. Beide Spalten haben unterschiedliche Werte –
Dann sollten Sie Ihr Beispiel aktualisieren, um repräsentativer zu sein. Zufällige Daten sollten ausreichen. –