Versuchen, einige große Panel-Daten von Excel in Python zu bekommen, so dass ich einige GMM/Querschnitt Panel Daten Regressionsanalyse (Think Sci-Kit-Paket) tun kann. Ich habe meine Daten von Excel nach Python verschoben, aber das Format für die Regressionsanalyse ist nicht korrekt (siehe unten). Die Scikit-Website enthält einige Datensätze, mit denen man spielen kann, aber es ist nicht wirklich hilfreich, über Formate zu diskutieren und wie man Daten in ein ähnliches Format bringt, um meine Daten in Python zu bekommen.Excel zu Python für große Panel-Daten, regressfähiges Format?
Hat jemand Erfahrung mit Excel (.xlsx) -Daten und bekommen es in Python, 'Regressionsbereit'?
Ich habe bereits meine benötigte Regressionsanalyse in R und Stata gemacht, aber ich würde gerne Python besser für die Regressionsanalyse verwenden, da es einige nette Attribute hat.
Hier ist mein Dataframe-Format bisher, von Excel zu Python.
BANKS YEARS CIR DSF EQCUS EQLI EQNT EQUITY
0 CR1 2005 65.46 927915.00 28.553 23.948 37.542 264946.50
1 CR1 2006 65.98 1026491.00 30.491 26.584 36.143 312986.00
2 CR1 2007 60.26 1437615.00 27.003 23.413 28.238 388197.20
3 CR1 2008 58.08 1605464.00 24.024 20.160 25.828 385696.80
4 CR1 2009 65.21 1538570.00 28.160 22.850 27.907 433267.30
5 CR1 2010 54.45 1822863.00 31.009 24.555 28.274 565254.60
6 CR1 2011 57.38 2075505.00 30.905 24.861 29.618 641440.50
7 CR1 2012 62.12 2533641.00 29.595 24.509 28.883 749821.50
Datentypen (das von einem 10.000 X 60 Form-Datensatz abgeschnitten wird):
>>>df.dtypes
BANKS object
YEARS int64
CIR float64
DSF float64
EQCUS float64
EQLI float64
EQNT float64
EQUITY float64
Unicode in den Spalten (Ich glaube nicht, Sci-Kit, das mag!)
>>>df.columns.tolist()
[u'BANKS', u'YEARS', u'CIR', u'DSF', u'EQCUS', u'EQLI', u'EQNT', u'EQUITY']
Ich habe kein Problem mit dem Datensatz sehen. Es ist ein Pandas Datenrahmen und kann in scikit-learn verwendet werden. Auf welches Problem stoßen Sie bei der Verwendung dieses Datasets? – ayhan
Ich denke, auf der scikit-learn-Seite sehe ich keine Dokumentation für die Eingabe von Excel-Daten. Alles, was ich sehe, ist, dass ihre Datasets bereits geladen sind und dann beginnen sie, Features zu extrahieren und das Modell anzupassen. Wie kann ich für diese Daten eine grundlegende OLS ausführen? Ich sehe das nirgends auf der Scikit-Seite. Statsmodels hat ähnliche Dokumentationsprobleme. – StringTheo