Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?

Ich habe ein lokal erstellt .egg-Paket, das von boto==2.38.0. abhängt Ich habe setuptools verwendet, um die Build-Verteilung zu erstellen. Alles funktioniert in meiner eigenen lokalen Umgebung, da es boto korrekt von PiP abruft. Unter databricks ruft es Abhängigkeiten jedoch nicht automatisch ab, wenn ich eine Bibliothek an den Cluster anschließe.Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?

Ich kämpfte jetzt wirklich seit ein paar Tagen versuchen, eine Abhängigkeit automatisch zu installieren, wenn auf Databricks geladen, verwende ich setuptools;'install_requires=['boto==2.38.0']' ist das relevante Feld.

Als ich boto direkt von PyPi auf dem databricks Server installieren (also nicht auf das install_requires Feld verläßt richtig zu arbeiten) und dann meine eigenen .egg nennen, es erkennt, dass boto ein Paket, aber es erkennt nicht jeder seine Module (da es nicht in meinem .egg Namensraum importiert wird ???). So kann ich meine .egg nicht funktionieren. Wenn dieses Problem weiterhin besteht, ohne irgendwelche Lösungen zu haben, würde ich denken, dass dies ein großes Problem für die Benutzer databricks ist. Es sollte natürlich eine Lösung geben ...

Danke!

Quelle

2015-08-20 Loek Janssen

Loek, haben Sie jemals eine Lösung gefunden? – ramhiser

@ JohnA.Ramey Ich habe nicht, aber ich habe auch nicht mehr an diesem Thema gearbeitet. Ich erinnere mich, dass das Databricks-Team mir gesagt hat, dass sie gerade dabei sind, dies zu lösen. Ich nehme an, dass Sie derzeit auf die gleichen Probleme stoßen? Tut mir leid das zu hören. Lassen Sie mich wissen, wenn Sie selbst eine Lösung gefunden haben :) –

noch irgendwelche Fortschritte bei diesem Problem? –

Die Abhängigkeiten Ihrer Anwendung funktionieren im Allgemeinen nicht ordnungsgemäß, wenn sie unterschiedlich sind und keine einheitliche Sprachunterstützung bieten. Die Databrick docs erklären, dass

Databricks wird die richtige Version installieren, wenn die Bibliothek unterstützt sowohl Python 2 und 3. Wenn die Bibliothek nicht Python unterstützt 3 dann Bibliothek Anlage wird mit einem Fehler fehl.

In diesem Fall werden Abhängigkeiten beim Anhängen einer Bibliothek an den Cluster nicht automatisch abgerufen.

Quelle

2018-01-02 02:37:41

Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?

Antwort

Verwandte Themen