Ich habe Web-Anwendung in Flask geschrieben. Wie von allen vorgeschlagen, kann ich Flask nicht in der Produktion verwenden. Also dachte ich an Gunicorn mit Flask.So führen Sie Flask mit Gunicorn im Multithread-Modus
In Flask-Anwendung lade ich einige Machine Learning-Modelle. Diese haben zusammen eine Größe von 8 GB. Die Parallelität meiner Webanwendung kann bis zu 1000 Anfragen gehen. Und der RAM der Maschine ist 15GB.
Also, was ist der beste Weg, um diese Anwendung zu starten?
Bei mehreren Arbeitern gibt es keine Speicherausnahme, da die Größe der Modelle groß ist. Ich denke, mit jedem Arbeiter wird es alle Modelle in verschiedenen Speicherbereich laden – neel
Sie müssen Async-Worker wie gevent verwenden, um die Parallelität mit einem Arbeiter zu ermöglichen: 'gunicorn -k gevent --worker-connections 1000'. – molivier
Sie können auch 'threads 'hinzufügen, um jeden Worker mit der angegebenen Anzahl von Threads auszuführen. Siehe Bearbeiten. – molivier