2016-07-22 45 views
-1

Kürzlich versuche ich eine Webspinne zu schreiben, also finde ich einige Projekte über Webspider in PHP geschrieben.php Erweiterung "PCNTL" ist für eine Webspinne geeignet?

In diesen Projekten fand ich die Erweiterung "PCNTL" wird häufig verwendet, aber ich kann keine detaillierten Anleitungen oder Handbücher darüber finden.

Also ich möchte wissen, ob Erweiterung "PCNTL" wirklich für eine Webspinne geeignet ist? Wenn nicht, was sind die Alternativen?

+0

Voting zu schließen .. Dies ist keine echte Frage. – Gogol

+0

Frage ist gut, aber der Weg ist gefragt ist nicht sehr gut. Ich habe es bearbeitet. – Nick

Antwort

0

"PCNTL" sind Erweiterungen mit C-ähnlichen prozessbezogenen Funktionen, insbesondere fork.

Ich bin nicht sicher, ob es gute Tutorials gibt, aber Sie können C/C++ - Beispiele überprüfen, um zu verstehen, wie Sie diese PHP-Funktionen verwenden.

Vor einigen Jahren haben wir Web Crawler. Anstelle von fork haben wir ein Shell-Skript verwendet, das 100 Instanzen des Crawlers parallel gestartet hat. Eine andere Alternative ist curl-multi, aber wiederum gibt es nicht genug Informationen und Tutorials dafür Wir haben es ausprobiert und fanden es nicht sehr zuverlässig, aber ich glaube, Sie sollten es überprüfen.

Eine andere Alternative ist es, es in Python zu tun - es gibt mehrere verschiedene Programmbibliotheken, die eine Menge Möglichkeiten gibt.

+0

Vielen Dank für Ihre Antwort und bearbeiten, ich werde es versuchen, was Sie in Anwer erwähnt, vielleicht PHP ist nicht der beste Weg für Spider, ich werde dann weiter studieren. Darüber hinaus ist dies meine erste Frage auf dieser Plattform, und mein Englisch ist sehr schlecht, ich werde weiter üben. Jedenfalls vielen Dank. :) – Damon

+0

Überprüfen Sie meine Antwort hier: http://serverfault.com/questions/326290/most-efficient-time-cost-way-to-scrape-5-million-web-pages/538958 – Nick