2016-08-08 54 views
18

Ich versuche, eine Website zu crawlen, genauer gesagt Google Site mit ManifoldCF, die SAML-Authentifizierung hat und die gecrawlten Daten in Apache Solr indiziert. Aber während ich die URL crawle, gibt es mir 302 Umleitung auf Login-Seite und sagt dann RESPONSECODENOTINDEXABLE.Wie crawlen Sie eine Website mit SAML-Authentifizierung mithilfe von ManifoldCF oder nutch?

Ich bin mir nicht sicher, ob ich richtig authentifiziert habe oder nicht. In manifoldCF haben wir Optionen für HTTP basic Authentifizierung, NTLM authentication und Session-based Zugangsdaten Authentifizierungsmethode. Ich verwendete Session based Authentifizierungsmethode, die mehr aussieht wie eine formularbasierte Authentifizierung statt SAML Authentifizierung.

Hat jemand eine Website mit manifoldCF gecrawlt, die SAML Authentifizierung hat? Und wenn nicht manifoldCF, ist jemand in der Lage, dies über Apache Nutch zu erreichen, weil ich fürchte, es bietet auch nur HTTP Basic, Digest und NTLM Authentifizierung.

Jeder Einblick wäre hilfreich. Kann mehr Informationen zu dem Thema liefern, wenn jemand hier denkt, dass es leicht zu erreichen ist. Grundsätzlich, wenn ich crawl https://sites.google.com/a/my-sub-domain.com, leitet es auf SSO Login-Seite und Crawler weigert sich zu crawlen mehr geben einen 302 Fehler. Es ist eine Intranet-basierte Website.

Antwort

0

Nicht sicher, ob dies hilft, probieren Sie es einfach aus. In nutch können wir Anmeldeinformationen angeben, um sich auf der Seite anzumelden. Wir haben die Datei httpclient-auth.xml im Verzeichnis conf. Dort können Sie Ihren Hostnamen zusammen mit den Anmeldeinformationen angeben.

<auth-configuration> 
    <credentials username="admin" password="admin123"> 
     <authscope host="hostname" realm="login"/> 
     <default/> 
    </credentials> 
</auth-configuration> 

Ebenso können Sie eine beliebige Anzahl von Anmeldeinformationen zu dieser Konfiguration hinzuzufügen.

Um die https-Site zu crawlen, ändern Sie plugin.include Eigenschaft von Protokoll-http zu Protokoll-httpclient in nutch-conf.xml