Ich versuche, eine Website zu crawlen, genauer gesagt Google Site
mit ManifoldCF
, die SAML-Authentifizierung hat und die gecrawlten Daten in Apache Solr indiziert. Aber während ich die URL crawle, gibt es mir 302
Umleitung auf Login-Seite und sagt dann RESPONSECODENOTINDEXABLE
.Wie crawlen Sie eine Website mit SAML-Authentifizierung mithilfe von ManifoldCF oder nutch?
Ich bin mir nicht sicher, ob ich richtig authentifiziert habe oder nicht. In manifoldCF haben wir Optionen für HTTP basic
Authentifizierung, NTLM authentication
und Session-based
Zugangsdaten Authentifizierungsmethode. Ich verwendete Session based
Authentifizierungsmethode, die mehr aussieht wie eine formularbasierte Authentifizierung statt SAML
Authentifizierung.
Hat jemand eine Website mit manifoldCF gecrawlt, die SAML
Authentifizierung hat? Und wenn nicht manifoldCF
, ist jemand in der Lage, dies über Apache Nutch zu erreichen, weil ich fürchte, es bietet auch nur HTTP
Basic, Digest
und NTLM
Authentifizierung.
Jeder Einblick wäre hilfreich. Kann mehr Informationen zu dem Thema liefern, wenn jemand hier denkt, dass es leicht zu erreichen ist. Grundsätzlich, wenn ich crawl https://sites.google.com/a/my-sub-domain.com, leitet es auf SSO Login-Seite und Crawler weigert sich zu crawlen mehr geben einen 302 Fehler. Es ist eine Intranet-basierte Website.