2010-09-27 5 views
6

Ich muss Text aus einer HTML-Datei mit C# extrahieren. Ich versuche, HTMLAgilityPack zu verwenden, aber ich sehe einige Parse-Fehler (Tags nicht geschlossen). Ich verwende diese beiden Optionen:C# HTMLAgilityPack HTML zu Text - Parse Fehler

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

Gibt es einen "Fix alle" Typ Option. Ich interessiere mich nicht für die Fehler, ich will nur den Inhalt oder schließen.

Antwort

4

Vielleicht ist das Problem zu umgehen, aber sobald ich Text von HTML zu extrahieren hatte benutzte ich regex:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

Dank! Ich war auf der Suche nach einer HTMLAgilityPack-Lösung ... – tvr