C# HTMLAgilityPack HTML zu Text - Parse Fehler

Ich muss Text aus einer HTML-Datei mit C# extrahieren. Ich versuche, HTMLAgilityPack zu verwenden, aber ich sehe einige Parse-Fehler (Tags nicht geschlossen). Ich verwende diese beiden Optionen:C# HTMLAgilityPack HTML zu Text - Parse Fehler

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true;

Gibt es einen "Fix alle" Typ Option. Ich interessiere mich nicht für die Fehler, ich will nur den Inhalt oder schließen.

Quelle

2010-09-27 tvr

Vielleicht ist das Problem zu umgehen, aber sobald ich Text von HTML zu extrahieren hatte benutzte ich regex:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " ");

Quelle

2010-09-27 09:42:21 Ichibann

Dank! Ich war auf der Suche nach einer HTMLAgilityPack-Lösung ... – tvr

C# HTMLAgilityPack HTML zu Text - Parse Fehler

Antwort

Verwandte Themen