0
dies ist mein Code, um eine Xmlherunterladen XML von einer URL ohne darin Sonderzeichen mit
import org.apache.commons.io.FileUtils;
String fileURL = "https://www.sec.gov/Archives/edgar/data/16160/000001616016000061/calm-20160528.xml";
URL url = new URL(fileURL);
File file = new File("/home/user1/Downloads/calm-20160528.xml");
FileUtils.copyURLToFile(url, file);
aber Heruntergeladene XML Sonderzeichen wie diese will ich
</td>
<td valign="middle" style="width:09.78%;border-top:1pt solid #000000 ;border-left:1pt none #D9D9D9 ;border-bottom:1pt none #D9D9D9 ;border-right:1pt none #D9D9D9 ;background-color: #CCEEFF;height:15.00pt;font-family:Times New Roman;font-size:11pt;text-align:right;" nowrap="nowrap">437,556&nbsp;
mit Download bekommen Entfernen Sie diese Sonderzeichen beim Herunterladen dieser XML-Datei selbst.
Es scheint mir, dass der Teil des heruntergeladenen XML, von dem Sie sprechen, HTML ist. '
Antwort
Dies ist kein Problem mit FileUtils.copyURLToFile. Das XML selbst enthält diese Zeichen. Es scheint, dass einige XML-Tags HTML enthalten, und dies wird zitiert, um nicht mit der XML zu verwechseln. Sie müssen den HTML-Code entfernen.
Quelle
2016-07-26 07:34:35 KamikazeJones
Diese Datei ist ein gültiges XML-Dokument, einschließlich maskierter XML-Fragmente. So ist es gültig "wie es ist". Wenn Sie es verarbeiten möchten, verwenden Sie einen XML-Parser und entschlüsseln Sie die maskierten XML-Fragmente.
Quelle
2016-07-26 07:40:03 rmuller
Verwandte Themen