Python3 Unicode Decode Fehler

ich UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 0: invalid continuation bytePython3 Unicode Decode Fehler

ich auch binascii.unhexlify('%x' % (int('0b' + bNum, 2))).decode('utf-8') zu verwenden versucht, wo bNum eine lange binäre Zeichenfolge ist

Der Text war ursprünglich von einem utf -8 codiert Datei

EDIT: Sagen wir, wir haben zwei Bit-Strings, die erste ist die genaue Bit-String von der Umwandlung von Text zu eine Bitfolge. Die Sekunde wird aus einem Bild extrahiert. Die Sekunde ist genau die gleiche wie die erste bis zu dem Punkt, an dem sie abgeschnitten wurde, weil das Bild, in dem sie versteckt wurde, nicht genug Pixel hatte.

Beispiel: http://pastebin.com/NnaH9dEb

warum es UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 0: invalid continuation byte Fehler werfen würden, wenn sie beide die gleichen Daten bis zu dem Punkt, der zweite schneidet enthalten?

EDIT2: Wenn ich die zwei Bit-Zeichenfolgen über hex(int(<var name>, 2)) in Hex konvertieren, bekomme ich unterschiedliche Ergebnisse, aber die Konvertierung nur der ersten paar Bytes gibt das gleiche Ergebnis zurück.

Quelle

2016-04-25 Darrel Holt

würde ich Ihre Annahme in Frage stellen, dass die Quelle war UTF-8 codiert. –

@MarkRansom Ich habe es zuvor mit Notepad ++ überprüft und wieder gespeichert und ich habe es gerade noch einmal gemacht, ich habe immer noch das selbe Problem. –

@MarkRansom Hier ist der Code zu meinem Programm, wenn Sie einen Blick darauf werfen möchten: http://pastebin.com/ZibMjms3 Es verbirgt den Text in einem Bild. Dann bekomme ich diesen Fehler, wenn ich versuche, es abzurufen, also ist es vielleicht meine Versteck-Funktion, die das Problem verursacht. Das Problem tritt nur auf, wenn der Text, der in das Bild eingefügt werden soll, die Größe des Bildes überschreitet (nicht genug Pixel, um jedes Bit zu platzieren, um später den Text zu rekonstruieren). Mit reinem UTF-8-Text wie Russisch funktioniert es gut und schneidet nur ab, was nicht in das Bild passt, aber mit normalen englischen Zeichen gibt es mir diesen Fehler. –

Die Decodierung von decMsg ist falsch ausgerichtet. Wenn ich am Ende der Nachricht 7 Nullbits hinzufüge oder das letzte Bit abschneide, dekodiert es mit meiner Methode. Ihr Code war TL; DR.

import math 

initMsg = '11101000110100001100101...' # truncated due post limits. 
decMsg = '11101000110100001100101...' 

# Only printing the first 25 chars of the message for bevity: 

a = int(initMsg,2) 
print(a.to_bytes(math.ceil(a.bit_length()/8),'big')[:25]) 

a = int(decMsg,2) 
print(a.to_bytes(math.ceil(a.bit_length()/8),'big')[:25]) 

a = int(decMsg+'0000000',2) 
print(a.to_bytes(math.ceil(a.bit_length()/8),'big')[:25]) 

a = int(decMsg[:-1],2) 
print(a.to_bytes(math.ceil(a.bit_length()/8),'big')[:25])

Ausgang:

b'the wreck of the hesperus' 
b'\xe8\xd0\[email protected]\xee\xe4\xca\xc6\[email protected]\xde\[email protected]\xe8\xd0\[email protected]\xd0\xca\xe6\xe0\xca\xe4\xea\xe6' 
b'the wreck of the hesperus' 
b'the wreck of the hesperus'

Vergleichen \xe8-t in binär:

>>> format(ord('t'),'08b') 
'01110100' 
>>> format(0xe8,'08b') 
'11101000'

Quelle

2016-04-25 07:38:05

Dank einer Tonne Marke, das hat es wirklich für mich aufgeräumt. –

@DarrelHolt verwandt: [Konvertieren von Binär in ASCII und umgekehrt] (http://StackOverflow.com/Q/7396849/4279) – jfs

@JFSebastian Danke Sebastian, ich sah Ihren Beitrag dort über die Unterstützung für alle Unicode-Zeichen, es sieht wirklich gut aus. –

Antwort

Verwandte Themen