Ich lese in Suchbegriffe aus einer einfachen Textdatei an eine Suchmaschine zu senden. Es funktioniert gut in Englisch, aber gibt mir ???? für jeden japanischen Text. Text mit gemischtem Englisch und Japanisch zeigt den englischen Text, also weiß ich, dass er es liest.JMeter CSV Data Set beschädigt japanische Strings als richtige UTF-8 gespeichert, bekomme ich stattdessen Fragezeichen
Was ich sehe:
- Eingabetext: Snow Leopard を イ ン ス ト ー ル す る 場合, 新 し い
- verwandelt sich in: Snow Leopard ????????????? ??
Dies ist in meinem POST-Feld eines HTTP. Wenn ich JMeter auf die Codierung der Daten einstelle, wird nur die Prozentfolge für Fragezeichen eingefügt.
über die Daten:
- Die CSV-Datei in Struktur sehr einfach ist.
- Es gibt nur ein Feld/eine Spalte, die ich TERM nennen, und die spätere Verwendung als $ {TERM}
- ich wirklich nicht voll CSV brauchen, weil es nur eine Saite pro Zeile.
- Es gibt keine Kommas oder Anführungszeichen.
- Es ist UTF-8 und wenn ich den Unix-Befehl "Datei" für die Datei ausführen, wird UTF-8-Text angezeigt.
- Ich habe UTF-8 auch in der Befehlszeile und im Grafikmodus auf zwei Rechnern verifiziert.
Interessante Anmerkung: Ein interessanter Zufall, dass ich bemerkt: wenn gibt es 15 japanische Zeichen dann bekomme ich 15 Fragezeichen, so an einem gewissen Punkt wird es als Voll Zeichen gesehen zu werden und nicht nur die Bytes.
JMeter CSV Datensatz Config:
- Dateiname: Japanisch-searches.csv
- Datei-Codierung: UTF-8 (auch versucht ohne)
- Variablennamen: TERM
- Delimiter:,
- Zulässige Daten zulassen: Falsch (Ich habe auch versucht True, anders, aber immer noch falsch)
- Recycle bei EOF: True
- Stopp bei EOF: False
- Staring-Modus: Alle Themen
Ein paar Dinge, die ich versucht habe: - Versuchte können Daten zitiert. Es änderte sich zu anderen seltsamen Charakteren. - Added -Dfile.encoding = UTF-8 - Versuchte Codierung der POST Bühne, aber es nur in einen Haufen von% nn für Fragezeichen gedreht
Und ich bin nicht sicher, wie „debug“ kurz nach der jeweils Linie der CSV wird eingelesen. I denke es ist sofort beschädigt, aber ich bin mir nicht sicher.
Wenn es nur gemangelt wird, wenn ich es referenziere, dann gibt es vielleicht anstelle von $ {TERM} einen anderen "to Bytes" Funktionsaufruf. Ich werde mich darum kümmern. Ich habe mit den JMeter-Funktionen noch nichts gemacht.
Edited 24. Dezember:
Tweaks:
- Geänderte Formatierung und hinzugefügt Kugel Punkte für mehr Klarheit.
- Klargestellt, dass die Datei UTF-8 ist, und das überprüft haben.
Eine neue Theorie:
- Ist es möglich, dass die japanischen Schriftzeichen es durch machen, und das Problem ist, dass jeder einzelne Ort, der sie sie zu einem zeigt Karten „?“ nur bei DISPLAY TIME. Also, obwohl ich ein paar Orte eingecheckt habe, haben alle ein Display-Problem nur in der Benutzeroberfläche?
- Gibt es in JMeter eine Möglichkeit, den numerischen Wert eines Zeichens oder einer Zeichenfolge zu sehen? Um JMeter mitzuteilen, die Liste der Unicode-Codepunkte anzuzeigen?
- Ich schaue mir meine letzten Protokolldateien an ... obwohl ich vermute, dass sogar die Serverprotokolle die Zeichen falsch zuordnen konnten.
- Vielleicht auch, wenn Variable Erweiterung innerhalb des Textfelds, das ich POST, wo ich die $ {TERM} verweisen, vielleicht bei , dass es auch auf Fragezeichen zugeordnet, aber dass die Korruption zu diesem späteren Zeitpunkt passiert . Wenn dies passiert ist UND in der Benutzeroberfläche falsch angezeigt wurde, kann dies zu einer falschen Schlussfolgerung führen.
- Was ich wirklich gerne tun würde, ist JMeter nach dem ersten CSV-Datensatz anzuhalten, kurz nachdem diese Zeile geladen wurde, und es mit einem "Data Scope" oder Byte-Editor oder etwas zu betrachten. Ich bin mir nicht sicher, ob das möglich ist.
Ich denke nicht, dass das sehr klar ist. Sie sagen, Sie lesen aus einer Textdatei, erwähnen aber nicht, in welcher Kodierung sie sich befindet oder wie sie gelesen wird (zB Java-Code) und wenn ja, welchen Code sie verwendet.Ich denke, dass Sie eher eine Antwort erhalten, wenn Sie sich nicht darauf verlassen, dass jemand genau weiß, wie JMeter funktioniert. – PandaWood
Ich habe UTF-8 erwähnt, und ich habe es verifiziert. Ich werde die Formatierung bearbeiten, vielleicht mehr Aufzählungspunkte. Haben Sie auch ein bisschen mehr Info. –
Es sieht nach einem Codierungsproblem aus. Dieser Artikel kann helfen: http://www.velocityreviews.com/forums/t169159-strangeness-with-japanese-xml-java.html sonst würde ich auf das Nabble-Forum posten: http: //jmeter.512774.n5.nabble .com/JMeter-User-f512775.html – BlackGaff