Ich brauche eine Wörterbuchdatenbank, aber das meiste davon ist ein alphanumerisches, nutzloses Zeug, und die interessanten Felder sind entweder nicht alphanumerisch (wie chinesische Schriftzeichen) oder in einigen Klammern. Ich habe viel gesucht, viel über Tools wie sed, awk, grep usw. gelernt, sogar über ein Python-Skript nachgedacht, aber es ist mir nie gelungen, eine Lösung zu finden.So löschen Sie alphanumerische Wörter aus einer Unicode-Datei
Eine Zeile der Datenbank wie folgt aussieht:
助 L1782 DN1921 K407 O431 DO346 MN2313 MP2.0376 E314 IN623 DA633 DS248 DF367 DH330 DT284 DC248 DJ826 DG211 DM1800 P1-5-2 I2g5.1 Q7412.7 DR3945 Yzhu4 Wjo ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist}
Ich brauche es so zu sein:
助 ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist}
Ho kann mich mit dieser eine der oben genannten Tool?
Dies ist eine Menge zusätzlicher Arbeit: Sie können das Spiel in Scheiben schneiden: 're.findall() [1]', um das erste Ergebnis. 're.search()' gibt auch nur die erste Übereinstimmung zurück (aber als ein Übereinstimmungsobjekt) – TemporalWolf
@TemporalWolf Es wird spät, also bin ich vielleicht nur müde, aber ich verstehe nicht, warum du es abschneiden willst .findall() '? Das würde mir eine Liste mit einem einzelnen Tupel geben, brauche ich nicht alle Tupel für das Match? –
Nein, ich irre mich nur: Ich habe falsch gelesen, was du getan hast. Guter Ruf. – TemporalWolf