AWNDatabaseManagement.py
sollte mit dem Argument -i
, die das arabische WordNet als Wert hat gespeist werden. Wenn das Argument nicht angegeben ist, wird ein Standardpfad E:/usuaris/horacio/arabicWN/AWNdatabase/upc_db.xml
verwendet.
Um dies zu beheben, laden Sie the xml database of Arabic WordNetupc_db.xml
. Ich schlage vor, es in den gleichen Ordner mit dem Skript AWNDatabaseManagement.py
zu legen. Dann laufen:
$ python AWNDatabaseManagement.py -i upc_db.xml
Das, was ich bekam, nachdem er ausgeführt wird, keine Fehler:
processing file upc_db.xml
<open file 'upc_db.xml', mode 'r' at 0xb74689c0>
Sie können auch die Linie 320
ändern
opts['i']='E:/usuaris/horacio/arabicWN/AWNdatabase/upc_db.xml'
zu
opts['i']='upc_db.xml'
und dann das Skript ohneausführen
Sie können es laden:
>> from AWNDatabaseManagement import wn
wenn es fehlschlägt, überprüfen Sie, dass Sie die XML-Ressource in dem richtigen Weg setzen.
Jetzt etwas wie wn.synset('جميل')
zu bekommen. Arabisch Wordnet hat eine Funktion wn.get_synsets_from_word(word)
, aber es gibt Offsets. Auch akzeptiert es die Wörter nur als in der Datenbank vokalisiert.
>> wn.get_synsets_from_word(u"جَمِيل")
[(u'a', u'300218842')]
300218842
ist der Versatz des Synset von جميل: Zum Beispiel sollten Sie جَمِيل
nicht جميل
verwenden. Ich schlage vor, stattdessen die nächste Methode zu verwenden. Liste Worte:
>> for word,ids in sorted(wn.get_words(False)):
.. print word, ids
Sie ein Ergebnis wie folgt erhalten:
جَمِيعَة [u'jamiyEap_1']
جَمِيل [u'jamiyl_1']
جَمِيْعَة [u'jamiyoEap_1']
جَمَّدَ [u'jam~ada_2', u'jam~ada_1']
Ihr Wort wählen, und eine ID seiner ids holen. IDs werden in Buckwalter romanization geschrieben. Viele IDs bedeuten, dass das Wort unterschiedliche Bedeutungen hat.Beschreiben Sie das gewählte Wort mit:
>> wn._words["jamiyl_1"].describe()
wordid jamiyl_1
value جَمِيل
synsets [u'jamiyl_a1AR']
forms [(u'root', u'\u062c\u0645\u0644')]
Jetzt haben Sie die Liste der Synsets. Weitere Informationen zu einem Synset finden Sie unter:
>> wn._items["jamiyl_a1AR"].describe()
itemid jamiyl_a1AR
offset 300218842
name جَمِيل
type synset
pos a
input links [[u'be_in_state', u'jamaAl_n1AR'], [u'near_antonym', u'qabiyH_a1AR']]
output links [[u'near_antonym', u'qabiyH_a1AR']]
Woher kommt 'wn'? Es sollte eine Direktive wie 'Import Wordnet as wn' geben – Ashalynd
globaler Name 'wn' ist in der Datei definiert (AWNDatabaseManagement.py) – Mona