Ich trainiere word2vec zu biomedizinischen Texten. Um Wortähnlichkeits- und Wortanalogie-Tests durchzuführen, möchte ich Paare biomedizinischer Ausdrücke haben, die die gleiche Beziehung haben (könnte irgendeine sein), genauso wie wir eine umfassende Liste von Stadt-Zustand-Daten in word2vec haben. Ich habe versucht, das Internet zu durchsuchen, aber da ich neu in der Domain bin, finde ich es verwirrend.Datensätze in Biodomain wie Wordähnlichkeitsdatensätze in Word2vec und Handschuh
Also, wo kann ich die Liste für Drogen-Gen oder Protein-Aktion, etc. finden? Oder wie kann ich diese Daten abbauen? Bitte schlagen Sie solche Datensätze öffentlich vor. Bitte schlagen Sie auch weitere interessante Beziehungen vor, die ich auch abfragen kann. Ein anderer Weg wäre die Verwendung verfügbarer Ontologien, da sie Beziehungen zwischen Konzepten wie Has-Part, Is-a-Way-of-Doing, Is-a-Cause-Of, Is-A-Symptom-of etc. Enthalten Kann ich Ontologien verwenden, um solche Paare zu extrahieren? Wenn ja, welche Ontologien und wie?
Gibt es bereits verfügbare Goldstandarddatensätze, die meinen Zweck erfüllen können?