2016-06-21 21 views
0

Ich mache eine Forschung über den Autor Name Disambiguierung Problem. Ich möchte ein paar Experimente machen. Ich möchte Zitierungsdatensätze bündeln. Ich brauche Trainingsdaten und Testdaten, in denen der wahre Autor jedes Veröffentlichungsdatensatzes verfügbar ist. Es gibt viele bibliographische Datenbanken wie DBLP, Medline und Pubmed usw. Ich bin verwirrt über die Testphase. Ist es eine gute Praxis, den DBLP in Training und Tests zu unterteilen? Werden DBLP-Zitatdatensätze manuell hinzugefügt? Kann ich garantieren, dass jeder Zitierungsdatensatz dem wahren Autor in DBLP zugewiesen wird? Gibt es einen Vorschlag für das Training und Testen von Datenbanken? Hinweis: In der Literatur habe ich festgestellt, dass in einigen Zeitungen Pubmed für Training und DBLP für Tests verwendet wurde, obwohl der erste für medizinische Publikationen und der zweite für Computer ist.Autorenname Disambiguierungsdaten

+0

„Kann ich garantieren, dass jedes Anführungsverzeichnis dem wahren zugeordnet ist Autor in DBLP? " Bitte beachten Sie, dass obwohl DBLP manuell curiert wird, dies in keiner Weise eine Garantie dafür ist, dass DBLP fehlerfrei ist. Die Quellen von Metadatenfehlern sind vielfältig und oft kann selbst die manuelle Recherche die "Wahrheit" nicht aufdecken. DBLP kann von höherer Qualität und weniger fehleranfällig sein als andere aggregierte Datenquellen aufgrund seines einzigartigen Ansatzes für die Datensicherung. Aber mit etwas Erfahrung können Sie leicht viele Beispiele finden, in denen selbst DBLP falsch lag. – MRA

Antwort

0

Unten ist mein nehmen auf Ihre Fragen:

Ich bin verwirrt über die Testphase. Ist es eine gute Praxis, den DBLP in Training und Tests zu unterteilen?

Die verwendete Praxis besteht darin, die Daten für Training und Tests zu teilen. Es ist jedoch eine gute Idee sicherzustellen, dass für jede Testprobe Trainingsbeispiele vorhanden sind.

Werden DBLP-Zitatdatensätze manuell hinzugefügt? Kann ich garantieren, dass jeder Zitierungsdatensatz dem wahren Autor in DBLP zugewiesen wird?

Gemäß diesem Dokument werden DBLP-Zitate-Datensätze manuell hinzugefügt. https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

Gibt es einen Vorschlag für das Training und Testen von Datenbanken.

ANDDataset1 hat in einigen Arbeiten für solche Aufgaben https://sites.google.com/site/tinhuynhuit/dataset

Sie können auch versuchen KDD Cup 2013 verwendet worden - Autor Disambiguation Challenge- https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data