Ich benutze scikit-learn
für ein Textklassifikationsproblem, und ich würde gerne wissen, ob es eine maschinelle Lerntechnik gibt, die eine eins-zu-eins, sich gegenseitig ausschließende Zuordnung für Beschriftungen verwendet .Eins-zu-eins passend zu Beschriftungen für Textklassifikation
Sagen Sie beispielsweise, dass ich drei Dokumente basierend auf der Stadt, die sie repräsentieren, beschriften soll. Meine Label-Auswahl ist New York, Detroit und Los Angeles. Meine Dokumente sind "The Big Apple", "The Big City" und "City of Angels". Sagen wir nur für dieses Beispiel, dass "City of Angels" am ehesten nach Los Angeles passt, während "The Big Apple" und "The Big City" am ehesten New York zuordnen sollten. Allerdings möchte ich, dass man nach New York ("The Big Apple", weil sagen wir, dass es besser passt) und nach Detroit, weil New York bereits verwendet wurde, und Detroit ist die einzige Wahl, die übrig ist und es immer noch passt in gewissem Sinne.
Ich möchte dem Prädiktor mitteilen, dass es, wenn es ein Etikett verwendet hat, es nicht erneut verwenden kann, so dass es die beste Schätzung für dieses Etikett machen muss, da es nur einmal verwendet werden kann.
Hat scikit-learn
oder eine andere Bibliothek eine Funktion für den Umgang mit dieser Eins-zu-Eins (und nur einer) Textklassifikation, wie ich es tun möchte?