Nehmen Sie Ihr Scrabble-Set heraus, notieren Sie sich die Noten für jeden Buchstaben, die Summe der Noten für ein Wort, hey, Sie haben Ihren Algorithmus. Nicht sicher, ob es Ihren Anforderungen entspricht, aber es könnte Sie in eine nützliche Richtung weisen. Sie möchten beispielsweise Noten nicht nur einzelnen Buchstaben, sondern auch Di- und Trigrammen zuordnen.
Ich bin mir keiner vorhandenen Quelle der Informationen bewusst, die Sie brauchen, vielleicht könnten Sie Ihre eigenen Buchstaben-Punktzahlen erzielen, indem Sie die Tastatur untersuchen und den schwierigeren Buchstaben höhere Punktzahlen zuweisen: also 1 für 'a', 8 für 'q', 2 für 'm' und so weiter.
EDIT: Ich scheinen Menschen mehr verwirrt als ich normalerweise, wenn ich auf SO antworte. Hier sind die Barebones meines Vorschlags:
a) Liste alle Trigramme und Digramme, die auf Englisch (oder Ihre Sprache) vorkommen. Jedem von ihnen wird ein Tippfehler zugewiesen. Machen Sie dasselbe für einzelne Buchstaben (schließlich könnte ein Wort mit 4 Buchstaben aus einem Trigramm und einem Buchstaben und nicht aus zwei Digrammen bestehen).
b) Ermitteln Sie die Schwierigkeit, ein Wort als Summe der Schwierigkeit der Eingabe seiner Komponenten einzugeben.
Was die Schwierigkeitspunkte betrifft, habe ich keine Ahnung, aber Sie könnten von 1 für einen Buchstaben auf den Home-Tasten auf einer Tastatur starten, 2 für einen Buchstaben, der die Zeigefinger verwendet, aber kein Home-Key ist, 3 für einen Brief, der den 2. oder 3. Finger auf deiner Hand benutzt, und so weiter. Dann für Digrams, punkten niedrig für einfache Buchstaben links und rechts (oder rechts und links) in der Reihenfolge, hoch für schwierige Buchstaben einerseits in der Reihenfolge (zB qz, obwohl das ist vielleicht nicht gültig für Englisch). Und du gehst.
Vielleicht, wenn Sie die Logik hinter der Tastatur Dvorak lesen, könnte es Ihnen helfen. – ruslik
Eine grobe Lösung wäre es, Daten über Tippfehler zu erhalten (diskutiert http://StackOverflow.com/Questions/1801647/what-is-the-best-source-for-typo-statistics) und die Fehlerrate für jeden zu ermitteln Schlüssel. Es ist problematisch, weil Tippfehler oft kontextabhängig sind (Umstellungen, Verwechslungen zwischen ähnlichen Wörtern, gemeinsamen Endungen usw.). Um einen Kontext zu berücksichtigen, könnten Sie stattdessen 2 Gramm verwenden (Fehlerraten für jeden Schlüssel, der dem anderen Schlüssel folgt). –