2010-08-02 7 views
5

Ich suche nach einer Textanalyse in einem Programm, das ich schreibe. Ich suche nach alternativen Textquellen in seiner rohen Form, ähnlich wie bei den Wikipedia-Dumps (download.wikimedia.com).Wo finde ich einen Absturz von Rohtext im Internet?

Ich würde lieber nicht durch die Mühe gehen Webseiten crawlen, die HTML zu analysieren versucht, extrahieren Text etc ..

Antwort

7

Welche Art von Text suchen Sie?

Es gibt viele kostenlosen E-Bücher (Belletristik und Sachliteratur) im .txt-Format bei Project Gutenberg zur Verfügung.

Sie haben auch large DVD images volle Bücher zum Download zur Verfügung.

+0

+1 Ich kam hierher, um PG zu veröffentlichen. – Joe

0

die gutenberg project hat große Mengen an E-Books in verschiedenen Formaten (einschließlich Klartext)

3

NLTK bietet eine einfache API zum Python many text corpora zuzugreifen, einschließlich Gutenberg, Reuters, Shakespeare, und andere.

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]