Twitterbots & Textgenerierung
Tag 3: Projektumsetzung
Esther Seyffarth
29.02.-04.03.2016
Datensätze und Korpora
Wortlisten
Swearjar
Deutsche Wortliste (ohne Annotationen)
Datenbank zur deutschen Wortliste
Nur Nomen, Adjektive und Verben, mit zusätzlichen Wortinfos
CMU Pronouncing Dictionary
Auch als Korpus im NLTK unter dem Namen gutenberg.cmudict enthalten
WordNet
Zugriff auch von
NLTK
aus möglich
Darius Kazemis Corpora-Projekt
Wiktionary-Verzeichnisse
Anglizismen
Dialekt-Vokabular
Berufe
Organische Stoffe
Dinosaurier
Getränke
Verwandtschaftsbezeichnungen
Küchengeräte
Mineralien und Gesteine
weihnachtliche Wörter
... und viele mehr
Korpora
Reddit-Korpus (CSV)
z.B. /r/ToasterRights
Shakespeare (XML)
Cornell Movie Dialogs Corpus
APIs
Wordnik
List of News Media APIs
ZEIT Online
Deutsche Digitale Bibliothek
Datensätze
Open Data (Deutschland)
:
Straßennamen
Kindernamen
Geodaten von barrierefreien Toiletten
Studienabschlussstatistiken
Open Data (USA)
100+ Interesting Data Sets for Statistics
Weitere mögliche Datenquellen
eigene Texte
Songtext-Seiten (als HTML öffnen und verarbeiten)
WikiQuote
Projekt Gutenberg