Twitterbots & Textgenerierung

Tag 3: Projektumsetzung

Esther Seyffarth
29.02.-04.03.2016

Datensätze und Korpora

Wortlisten

Swearjar

Deutsche Wortliste (ohne Annotationen)

Datenbank zur deutschen Wortliste

Nur Nomen, Adjektive und Verben, mit zusätzlichen Wortinfos

CMU Pronouncing Dictionary

Auch als Korpus im NLTK unter dem Namen gutenberg.cmudict enthalten

WordNet

Zugriff auch von NLTK aus möglich

Darius Kazemis Corpora-Projekt

Wiktionary-Verzeichnisse

  • Anglizismen
  • Dialekt-Vokabular
  • Berufe
  • Organische Stoffe
  • Dinosaurier
  • Getränke
  • Verwandtschaftsbezeichnungen
  • Küchengeräte
  • Mineralien und Gesteine
  • weihnachtliche Wörter
  • ... und viele mehr

Korpora

Reddit-Korpus (CSV)

z.B. /r/ToasterRights

Shakespeare (XML)

Cornell Movie Dialogs Corpus

APIs

Datensätze

Weitere mögliche Datenquellen

  • eigene Texte
  • Songtext-Seiten (als HTML öffnen und verarbeiten)
  • WikiQuote
  • Projekt Gutenberg