DAKODA ist ein interdisziplinäres Projekt mit dem übergeordneten Ziel, die Datenkompetenzen des wissenschaftlichen DaF/DaZ-Nachwuchses im Bereich Lernerkorpusforschung voranzutreiben. Im Projekt werden sprachtechnologische Ressourcen für erwerbsbezogene Fragestellungen entwickelt und auf Basis einer breiten Datengrundlage erprobt. DAKODA soll somit Möglichkeiten und Grenzen der Anwendung computerlinguistischer Verfahren für Lernersprachenanalysen explorativ ausloten.
Online-Workshop „Korpusdaten - Konvertierung und Extraktion“ am Dienstag, den 27. Juni (12-14.00 Uhr s.t.)
Der Workshop richtet sich an alle, die sich für technische Aspekte der Korpusaufbereitung und -nutzung interessieren. Zentrale Gegenstände sind die Betrachtung verschiedener Daten- und Dateiformate (z.B. XML, JSON, PDF, Word oder Excel) hinsichtlich ihrer Eignung als Speicher- oder Verarbeitungsformate und der Umgang mit Zeichensätzen und -codes, darunter Unicode. In einem praktischen Teil haben die Teilnehmer:innen Gelegenheit, die Verwendung von regulären Ausdrücken zum Zweck der Informationsextraktion aus Plain text-Daten beziehungsweise zur Umformatierung solcher Daten einzuüben.
Referenten: Josef Ruppenhofer und Torsten Zesch (FernUniversität Hagen)
Wir bitten um Anmeldung bis Donnerstag, den 22. Juni, über https://umfrage.uni-leipzig.de/index.php/469658?newtest=Y&lang=en. Den Zoom-Link zur Teilnahme erhalten Sie vor dem Workshop per E-Mail.
DAKODA steht für Datenkompetenzen in DaF/DaZ: Exploration sprachtechnologischer Ansätze zur Analyse von L2-Erwerbsstufen in Lernerkorpora des Deutschen. Ausführliche Informationen zu DAKODA können Sie zusätzlich auf der Projekthomepage finden: dakoda.org
Das Projektteam des Herder-Instituts (Leitung: Prof. Dr. Katrin Wisniewski) kooperiert in DAKODA mit dem Language Technology Lab der FernUniversität in Hagen (Leitung: Prof. Dr.-Ing. Torsten Zesch).
DAKODA wird vom BMBF in der Förderlinie "Datenkompetenzen Für den wissenschaftlichen Nachwuchs" gefördert.
(Laufzeit 10/2022 - 9/2025)
Weitere Informationen über die Förderlinie und die geförderten Projekte finden sich hier.
1. Eine gut zugängliche Datenbasis mit einer großen Zahl an Lernerkorpora schaffen und erschließen
DAKODA wird eine Vielzahl an Lernerkorpora zum Deutschen zusammenführen und unter Beachtung datenschutz- und urheberrechtlicher Vorgaben möglichst niederschwellig zugänglich machen. Es sollen teils auch solche Daten zugänglich und analysierbar gemacht werden, die bisher nicht öffentlich bzw. nicht ohne Weiteres für projektexterne Forschende zugänglich waren.
Die Daten werden in einem Repositorium zum Download verfügbar sein. Außerdem wird in DAKODA ein nutzer:innenfreundliches Dashboard entwickelt, mit dem man korpusübergreifend suchen kann. Die Korpora werden v.a. über ihre Metadaten miteinander verankert.
Um eine möglichst große Datenbasis für DAKODA zu schaffen, sind wir an Datenspenden interessiert.
- Falls Sie im Besitz von geschriebenen oder gesprochenen L2-Produktionen sind und diesen gerne eine größere Sichtbarkeit verschaffen würden, kontaktieren Sie uns gern!
2. Forschung zur Variation von Lernersprache unter Anwendung explorativer Verfahren des maschinellen Lernens
Lernersprachenanalysen zeigen schon seit Entstehen der L2-Erwerbsforschung immer wieder eine beträchtliche inter-, aber auch intraindividuelle Variation. Jüngst rückt dies bedingt durch verbesserte Analysemethoden erneut in verstärktem Maße ins Licht: Erwerbsverläufe erweisen sich oft als nicht-linear und sehr dynamisch und sind abhängig von einer Vielzahl an Einflussfaktoren. Dies steht jedoch in einem Spannungsverhältnis zu recht robusten Befunden über den geordneten Erwerb syntaktisch-morphologischer Erwerbsstufen, die für das Deutsche als L2 intensiv beforscht sind.
DAKODA möchte deshalb Aspekte sprachlicher Variation innerhalb dieser Erwerbsstufen genauer analysieren. Dazu sollen computerlinguistische Analyseverfahren (maschinelles Lernen) exploriert und hinsichtlich ihrer Zuverlässigkeit und Validität eingeschätzt werden.
3. Förderung der Datenmanagement- und Datenalysekompetenzen beim Nachwuchs in DaF/DaZ
Kern von DAKODA ist zudem das zentrale Anliegen, die Datenmanagement- und Analysekompetenzen zur Auswertung großer und heterogener Datenmengen durch Nachwuchswissenschaftler:innen im Bereich DaF/DaZ weiterzuentwickeln. Um dieses Ziel zu erreichen, wird das Projekt durch eine Reihe von Workshops begleitet, die Nachwuchswissenschaftler:innen des Fachkontextes DaF/DaZ offenstehen. Informieren Sie sich in Kürze hier übergeplante Workshops und Verfügbarkeiten.
Weiter Informationen können Sie auf der Projektwebseite finden: dakoda.org
Projektleitung
Katrin Wisniewski (Universität Leipzig, Herder-Institut)
Torsten Zesch (FernUni Hagen, Language Technology Lab)
Wissenschaftliche Mitarbeiter:innen
Annette Portmann (UL)
Christine Renker (UL)
Josef Ruppendorfer (FUH)
Nicht-wissenschaftliches Personal
Denise Kiesel (UL)
Assoziierte Forschende
Luise Böttcher (UL)
Lisa Lenort (UL)
Max Polter (UL)
Shanny Druker (UL)
Jamila Bläsing (UL)
Lisa Prepens (FUH)
Christine Czinglar
Professorin für Deutsch als Zweit- und Fremdsprache an der Friedrich-Schiller-Universität Jena
Stefanie Dipper
Professorin für Computerlinguistik an der Ruhr-Universität Bochum, Lehrstuhl für Linguistik und Projektleitung des SFB-Projekts C6
Jana Gamper
Professorin für Deutsch als Zweitsprache an der Justus-Liebig-Universität Gießen
Gisela Håkansson
Emeritierte Professorin für Allgemeine Linguistik an der Universität Lund
Hagen Hirschmann
Wissenschaftlicher Mitarbeiter am Institut für Deutsche Sprache und Linguistik der Humboldt-Universität zu Berlin, Abteilung Korpuslinguistik und Morphologie
Anke Lenzing
Professorin für Fachdidaktik in Englisch, Universität Innsbruck
Detmar Meurers
Professor für Computerlinguistik und Leiter der Arbeitsgruppe Theoretische Computerlinguistik an der Universität Tübingen
Elena Volodina
Forscherin am Fachbereich Schwedisch, Mehrsprachigkeit, Sprachtechnologie an der Universität Göteborg
Sonja Zimmermann
Test-DaF-Institut/g.a.s.t
Hier halten wir Sie kontinuierlich über neue Publikationen aus DAKODA auf dem Laufenden.