Wir haben hier für Sie eine Übersicht von (meist) kostenlosen Korpora für Spanisch, Portugiesich, Galicisch und Katalanisch zusammengestellt.
Links zu den Korpora befinden sich in den jeweiligen Überschriften
Spanisch
- im September 2013 gecrawltes Giga-Korpus mit 1,2 Milliarden Token, PoS-tagged
Archivo de textos hispánicos de la Universidad de Santiago de Compostela (Arthus)
- verschiedene Textsorten; zeitgenössisch; Spanien und Amerika; circa 1,5 Millionen Token; Daten zur Base de datos sintácticos del español actual hinzugefügt
- Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!
- zusätzlich umfangreicher Webkorpus von 2013/2014; Internetseiten aus 21 spanischsprachigen Ländern; circa zwei Milliarden Token (Corpus del español: Web/Dialects)
- Webkorpus mit ständiger aktueller Erweiterung um Internetzeitungen und Zeitschriften; circa 5,1 Milliarden Token
Corpus del Español Actual (CEA)
- 1996 – 2000; Spanien; circa 540 Millionen Token; 3 Teilkorpora (Fokus auf Distanzsprache): 2
- Europarl: European Parliament Proceedings Parallel Corpus (spanischer Teil)
-
spanische Wikipedia-Einträge (Stand 2006)
-
MultiUN: Multilingual UN Parallel Text (spanischer Teil)
Corpus del Español del Siglo XXI (CORPES XXI)
-
unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 2001 – 2015; 21 spanischsprachige Länder: 65 Prozent Lateinamerika, 35 Prozent Spanien; circa 200 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE
Corpus del Léxico Informatizado del Español (LEXESP)
- 5,5 Millionen Token, schriftsprachliche Daten verschiedener Genres, 90 Prozent Europa, 10 Prozent Lateinamerika
Corpus de Referencia del Español Actual (CREA)
-
unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 1975 – 2004; 21 spanischsprachige Länder; circa 160 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE
- Spanisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia
-
zwei Versionen: esTenTen18 (17,5 Milliarden Token) und esTenTen11 (9,5 Milliarden Token); auch gesondert nach europäischen/lateinamerikanischen Daten durchsuchbar
-
Korpus bestehend aus 3 verschiedenen Teilkorpora, insgesamt knapp 4 Millionen Token; Teilkorpora:
-
CORLEC (mündliche Texte, sowohl nähe- als auch distanzsprachlich)
-
ONE71 (11 spanische Romane von 1951 – 1971)
-
PE77 (etwa 3.000 Zeitungsartikel aus Spanien; Jahr 1977)
-
-
neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)
Korpus des andinen Spanisch in Bolivien
-
relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils circa 500.000 Token
- Korpus des andinen Spanisch in Bolivien
Corpus de conversación coloquial del grupo Val.Es.Co
- 46 Konversationen; mündliche Spontansprache; Spanien
Corpus del Español Mexicano Actual (CEMC)
- Korpus des mexikanischen Spanisch, 1921 – 1974; circa 2 Millionen Token, verschiedene Genre und Register
Corpus del Español rural (COSER)
-
dialektale Texte aus Spanien, teilweise vertont und transkribiert, im Aufbau (Universidad Autónoma de Madrid), 1988 – heute, 4,6 Millionen Token, 1745 Stunden, 1326 Orte, ältere Sprecher
-
PoS annotiert
Corpus del Vernáculo Urbano de Málaga (VUM)
-
spontansprachliches Korpus des malagueñischen Spanisch, 18 Sprecherinnen und Sprecher, soziodemographische Informationen dokumentiert
-
in PRESEEA enthalten, aber leichter nutzbar unter dem Link
Corpus dinámico del Castellano de Chile (CODICACH)
- Korpus des chilenischen Spanish, circa 800 Millionen Token; 1997 – 2003, verschiedene Genres
- Korpus des chilenischen Spanisch, Metadaten schwer nachprüfbar, vor allem Distanzsprache
-
Korpus mit wissenschaftlichen Fachtexten von 1985 – 2017, derzeit knapp 70.000 Dokumente und 280 Millionen Token
-
PoS-tagged
Corpus integrado de referencia en lenguas romances (C-ORAL-ROM)
-
gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache
-
C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid
-
derzeit nur als kostenpflichtige CD-Rom erhältlich
-
in Albertina verfügbar
Corpus Lingüístico de Referencia de la Lengua Española en Argentina
- Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 1,9 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre
Corpus Lingüístico de Referencia de la Lengua Española en Chile
- Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 2,0 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre
Corpus oral de lenguaje adolescente (COLA)
- vertontes Korpus (circa 700.000 Token) mit mündlicher Spontansprache von Jugendsprachen aus Santiago de Chile, Madrid, Buenos Aires und Managua
-
verschiedene soziodemographische Metainformationen
Corpus Oral de Referencia de Español en Contacto (COREC)
- Sprachkontakt-Korpus, das verschiedene europäische und außereuropäische Kontaktvarietäten abdeckt, derzeit noch im Aufbau
-
Online nur Zugang zu Ausschnitten; gesamtes Korpus kann per E-Mail angefragt werden
Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC)
- 1991 – 1992; mündliche Texte, sowohl nähe- als auch distanzsprachlich, circa 1,1 Millionen Token
- Korpus mit Text aus 700 Prüfungen „Pruebas de acceso a la universidad” von 1992 aus verschiedenen spanischen Städten
-
auch in CREA integriert
- Korpus mit über 26.000 Texten (circa 46 Millionen Token) zu Umweltthemen, Texte aus dem Web
- Korpus mit über 13.000 Texten (circa 54 Millionen Token) zu arbeitsrechtlichen Themen, Texte aus dem Web
Corpus para el estudio del español oral de Galicia (ESLORA)
- 80 Stunden mündliches Textmaterial, transkribiert und vertont; 2007 – 2015, 56 Dokumente, circa 650.000 Token (Universidade de Santiago de Compostela)
- Zeitungstexte; 1997 – 2009; Spanien, Argentinien, Mexiko; circa 660 Millionen Token
- Korpus des andinen Spanisch in Ecuador, 1974 – 1979
Proyecto para el estudio sociolingüístico del español de España y de América (PRESEEA)
-
mündliche Spontansprache; 1990er bis heute; soziodemographische Annotation; Projekt im Aufbau
-
bis dato: Alcalá de Henares, Caracas, La Habana, Lima, Madrid, Medellín, Monterrey, Montevideo, Santiago, Valencia
-
diachrones Korpus mit zahlreichen altspanischen Bibeltexten (18 verschiedene Manuskripte, circa 5 Millionen Token), hervorragende Handhabung
-
wichtige Bibliographische Hinweise in der Recursos-Sektion
- 111 Texte von Lope de la Vega; Mittelspanisch (16./17. Jahrhundert)
BIBLIOTECA Digital de Textos del Español Antiguo
-
altspanische Texte (i. e., aus Spanien); derzeit 335; 27 Millionen Token
-
wird ständig erweitert
-
Meta-Korpus mit 2076 historischen Dokumenten, 822 – 1871, verschiedene Genres und Länder
-
beinhaltet zahlreiche ver. historische Klein- und Kleinstkorpora, die deshalb in in diesem Dokument nicht gesondert geführt werden. Ein Blick auf diese via Corpus Charta ist lohnenswert!
-
Korpus mit historischen Dokumenten aus Spanien, 11. – 18. Jahrhundert, circa 1,5 Millionen Token, verschiedene Genre, aufwendige und detailgenaue Wiedergabe von Metadaten (auch geolinguistisch!)
-
zum Teil [!] in Corpus Charta integriert
-
Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!
Corpus del Nuevo Diccionario Histórico (CDH)
-
12. Jahrhundert – 2000, ca. 335 Millionen Token, alle spanischsprachigen Länder, verschiedene Genres, PoS-annotiert
-
Korpus bestehend aus drei Teilkorpora der Real Academia Española: CORDE (Auswahl), CREA (Auswahl) und dem Nuevo Diccionario Histórico (NDH)
Corpus Diacrónico del Español (CORDE)
- schriftliche Texte; unterschiedliche Genres; Mittelalter – 1974; alle spanischsprachigen Länder; circa 250 Millionen Token; Herausgeber: RAE
Corpus Histórico del Español de México
- Korpus mit historischen Texten aus Mexiko, Anmeldung nötig
- 100 Texte des Siglo de Oro; Mittelspanisch (16./17. Jahrhundert), 8 Millionen Token
-
Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber
-
aufwendig getagged
C-Or-DiAL: Corpus oral didáctico anotado lingüísticamente
-
Korpus für didaktische Zwecke; transkribiert und vertont, nach Lernerniveaus aufgeteilt, 240 Aufnahmen, circa 120.000 Token
-
Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
-
beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten spanischsprachigen Gebieten
Corpus de aprendices de español L2
- Lernerkorpus des Instituto Cervantes, 2011 – 2013, 1.423 Sprecherinnen und Sprecher (verschiedene L1 und Sprachniveaus), 575.000 Token
Corpus de Habla Infantil Espontánea del Español
- Kostenpflichtiges Korpus mit 58.000 Token (30 Texte), knapp acht Stunden Tonaufnahmen von 59 Kindern
-
L2-Lerner Korpus mit 60 Sprecherinnen und Sprechern (L1: Englisch), eingeteilt in drei verschiedenen Niveaus (A2/B1 – B2/C1 – C2); Daten von 2006 – 2010
-
zwei verschiedene Teilkorpora mit insgesamt neun Aufgaben; alle Daten als Audio und transkribiert downloadbar
- Korpus von 84 bilingualen Sprecher*innen aus Miami, Florida, Audio und Transkription; 242.475 Wörter, 35 Stunden
- Vollexte der spanischen Literatur, kostenpflichtig
-
Parallelkorpus beschrieben als „database of aligned sentences from the European Union’s legislative documents (Acquis Communautaire) in 24 EU languages.”
-
circa 57 Millionen Token für den spanischen Teil
- Multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 635 Millionen Token für Spanisch
- Multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 39 Millionen Token für Spanisch
- Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Spanisch
-
Parallelkorpus mit 40 Sprachen, circa 115.000 Token; Texte aus dem Internet
Portugiesich
- Gecrawltes Giga-Korpus mit 862.000 Millionen Token
-
PoS-tagged
CINTIL – Corpus Internacional do Português
- Korpus mit 1,2 Millionen Token, PoS-annotiert, circa ein bis zwei mündliche Daten, verschiedenen Genres
Corpus de Referência do Português Contemporâneo (CRPC)
- gesprochene und geschriebene Sprache; diverse Textsorten; 1850 – 2006; 311 Millionen Token
-
nach Ländern aufgeteilt, inklusive Afrika und Asien
-
50.000 Texte; 14. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 45 Millionen Token (Corpus do Português: Genre/Historical)
-
zusätzlich umfangreiches Webkorpus von 2013/2014; Internetseiten aus Brasilien, Portugal, Angola, Mosambik; circa 1 Milliarde Token (Corpus do Português: Web/Dialects)
-
Webkorpus mit ständiger aktueller Erweiterung um Internetseiten und Zeitschriften; circa 1,1 Milliarden Token
-
Portugiesisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia
- ptTenTen11: circa 4 Milliarden Token
-
Neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)
- Korpus mit Briefen von 1900 – 1974
- Korpus mit 225.000 Token, PB und PT, distanzsprachlich
- PoS-tagged
-
Korpus mit Zeitungstexten aus Folha (Bras.); circa 24 Millionen Token
-
PoS-tagged
- Korpus mit Zeitungstexten aus Público (Port.); 180 Millionen Token
- PoS-tagged
-
Korpus mit mündlicher Sprache verschiedenen Register aus Brasilien; Ziel: 300.000 Token; im Aufbau befindlich; PoS-tagged
-
mündliche Spontansprache; ältere Probanden aus 42 Orten Portugals;
Europäisches Portugiesisch; 1974 – 2004; 600.000 Token
- Korpus mit 1,2 Millionen Token; Emails an die Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação
- Korpus der portugisisch basierten Kreolsprache Angolar (São Tomé e Príncipe), 16 Texte, circa 10.000 Token
- Korpus mit 6,5 Millionen Token, PE, journalistisch, PoS-tagged
-
Web-basiertes Gigakorpus; knapp 900 Millionen Token; umfangreiche Metadaten; PoS-tagged
- journalistisches Korpus, PE und PB aus Folha (Bras.) und Público (Port.), 1994/1995, 98 Millionen Token, PoS-tagged
- Korpus mit journalistischen Artikeln über Wissenschaft (PE), 500.000 Token, PoS-tagged
-
Audio-Korpus mit Daten aus drei verschiedenen portugiesischen und zwei verschiedenen brasilianischen Orten, je 25 Aufnahmen; außerdem Mosambik!
-
relativ viele Metadaten über die Sprecher
-
Korpus mit journalistischen Artikeln über Fußball, Mode und Gesundheit aus den 50er, 70er und 2000er–Jahren, jeweils PB und PE, insgesamt 5,5 Millionen Token, PoS-tagged
-
Korpus mit journalistischen Artikeln über Politik und Gesellschaft aus den 2010er-Jahren, jeweils PB und PE, insges. 172.000 Token, PoS-tagged
- Korpus mit nicht-adressierten Emails; PB und PE, insgesamt 675.000 Token, PoS-tagged
-
Korpus mit PB „popular escrito”, beinhaltet Yellow-Press, meistgelesene Autoren, Klassiker der brasilianischen Literatur in vereinfachter Form für Leseanfänger, verschiedene Zeitschriften, die von bildungsfernen Schichten gestaltet werden (Sozialprojekte); circa 700.000 Token
-
Metakorpus bestehend aus 21 verschiedene fachsprachlichen Teilkorpora in PB, alle Teilkorpora sind recht umfangreich (circa 200.000 Token)
Corpus de Português Escrito em Periódicos
- Korpus mit PB und PE aus wissenschaftlichen Journals, circa 40 Millionen Token
- Korpus mit Materialien des Dicionário Histórico-Biográfico Brasileiro, über brasilianische Zeitgeschichte), 9,6 Millionen Token, PoS-tagged
- Korpus mit Zeitungsartikeln aus Portugal (1999 – 2000), 6,6 Millionen Token, PoS-tagged
- Korpus mit zwölf Interviews mit Pt-Sprechern aus Timor-Leste, insgesamt 6 Stunden Aufnahmen und 21.000 Token, PoS-tagged
- Korpus mit Exzerpten aus PB-Literatur, verschiedene Teilbereiche, 723.000 Token, PoS-tagged
- Korpus aus dem Englischen übersetzter Literatur (PE/PB), 72.000 Token, PoS-tagged
- Korpus der portugiesisch basierten Kreolsprache Fadambo (Guinea-Bissau/Äquatorialguinea), 132 Texte, circa 49.000 Token
- Korpus mit verschiedenen Texten (PE/PB), 6 Millionen Token, PoS-tagged, syntaktisch aufbereitet
- Korpus mit verschiedenen Texten (PE) von und über Mariano Gago anlässlich seines Todes 2015, 570.000 Token, PoS-tagged
- Korpus mit verschiedenen Texten (PE/PB) von und über Marielle Franco, 219.000 Token, PoS-tagged
- Korpus mit mosambikanischen Leserbriefen von 2012, veröffentlicht in verschiedenen mosambikanischen Zeitschriften, 58.000 Token, PoS-tagged
- Korpus mit Textmaterial aus der portugiesischen Regionalzeitschrift Diário do Minho (PE), 1,7 Millionen Token, PoS-tagged
-
Korpus mit verschiedenen Dokumenten in PB; 22,2 Millionen Token, PoS-tagged
- Korpus mit portugisisch Literatur (PE), 2,5 Millionen Token, PoS-tagged
Corpus Norma Linguística Urbana Culta – RJ
- Korpus mit portugisischer Literatur (PE), 2,5 Millionen Token, PoS-tagged
- Korpus mit brasilianischer Literatur (PB), 5,0 Millionen Token, PoS-tagged
Corpus of Cape Verdean Portuguese
- Korpus mit Audiodateien von 29 Sprechern, Nähesprache
-
umfangreiche Metainfos zu den Sprechern
Corpus of Sri Lanka Portuguese
- Korpus des auf Sri Lanka gesprochenen portugiesisch basierten Kreols, im Aufbau befindlich
Corpus Perfil Sociolinguístico da Fala Bracarense
- Soziolinguistisch aufbereitetes Korpus mit gesprochener Sprache aus
-
Braga/Portugal, 80 Interviews à 60 Minuten
- Korpus mit PT-Blogtextexten über Norwegen, 40.000 Token, PoS-tagged
-
Korpus der portugiesisch basierten Kreolsprache Principense (Insel Príncipe), 19 Texte, circa 15.900 Token
- Korpus mit Mediensprache (mündlich und schriftlich) aus portugiesischer Presse, Fernsehen und Radioprogrammen, circa 330.000 Token
- Korpus mit 1600 Rezensionen zu 13 verschiedenen Büchern, PB, 153.000 Token, PoS-tagged
- Korpus der portugiesisch basierten Kreolsprache Santomé/Forro (São Tomé e Príncipe), 588 Texte, circa 213.000 Token
Integrated Reference Corpora for Spoken Romance Languages (C-ORAL-ROM)
-
gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache
-
C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid
-
derzeit nur als kostenpflichtige CD-ROM erhältlich
-
in Albertina verfügbar
- Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token
Materialien des Projekts „Norma Linguística Urbana Culta – RJ”
-
kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. (Teil-)Projekts für Rio de Janeiro
-
zum Teil auch Audios, sehr umfangreiche Metadokumentation
MODAL – Corpus annotated for Modality
-
Spezialkorpus, das nach Modalität annotiert ist; 160.000 Token aus dem CRPC, nur PE
PF Corpus – Corpus Português Fundamental
- gesprochene Sprache; 1970 – 74; 700.000 Token
PTPARL Corpus (Portuguese Parliament Sessions Corpus)
-
Korpus mit Daten aus dem portugiesischen Parlament, 1076 Texte, knapp 1 Million Token, PoS-tagged
Spoken Portuguese – Geographical and Social Varietie
-
Korpus mit 86 transkribierten Audiodateien aus der gesamten Lusophonen Welt, Fokus auf PB und PE, aber auch andere Varietäten abgedeckt; circa 150.000 Token, PoS-tagged
-
weiterer Link
-
Spezialkorpus zu Vokativen im PE; 108 Sätze (davon 54 Targets und 54 Filler, 432 Audiodateien
WOchWel (Word Order and Word Order Change in Western European Languages)
- Korpus mit altport. Texten, PoS-tagged und syntaktisch annotiert
Colonia Corpus of Historical Portuguese
- 100 schriftliche Texte; 1500 – 1936; Brasilien und Portugal, circa 5,2 Millionen Token
-
Korpus mit circa 30 alt- und mittelportugiesischen Texten bis 1525
-
philologischer Fokus, zum Teil verschiedene Editionen etc.
- Umfangreiche Textsammlung (12. – 20. Jahrhundert) downloadbar als Textdateien
Corpus Histórico do Português Tycho Brahe
-
76 schriftliche Texte; 14. – 20. Jahrhundert; 3,3 Millionen Token; syntaktisch und morphologisch annotiert; Korpus downloadbar
Corpus Informatizado do Português Medieval
- Korpus mit altportugiesischen Texten (12. – 16 Jahrhundert), circa 2 Millionen Token
Corpus Lexicográfico do Português
- Korpus mit 23 historischen Wörterbüchern/Grammatiken des Portugiesischen (16. – 18. Jahrhundert.), circa 530.000 Token
-
Korpus mit PE-Literatur, 309 Werke von 55 Autoren, von 1500 – 1933, circa 14,8 Millionen Token
- Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token
Materialien des Projekts „Para uma História do Português do Brasil”
- kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. Projekts (17. – 20. Jahrhundert)
-
Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber
-
aufwendig getagged
- Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
-
beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten portugiesischsprachigen Gebieten
- L2-Lernerkorpus; 470 Texte von 397 Sprecherinnen und Sprechern (ausführliche Metainfo) mit insgesamt 28 verschiedenen Muttersprachen; circa 70.500 Token
-
„Video recordings of three German/Portuguese simultaneous bilingual children, starting at approx. 1 year and 6 months. One or two recordings each month until approx. 5 years and 6 months. In each recording session (interviewer/child interaction) the child is addressed in both languages in one Portuguese and one German part.“
-
circa 250.000 Token
-
E-Mail für Zugang
- L2-Lernerkorpus; Sprecher mit 15 verschiedenen Muttersprachen, Niveaus A1bis C1
- circa 190.000 Token, circa 1000 Texte
Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2)
- sehr umfangreiches L2-Lernerkorpus (459 Sprecher, 39 verschiedene Muttersprachen, alle Altersstufen), knapp 150.000 Token
- Korpus mit gesprochener und geschriebener Sprache von portugiesischen Schulkindern (2. – 4. Klasse)
- L2-Lernerkorpus; 218 Texte von 168 Sprecherinnen und Sprechern mit 16 verschiedenen Muttersprachen, circa 55.000 Token
- L2-Lernerkorpus; 309 Texte von Sprecherinnen und Sprechern mit sechs verschiedenen Muttersprachen (circa 50 Texte pro Sprache, 68.000 Token, inklusive portugiesischer Kontrollgruppe)
- weiterer Link
- Metakorpus bestehend aus drei verschiedenen Parallelkorpora (journalistisch, literarisch, fachsprachlich) in PB
-
Parallelkorpus mit EU-Dokumenten beschrieben als „database ofaligned sentences fromthe European Union’s legislative documents (AcquisCommunautaire) in 24 EU languages.”
-
circa 54 Millionen Token
- multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 595 Millionen Token für Portugiesisch
- multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 35 Millionen Token für Portugiesisch
- Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Portugiesisch
-
Parallelkorpus mit 40 Sprachen, verfügbar für PB und PE, 272 Millionen bzw. 298 Millionen Token; Texte aus dem Internet
Galicisch
Corpus de Referencia do Galego Actual (CORGA)
- verschiedene schriftliche Texte (Internetseiten, Zeitschriften, Drehbücher); 1975 – heute; circa 37 Millionen Token
Dicionario de Dicionarios (DdD)
- kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit verschiedenen Wörterbüchern in der Datenbank
Tesouro Informatizado da Lingua Galego (TILG)
- Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich
Siehe zusätzlich zu den hier gelisteten Korpora auch die Webseite des OPUS-Korpus mit weiteren Ressourcen und Parallel-Korpora, die im vorliegenden Dokument nur zum Teil gesondert aufgeführt sind. Siehe auch Fußnote 4 und hier insbesondere unter der Rubrik „Corpos paralelos/comparáveis”.
Bloques e Áreas Lingüísticas do Galego
- kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte, transkribiert
- basiert auf einer Buchpublikation von 1996
- kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte und anderer Dia-Varietäten, transkribiert
Corpus Oral Informatizado de la Lengua Gallega
- aufwendig annotiertes Korpus des gesprochenen Galicisch, noch nicht freigeschaltet, eine Google-Suche lohnt sich immer!
Biblioteca Dixital da Galicia Medieval
- Korpus mit galicischen Dokumenten von den Anfängen bis zum 18. Jahrhundert, nach verschiedenen Genres durchsuchbar
- Metainformation nicht verfügbar, jedoch sehr umfangreich
- Korpus mit dem Ziel der Dokumentation aller schriftlichen Zeugnisse des Galicischen des 16. – 18. Jahrhundert („Séculos Escuros”), derzeit 83 Dokumente
Corpus Lingüístico da Galicia Medieval
- Korpus mit mittelalterlichen Dokumenten des Galicischen, nach verschiedenen Genres durchsuchbar (Lyrik, notarielle Produktion, historische Texte)
- Metainformation nicht verfügbar
Corpus Lexicográfico do Galego Medieval
- kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit zahlreichen Glossaren/Wörterbüchern des Alt- und Mittelgalicischen
Tesouro Informatizado da Lingua Galego
- Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich
Tesouro Medieval Informatizado da Lingua Galego
- Korpus mit 82 Dokumenten (Anfänge bis 1600), circa 16.000 Token, PoS-tagged, nach verschiedenen Genres durchsuchbar
- Großes Metakorpus bestehend aus 21 verschiedenen Parallelkorpora Galicisch-X, viele Sprachkombinationen verfügbar; insgesamt 49 Millionen Token
- Parallelkorpus Englisch-Galicisch
- Metainformation nicht verfügbar
Katalanisch
Corpus textual informatitzat de la llengua catalana (CTILC)
- über 52 Millionen Token; literarische und nicht-literarische Texte zwischen 1833 – 1988
- Distanzsprache
- lemmatisiert und PoS-tagged
- herausgegeben von Institut d’Estudis Catalans
Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)
- mündlich; zeitgenössisch; mit Audiodateien; kostenlos verfügbar
- bestehend aus vier Teilkorpora: Corpus Oral Dialectal (COD), Corpus de Varietats Socials (COS), Corpus Oral de Conversa Colloquial (COC), Corpus Oral de Registres (COR)
- Katalanisches Giga-Korpus aus Webseiten
Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)
-
mündlich; zeitgenössisch; mit Audiodateien; kostenlos verfügbar
-
bestehend aus vier Teilkorpora: Corpus Oral Dialectal (COD), Corpus de Varietats Socials (COS), Corpus Oral de Conversa Col·loquial (COC), Corpus Oral de Registres (COR)
- beinhaltet mündliche Erzählungen auf Katalanisch, Italienisch, Spanisch, Englisch und Deutsch; Probanden mehrheitlich Studierende der Universitat Pompeu Fabra
- ca. 37.500 Wörter für das Katalanische
- Sammlung von Neologismen im mündlichen und schriftlichen Sprachgebrauch, ab 1992
- herausgegeben vom Observatori de Neologia (Universitat Pompeu Fabra)
KonText: InterCorp v11 – Catalan
- ca. 124.000 Wörter; hauptsächlich fiktionale Texte, aber auch: politische Kommentare, Acquis Communautaire der EU, Filmuntertitel, Daten aus dem Europäischen Parlament, Bibelübersetzung
- herausgegeben von der Universität Prag
- relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils ca. 500.000 Token
- Korpus der katalanischen Wikipedia zum Download
- ca. 50 Millionen Token
- tagged
- 21 transkribierte Interviews mit Sprechern aus Alghero (Sardinien), sehr heterogene Interviewlängen (drei Minuten bis zwei Stunden)
- transkribiert und häufig sogar mit Videoaufnahmen
Atles Interactiu de l’entonació del català
- prosodischer Atlas der ver. katalanischen Dialekte
- alle Interviews allerdings auch gefilmt und transkribiert
Audiovisuelle Datenbank des Katalanischen der Costa Brava
- transkribierte und verfilmte Interviews
Corpus Informatitzat del Català Antic
- 11. – 18. Jahrhundert
- 414 Texte
- lemmatisiert