Universität Leipzig: Korpora für Iberoromanistik

Wir haben hier für Sie eine Übersicht von (meist) kostenlosen Korpora für Spanisch, Portugiesich, Galicisch und Katalanisch zusammengestellt.

Spanisch
Portugiesisch
Galicisch
Katalanisch

Links zu den Korpora befinden sich in den jeweiligen Überschriften

Spanisch

Gegenwart allgemein

Araneum Hispanicum

im September 2013 gecrawltes Giga-Korpus mit 1,2 Milliarden Token, PoS-tagged

Archivo de textos hispánicos de la Universidad de Santiago de Compostela (Arthus)

verschiedene Textsorten; zeitgenössisch; Spanien und Amerika; circa 1,5 Millionen Token; Daten zur Base de datos sintácticos del español actual hinzugefügt

Corpus del español (CdE)

Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!
zusätzlich umfangreicher Webkorpus von 2013/2014; Internetseiten aus 21 spanischsprachigen Ländern; circa zwei Milliarden Token (Corpus del español: Web/Dialects)
Webkorpus mit ständiger aktueller Erweiterung um Internetzeitungen und Zeitschriften; circa 5,1 Milliarden Token

Corpus del Español Actual (CEA)

1996 – 2000; Spanien; circa 540 Millionen Token; 3 Teilkorpora (Fokus auf Distanzsprache): 2
Europarl: European Parliament Proceedings Parallel Corpus (spanischer Teil)
spanische Wikipedia-Einträge (Stand 2006)
MultiUN: Multilingual UN Parallel Text (spanischer Teil)

Corpus del Español del Siglo XXI (CORPES XXI)

unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 2001 – 2015; 21 spanischsprachige Länder: 65 Prozent Lateinamerika, 35 Prozent Spanien; circa 200 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE

Corpus del Léxico Informatizado del Español (LEXESP)

5,5 Millionen Token, schriftsprachliche Daten verschiedener Genres, 90 Prozent Europa, 10 Prozent Lateinamerika

Corpus de Referencia del Español Actual (CREA)

unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 1975 – 2004; 21 spanischsprachige Länder; circa 160 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE

Spanish esTenTen

Spanisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia
zwei Versionen: esTenTen18 (17,5 Milliarden Token) und esTenTen11 (9,5 Milliarden Token); auch gesondert nach europäischen/lateinamerikanischen Daten durchsuchbar

Corpus SOL

Korpus bestehend aus 3 verschiedenen Teilkorpora, insgesamt knapp 4 Millionen Token; Teilkorpora:
- CORLEC (mündliche Texte, sowohl nähe- als auch distanzsprachlich)
- ONE71 (11 spanische Romane von 1951 – 1971)
- PE77 (etwa 3.000 Zeitungsartikel aus Spanien; Jahr 1977)

Timestamped JSI Web Corpus

neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)

Gegenwart Varietäten

Corpus Oral de Inmigrantes de Buenos Aires residentes en Málaga (CORINBAS)

mündliche Texte von 24 Immigrantes aus Buenos Aires (Argentina), die in Málaga (España) beheimatet sind; im Korpus enthalten die Aufnahmen der ersten 5 Minuten der zum Teil gesteuerten Interviews (Format .wav) sowie die entsprechenden Transkriptionen. El corpus CORINBAS wurde mit dem Ziel erstellt, um zwei Varietäten des Spanischen im Kontext der Immigration zu untersuchen. Hierbei wurden Perspektiven der Immigrationssoziologie, Soziophonetik und der Variationslinguistik herangezogen.

Corpus oral del español de los migrantes residentes en la ciudad de Sevilla

mündliches Korpus zur Erforschung des Spanischen von Migranten, die in der Stadt Sevilla beheimatet sind

Korpus des andinen Spanisch in Bolivien

relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils circa 500.000 Token

Corpus Cochambino

Korpus des andinen Spanisch in Bolivien

Corpus de conversación coloquial del grupo Val.Es.Co

46 Konversationen; mündliche Spontansprache; Spanien

Corpus del Español Mexicano Actual (CEMC)

Korpus des mexikanischen Spanisch, 1921 – 1974; circa 2 Millionen Token, verschiedene Genre und Register

Corpus del Español rural (COSER)

dialektale Texte aus Spanien, teilweise vertont und transkribiert, im Aufbau (Universidad Autónoma de Madrid), 1988 – heute, 4,6 Millionen Token, 1745 Stunden, 1326 Orte, ältere Sprecher
PoS annotiert

Corpus del Vernáculo Urbano de Málaga (VUM)

spontansprachliches Korpus des malagueñischen Spanisch, 18 Sprecherinnen und Sprecher, soziodemographische Informationen dokumentiert
in PRESEEA enthalten, aber leichter nutzbar unter dem Link

Corpus dinámico del Castellano de Chile (CODICACH)

Korpus des chilenischen Spanish, circa 800 Millionen Token; 1997 – 2003, verschiedene Genres

Corpus Grial

Korpus des chilenischen Spanisch, Metadaten schwer nachprüfbar, vor allem Distanzsprache

Corpus Iberia

Korpus mit wissenschaftlichen Fachtexten von 1985 – 2017, derzeit knapp 70.000 Dokumente und 280 Millionen Token
PoS-tagged

Corpus integrado de referencia en lenguas romances (C-ORAL-ROM)

gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache
C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid
derzeit nur als kostenpflichtige CD-Rom erhältlich
in Albertina verfügbar

Corpus Lingüístico de Referencia de la Lengua Española en Argentina

Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 1,9 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre

Corpus Lingüístico de Referencia de la Lengua Española en Chile

Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 2,0 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre

Corpus oral de lenguaje adolescente (COLA)

vertontes Korpus (circa 700.000 Token) mit mündlicher Spontansprache von Jugendsprachen aus Santiago de Chile, Madrid, Buenos Aires und Managua
verschiedene soziodemographische Metainformationen

Corpus Oral de Referencia de Español en Contacto (COREC)

Sprachkontakt-Korpus, das verschiedene europäische und außereuropäische Kontaktvarietäten abdeckt, derzeit noch im Aufbau
Online nur Zugang zu Ausschnitten; gesamtes Korpus kann per E-Mail angefragt werden

Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC)

1991 – 1992; mündliche Texte, sowohl nähe- als auch distanzsprachlich, circa 1,1 Millionen Token

Corpus PAAU 1992

Korpus mit Text aus 700 Prüfungen „Pruebas de acceso a la universidad” von 1992 aus verschiedenen spanischen Städten
auch in CREA integriert

Corpus Panacea Environment

Korpus mit über 26.000 Texten (circa 46 Millionen Token) zu Umweltthemen, Texte aus dem Web

Corpus Panacea Labour

Korpus mit über 13.000 Texten (circa 54 Millionen Token) zu arbeitsrechtlichen Themen, Texte aus dem Web

Corpus para el estudio del español oral de Galicia (ESLORA)

80 Stunden mündliches Textmaterial, transkribiert und vertont; 2007 – 2015, 56 Dokumente, circa 650.000 Token (Universidade de Santiago de Compostela)

Corpus periodístico Hemero

Zeitungstexte; 1997 – 2009; Spanien, Argentinien, Mexiko; circa 660 Millionen Token

Corpus Salcedo

Korpus des andinen Spanisch in Ecuador, 1974 – 1979

Proyecto para el estudio sociolingüístico del español de España y de América (PRESEEA)

mündliche Spontansprache; 1990er bis heute; soziodemographische Annotation; Projekt im Aufbau
bis dato: Alcalá de Henares, Caracas, La Habana, Lima, Madrid, Medellín, Monterrey, Montevideo, Santiago, Valencia

Historisch

Biblia Medieval

diachrones Korpus mit zahlreichen altspanischen Bibeltexten (18 verschiedene Manuskripte, circa 5 Millionen Token), hervorragende Handhabung
wichtige Bibliographische Hinweise in der Recursos-Sektion

Biblioteca Digital Arte Lope

111 Texte von Lope de la Vega; Mittelspanisch (16./17. Jahrhundert)

BIBLIOTECA Digital de Textos del Español Antiguo

altspanische Texte (i. e., aus Spanien); derzeit 335; 27 Millionen Token
wird ständig erweitert

Corpus Charta

Meta-Korpus mit 2076 historischen Dokumenten, 822 – 1871, verschiedene Genres und Länder
beinhaltet zahlreiche ver. historische Klein- und Kleinstkorpora, die deshalb in in diesem Dokument nicht gesondert geführt werden. Ein Blick auf diese via Corpus Charta ist lohnenswert!

Corpus Codea

Korpus mit historischen Dokumenten aus Spanien, 11. – 18. Jahrhundert, circa 1,5 Millionen Token, verschiedene Genre, aufwendige und detailgenaue Wiedergabe von Metadaten (auch geolinguistisch!)
zum Teil [!] in Corpus Charta integriert

Corpus del español (CdE)

Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!

Corpus del Nuevo Diccionario Histórico (CDH)

12. Jahrhundert – 2000, ca. 335 Millionen Token, alle spanischsprachigen Länder, verschiedene Genres, PoS-annotiert
Korpus bestehend aus drei Teilkorpora der Real Academia Española: CORDE (Auswahl), CREA (Auswahl) und dem Nuevo Diccionario Histórico (NDH)

Corpus Diacrónico del Español (CORDE)

schriftliche Texte; unterschiedliche Genres; Mittelalter – 1974; alle spanischsprachigen Länder; circa 250 Millionen Token; Herausgeber: RAE

Corpus Histórico del Español de México

Korpus mit historischen Texten aus Mexiko, Anmeldung nötig

IMPACT-es diachronic corpus

100 Texte des Siglo de Oro; Mittelspanisch (16./17. Jahrhundert), 8 Millionen Token

Nuevo tesoro lexicográfico de la lengua española (NTLLE) der Real Academia Española

umfangreiche Sammlung von Werken aus den letzten 500 Jahren, die die spanische Lexik gesammelt und systematisiert haben. Sie beinhaltet digitale Faksimiles der lexikografischen Werke von Antonio de Nebrija, Pedro de Alcalá, Sebastián de Covarrubias, Francisco del Rosal, César Oudin, Esteban Terreros, Ramón Joaquín Domínguez, Vicente Salvá, Elías Zerolo, Aniceto de Pagés, etc.,sowie die gesamte akademische Lexikografie, angefangen vom Diccionario de autoridades bis zur 21. Ausgabe des Diccionario de la RAE, inklusive verschiedener Ausgaben des Diccionario manual e ilustrado oder der Publikation des Diccionario histórico de 1933-1936.
Das NTLLE ist ein Wörterbuch der Wörterbücher der spanischen Lexik vom 15. - 20. Jahrhundert und es können auf diese Weise 70 Wörterbücher, quasi simultan, konsultiert werden.

Project Post Scriptum

Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber
aufwendig getagged

Spracherwerbs-/Lernerkorpora (L1 und L2) / didaktische Korpora

C-Or-DiAL: Corpus oral didáctico anotado lingüísticamente

Korpus für didaktische Zwecke; transkribiert und vertont, nach Lernerniveaus aufgeteilt, 240 Aufnahmen, circa 120.000 Token

CHILDES

Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten spanischsprachigen Gebieten
auch zweisprachige Konstellationen

Corpus de aprendices de español L2

Lernerkorpus des Instituto Cervantes, 2011 – 2013, 1.423 Sprecherinnen und Sprecher (verschiedene L1 und Sprachniveaus), 575.000 Token

Corpus de Habla Infantil Espontánea del Español

Kostenpflichtiges Korpus mit 58.000 Token (30 Texte), knapp acht Stunden Tonaufnahmen von 59 Kindern

Spanish Learner Oral Corpora

L2-Lerner Korpus mit 60 Sprecherinnen und Sprechern (L1: Englisch), eingeteilt in drei verschiedenen Niveaus (A2/B1 – B2/C1 – C2); Daten von 2006 – 2010
zwei verschiedene Teilkorpora mit insgesamt neun Aufgaben; alle Daten als Audio und transkribiert downloadbar

Corpus Miami

Korpus von 84 bilingualen Sprecher*innen aus Miami, Florida, Audio und Transkription; 242.475 Wörter, 35 Stunden

Sonstiges/Parallelkorpora

Clásicos Hispánicos

Vollexte der spanischen Literatur, kostenpflichtig

DGT Translation Memory

Parallelkorpus beschrieben als „database of aligned sentences from the European Union’s legislative documents (Acquis Communautaire) in 24 EU languages.”
circa 57 Millionen Token für den spanischen Teil

EUR-LEX Corpus

Multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 635 Millionen Token für Spanisch

EUR-LEX Judgment Corpus

Multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 39 Millionen Token für Spanisch

EURPARL Corpus

Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Spanisch

OPUS2 Parallel Corpus

Parallelkorpus mit 40 Sprachen, circa 115.000 Token; Texte aus dem Internet

Portugiesich

Gegenwart allgemein

Araneum Portugallicum

Gecrawltes Giga-Korpus mit 862.000 Millionen Token
PoS-tagged

CINTIL – Corpus Internacional do Português

Korpus mit 1,2 Millionen Token, PoS-annotiert, circa ein bis zwei mündliche Daten, verschiedenen Genres

Corpus de Referência do Português Contemporâneo (CRPC)

gesprochene und geschriebene Sprache; diverse Textsorten; 1850 – 2006; 311 Millionen Token
nach Ländern aufgeteilt, inklusive Afrika und Asien

O corpus do Português

50.000 Texte; 14. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 45 Millionen Token (Corpus do Português: Genre/Historical)
zusätzlich umfangreiches Webkorpus von 2013/2014; Internetseiten aus Brasilien, Portugal, Angola, Mosambik; circa 1 Milliarde Token (Corpus do Português: Web/Dialects)
Webkorpus mit ständiger aktueller Erweiterung um Internetseiten und Zeitschriften; circa 1,1 Milliarden Token

Portuguese ptTenTen

Portugiesisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia
ptTenTen11: circa 4 Milliarden Token

Timestamped JSI Web Corpus

Neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)

Gegenwart Varietäten

Cartas esquecidas

Korpus mit Briefen von 1900 – 1974

CD HAREM

Korpus mit 225.000 Token, PB und PT, distanzsprachlich
PoS-tagged

CETEM Folha

Korpus mit Zeitungstexten aus Folha (Bras.); circa 24 Millionen Token
PoS-tagged

CETEM Público

Korpus mit Zeitungstexten aus Público (Port.); 180 Millionen Token
PoS-tagged

C-ORAL-Brasil

Korpus mit mündlicher Sprache verschiedenen Register aus Brasilien; Ziel: 300.000 Token; im Aufbau befindlich; PoS-tagged

CORDIAL-SIN

mündliche Spontansprache; ältere Probanden aus 42 Orten Portugals;

Europäisches Portugiesisch; 1974 – 2004; 600.000 Token

Corpus ANCIB

Korpus mit 1,2 Millionen Token; Emails an die Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação

Corpus Angolar

Korpus der portugisisch basierten Kreolsprache Angolar (São Tomé e Príncipe), 16 Texte, circa 10.000 Token

Corpus Avante

Korpus mit 6,5 Millionen Token, PE, journalistisch, PoS-tagged

Corpus Brasileiro (CB)

Web-basiertes Gigakorpus; knapp 900 Millionen Token; umfangreiche Metadaten; PoS-tagged

Corpus CHAVE

journalistisches Korpus, PE und PB aus Folha (Bras.) und Público (Port.), 1994/1995, 98 Millionen Token, PoS-tagged

Corpus Ciência Viva

Korpus mit journalistischen Artikeln über Wissenschaft (PE), 500.000 Token, PoS-tagged

Corpus Concordância

Audio-Korpus mit Daten aus drei verschiedenen portugiesischen und zwei verschiedenen brasilianischen Orten, je 25 Aufnahmen; außerdem Mosambik!
relativ viele Metadaten über die Sprecher

Corpus CONDIVport

Korpus mit journalistischen Artikeln über Fußball, Mode und Gesundheit aus den 50er, 70er und 2000er–Jahren, jeweils PB und PE, insgesamt 5,5 Millionen Token, PoS-tagged

Corpus CONDIVport2

Korpus mit journalistischen Artikeln über Politik und Gesellschaft aus den 2010er-Jahren, jeweils PB und PE, insges. 172.000 Token, PoS-tagged

Corpus CoNE

Korpus mit nicht-adressierten Emails; PB und PE, insgesamt 675.000 Token, PoS-tagged

Corpus CorPop

Korpus mit PB „popular escrito”, beinhaltet Yellow-Press, meistgelesene Autoren, Klassiker der brasilianischen Literatur in vereinfachter Form für Leseanfänger, verschiedene Zeitschriften, die von bildungsfernen Schichten gestaltet werden (Sozialprojekte); circa 700.000 Token
Vorläuferprojekt

Corpus CorTec

Metakorpus bestehend aus 21 verschiedene fachsprachlichen Teilkorpora in PB, alle Teilkorpora sind recht umfangreich (circa 200.000 Token)

Corpus de Português Escrito em Periódicos

Korpus mit PB und PE aus wissenschaftlichen Journals, circa 40 Millionen Token

Corpus DHBB

Korpus mit Materialien des Dicionário Histórico-Biográfico Brasileiro, über brasilianische Zeitgeschichte), 9,6 Millionen Token, PoS-tagged

Corpus DiaCLAV

Korpus mit Zeitungsartikeln aus Portugal (1999 – 2000), 6,6 Millionen Token, PoS-tagged

Corpus Diáspora TL-PT

Korpus mit zwölf Interviews mit Pt-Sprechern aus Timor-Leste, insgesamt 6 Stunden Aufnahmen und 21.000 Token, PoS-tagged

Corpus ECI-EBR

Korpus mit Exzerpten aus PB-Literatur, verschiedene Teilbereiche, 723.000 Token, PoS-tagged

Corpus ENPCPUB

Korpus aus dem Englischen übersetzter Literatur (PE/PB), 72.000 Token, PoS-tagged

Corpus Fadambo

Korpus der portugiesisch basierten Kreolsprache Fadambo (Guinea-Bissau/Äquatorialguinea), 132 Texte, circa 49.000 Token

Corpus Floresta Sintá(c)tica

Korpus mit verschiedenen Texten (PE/PB), 6 Millionen Token, PoS-tagged, syntaktisch aufbereitet

Corpus Mariano Gago

Korpus mit verschiedenen Texten (PE) von und über Mariano Gago anlässlich seines Todes 2015, 570.000 Token, PoS-tagged

Corpus Marielle, presente!

Korpus mit verschiedenen Texten (PE/PB) von und über Marielle Franco, 219.000 Token, PoS-tagged

Corpus Moçambula

Korpus mit mosambikanischen Leserbriefen von 2012, veröffentlicht in verschiedenen mosambikanischen Zeitschriften, 58.000 Token, PoS-tagged

Corpus Natura/Minoho

Korpus mit Textmaterial aus der portugiesischen Regionalzeitschrift Diário do Minho (PE), 1,7 Millionen Token, PoS-tagged

Corpus NILC/São Carlos

Korpus mit verschiedenen Dokumenten in PB; 22,2 Millionen Token, PoS-tagged

Corpus NOBRE

Korpus mit portugisisch Literatur (PE), 2,5 Millionen Token, PoS-tagged

Corpus Norma Linguística Urbana Culta – RJ

Korpus mit portugisischer Literatur (PE), 2,5 Millionen Token, PoS-tagged

Corpus OBras

Korpus mit brasilianischer Literatur (PB), 5,0 Millionen Token, PoS-tagged

Corpus of Cape Verdean Portuguese

Korpus mit Audiodateien von 29 Sprechern, Nähesprache
umfangreiche Metainfos zu den Sprechern

Corpus of Sri Lanka Portuguese

Korpus des auf Sri Lanka gesprochenen portugiesisch basierten Kreols, im Aufbau befindlich

Corpus Perfil Sociolinguístico da Fala Bracarense

Soziolinguistisch aufbereitetes Korpus mit gesprochener Sprache aus
Braga/Portugal, 80 Interviews à 60 Minuten

Corpus P’lo Norte

Korpus mit PT-Blogtextexten über Norwegen, 40.000 Token, PoS-tagged

Corpus Principense

Korpus der portugiesisch basierten Kreolsprache Principense (Insel Príncipe), 19 Texte, circa 15.900 Token

Corpus REDIP

Korpus mit Mediensprache (mündlich und schriftlich) aus portugiesischer Presse, Fernsehen und Radioprogrammen, circa 330.000 Token

Corpus ReLi

Korpus mit 1600 Rezensionen zu 13 verschiedenen Büchern, PB, 153.000 Token, PoS-tagged

Corpus Santome

Korpus der portugiesisch basierten Kreolsprache Santomé/Forro (São Tomé e Príncipe), 588 Texte, circa 213.000 Token

Integrated Reference Corpora for Spoken Romance Languages (C-ORAL-ROM)

gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache
C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid
derzeit nur als kostenpflichtige CD-ROM erhältlich
in Albertina verfügbar

LT Corpus

Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token

Materialien des Projekts „Norma Linguística Urbana Culta – RJ”

kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. (Teil-)Projekts für Rio de Janeiro
zum Teil auch Audios, sehr umfangreiche Metadokumentation

MODAL – Corpus annotated for Modality

Spezialkorpus, das nach Modalität annotiert ist; 160.000 Token aus dem CRPC, nur PE

PF Corpus – Corpus Português Fundamental

gesprochene Sprache; 1970 – 74; 700.000 Token

PTPARL Corpus (Portuguese Parliament Sessions Corpus)

Korpus mit Daten aus dem portugiesischen Parlament, 1076 Texte, knapp 1 Million Token, PoS-tagged

Spoken Portuguese – Geographical and Social Varietie

Korpus mit 86 transkribierten Audiodateien aus der gesamten Lusophonen Welt, Fokus auf PB und PE, aber auch andere Varietäten abgedeckt; circa 150.000 Token, PoS-tagged
weiterer Link

Vocatives in Portuguese

Spezialkorpus zu Vokativen im PE; 108 Sätze (davon 54 Targets und 54 Filler, 432 Audiodateien

WOchWel (Word Order and Word Order Change in Western European Languages)

Korpus mit altport. Texten, PoS-tagged und syntaktisch annotiert

Historisch

Colonia Corpus of Historical Portuguese

100 schriftliche Texte; 1500 – 1936; Brasilien und Portugal, circa 5,2 Millionen Token

Corpus de Textos Antigos

Korpus mit circa 30 alt- und mittelportugiesischen Texten bis 1525
philologischer Fokus, zum Teil verschiedene Editionen etc.

Corpus do GMPH

Umfangreiche Textsammlung (12. – 20. Jahrhundert) downloadbar als Textdateien

Corpus Histórico do Português Tycho Brahe

76 schriftliche Texte; 14. – 20. Jahrhundert; 3,3 Millionen Token; syntaktisch und morphologisch annotiert; Korpus downloadbar

Corpus Informatizado do Português Medieval

Korpus mit altportugiesischen Texten (12. – 16 Jahrhundert), circa 2 Millionen Token

Corpus Lexicográfico do Português

Korpus mit 23 historischen Wörterbüchern/Grammatiken des Portugiesischen (16. – 18. Jahrhundert.), circa 530.000 Token

Corpus Vercial

Korpus mit PE-Literatur, 309 Werke von 55 Autoren, von 1500 – 1933, circa 14,8 Millionen Token

LT Corpus

Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token

Materialien des Projekts „Para uma História do Português do Brasil”

kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. Projekts (17. – 20. Jahrhundert)

Project Post Scriptum

Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber
aufwendig getagged

Spracherwerbs-/Lernerkorpora (L1 und L2) / didaktische Korpora

CHILDES

Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten portugiesischsprachigen Gebieten
auch zweisprachige Konstellationen

Corpora of PLE

L2-Lernerkorpus; 470 Texte von 397 Sprecherinnen und Sprechern (ausführliche Metainfo) mit insgesamt 28 verschiedenen Muttersprachen; circa 70.500 Token

Corpus Bipode

„Video recordings of three German/Portuguese simultaneous bilingual children, starting at approx. 1 year and 6 months. One or two recordings each month until approx. 5 years and 6 months. In each recording session (interviewer/child interaction) the child is addressed in both languages in one Portuguese and one German part.“
circa 250.000 Token
E-Mail für Zugang

Corpus COPLE

L2-Lernerkorpus; Sprecher mit 15 verschiedenen Muttersprachen, Niveaus A1bis C1
circa 190.000 Token, circa 1000 Texte

Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2)

sehr umfangreiches L2-Lernerkorpus (459 Sprecher, 39 verschiedene Muttersprachen, alle Altersstufen), knapp 150.000 Token

Corpus EFFE-ON

Korpus mit gesprochener und geschriebener Sprache von portugiesischen Schulkindern (2. – 4. Klasse)

Corpus Leiria

L2-Lernerkorpus; 218 Texte von 168 Sprecherinnen und Sprechern mit 16 verschiedenen Muttersprachen, circa 55.000 Token

Corpus Pestra

L2-Lernerkorpus; 309 Texte von Sprecherinnen und Sprechern mit sechs verschiedenen Muttersprachen (circa 50 Texte pro Sprache, 68.000 Token, inklusive portugiesischer Kontrollgruppe)
weiterer Link

Sonstiges/Parallelkorpora

Corpus CorTrad

Metakorpus bestehend aus drei verschiedenen Parallelkorpora (journalistisch, literarisch, fachsprachlich) in PB

DGT Translation Memory

Parallelkorpus mit EU-Dokumenten beschrieben als „database ofaligned sentences fromthe European Union’s legislative documents (AcquisCommunautaire) in 24 EU languages.”
circa 54 Millionen Token

EUR-LEX Corpus

multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 595 Millionen Token für Portugiesisch

EUR-LEX Judgment Corpus

multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 35 Millionen Token für Portugiesisch

EURPARL Corpus

Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Portugiesisch

OPUS2 Parallel Corpus

Parallelkorpus mit 40 Sprachen, verfügbar für PB und PE, 272 Millionen bzw. 298 Millionen Token; Texte aus dem Internet

Galicisch

Gegenwart allgemein

Corpus de Referencia do Galego Actual (CORGA)

verschiedene schriftliche Texte (Internetseiten, Zeitschriften, Drehbücher); 1975 – heute; circa 37 Millionen Token

Dicionario de Dicionarios (DdD)

kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit verschiedenen Wörterbüchern in der Datenbank

Tesouro Informatizado da Lingua Galego (TILG)

Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich

Siehe zusätzlich zu den hier gelisteten Korpora auch die Webseite des OPUS-Korpus mit weiteren Ressourcen und Parallel-Korpora, die im vorliegenden Dokument nur zum Teil gesondert aufgeführt sind. Siehe auch Fußnote 4 und hier insbesondere unter der Rubrik „Corpos paralelos/comparáveis”.

Gegenwart Varietäten

Bloques e Áreas Lingüísticas do Galego

kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte, transkribiert
basiert auf einer Buchpublikation von 1996

Arquivo do Galego Oral

kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte und anderer Dia-Varietäten, transkribiert

Corpus Oral Informatizado de la Lengua Gallega

aufwendig annotiertes Korpus des gesprochenen Galicisch, noch nicht freigeschaltet, eine Google-Suche lohnt sich immer!

Historisch

Biblioteca Dixital da Galicia Medieval

Korpus mit galicischen Dokumenten von den Anfängen bis zum 18. Jahrhundert, nach verschiedenen Genres durchsuchbar
Metainformation nicht verfügbar, jedoch sehr umfangreich

Corpus Gondomar

Korpus mit dem Ziel der Dokumentation aller schriftlichen Zeugnisse des Galicischen des 16. – 18. Jahrhundert („Séculos Escuros”), derzeit 83 Dokumente

Corpus Lingüístico da Galicia Medieval

Korpus mit mittelalterlichen Dokumenten des Galicischen, nach verschiedenen Genres durchsuchbar (Lyrik, notarielle Produktion, historische Texte)
Metainformation nicht verfügbar

Corpus Lexicográfico do Galego Medieval

kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit zahlreichen Glossaren/Wörterbüchern des Alt- und Mittelgalicischen

Tesouro Informatizado da Lingua Galego

Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich

Tesouro Medieval Informatizado da Lingua Galego

Korpus mit 82 Dokumenten (Anfänge bis 1600), circa 16.000 Token, PoS-tagged, nach verschiedenen Genres durchsuchbar

Sonstiges/Parallelkorpora

Corpus CLUVI

Großes Metakorpus bestehend aus 21 verschiedenen Parallelkorpora Galicisch-X, viele Sprachkombinationen verfügbar; insgesamt 49 Millionen Token

Corpus Paralelo SensoGal

Parallelkorpus Englisch-Galicisch
Metainformation nicht verfügbar

Katalanisch

Gegenwart allgemein

Corpus textual informatitzat de la llengua catalana (CTILC)

über 52 Millionen Token; literarische und nicht-literarische Texte zwischen 1833 – 1988
Distanzsprache
lemmatisiert und PoS-tagged
herausgegeben von Institut d’Estudis Catalans

Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)

mündlich; zeitgenössisch; mit Audiodateien; kostenlos verfügbar
bestehend aus vier Teilkorpora: Corpus Oral Dialectal (COD), Corpus de Varietats Socials (COS), Corpus Oral de Conversa Colloquial (COC), Corpus Oral de Registres (COR)

Catalan caTenTen

Katalanisches Giga-Korpus aus Webseiten

Gegenwart Varietäten

Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)

mündlich; zeitgenössisch; mit Audiodateien; kostenlos verfügbar
bestehend aus vier Teilkorpora: Corpus Oral Dialectal (COD), Corpus de Varietats Socials (COS), Corpus Oral de Conversa Col·loquial (COC), Corpus Oral de Registres (COR)

NOCANDO

beinhaltet mündliche Erzählungen auf Katalanisch, Italienisch, Spanisch, Englisch und Deutsch; Probanden mehrheitlich Studierende der Universitat Pompeu Fabra
ca. 37.500 Wörter für das Katalanische

Corpus OBNEO (IULA)

Sammlung von Neologismen im mündlichen und schriftlichen Sprachgebrauch, ab 1992
herausgegeben vom Observatori de Neologia (Universitat Pompeu Fabra)

KonText: InterCorp v11 – Catalan

ca. 124.000 Wörter; hauptsächlich fiktionale Texte, aber auch: politische Kommentare, Acquis Communautaire der EU, Filmuntertitel, Daten aus dem Europäischen Parlament, Bibelübersetzung
herausgegeben von der Universität Prag

Corpus Ancora-CA

relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils ca. 500.000 Token

Catalan Wikicorpus

Korpus der katalanischen Wikipedia zum Download
ca. 50 Millionen Token
tagged

Corpus Oral de l’Alguerès

21 transkribierte Interviews mit Sprechern aus Alghero (Sardinien), sehr heterogene Interviewlängen (drei Minuten bis zwei Stunden)
transkribiert und häufig sogar mit Videoaufnahmen

Atles Interactiu de l’entonació del català