Wir haben hier für Sie eine Übersicht von (meist) kostenlosen Korpora für Spanisch, Portugiesisch, Galicisch und Katalanisch zusammengestellt.
Links zu den Korpora befinden sich in den jeweiligen Überschriften
Spanisch
- im September 2013 gecrawltes Giga-Korpus mit 1,2 Milliarden Token, PoS-tagged
Archivo de textos hispánicos de la Universidad de Santiago de Compostela (Arthus)
- verschiedene Textsorten; zeitgenössisch; Spanien und Amerika; circa 1,5 Millionen Token; Daten zur Base de datos sintácticos del español actual hinzugefügt
- Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!
- zusätzlich umfangreicher Webkorpus von 2013/2014; Internetseiten aus 21 spanischsprachigen Ländern; circa zwei Milliarden Token (Corpus del español: Web/Dialects)
- Webkorpus mit ständiger aktueller Erweiterung um Internetzeitungen und Zeitschriften; circa 5,1 Milliarden Token
Corpus del Español Actual (CEA)
- 1996 – 2000; Spanien; circa 540 Millionen Token; 3 Teilkorpora (Fokus auf Distanzsprache): 2
- Europarl: European Parliament Proceedings Parallel Corpus (spanischer Teil)
-
spanische Wikipedia-Einträge (Stand 2006)
-
MultiUN: Multilingual UN Parallel Text (spanischer Teil)
Corpus del Español del Siglo XXI (CORPES XXI)
-
unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 2001 – 2015; 21 spanischsprachige Länder: 65 Prozent Lateinamerika, 35 Prozent Spanien; circa 200 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE
Corpus del Léxico Informatizado del Español (LEXESP)
- 5,5 Millionen Token, schriftsprachliche Daten verschiedener Genres, 90 Prozent Europa, 10 Prozent Lateinamerika
Corpus de Referencia del Español Actual (CREA)
-
unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 1975 – 2004; 21 spanischsprachige Länder; circa 160 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE
- Spanisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia
-
zwei Versionen: esTenTen18 (17,5 Milliarden Token) und esTenTen11 (9,5 Milliarden Token); auch gesondert nach europäischen/lateinamerikanischen Daten durchsuchbar
-
Korpus bestehend aus 3 verschiedenen Teilkorpora, insgesamt knapp 4 Millionen Token; Teilkorpora:
-
CORLEC (mündliche Texte, sowohl nähe- als auch distanzsprachlich)
-
ONE71 (11 spanische Romane von 1951 – 1971)
-
PE77 (etwa 3.000 Zeitungsartikel aus Spanien; Jahr 1977)
-
-
neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)
Corpus Oral de Inmigrantes de Buenos Aires residentes en Málaga (CORINBAS)
- mündliche Texte von 24 Immigrantes aus Buenos Aires (Argentina), die in Málaga (España) beheimatet sind; im Korpus enthalten die Aufnahmen der ersten 5 Minuten der zum Teil gesteuerten Interviews (Format .wav) sowie die entsprechenden Transkriptionen. El corpus CORINBAS wurde mit dem Ziel erstellt, um zwei Varietäten des Spanischen im Kontext der Immigration zu untersuchen. Hierbei wurden Perspektiven der Immigrationssoziologie, Soziophonetik und der Variationslinguistik herangezogen.
Corpus oral del español de los migrantes residentes en la ciudad de Sevilla
- mündliches Korpus zur Erforschung des Spanischen von Migranten, die in der Stadt Sevilla beheimatet sind
Korpus des andinen Spanisch in Bolivien
- relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils circa 500.000 Token
- Korpus des andinen Spanisch in Bolivien
Corpus de conversación coloquial del grupo Val.Es.Co
- 46 Konversationen; mündliche Spontansprache; Spanien
Corpus del Español Mexicano Actual (CEMC)
- Korpus des mexikanischen Spanisch, 1921 – 1974; circa 2 Millionen Token, verschiedene Genre und Register
Corpus del Español rural (COSER)
- dialektale Texte aus Spanien, teilweise vertont und transkribiert, im Aufbau (Universidad Autónoma de Madrid), 1988 – heute, 4,6 Millionen Token, 1745 Stunden, 1326 Orte, ältere Sprecher
- PoS annotiert
Corpus del Vernáculo Urbano de Málaga (VUM)
- spontansprachliches Korpus des malagueñischen Spanisch, 18 Sprecherinnen und Sprecher, soziodemographische Informationen dokumentiert
- in PRESEEA enthalten, aber leichter nutzbar unter dem Link
Corpus dinámico del Castellano de Chile (CODICACH)
- Korpus des chilenischen Spanish, circa 800 Millionen Token; 1997 – 2003, verschiedene Genres
- Korpus des chilenischen Spanisch, Metadaten schwer nachprüfbar, vor allem Distanzsprache
- Korpus mit wissenschaftlichen Fachtexten von 1985 – 2017, derzeit knapp 70.000 Dokumente und 280 Millionen Token
- PoS-tagged
Corpus integrado de referencia en lenguas romances (C-ORAL-ROM)
- gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache
- C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid
- derzeit nur als kostenpflichtige CD-Rom erhältlich
- in Albertina verfügbar
Corpus Lingüístico de Referencia de la Lengua Española en Argentina
- Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 1,9 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre
Corpus Lingüístico de Referencia de la Lengua Española en Chile
- Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 2,0 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre
Corpus oral de lenguaje adolescente (COLA)
- vertontes Korpus (circa 700.000 Token) mit mündlicher Spontansprache von Jugendsprachen aus Santiago de Chile, Madrid, Buenos Aires und Managua
- verschiedene soziodemographische Metainformationen
Corpus Oral de Referencia de Español en Contacto (COREC)
- Sprachkontakt-Korpus, das verschiedene europäische und außereuropäische Kontaktvarietäten abdeckt, derzeit noch im Aufbau
- Online nur Zugang zu Ausschnitten; gesamtes Korpus kann per E-Mail angefragt werden
Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC)
- 1991 – 1992; mündliche Texte, sowohl nähe- als auch distanzsprachlich, circa 1,1 Millionen Token
- Korpus mit Text aus 700 Prüfungen „Pruebas de acceso a la universidad” von 1992 aus verschiedenen spanischen Städten
- auch in CREA integriert
- Korpus mit über 26.000 Texten (circa 46 Millionen Token) zu Umweltthemen, Texte aus dem Web
- Korpus mit über 13.000 Texten (circa 54 Millionen Token) zu arbeitsrechtlichen Themen, Texte aus dem Web
Corpus para el estudio del español oral de Galicia (ESLORA)
- 80 Stunden mündliches Textmaterial, transkribiert und vertont; 2007 – 2015, 56 Dokumente, circa 650.000 Token (Universidade de Santiago de Compostela)
- Zeitungstexte; 1997 – 2009; Spanien, Argentinien, Mexiko; circa 660 Millionen Token
- Korpus des andinen Spanisch in Ecuador, 1974 – 1979
Proyecto para el estudio sociolingüístico del español de España y de América (PRESEEA)
- mündliche Spontansprache; 1990er bis heute; soziodemographische Annotation; Projekt im Aufbau
- bis dato: Alcalá de Henares, Caracas, La Habana, Lima, Madrid, Medellín, Monterrey, Montevideo, Santiago, Valencia
- diachrones Korpus mit zahlreichen altspanischen Bibeltexten (18 verschiedene Manuskripte, circa 5 Millionen Token), hervorragende Handhabung
- wichtige Bibliographische Hinweise in der Recursos-Sektion
- 111 Texte von Lope de la Vega; Mittelspanisch (16./17. Jahrhundert)
BIBLIOTECA Digital de Textos del Español Antiguo
- altspanische Texte (i. e., aus Spanien); derzeit 335; 27 Millionen Token
- wird ständig erweitert
- Meta-Korpus mit 2076 historischen Dokumenten, 822 – 1871, verschiedene Genres und Länder
- beinhaltet zahlreiche ver. historische Klein- und Kleinstkorpora, die deshalb in in diesem Dokument nicht gesondert geführt werden. Ein Blick auf diese via Corpus Charta ist lohnenswert!
- Korpus mit historischen Dokumenten aus Spanien, 11. – 18. Jahrhundert, circa 1,5 Millionen Token, verschiedene Genre, aufwendige und detailgenaue Wiedergabe von Metadaten (auch geolinguistisch!)
- zum Teil [!] in Corpus Charta integriert
- Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!
Corpus del Nuevo Diccionario Histórico (CDH)
- 12. Jahrhundert – 2000, ca. 335 Millionen Token, alle spanischsprachigen Länder, verschiedene Genres, PoS-annotiert
- Korpus bestehend aus drei Teilkorpora der Real Academia Española: CORDE (Auswahl), CREA (Auswahl) und dem Nuevo Diccionario Histórico (NDH)
Corpus Diacrónico del Español (CORDE)
- schriftliche Texte; unterschiedliche Genres; Mittelalter – 1974; alle spanischsprachigen Länder; circa 250 Millionen Token; Herausgeber: RAE
Corpus Histórico del Español de México
- Korpus mit historischen Texten aus Mexiko, Anmeldung nötig
- 100 Texte des Siglo de Oro; Mittelspanisch (16./17. Jahrhundert), 8 Millionen Token
Nuevo tesoro lexicográfico de la lengua española (NTLLE) der Real Academia Española
umfangreiche Sammlung von Werken aus den letzten 500 Jahren, die die spanische Lexik gesammelt und systematisiert haben. Sie beinhaltet digitale Faksimiles der lexikografischen Werke von Antonio de Nebrija, Pedro de Alcalá, Sebastián de Covarrubias, Francisco del Rosal, César Oudin, Esteban Terreros, Ramón Joaquín Domínguez, Vicente Salvá, Elías Zerolo, Aniceto de Pagés, etc.,sowie die gesamte akademische Lexikografie, angefangen vom Diccionario de autoridades bis zur 21. Ausgabe des Diccionario de la RAE, inklusive verschiedener Ausgaben des Diccionario manual e ilustrado oder der Publikation des Diccionario histórico de 1933-1936.
Das NTLLE ist ein Wörterbuch der Wörterbücher der spanischen Lexik vom 15. - 20. Jahrhundert und es können auf diese Weise 70 Wörterbücher, quasi simultan, konsultiert werden.
- Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber
- aufwendig getagged
C-Or-DiAL: Corpus oral didáctico anotado lingüísticamente
-
Korpus für didaktische Zwecke; transkribiert und vertont, nach Lernerniveaus aufgeteilt, 240 Aufnahmen, circa 120.000 Token
-
Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
-
beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten spanischsprachigen Gebieten
Corpus de aprendices de español L2
- Lernerkorpus des Instituto Cervantes, 2011 – 2013, 1.423 Sprecherinnen und Sprecher (verschiedene L1 und Sprachniveaus), 575.000 Token
Corpus de Habla Infantil Espontánea del Español
- Kostenpflichtiges Korpus mit 58.000 Token (30 Texte), knapp acht Stunden Tonaufnahmen von 59 Kindern
-
L2-Lerner Korpus mit 60 Sprecherinnen und Sprechern (L1: Englisch), eingeteilt in drei verschiedenen Niveaus (A2/B1 – B2/C1 – C2); Daten von 2006 – 2010
-
zwei verschiedene Teilkorpora mit insgesamt neun Aufgaben; alle Daten als Audio und transkribiert downloadbar
- Korpus von 84 bilingualen Sprecher*innen aus Miami, Florida, Audio und Transkription; 242.475 Wörter, 35 Stunden
- Vollexte der spanischen Literatur, kostenpflichtig
-
Parallelkorpus beschrieben als „database of aligned sentences from the European Union’s legislative documents (Acquis Communautaire) in 24 EU languages.”
-
circa 57 Millionen Token für den spanischen Teil
- Multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 635 Millionen Token für Spanisch
- Multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 39 Millionen Token für Spanisch
- Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Spanisch
-
Parallelkorpus mit 40 Sprachen, circa 115.000 Token; Texte aus dem Internet
Portugiesich
- Gecrawltes Giga-Korpus mit 862.000 Millionen Token
-
PoS-tagged
CINTIL – Corpus Internacional do Português
- Korpus mit 1,2 Millionen Token, PoS-annotiert, circa ein bis zwei mündliche Daten, verschiedenen Genres
Corpus de Referência do Português Contemporâneo (CRPC)
- gesprochene und geschriebene Sprache; diverse Textsorten; 1850 – 2006; 311 Millionen Token
-
nach Ländern aufgeteilt, inklusive Afrika und Asien
-
50.000 Texte; 14. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 45 Millionen Token (Corpus do Português: Genre/Historical)
-
zusätzlich umfangreiches Webkorpus von 2013/2014; Internetseiten aus Brasilien, Portugal, Angola, Mosambik; circa 1 Milliarde Token (Corpus do Português: Web/Dialects)
-
Webkorpus mit ständiger aktueller Erweiterung um Internetseiten und Zeitschriften; circa 1,1 Milliarden Token
-
Portugiesisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia
- ptTenTen11: circa 4 Milliarden Token
-
Neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)
- Korpus mit Briefen von 1900 – 1974
- Korpus mit 225.000 Token, PB und PT, distanzsprachlich
- PoS-tagged
- Korpus mit Zeitungstexten aus Folha (Bras.); circa 24 Millionen Token
- PoS-tagged
- Korpus mit Zeitungstexten aus Público (Port.); 180 Millionen Token
- PoS-tagged
- Korpus mit mündlicher Sprache verschiedener Register aus Brasilien; Ziel: 300.000 Token; im Aufbau befindlich; PoS-tagged
mündliche Spontansprache; ältere Probanden aus 42 Orten Portugals;
Europäisches Portugiesisch; 1974 – 2004; 600.000 Token
- Korpus mit 1,2 Millionen Token; Emails an die Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação
- Korpus der portugisisch basierten Kreolsprache Angolar (São Tomé e Príncipe), 16 Texte, circa 10.000 Token
- Korpus mit 6,5 Millionen Token, PE, journalistisch, PoS-tagged
- Web-basiertes Gigakorpus; knapp 900 Millionen Token; umfangreiche Metadaten; PoS-tagged
- journalistisches Korpus, PE und PB aus Folha (Bras.) und Público (Port.), 1994/1995, 98 Millionen Token, PoS-tagged
- Korpus mit journalistischen Artikeln über Wissenschaft (PE), 500.000 Token, PoS-tagged
- Audio-Korpus mit Daten aus drei verschiedenen portugiesischen und zwei verschiedenen brasilianischen Orten, je 25 Aufnahmen; außerdem Mosambik!
- relativ viele Metadaten über die Sprecher
- Korpus mit journalistischen Artikeln über Fußball, Mode und Gesundheit aus den 50er, 70er und 2000er–Jahren, jeweils PB und PE, insgesamt 5,5 Millionen Token, PoS-tagged
- Korpus mit journalistischen Artikeln über Politik und Gesellschaft aus den 2010er-Jahren, jeweils PB und PE, insges. 172.000 Token, PoS-tagged
- Korpus mit nicht-adressierten Emails; PB und PE, insgesamt 675.000 Token, PoS-tagged
- Korpus mit PB „popular escrito”, beinhaltet Yellow-Press, meistgelesene Autoren, Klassiker der brasilianischen Literatur in vereinfachter Form für Leseanfänger, verschiedene Zeitschriften, die von bildungsfernen Schichten gestaltet werden (Sozialprojekte); circa 700.000 Token
- Vorläuferprojekt
- Metakorpus bestehend aus 21 verschiedene fachsprachlichen Teilkorpora in PB, alle Teilkorpora sind recht umfangreich (circa 200.000 Token)
Corpus de Português Escrito em Periódicos
- Korpus mit PB und PE aus wissenschaftlichen Journals, circa 40 Millionen Token
- Korpus mit Materialien des Dicionário Histórico-Biográfico Brasileiro, über brasilianische Zeitgeschichte), 9,6 Millionen Token, PoS-tagged
- Korpus mit Zeitungsartikeln aus Portugal (1999 – 2000), 6,6 Millionen Token, PoS-tagged
- Korpus mit zwölf Interviews mit Pt-Sprechern aus Timor-Leste, insgesamt 6 Stunden Aufnahmen und 21.000 Token, PoS-tagged
- Korpus mit Exzerpten aus PB-Literatur, verschiedene Teilbereiche, 723.000 Token, PoS-tagged
- Korpus aus dem Englischen übersetzter Literatur (PE/PB), 72.000 Token, PoS-tagged
- Korpus der portugiesisch basierten Kreolsprache Fadambo (Guinea-Bissau/Äquatorialguinea), 132 Texte, circa 49.000 Token
- Korpus mit verschiedenen Texten (PE/PB), 6 Millionen Token, PoS-tagged, syntaktisch aufbereitet
- Korpus mit verschiedenen Texten (PE) von und über Mariano Gago anlässlich seines Todes 2015, 570.000 Token, PoS-tagged
- Korpus mit verschiedenen Texten (PE/PB) von und über Marielle Franco, 219.000 Token, PoS-tagged
- Korpus mit mosambikanischen Leserbriefen von 2012, veröffentlicht in verschiedenen mosambikanischen Zeitschriften, 58.000 Token, PoS-tagged
- Korpus mit Textmaterial aus der portugiesischen Regionalzeitschrift Diário do Minho (PE), 1,7 Millionen Token, PoS-tagged
- Korpus mit verschiedenen Dokumenten in PB; 22,2 Millionen Token, PoS-tagged
- Korpus mit portugiesischer Literatur (PE), 2,5 Millionen Token, PoS-tagged
Corpus Norma Linguística Urbana Culta – RJ
- Korpus mit portugiesischer Literatur (PE), 2,5 Millionen Token, PoS-tagged
- Korpus mit brasilianischer Literatur (PB), 5,0 Millionen Token, PoS-tagged
Corpus of Cape Verdean Portuguese
- Korpus mit Audiodateien von 29 Sprechern, Nähesprache
- umfangreiche Metainfos zu den Sprechern
Corpus of Sri Lanka Portuguese
- Korpus des auf Sri Lanka gesprochenen portugiesisch basierten Kreols, im Aufbau befindlich
Corpus Perfil Sociolinguístico da Fala Bracarense
- Soziolinguistisch aufbereitetes Korpus mit gesprochener Sprache aus
- Braga/Portugal, 80 Interviews à 60 Minuten
- Korpus mit PT-Blogtextexten über Norwegen, 40.000 Token, PoS-tagged
- Korpus der portugiesisch basierten Kreolsprache Principense (Insel Príncipe), 19 Texte, circa 15.900 Token
- Korpus mit Mediensprache (mündlich und schriftlich) aus portugiesischer Presse, Fernsehen und Radioprogrammen, circa 330.000 Token
- Korpus mit 1600 Rezensionen zu 13 verschiedenen Büchern, PB, 153.000 Token, PoS-tagged
- Korpus der portugiesisch basierten Kreolsprache Santomé/Forro (São Tomé e Príncipe), 588 Texte, circa 213.000 Token
Integrated Reference Corpora for Spoken Romance Languages (C-ORAL-ROM)
- gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache
- C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid
- derzeit nur als kostenpflichtige CD-ROM erhältlich
- in Albertina verfügbar
- Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token
Materialien des Projekts „Norma Linguística Urbana Culta – RJ”
- kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. (Teil-)Projekts für Rio de Janeiro
- zum Teil auch Audios, sehr umfangreiche Metadokumentation
MODAL – Corpus annotated for Modality
- Spezialkorpus, das nach Modalität annotiert ist; 160.000 Token aus dem CRPC, nur PE
PF Corpus – Corpus Português Fundamental
- gesprochene Sprache; 1970 – 74; 700.000 Token
PTPARL Corpus (Portuguese Parliament Sessions Corpus)
- Korpus mit Daten aus dem portugiesischen Parlament, 1076 Texte, knapp 1 Million Token, PoS-tagged
Spoken Portuguese – Geographical and Social Varietie
- Korpus mit 86 transkribierten Audiodateien aus der gesamten Lusophonen Welt, Fokus auf PB und PE, aber auch andere Varietäten abgedeckt; circa 150.000 Token, PoS-tagged
- weiterer Link
- Spezialkorpus zu Vokativen im PE; 108 Sätze (davon 54 Targets und 54 Filler, 432 Audiodateien
WOchWel (Word Order and Word Order Change in Western European Languages)
- Korpus mit altport. Texten, PoS-tagged und syntaktisch annotiert
Colonia Corpus of Historical Portuguese
- 100 schriftliche Texte; 1500 – 1936; Brasilien und Portugal, circa 5,2 Millionen Token
-
Korpus mit circa 30 alt- und mittelportugiesischen Texten bis 1525
-
philologischer Fokus, zum Teil verschiedene Editionen etc.
- Umfangreiche Textsammlung (12. – 20. Jahrhundert) downloadbar als Textdateien
Corpus Histórico do Português Tycho Brahe
-
76 schriftliche Texte; 14. – 20. Jahrhundert; 3,3 Millionen Token; syntaktisch und morphologisch annotiert; Korpus downloadbar
Corpus Informatizado do Português Medieval
- Korpus mit altportugiesischen Texten (12. – 16 Jahrhundert), circa 2 Millionen Token
Corpus Lexicográfico do Português
- Korpus mit 23 historischen Wörterbüchern/Grammatiken des Portugiesischen (16. – 18. Jahrhundert.), circa 530.000 Token
-
Korpus mit PE-Literatur, 309 Werke von 55 Autoren, von 1500 – 1933, circa 14,8 Millionen Token
- Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token
Materialien des Projekts „Para uma História do Português do Brasil”
- kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. Projekts (17. – 20. Jahrhundert)
-
Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber
-
aufwendig getagged
- Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
-
beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten portugiesischsprachigen Gebieten
- L2-Lernerkorpus; 470 Texte von 397 Sprecherinnen und Sprechern (ausführliche Metainfo) mit insgesamt 28 verschiedenen Muttersprachen; circa 70.500 Token
-
„Video recordings of three German/Portuguese simultaneous bilingual children, starting at approx. 1 year and 6 months. One or two recordings each month until approx. 5 years and 6 months. In each recording session (interviewer/child interaction) the child is addressed in both languages in one Portuguese and one German part.“
-
circa 250.000 Token
-
E-Mail für Zugang
- L2-Lernerkorpus; Sprecher mit 15 verschiedenen Muttersprachen, Niveaus A1bis C1
- circa 190.000 Token, circa 1000 Texte
Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2)
- sehr umfangreiches L2-Lernerkorpus (459 Sprecher, 39 verschiedene Muttersprachen, alle Altersstufen), knapp 150.000 Token
- Korpus mit gesprochener und geschriebener Sprache von portugiesischen Schulkindern (2. – 4. Klasse)
- L2-Lernerkorpus; 218 Texte von 168 Sprecherinnen und Sprechern mit 16 verschiedenen Muttersprachen, circa 55.000 Token
- L2-Lernerkorpus; 309 Texte von Sprecherinnen und Sprechern mit sechs verschiedenen Muttersprachen (circa 50 Texte pro Sprache, 68.000 Token, inklusive portugiesischer Kontrollgruppe)
- weiterer Link
- Metakorpus bestehend aus drei verschiedenen Parallelkorpora (journalistisch, literarisch, fachsprachlich) in PB
-
Parallelkorpus mit EU-Dokumenten beschrieben als „database ofaligned sentences fromthe European Union’s legislative documents (AcquisCommunautaire) in 24 EU languages.”
-
circa 54 Millionen Token
- multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 595 Millionen Token für Portugiesisch
- multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 35 Millionen Token für Portugiesisch
- Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Portugiesisch
-
Parallelkorpus mit 40 Sprachen, verfügbar für PB und PE, 272 Millionen bzw. 298 Millionen Token; Texte aus dem Internet
Galicisch
Corpus de Referencia do Galego Actual (CORGA)
- verschiedene schriftliche Texte (Internetseiten, Zeitschriften, Drehbücher); 1975 – heute; circa 37 Millionen Token
Dicionario de Dicionarios (DdD)
- kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit verschiedenen Wörterbüchern in der Datenbank
Tesouro Informatizado da Lingua Galego (TILG)
- Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich
Siehe zusätzlich zu den hier gelisteten Korpora auch die Webseite des OPUS-Korpus mit weiteren Ressourcen und Parallel-Korpora, die im vorliegenden Dokument nur zum Teil gesondert aufgeführt sind. Siehe auch Fußnote 4 und hier insbesondere unter der Rubrik „Corpos paralelos/comparáveis”.
Bloques e Áreas Lingüísticas do Galego
- kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte, transkribiert
- basiert auf einer Buchpublikation von 1996
- kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte und anderer Dia-Varietäten, transkribiert
Corpus Oral Informatizado de la Lengua Gallega
- aufwendig annotiertes Korpus des gesprochenen Galicisch, noch nicht freigeschaltet, eine Google-Suche lohnt sich immer!
Biblioteca Dixital da Galicia Medieval
- Korpus mit galicischen Dokumenten von den Anfängen bis zum 18. Jahrhundert, nach verschiedenen Genres durchsuchbar
- Metainformation nicht verfügbar, jedoch sehr umfangreich
- Korpus mit dem Ziel der Dokumentation aller schriftlichen Zeugnisse des Galicischen des 16. – 18. Jahrhundert („Séculos Escuros”), derzeit 83 Dokumente
Corpus Lingüístico da Galicia Medieval
- Korpus mit mittelalterlichen Dokumenten des Galicischen, nach verschiedenen Genres durchsuchbar (Lyrik, notarielle Produktion, historische Texte)
- Metainformation nicht verfügbar
Corpus Lexicográfico do Galego Medieval
- kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit zahlreichen Glossaren/Wörterbüchern des Alt- und Mittelgalicischen
Tesouro Informatizado da Lingua Galego
- Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich
Tesouro Medieval Informatizado da Lingua Galego
- Korpus mit 82 Dokumenten (Anfänge bis 1600), circa 16.000 Token, PoS-tagged, nach verschiedenen Genres durchsuchbar
- Großes Metakorpus bestehend aus 21 verschiedenen Parallelkorpora Galicisch-X, viele Sprachkombinationen verfügbar; insgesamt 49 Millionen Token
- Parallelkorpus Englisch-Galicisch
- Metainformation nicht verfügbar
Katalanisch
Corpus textual informatitzat de la llengua catalana (CTILC)
- über 52 Millionen Token; literarische und nicht-literarische Texte zwischen 1833 – 1988
- Distanzsprache
- lemmatisiert und PoS-tagged
- herausgegeben von Institut d’Estudis Catalans
Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)
- mündlich; zeitgenössisch; mit Audiodateien; kostenlos verfügbar
- bestehend aus vier Teilkorpora: Corpus Oral Dialectal (COD), Corpus de Varietats Socials (COS), Corpus Oral de Conversa Colloquial (COC), Corpus Oral de Registres (COR)
- Katalanisches Giga-Korpus aus Webseiten
Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)
-
mündlich; zeitgenössisch; mit Audiodateien; kostenlos verfügbar
-
bestehend aus vier Teilkorpora: Corpus Oral Dialectal (COD), Corpus de Varietats Socials (COS), Corpus Oral de Conversa Col·loquial (COC), Corpus Oral de Registres (COR)
- beinhaltet mündliche Erzählungen auf Katalanisch, Italienisch, Spanisch, Englisch und Deutsch; Probanden mehrheitlich Studierende der Universitat Pompeu Fabra
- ca. 37.500 Wörter für das Katalanische
- Sammlung von Neologismen im mündlichen und schriftlichen Sprachgebrauch, ab 1992
- herausgegeben vom Observatori de Neologia (Universitat Pompeu Fabra)
KonText: InterCorp v11 – Catalan
- ca. 124.000 Wörter; hauptsächlich fiktionale Texte, aber auch: politische Kommentare, Acquis Communautaire der EU, Filmuntertitel, Daten aus dem Europäischen Parlament, Bibelübersetzung
- herausgegeben von der Universität Prag
- relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils ca. 500.000 Token
- Korpus der katalanischen Wikipedia zum Download
- ca. 50 Millionen Token
- tagged
- 21 transkribierte Interviews mit Sprechern aus Alghero (Sardinien), sehr heterogene Interviewlängen (drei Minuten bis zwei Stunden)
- transkribiert und häufig sogar mit Videoaufnahmen
Atles Interactiu de l’entonació del català
- prosodischer Atlas der ver. katalanischen Dialekte
- alle Interviews allerdings auch gefilmt und transkribiert
Audiovisuelle Datenbank des Katalanischen der Costa Brava
- transkribierte und verfilmte Interviews
Corpus Informatitzat del Català Antic
- 11. – 18. Jahrhundert
- 414 Texte
- lemmatisiert