Wir haben hier für Sie eine Übersicht von (meist) kostenlosen Korpora für Spanisch, Portugiesich, Galicisch und Katalanisch zusammengestellt.

Links zu den Korpora befinden sich in den jeweiligen Überschriften

Spanisch

Araneum Hispanicum

  • im September 2013 gecrawltes Giga-Korpus mit 1,2 Milliarden Token, PoS-tagged


Archivo de textos hispánicos de la Universidad de Santiago de Compostela (Arthus)

  • verschiedene Textsorten; zeitgenössisch; Spanien und Amerika; circa 1,5 Millionen Token; Daten zur Base de datos sintácticos del español actual hinzugefügt


Corpus del español (CdE)

  • Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!
  • zusätzlich umfangreicher Webkorpus von 2013/2014; Internetseiten aus 21 spanischsprachigen Ländern; circa zwei Milliarden Token (Corpus del español: Web/Dialects)
  • Webkorpus mit ständiger aktueller Erweiterung um Internetzeitungen und Zeitschriften; circa 5,1 Milliarden Token


Corpus del Español Actual (CEA)

  • 1996 – 2000; Spanien; circa 540 Millionen Token; 3 Teilkorpora (Fokus auf Distanzsprache): 2
  • Europarl: European Parliament Proceedings Parallel Corpus (spanischer Teil)
  • spanische Wikipedia-Einträge (Stand 2006)

  • MultiUN: Multilingual UN Parallel Text (spanischer Teil)


Corpus del Español del Siglo XXI (CORPES XXI)

  • unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 2001 – 2015; 21 spanischsprachige Länder: 65 Prozent Lateinamerika, 35 Prozent Spanien; circa 200 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE


Corpus del Léxico Informatizado del Español (LEXESP)

  • 5,5 Millionen Token, schriftsprachliche Daten verschiedener Genres, 90 Prozent Europa, 10 Prozent Lateinamerika


Corpus de Referencia del Español Actual (CREA)

  • unterschiedliche Texte zur geschriebenen und gesprochenen Sprache; 1975 – 2004; 21 spanischsprachige Länder; circa 160 Millionen Token; Sucheinschränkung nach Ländern möglich; Herausgeber: RAE


Spanish esTenTen

  • Spanisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia
  • zwei Versionen: esTenTen18 (17,5 Milliarden Token) und esTenTen11 (9,5 Milliarden Token); auch gesondert nach europäischen/lateinamerikanischen Daten durchsuchbar


Corpus SOL

  • Korpus bestehend aus 3 verschiedenen Teilkorpora, insgesamt knapp 4 Millionen Token; Teilkorpora:

    • CORLEC (mündliche Texte, sowohl nähe- als auch distanzsprachlich)

    • ONE71 (11 spanische Romane von 1951 – 1971)

    • PE77 (etwa 3.000 Zeitungsartikel aus Spanien; Jahr 1977)


Timestamped JSI Web Corpus

  • neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)

Corpus oral del español de los migrantes residentes en la ciudad de Sevilla

  • mündliches Korpus zur Erforschung des Spanischen von Migranten, die in der Stadt Sevilla beheimatet sind

 

Korpus des andinen Spanisch in Bolivien 

  • relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils circa 500.000 Token


Corpus Cochambino

  • Korpus des andinen Spanisch in Bolivien


Corpus de conversación coloquial del grupo Val.Es.Co

  • 46 Konversationen; mündliche Spontansprache; Spanien


Corpus del Español Mexicano Actual (CEMC)

  • Korpus des mexikanischen Spanisch, 1921 – 1974; circa 2 Millionen Token, verschiedene Genre und Register


Corpus del Español rural (COSER)

  • dialektale Texte aus Spanien, teilweise vertont und transkribiert, im Aufbau (Universidad Autónoma de Madrid), 1988 – heute, 4,6 Millionen Token, 1745 Stunden, 1326 Orte, ältere Sprecher

  • PoS annotiert


Corpus del Vernáculo Urbano de Málaga (VUM)

  • spontansprachliches Korpus des malagueñischen Spanisch, 18 Sprecherinnen und Sprecher, soziodemographische Informationen dokumentiert

  • in PRESEEA enthalten, aber leichter nutzbar unter dem Link


Corpus dinámico del Castellano de Chile (CODICACH)

  • Korpus des chilenischen Spanish, circa 800 Millionen Token; 1997 – 2003, verschiedene Genres


Corpus Grial

  • Korpus des chilenischen Spanisch, Metadaten schwer nachprüfbar, vor allem Distanzsprache


Corpus Iberia

  • Korpus mit wissenschaftlichen Fachtexten von 1985 – 2017, derzeit knapp 70.000 Dokumente und 280 Millionen Token

  • PoS-tagged


Corpus integrado de referencia en lenguas romances (C-ORAL-ROM)

  • gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache

  • C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid

  • derzeit nur als kostenpflichtige CD-Rom erhältlich

  • in Albertina verfügbar


Corpus Lingüístico de Referencia de la Lengua Española en Argentina

  • Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 1,9 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre


Corpus Lingüístico de Referencia de la Lengua Española en Chile

  • Korpus des argentinischen Spanisch, ver. distanzsprachliche Textsorten, circa 2,0 Millionen Token, Daten Mitte 1980er bis Anfang 1990er-Jahre


Corpus oral de lenguaje adolescente (COLA)

  • vertontes Korpus (circa 700.000 Token) mit mündlicher Spontansprache von Jugendsprachen aus Santiago de Chile, Madrid, Buenos Aires und Managua
  • verschiedene soziodemographische Metainformationen


Corpus Oral de Referencia de Español en Contacto (COREC)

  • Sprachkontakt-Korpus, das verschiedene europäische und außereuropäische Kontaktvarietäten abdeckt, derzeit noch im Aufbau
  • Online nur Zugang zu Ausschnitten; gesamtes Korpus kann per E-Mail angefragt werden


Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC)

  • 1991 – 1992; mündliche Texte, sowohl nähe- als auch distanzsprachlich, circa 1,1 Millionen Token


Corpus PAAU 1992

  • Korpus mit Text aus 700 Prüfungen „Pruebas de acceso a la universidad” von 1992 aus verschiedenen spanischen Städten
  • auch in CREA integriert


Corpus Panacea Environment

  • Korpus mit über 26.000 Texten (circa 46 Millionen Token) zu Umweltthemen, Texte aus dem Web


Corpus Panacea Labour

  • Korpus mit über 13.000 Texten (circa 54 Millionen Token) zu arbeitsrechtlichen Themen, Texte aus dem Web


Corpus para el estudio del español oral de Galicia (ESLORA)

  • 80 Stunden mündliches Textmaterial, transkribiert und vertont; 2007 – 2015, 56 Dokumente, circa 650.000 Token (Universidade de Santiago de Compostela)


Corpus periodístico Hemero

  • Zeitungstexte; 1997 – 2009; Spanien, Argentinien, Mexiko; circa 660 Millionen Token


Corpus Salcedo

  • Korpus des andinen Spanisch in Ecuador, 1974 – 1979


Proyecto para el estudio sociolingüístico del español de España y de América (PRESEEA)

  • mündliche Spontansprache; 1990er bis heute; soziodemographische Annotation; Projekt im Aufbau

  • bis dato: Alcalá de Henares, Caracas, La Habana, Lima, Madrid, Medellín, Monterrey, Montevideo, Santiago, Valencia

Biblia Medieval

  • diachrones Korpus mit zahlreichen altspanischen Bibeltexten (18 verschiedene Manuskripte, circa 5 Millionen Token), hervorragende Handhabung

  • wichtige Bibliographische Hinweise in der Recursos-Sektion


Biblioteca Digital Arte Lope

  • 111 Texte von Lope de la Vega; Mittelspanisch (16./17. Jahrhundert)


BIBLIOTECA Digital de Textos del Español Antiguo

  • altspanische Texte (i. e., aus Spanien); derzeit 335; 27 Millionen Token

  • wird ständig erweitert


Corpus Charta

  • Meta-Korpus mit 2076 historischen Dokumenten, 822 – 1871, verschiedene Genres und Länder

  • beinhaltet zahlreiche ver. historische Klein- und Kleinstkorpora, die deshalb in in diesem Dokument nicht gesondert geführt werden. Ein Blick auf diese via Corpus Charta ist lohnenswert!


Corpus Codea

  • Korpus mit historischen Dokumenten aus Spanien, 11. – 18. Jahrhundert, circa 1,5 Millionen Token, verschiedene Genre, aufwendige und detailgenaue Wiedergabe von Metadaten (auch geolinguistisch!)

  • zum Teil [!] in Corpus Charta integriert


Corpus del español (CdE)

  • Texte aus dem 13. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 100 Millionen Token (Corpus del español: Genre/Historical), Achtung: viele Fehler!


Corpus del Nuevo Diccionario Histórico (CDH)

  • 12. Jahrhundert – 2000, ca. 335 Millionen Token, alle spanischsprachigen Länder, verschiedene Genres, PoS-annotiert

  • Korpus bestehend aus drei Teilkorpora der Real Academia Española: CORDE (Auswahl), CREA (Auswahl) und dem Nuevo Diccionario Histórico (NDH)


Corpus Diacrónico del Español (CORDE)

  • schriftliche Texte; unterschiedliche Genres; Mittelalter – 1974; alle spanischsprachigen Länder; circa 250 Millionen Token; Herausgeber: RAE


Corpus Histórico del Español de México

  • Korpus mit historischen Texten aus Mexiko, Anmeldung nötig


IMPACT-es diachronic corpus

  • 100 Texte des Siglo de Oro; Mittelspanisch (16./17. Jahrhundert), 8 Millionen Token


Project Post Scriptum

  • Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber

  • aufwendig getagged

C-Or-DiAL: Corpus oral didáctico anotado lingüísticamente

  • Korpus für didaktische Zwecke; transkribiert und vertont, nach Lernerniveaus aufgeteilt, 240 Aufnahmen, circa 120.000 Token


CHILDES

  • Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern

  • beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten spanischsprachigen Gebieten

  • auch zweisprachige Konstellationen


Corpus de aprendices de español L2

  • Lernerkorpus des Instituto Cervantes, 2011 – 2013, 1.423 Sprecherinnen und Sprecher (verschiedene L1 und Sprachniveaus), 575.000 Token


Corpus de Habla Infantil Espontánea del Español

  • Kostenpflichtiges Korpus mit 58.000 Token (30 Texte), knapp acht Stunden Tonaufnahmen von 59 Kindern


Spanish Learner Oral Corpora

  • L2-Lerner Korpus mit 60 Sprecherinnen und Sprechern (L1: Englisch), eingeteilt in drei verschiedenen Niveaus (A2/B1 – B2/C1 – C2); Daten von 2006 – 2010

  • zwei verschiedene Teilkorpora mit insgesamt neun Aufgaben; alle Daten als Audio und transkribiert downloadbar

Corpus Miami

  • Korpus von 84 bilingualen Sprecher*innen aus Miami, Florida, Audio und Transkription; 242.475 Wörter, 35 Stunden

Clásicos Hispánicos

  • Vollexte der spanischen Literatur, kostenpflichtig


DGT Translation Memory

  • Parallelkorpus beschrieben als „database of aligned sentences from the European Union’s legislative documents (Acquis Communautaire) in 24 EU languages.”

  • circa 57 Millionen Token für den spanischen Teil 


EUR-LEX Corpus

  • Multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 635 Millionen Token für Spanisch


EUR-LEX Judgment Corpus

  • Multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 39 Millionen Token für Spanisch


EURPARL Corpus

  • Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Spanisch


OPUS2 Parallel Corpus

  • Parallelkorpus mit 40 Sprachen, circa 115.000 Token; Texte aus dem Internet

Portugiesich

Araneum Portugallicum

  • Gecrawltes Giga-Korpus mit 862.000 Millionen Token
  • PoS-tagged


CINTIL – Corpus Internacional do Português

  • Korpus mit 1,2 Millionen Token, PoS-annotiert, circa ein bis zwei mündliche Daten, verschiedenen Genres


Corpus de Referência do Português Contemporâneo (CRPC)

  • gesprochene und geschriebene Sprache; diverse Textsorten; 1850 – 2006;   311 Millionen Token
  • nach Ländern aufgeteilt, inklusive Afrika und Asien


O corpus do Português

  • 50.000 Texte; 14. – 20. Jahrhundert; für das 20. Jahrhundert unterteilt in mündlich, fiktional, journalistisch, akademisch; circa 45 Millionen Token (Corpus do Português: Genre/Historical)

  • zusätzlich umfangreiches Webkorpus von 2013/2014; Internetseiten aus Brasilien, Portugal, Angola, Mosambik; circa 1 Milliarde Token (Corpus do Português: Web/Dialects)

  • Webkorpus mit ständiger aktueller Erweiterung um Internetseiten und Zeitschriften; circa 1,1 Milliarden Token


Portuguese ptTenTen

  • Portugiesisches Giga-Korpus aus Webseiten aus Europa, Amerika und der spanischen Wikipedia

  • ptTenTen11: circa 4 Milliarden Token


Timestamped JSI Web Corpus

  • Neuartiges Real-Time Korpus auf der Basis von Crawlern (RSS-Feeds und Webseiten)

Cartas esquecidas

  • Korpus mit Briefen von 1900 – 1974


CD HAREM

  • Korpus mit 225.000 Token, PB und PT, distanzsprachlich
  • PoS-tagged


CETEM Folha

  • Korpus mit Zeitungstexten aus Folha (Bras.); circa 24 Millionen Token

  • PoS-tagged


CETEM Público

  • Korpus mit Zeitungstexten aus Público (Port.); 180 Millionen Token
  •  PoS-tagged


C-ORAL-Brasil

  • Korpus mit mündlicher Sprache verschiedenen Register aus Brasilien; Ziel: 300.000 Token; im Aufbau befindlich; PoS-tagged


CORDIAL-SIN

  • mündliche Spontansprache; ältere Probanden aus 42 Orten Portugals;

    Europäisches Portugiesisch; 1974 – 2004; 600.000 Token


Corpus ANCIB

  • Korpus mit 1,2 Millionen Token; Emails an die Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação


Corpus Angolar

  • Korpus der portugisisch basierten Kreolsprache Angolar (São Tomé e Príncipe), 16 Texte, circa 10.000 Token


Corpus Avante

  • Korpus mit 6,5 Millionen Token, PE, journalistisch, PoS-tagged


Corpus Brasileiro (CB)

  • Web-basiertes Gigakorpus; knapp 900 Millionen Token; umfangreiche Metadaten; PoS-tagged


Corpus CHAVE

  • journalistisches Korpus, PE und PB aus Folha (Bras.) und Público (Port.), 1994/1995, 98 Millionen Token, PoS-tagged


Corpus Ciência Viva

  • Korpus mit journalistischen Artikeln über Wissenschaft (PE), 500.000 Token, PoS-tagged


Corpus Concordância

  • Audio-Korpus mit Daten aus drei verschiedenen portugiesischen und zwei verschiedenen brasilianischen Orten, je 25 Aufnahmen; außerdem Mosambik!

  • relativ viele Metadaten über die Sprecher


Corpus CONDIVport

  • Korpus mit journalistischen Artikeln über Fußball, Mode und Gesundheit aus den 50er, 70er und 2000er–Jahren, jeweils PB und PE, insgesamt 5,5 Millionen Token, PoS-tagged


Corpus CONDIVport2

  • Korpus mit journalistischen Artikeln über Politik und Gesellschaft aus den 2010er-Jahren, jeweils PB und PE, insges. 172.000 Token, PoS-tagged


Corpus CoNE

  • Korpus mit nicht-adressierten Emails; PB und PE, insgesamt 675.000 Token, PoS-tagged


Corpus CorPop

  • Korpus mit PB „popular escrito”, beinhaltet Yellow-Press, meistgelesene Autoren, Klassiker der brasilianischen Literatur in vereinfachter Form für Leseanfänger, verschiedene Zeitschriften, die von bildungsfernen Schichten gestaltet werden (Sozialprojekte); circa 700.000 Token

  • Vorläuferprojekt


Corpus CorTec

  • Metakorpus bestehend aus 21 verschiedene fachsprachlichen Teilkorpora in PB, alle Teilkorpora sind recht umfangreich (circa 200.000 Token)


Corpus de Português Escrito em Periódicos

  • Korpus mit PB und PE aus wissenschaftlichen Journals, circa 40 Millionen Token


Corpus DHBB

  • Korpus mit Materialien des Dicionário Histórico-Biográfico Brasileiro, über brasilianische Zeitgeschichte), 9,6 Millionen Token, PoS-tagged


Corpus DiaCLAV

  • Korpus mit Zeitungsartikeln aus Portugal (1999 – 2000), 6,6 Millionen Token, PoS-tagged


Corpus Diáspora TL-PT

  • Korpus mit zwölf Interviews mit Pt-Sprechern aus Timor-Leste, insgesamt 6 Stunden Aufnahmen und 21.000 Token, PoS-tagged


Corpus ECI-EBR

  • Korpus mit Exzerpten aus PB-Literatur, verschiedene Teilbereiche, 723.000 Token, PoS-tagged


Corpus ENPCPUB

  • Korpus aus dem Englischen übersetzter Literatur (PE/PB), 72.000 Token, PoS-tagged


Corpus Fadambo

  • Korpus der portugiesisch basierten Kreolsprache Fadambo (Guinea-Bissau/Äquatorialguinea), 132 Texte, circa 49.000 Token


Corpus Floresta Sintá(c)tica

  • Korpus mit verschiedenen Texten (PE/PB), 6 Millionen Token, PoS-tagged, syntaktisch aufbereitet


Corpus Mariano Gago

  • Korpus mit verschiedenen Texten (PE) von und über Mariano Gago anlässlich seines Todes 2015, 570.000 Token, PoS-tagged


Corpus Marielle, presente!

  • Korpus mit verschiedenen Texten (PE/PB) von und über Marielle Franco, 219.000 Token, PoS-tagged


Corpus Moçambula

  • Korpus mit mosambikanischen Leserbriefen von 2012, veröffentlicht in verschiedenen mosambikanischen Zeitschriften, 58.000 Token, PoS-tagged


Corpus Natura/Minoho

  • Korpus mit Textmaterial aus der portugiesischen Regionalzeitschrift Diário do Minho (PE), 1,7 Millionen Token, PoS-tagged


Corpus NILC/São Carlos

  • Korpus mit verschiedenen Dokumenten in PB; 22,2 Millionen Token, PoS-tagged


Corpus NOBRE

  • Korpus mit portugisisch Literatur (PE), 2,5 Millionen Token, PoS-tagged


Corpus Norma Linguística Urbana Culta – RJ

  • Korpus mit portugisischer Literatur (PE), 2,5 Millionen Token, PoS-tagged


Corpus OBras

  • Korpus mit brasilianischer Literatur (PB), 5,0 Millionen Token, PoS-tagged


Corpus of Cape Verdean Portuguese

  • Korpus mit Audiodateien von 29 Sprechern, Nähesprache
  • umfangreiche Metainfos zu den Sprechern


Corpus of Sri Lanka Portuguese

  • Korpus des auf Sri Lanka gesprochenen portugiesisch basierten Kreols, im Aufbau befindlich


Corpus Perfil Sociolinguístico da Fala Bracarense

  • Soziolinguistisch aufbereitetes Korpus mit gesprochener Sprache aus
  • Braga/Portugal, 80 Interviews à 60 Minuten


Corpus P’lo Norte

  • Korpus mit PT-Blogtextexten über Norwegen, 40.000 Token, PoS-tagged


Corpus Principense

  • Korpus der portugiesisch basierten Kreolsprache Principense (Insel Príncipe), 19 Texte, circa 15.900 Token


Corpus REDIP

  • Korpus mit Mediensprache (mündlich und schriftlich) aus portugiesischer Presse, Fernsehen und Radioprogrammen, circa 330.000 Token


Corpus ReLi

  • Korpus mit 1600 Rezensionen zu 13 verschiedenen Büchern, PB, 153.000 Token, PoS-tagged


Corpus Santome

  • Korpus der portugiesisch basierten Kreolsprache Santomé/Forro (São Tomé e Príncipe), 588 Texte, circa 213.000 Token


Integrated Reference Corpora for Spoken Romance Languages (C-ORAL-ROM)

  • gesprochene Sprache; ab 1970; Frankreich, Italien, Spanien, Portugal; circa 300.000 Token pro Sprache

  • C-Or-DiAL als Teil des C-ORAL-ROM-Korpus: Spontansprache; 2004; Madrid

  • derzeit nur als kostenpflichtige CD-ROM erhältlich

  • in Albertina verfügbar


LT Corpus

  • Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token


Materialien des Projekts „Norma Linguística Urbana Culta – RJ”

  • kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. (Teil-)Projekts für Rio de Janeiro

  • zum Teil auch Audios, sehr umfangreiche Metadokumentation


MODAL – Corpus annotated for Modality

  • Spezialkorpus, das nach Modalität annotiert ist; 160.000 Token aus dem CRPC, nur PE


PF Corpus – Corpus Português Fundamental

  • gesprochene Sprache; 1970 – 74; 700.000 Token


PTPARL Corpus (Portuguese Parliament Sessions Corpus)

  • Korpus mit Daten aus dem portugiesischen Parlament, 1076 Texte, knapp 1 Million Token, PoS-tagged


Spoken Portuguese – Geographical and Social Varietie

  • Korpus mit 86 transkribierten Audiodateien aus der gesamten Lusophonen Welt, Fokus auf PB und PE, aber auch andere Varietäten abgedeckt; circa 150.000 Token, PoS-tagged

  • weiterer Link


Vocatives in Portuguese

  • Spezialkorpus zu Vokativen im PE; 108 Sätze (davon 54 Targets und 54 Filler, 432 Audiodateien


WOchWel (Word Order and Word Order Change in Western European Languages)

  • Korpus mit altport. Texten, PoS-tagged und syntaktisch annotiert

Colonia Corpus of Historical Portuguese

  • 100 schriftliche Texte; 1500 – 1936; Brasilien und Portugal, circa 5,2 Millionen Token


Corpus de Textos Antigos

  • Korpus mit circa 30 alt- und mittelportugiesischen Texten bis 1525

  • philologischer Fokus, zum Teil verschiedene Editionen etc.


Corpus do GMPH

  • Umfangreiche Textsammlung (12. – 20. Jahrhundert) downloadbar als Textdateien


Corpus Histórico do Português Tycho Brahe

  • 76 schriftliche Texte; 14. – 20. Jahrhundert; 3,3 Millionen Token; syntaktisch und morphologisch annotiert; Korpus downloadbar


Corpus Informatizado do Português Medieval

  • Korpus mit altportugiesischen Texten (12. – 16 Jahrhundert), circa 2 Millionen Token


Corpus Lexicográfico do Português

  • Korpus mit 23 historischen Wörterbüchern/Grammatiken des Portugiesischen (16. – 18. Jahrhundert.), circa 530.000 Token


Corpus Vercial

  • Korpus mit PE-Literatur, 309 Werke von 55 Autoren, von 1500 – 1933, circa 14,8 Millionen Token


LT Corpus

  • Korpus mit 70 Klassikern der portugiesischen Literatur (1810 – 1940), circa 1,7 Millionen Token


Materialien des Projekts „Para uma História do Português do Brasil”

  • kein Korpus im eigentlichen Sinne, jedoch sehr nützliche und nach Genres aufgeteilte Textsammlung des o. g. Projekts (17. – 20. Jahrhundert)


Project Post Scriptum

  • Korpus mit privaten spanischen und portugiesischen Briefen vom 14. – 19. Jahrhundert, mit sehr viel Metainformationen über die Schreiber

  • aufwendig getagged

CHILDES

  • Sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
  • beinhaltet zahlreiche verschiedene spanische Teilkorpora aus verschiedensten portugiesischsprachigen Gebieten

  • auch zweisprachige Konstellationen


Corpora of PLE

  • L2-Lernerkorpus; 470 Texte von 397 Sprecherinnen und Sprechern (ausführliche Metainfo) mit insgesamt 28 verschiedenen Muttersprachen; circa 70.500 Token


Corpus Bipode

  • „Video recordings of three German/Portuguese simultaneous bilingual children, starting at approx. 1 year and 6 months. One or two recordings each month until approx. 5 years and 6 months. In each recording session (interviewer/child interaction) the child is addressed in both languages in one Portuguese and one German part.“

  • circa 250.000 Token

  • E-Mail für Zugang


Corpus COPLE

  • L2-Lernerkorpus; Sprecher mit 15 verschiedenen Muttersprachen, Niveaus A1bis C1
  • circa 190.000 Token, circa 1000 Texte


Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2)

  • sehr umfangreiches L2-Lernerkorpus (459 Sprecher, 39 verschiedene Muttersprachen, alle Altersstufen), knapp 150.000 Token


Corpus EFFE-ON

  • Korpus mit gesprochener und geschriebener Sprache von portugiesischen Schulkindern (2. – 4. Klasse)


Corpus Leiria

  • L2-Lernerkorpus; 218 Texte von 168 Sprecherinnen und Sprechern mit 16 verschiedenen Muttersprachen, circa 55.000 Token


Corpus Pestra

  • L2-Lernerkorpus; 309 Texte von Sprecherinnen und Sprechern mit sechs verschiedenen Muttersprachen (circa 50 Texte pro Sprache, 68.000 Token, inklusive portugiesischer Kontrollgruppe)
  • weiterer Link

Corpus CorTrad

  • Metakorpus bestehend aus drei verschiedenen Parallelkorpora (journalistisch, literarisch, fachsprachlich) in PB


DGT Translation Memory

  • Parallelkorpus mit EU-Dokumenten beschrieben als „database ofaligned sentences fromthe European Union’s legislative documents (AcquisCommunautaire) in 24 EU languages.”

  • circa 54 Millionen Token


EUR-LEX Corpus

  • multilinguales Korpus mit Rechtstexten der EU in 23 Sprachen, circa 595 Millionen Token für Portugiesisch


EUR-LEX Judgment Corpus

  • multilinguales Korpus mit Rechtsurteilen der EU in 23 Sprachen, Subkorpus von EUR-LEX; circa 35 Millionen Token für Portugiesisch


EURPARL Corpus

  • Parallelkorpus mit Daten aus den Parlament Proceedings der EU in 21 Sprachen, circa 54 Millionen Token für Portugiesisch


OPUS2 Parallel Corpus

  • Parallelkorpus mit 40 Sprachen, verfügbar für PB und PE, 272 Millionen bzw. 298 Millionen Token; Texte aus dem Internet

Galicisch

Corpus de Referencia do Galego Actual (CORGA)

  • verschiedene schriftliche Texte (Internetseiten, Zeitschriften, Drehbücher); 1975 – heute; circa 37 Millionen Token


Dicionario de Dicionarios (DdD)

  • kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit verschiedenen Wörterbüchern in der Datenbank  


Tesouro Informatizado da Lingua Galego (TILG)

  • Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich

Siehe zusätzlich zu den hier gelisteten Korpora auch die Webseite des OPUS-Korpus mit weiteren Ressourcen und Parallel-Korpora, die im vorliegenden Dokument nur zum Teil gesondert aufgeführt sind. Siehe auch Fußnote 4 und hier insbesondere unter der Rubrik „Corpos paralelos/comparáveis”.

Bloques e Áreas Lingüísticas do Galego

  • kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte, transkribiert
  • basiert auf einer Buchpublikation von 1996


Arquivo do Galego Oral

  • kein Korpus im eigentlichen Sinne, aber eine sehr nützliche interaktive und vertonte Textsammlung galicischer Dialekte und anderer Dia-Varietäten, transkribiert


Corpus Oral Informatizado de la Lengua Gallega

  • aufwendig annotiertes Korpus des gesprochenen Galicisch, noch nicht freigeschaltet, eine Google-Suche lohnt sich immer!

Biblioteca Dixital da Galicia Medieval

  • Korpus mit galicischen Dokumenten von den Anfängen bis zum 18. Jahrhundert, nach verschiedenen Genres durchsuchbar
  • Metainformation nicht verfügbar, jedoch sehr umfangreich


Corpus Gondomar

  • Korpus mit dem Ziel der Dokumentation aller schriftlichen Zeugnisse des Galicischen des 16. – 18. Jahrhundert („Séculos Escuros”), derzeit 83 Dokumente


Corpus Lingüístico da Galicia Medieval

  • Korpus mit mittelalterlichen Dokumenten des Galicischen, nach verschiedenen Genres durchsuchbar (Lyrik, notarielle Produktion, historische Texte)
  • Metainformation nicht verfügbar


Corpus Lexicográfico do Galego Medieval

  • kein Korpus im eigentlichen Sinne, aber nützlich, da eine Art Metawörterbuch mit zahlreichen Glossaren/Wörterbüchern des Alt- und Mittelgalicischen  


Tesouro Informatizado da Lingua Galego

  • Korpus mit mehr als 3.000 Dokumenten (1612 – 2013), circa 30 Millionen Token, PoS-tagged, nach verschiedenen Genres durchsuchbar, auch mündlich vs. schriftlich


Tesouro Medieval Informatizado da Lingua Galego

  • Korpus mit 82 Dokumenten (Anfänge bis 1600), circa 16.000 Token, PoS-tagged, nach verschiedenen Genres durchsuchbar

Corpus CLUVI

  • Großes Metakorpus bestehend aus 21 verschiedenen Parallelkorpora Galicisch-X, viele Sprachkombinationen verfügbar; insgesamt 49 Millionen Token


Corpus Paralelo SensoGal

  • Parallelkorpus Englisch-Galicisch
  • Metainformation nicht verfügbar

Katalanisch

Corpus textual informatitzat de la llengua catalana (CTILC)

  • über 52 Millionen Token; literarische und nicht-literarische Texte zwischen 1833 – 1988
  • Distanzsprache
  • lemmatisiert und PoS-tagged
  • herausgegeben von Institut d’Estudis Catalans


Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)


Catalan caTenTen

  • Katalanisches Giga-Korpus aus Webseiten

Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB)

  • mündlich; zeitgenössisch; mit Audiodateien; kostenlos verfügbar

  • bestehend aus vier Teilkorpora: Corpus Oral Dialectal (COD), Corpus de Varietats Socials (COS), Corpus Oral de Conversa Col·loquial (COC), Corpus Oral de Registres (COR)


NOCANDO

  • beinhaltet mündliche Erzählungen auf Katalanisch, Italienisch, Spanisch, Englisch und Deutsch; Probanden mehrheitlich Studierende der Universitat Pompeu Fabra
  • ca. 37.500 Wörter für das Katalanische


Corpus OBNEO (IULA)

  • Sammlung von Neologismen im mündlichen und schriftlichen Sprachgebrauch, ab 1992
  • herausgegeben vom Observatori de Neologia (Universitat Pompeu Fabra)


KonText: InterCorp v11 – Catalan

  • ca. 124.000 Wörter; hauptsächlich fiktionale Texte, aber auch: politische Kommentare, Acquis Communautaire der EU, Filmuntertitel, Daten aus dem Europäischen Parlament, Bibelübersetzung
  • herausgegeben von der Universität Prag


Corpus Ancora-CA

  • relativ kleines, aber dafür sehr gut und aufwendig annotiertes Korpus sowohl des Spanischen als auch des Katalanischen; Fokus auf aktueller Pressesprache, jeweils ca. 500.000 Token


Catalan Wikicorpus

  • Korpus der katalanischen Wikipedia zum Download
  • ca. 50 Millionen Token
  • tagged


Corpus Oral de l’Alguerès

  • 21 transkribierte Interviews mit Sprechern aus Alghero (Sardinien), sehr heterogene Interviewlängen (drei Minuten bis zwei Stunden)
  • transkribiert und häufig sogar mit Videoaufnahmen


Atles Interactiu de l’entonació del català

  • prosodischer Atlas der ver. katalanischen Dialekte
  • alle Interviews allerdings auch gefilmt und transkribiert


Audiovisuelle Datenbank des Katalanischen der Costa Brava

  • transkribierte und verfilmte Interviews

Corpus Informatitzat del Català Antic

  • 11. – 18. Jahrhundert
  • 414 Texte
  • lemmatisiert

COVALT

  • beinhaltet Übersetzungen narrativer Texte aus dem Deutschen, Englischen, Französischen ins Katalanische und Spanische
  • Login/Account nötig


CHILDES

  • sprachübergreifendes Projekt zum L1 Spracherwerb bei Kindern
  • beinhaltet zahlreiche ver. katalanische Teilkorpora die hier eingesehen werden

Das könnte Sie auch interessieren

Profil des Instituts

mehr erfahren

Studienangebot

mehr erfahren

Lehrveranstaltungen

mehr erfahren