Registry - The Text+ Catalouge

Textual collection

Briefwechsel Daniel Sanders

German

geschrieben

vorhanden

public

text

DTA

Das Korpus „Sanders Briefwechsel“ umfasst mehrere hundert Briefe von und an den Lexikografen Daniel Sanders (1819–1897). Die Dokumente stammen aus Archiven im In- und Ausland. Es handelt sich dabei vor allem Briefe von und an Wilhelm Scherer, Berthold Auerbach, Karl Gutzkow, Adolf Glaßbrenner, Emil Du Bois-Reymond, Heinrich Schliemann, Ernst Ziel und vielen weiteren bedeutenden Persönlichkeiten.

Textual collection

DaSciTex

English

geschrieben

nicht vorhanden

restricted for individual

corpus

UdS

Das Darmstadt Corpus of Scientific Texts (DaSciTex) besteht aus Vollversionen englischer wissenschaftlicher Zeitschriftenartikel aus 23 Quellen und umfaßt 9 verschiedene wissenschaftliche Domänen. Der Aufbau des Korpus ist dreigliedrig: eine zentrale Disziplin (Informatik), vier 'reine' Kontaktdisziplinen (Linguistik, Biologie, Maschinenbau, Elektrotechnik), vier dazugehörige Mischdisziplinen (Computerlinguistik, Bio-Informatik, CAD, Mikroelektronik). Es gibt zwei Versionen des Korpus: ein kleines manuell korrigiertes Korpus (ca. eine Million Wörter), ein großes Korpus (17 Millionen Wörter).

Textual collection

Dutch news subcorpus from 2012 (nld_news_2012_300K)

geschrieben

nicht vorhanden

public

corpus

text

Dutch news subcorpus based on material from 2012 (300,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.

Textual collection

Etymological Kallawaya Dictionary

gesprochen

vorhanden

video

LAC

This is a comprehensive etymological dictionary of the mixed and secret Kallawaya language of north-western Bolivia.

Textual collection

Finnish news subcorpus from 2012 (fin_news_2012_300K)

Finnish

geschrieben

nicht vorhanden

public

corpus

text

Finnish news subcorpus based on material from 2012 (300,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.

Textual collection

Die Presse 1999

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Die Presse 1999 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

Zwangsaussiedlungen aus dem Grenzgebiet der DDR

German

gesprochen

teilweise vorhanden

restricted for individual

audio

video

oh.d

unbestimmt

In Zusammenarbeit mit dem "Bund der in der DDR Zwangsausgesiedelten e.V" führte Rainer Potratz 28 lebensgeschichtliche Interviews mit Betroffenen der Zwangsaussiedlungen aus dem Grenzgebiet der DDR in der Jahren 1952 und 1961 durch. Angesichts der mangelnden Berücksichtigung der Opfer dieser Zwangsaussiedlungen durch die Veränderungen des von der Volkskammer der DDR verabschiedeten Rehabilitierungsgesetzes im Einigungsvertrag sollten die Interviews und schriftliche und bildliche Dokumente zugleich eine Hilfe in der Auseinandersetzung um die volle Rehabilitation dieser Gruppe von Opfern liefern. Inge Bennewitz und Rainer Potratz: Zwangsaussiedlungen an der innerdeutschen Grenze. Analysen und Dokumente, Berlin 1994

Textual collection

profil 2011

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

profil 2011 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

Die Zeit (Online-Ausgabe), 2005

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Die Zeit (Online-Ausgabe), 2005 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

Die Presse 1998

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Die Presse 1998 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

Tiroler Tageszeitung 1998

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Tiroler Tageszeitung 1998 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

Die Presse 1992

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Die Presse 1992 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

INEL Dolgan Corpus 2.0

gesprochen

vorhanden

public

collection

AdWHH

textsammlung

Corpus Citation Däbritz, Chris Lasse; Kudryakova, Nina; Stapert, Eugénie. 2022. INEL Dolgan Corpus. Version 2.0. Publication date 2022-11-30. https://hdl.handle.net/11022/0000-0007-F9A7-4. Archived at Universität Hamburg. In: The INEL corpora of indigenous Northern Eurasian languages. https://hdl.handle.net/11022/0000-0007-F45A-1. Corpus Description The INEL Dolgan corpus has been created within the long-term INEL project ("Grammatical Descriptions, Corpora and Language Technology for Indigenous Northern Eurasian Languages”), 2016–2033. The corpus makes possible typologically aware corpus-based grammatical research on the Dolgan language and expands the documentation of the lesser described indigenous languages of Northern Eurasia. The INEL Dolgan corpus is composed of texts from different sources: 1. Published folklore texts from an edited volume ("Fol'klor Dolgan", P.E. Efremov 2000), 2. Transcripts of recordings obtained from the Taymyr House of Folk Art (TDNT) in Dudinka (1970s-2000s), 3. Transcripts from the collection of Dr. Eugénie Stapert recorded on several fieldwork trips in 2007-2010, 4. Transcripts of recordings made on a fieldwork trip in 2017. The first group as well as parts of the third group were already transcribed and translated, the rest of the recordings was transcribed and translated within the INEL project. Each text in the corpus is provided with morphological glossing, translation into English, Russian and German, as well as annotation of Russian borrowings. Some texts also have annotations for syntactic functions, semantic roles and information structure/information status. New in release 2.0 20 glossed transcripts (2864 utterances, 19989 tokens) with 03:33:14 hours of corresponding sound 37 audio files with 10:00:36 hours of sound without glossed transcripts Corrections of grammatical analyses and glossing according to the findings in Däbritz’s (2022) grammar, as well as cross-corpora harmonizations Additional corpus-wide annotation of Mongolic borrowings Additional corpus-wide annotation of existential, locative and possessive predication Corrections in further annotations, translations and metadata Funding The corpus has been produced in the context of the joint research funding of the German Federal Government and Federal States in the Academies’ Programme, with funding from the Federal Ministry of Education and Research and the Free and Hanseatic City of Hamburg. The Academies’ Programme is coordinated by the Union of the German Academies of Sciences and Humanities.

Textual collection

Texte der ersten Frauenbewegung

German

geschrieben

vorhanden

public

text

DTA

Das Korpus „Texte der ersten Frauenbewegung“ (TdeF) besteht aus deutschsprachigen Quellentexten, die in der Frauenbewegung um 1900 entstanden sind. Im Vordergrund steht das Thema des Frauenwahlrechts.

Textual collection

Zürcher Tagesanzeiger 1998

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Zürcher Tagesanzeiger 1998 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

Sonntagsblick 2009

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Sonntagsblick 2009 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

Zürcher Tagesanzeiger 1997

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

Zürcher Tagesanzeiger 1997 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/

Textual collection

INEL Selkup Corpus 2.0

Selkup

gesprochen

vorhanden

public

collection

AdWHH

textsammlung

Corpus Citation Brykina, Maria; Orlova, Svetlana; Wagner-Nagy, Beáta. 2020. INEL Selkup Corpus. Version 1.0. Publication date 2020-06-30. Archived in Hamburger Zentrum für Sprachkorpora. http://hdl.handle.net/11022/0000-0007-E1D5-A. In: Wagner-Nagy, Beáta; Arkhipov, Alexandre; Ferger, Anne; Jettka, Daniel; Lehmberg, Timm (eds.). The INEL corpora of indigenous Northern Eurasian languages. Corpus Description The INEL Selkup corpus has been created within the long-term INEL project ("Grammatical Descriptions, Corpora and Language Technology for Indigenous Northern Eurasian Languages”), 2016–2033. The corpus enables typologically aware corpus-based grammatical research on the Selkup language and expands the documentation of the lesser described indigenous languages of Northern Eurasia. The INEL Selkup corpus is composed of texts from the archive of Angelina Ivanovna Kuzmina (1924–2002), who gathered a large amount of material on Selkup in almost all regions where the Selkup people lived between 1962–1977. The archive was transferred by A.I. Kuzmina to Eugen Helimski and acquired by the Universität Hamburg in 2001. Most texts in the corpus originate from the handwritten part of the archive, the others come from sound recordings made by A.I. Kuzmina, transcribed and translated within the INEL project. The corpus has been produced in the context of the joint research funding of the German Federal Government and Federal States in the Academies’ Programme, with funding from the Federal Ministry of Education and Research and the Free and Hanseatic City of Hamburg. The Academies’ Programme is coordinated by the Union of the German Academies of Sciences and Humanities. Funding The corpus has been produced in the context of the joint research funding of the German Federal Government and Federal States in the Academies’ Programme, with funding from the Federal Ministry of Education and Research and the Free and Hanseatic City of Hamburg. The Academies’ Programme is coordinated by the Union of the German Academies of Sciences and Humanities. Contributions/Acknowledgements Audio recordings made by Angelina Kuzmina were transcribed and translated by native speakers of Selkup: Irina Anatolyevna Korobejnikova, written transcription and Russian translation of audio in Central and Southern dialects Natalya Platonovna Izhenbina, written transcription and Russian translation of audio in Southern dialects Svetlana Nikitichna Sankevich (Kunina), oral transcription and Russian translation of audio in Northern dialects Evgeniya Sergeevna Smorgunova (Irikova), oral and written transcription and Russian translation of audio in Northern dialects Valentina Vladimirovna Tamelkina, oral transcription and Russian translation of audio in Northern dialects For individual contributions to the collecting, transcribing and analyzing of individual texts, please refer to the user documentation and to the corpus metadata. The web-based search interface is using the Tsakonian Corpus platform developed by Dr. Timofey Arkhangelskiy, Humboldt Research Fellow at IFUU, Hamburg University New in release 1.0 The corpus now contains 264 texts from 74 speakers, representing the dialects of Middle Taz, Upper Tolka, Baikha (Northern), Narym and Tym (Central), Upper and Middle Ob, Chaya, Upper and Middle Ket (Southern). These contain 7887 sentences and 42466 words in total. Many texts have been provided with annotations for syntactic functions and semantic roles. Corrections to audio transcriptions, glossing and other annotations.

Textual collection

Arabic news corpus (Middle East) from 2018 (ara-middleeast_newscrawl-OSIAN_2018)

Arabic

geschrieben

nicht vorhanden

public

corpus

text

Arabic news corpus (Middle East) based on material crawled in 2018 created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.

Textual collection

NEWS 2002

German

geschrieben

vorhanden

restricted for individual

corpus

IDS

NEWS 2002 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/