20 of 2893 resources
Textual collection
A collection of American drama texts focusing on the structural markup.
Textual collection
Das Deutschen Zeitungsportal führt historische Zeitungen zusammen, die deutsche Kultur- und Wissenseinrichtungen – zumeist Bibliotheken – digitalisiert haben.
Textual collection
The CLiGS textbox contains several corpora of literary texts in Romance languages. It was made made available by the CLiGS junior research group.
Textual collection
A multilingual parallel corpus created from translations of the Bible.
Textual collection
The corpus was compiled as part of the project "The Beginnings of Modern Poetry," which uses digital methods to study German-language literature from about 1850 to 1920. It consists of texts in German-language poetry anthologies published in the second half of the 19th century and the early 20th century. The selected anthologies focus on poetry that was contemporary at the time, and, in the case of the anthologies published around 1900, on poems that the anthologists considered "modern". In total, the corpus consists of more than 20 anthologies containing more than 6000 poems.
Textual collection
This collection consists of 26 mythological poems in Spanish dating from the 16th and 17th centuries, written by the most representative authors of the period (Lope de Vega, Luis de Góngora, Jáuregui, Villamediana, etc.).
Textual collection
The 42 texts from the Folger Digital Texts, accesible in the TextGrid Repository.
Textual collection
Das Korpus „Sanders Briefwechsel“ umfasst mehrere hundert Briefe von und an den Lexikografen Daniel Sanders (1819–1897). Die Dokumente stammen aus Archiven im In- und Ausland. Es handelt sich dabei vor allem Briefe von und an Wilhelm Scherer, Berthold Auerbach, Karl Gutzkow, Adolf Glaßbrenner, Emil Du Bois-Reymond, Heinrich Schliemann, Ernst Ziel und vielen weiteren bedeutenden Persönlichkeiten.
Textual collection
Das Darmstadt Corpus of Scientific Texts (DaSciTex) besteht aus Vollversionen englischer wissenschaftlicher Zeitschriftenartikel aus 23 Quellen und umfaßt 9 verschiedene wissenschaftliche Domänen. Der Aufbau des Korpus ist dreigliedrig: eine zentrale Disziplin (Informatik), vier 'reine' Kontaktdisziplinen (Linguistik, Biologie, Maschinenbau, Elektrotechnik), vier dazugehörige Mischdisziplinen (Computerlinguistik, Bio-Informatik, CAD, Mikroelektronik). Es gibt zwei Versionen des Korpus: ein kleines manuell korrigiertes Korpus (ca. eine Million Wörter), ein großes Korpus (17 Millionen Wörter).
Textual collection
Dutch news subcorpus based on material from 2012 (300,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
The corpus contains novels written by Spanish authors published between 1880 and 1939. The original corpus contains in total 358 prose texts, however, due to copyright issues, 219 can be published currently. The corpus is designed considering the data of two authoritative Histories of Literature and each text is annotated with several types of metadata. Further details on the corpus can be found below.
Textual collection
Distant Reading for European Literary History (COST ActionCA16204) is a project aiming to create a vibrant and diverse networkof researchers jointly developing the resources and methods necessaryto change the way European literary history is written. Grounded inthe Distant Reading paradigm (i.e. using computational methods ofanalysis for large collections of literary texts), the Action willcreate a shared theoretical and practical framework to enableinnovative, sophisticated, data-driven, computational methods ofliterary text analysis across at least 10 European languages.Fostering insight into cross-national, large-scale patterns andevolutions across European literary traditions, the Action willfacilitate the creation of a broader, more inclusive andbetter-grounded account of European literary history and culturalidentity.
Textual collection
The Collection of Eighteenth-Century French Novels 1751-1800 is a corpus of French prose built within the project ‘Mining and Modeling Text’ (2019-2023) at Trier Center for Digital Humanities.
Textual collection
Das Ziel des vorliegenden Projekts ist es, folkloristische Texte aus den mündlichen Repertoires der im Kaukasus zahlreich vertretenen Ethnien und Sprachen zu sammeln und sie gemäß den Anforderungen der FAIR-Datenprinzipien zugänglich zu machen.
Textual collection
In dieser gedruckten Blattsammlung wurden Personen aus Böhmen und Mähren verzeichnet, denen in den Jahren 1933 bis 1941 die deutsche Staatsangehörigkeit durch das Gesetz über den Widerruf von Einbürgerungen und die Aberkennung der deutschen Staatsangehörigkeit vom 14. Juli 1933 aberkannt worden war. Die Kartei umfasst die Lieferungen 1 vom 11.5.1938 bis Lieferung 212 vom 25.4.1944. Verzeichnis der Personen, denen die deutsche Staatsangehörigkeit aberkannt worden ist
Textual collection
This is a comprehensive etymological dictionary of the mixed and secret Kallawaya language of north-western Bolivia.
Textual collection
Finnish news subcorpus based on material from 2012 (300,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
Kunst und Architektur in Paris und Versailles im Spiegel deutscher Reiseberichte des Barock. ARCHITRAVE ist ein deutsch-französisches Forschungsprojekt (Programm FRAL 2016 ANR-DFG) und stellt Ihnen mehrere, größtenteils bisher unedierte Berichte deutscher Reisender nach Frankreich aus der Zeitspanne 1685-1723 zur Verfügung.Die Sechs Berichte reisender deutscher Architekten und Diplomaten, die sich am Übergang zwischen Barock und Frühaufklärung nach Frankreich begeben haben, bilden dabei den Gegenstand der Edition.
Textual collection
Audio recordings of map tasks with adult L2 users of German. The speakers´ L1 and their L2 proficiencies vary. The maps used for the tasks are available. Audioaufnahmen von Map-Task-Aufgaben bei Erwachsenen mit Deutsch als Zweitsprache. Die Kompetenzen der Sprecher in Erst- und Zweitsprache variieren. Die in dieser Aufgabe benutzten Karten sind verfügbar. The Hamburg MapTask Corpus (HAMATAC) is a spoken language corpus documenting the performance of 24 L2 learners of German in a map task. HAMATAC was recorded and transcribed in project Z2 at the Research Centre on Multilingualism. The current version 1.0.0 contains additional fine-grained manually corrected part-of-speech annotation and lemmas based on the the STTS 2.0. tagset (Westpfahl et al 2017, urn:nbn:de:bsz:mh39-60634) as well as the resources known from the previous version, e.g. orthographic transcriptions of the recordings, manual annotation of disfluencies. CLARIN Metadata summary for The Hamburg MapTask Corpus (HAMATAC) (CMDI-based) Title: The Hamburg MapTask Corpus (HAMATAC) Description: Audio recordings of map tasks with adult L2 users of German. The speakers´ L1 and their L2 proficiencies vary. The maps used for the tasks are available.; Audioaufnahmen von Map-Task-Aufgaben bei Erwachsenen mit Deutsch als Zweitsprache. Die Kompetenzen der Sprecher in Erst- und Zweitsprache variieren. Die in dieser Aufgabe benutzten Karten sind verfügbar. Publication date: 2010-09-16 Data owner: Hamburger Zentrum für Sprachkorpora, Max-Brauer-Allee 60 / D-22765 Hamburg, corpora@uni-hamburg.de Contributors: Hamburger Zentrum für Sprachkorpora, Max-Brauer-Allee 60 / D-22765 Hamburg, corpora@uni-hamburg.de (depositor), Hamburger Zentrum für Sprachkorpora, Max-Brauer-Allee 60 / D-22765 Hamburg, corpora@uni-hamburg.de (compiler), Hamburger Zentrum für Sprachkorpora, Max-Brauer-Allee 60 / D-22765 Hamburg, corpora@uni-hamburg.de (compiler), Yael Dilger (data_inputter), Fideniz Ercan (data_inputter), Maria Görlich (data_inputter), Kim Chi Hamze (data_inputter), Karolina Kaminska (data_inputter), Seçil Yusun, Maria Görlich, Viktor Köhlich (data_inputter), Hamburger Zentrum für Sprachkorpora, Max-Brauer-Allee 60 / D-22765 Hamburg, corpora@uni-hamburg.de (developer), Hanna Hedeland, hanna.hedeland@uni-hamburg.de (researcher), Timm Lehmberg, timm.lehmberg@uni-hamburg.de (researcher), Thomas Schmidt, thomas.schmidt@uni-hamburg.de (researcher), Kai Wörner, kai.woerner@uni-hamburg.de (researcher), Deutsche Forschungsgemeinschaft (DFG) (sponsor) Project: Z2 "Computer Assisted Methods for the creation and analysis of multilingual data", Deutsche Forschungsgemeinschaft (DFG) Keywords: adult L2 acquisition, learner corpus, task-oriented communication, successive bilingualism, L2 data, adult bilingualism, simultaneous bilingualism, map task, Zweitspracherwerb Erwachsener, Lernerkorpus, aufgabenorientierte Kommunikation, sukszessiver Zweitspracherwerb, L2-Daten, Zweisprachigkeit bei Erwachsenen, Bilingualer Erstspracherwerb, Map-Task Language: German (deu) Size: 26 speakers (14 female, 12 male), 24 communications, 3.3 hours, 198 minutes, 24 recordings, 24 transcriptions, 21433 words Annotation types: transcription (manual): orthographic transcription/simplified HIAT, disfluency: manual annotation of disfluency phenomena, pho: manual annotation of phonetic phenomena, pos: Fine-grained part of speech tagging using TreeTagger and the STTS tagset., pos-sup: superordinate part of Speech (manual, STTS tagset), lemma: lemma (TreeTagger) Temporal Coverage: 2009-10-28/2010-04-28 Spatial Coverage: Hamburg, DE Genre: discourse Modality: spoken
Textual collection
Die Presse 1999 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/