Registry - The Text+ Catalouge

20 of 72 resources

  • Lexical Resource

    Ein Wörterbuch für Ndebele, ursprünglich erstellt durch das CBOLD-Projekt. CBOLD (Comparative Bantu Online Dictionary) wurde 1994 von Larry Hyman und John Lowe initiiert um eine lexikografische Datenbank zu schaffen, welche die theoretische, deskriptive und historisch-linguistische Erforschung der Sprachen der Bantu-Familie fördern soll. Der in CSV vorliegende Ndebele-Datensatz wurde von der Sächsischen Akademie der Wissenschaften zu Leipzig nach TEI Lex-0 konvertiert.

  • Lexical Resource

    If you want to use this dataset for research purposes, please refer to the following sources: - Daniël de Kok, Sebastian Pütz. 2019. Stylebook for the Tübingen treebank of dependency-parsed German (TüBa-D/DP). - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. The German 23,488 adverb-adjective phrases (split into 16,441 train, 4,701 test, 2,346 dev instances) were extracted from the TüBa-D/DP treebank, which consists of articles from the newspaper taz, the German Wikipedia dump from January 20, 2018 and the German proceedings from the EuroParl corpus (Koehn, 2005; Tiedemann, 2012) and has a size of 64.9M sentences and 1.3B tokens. The dataset was constructed with the help of the dependency annotations of the treebank. To collect the adverb-adjective phrases, head-dependent pairs were extracted that fulfilled the following requirements: - the head is an attributive or predicative adjective and governs the dependent with the adverb relation - the dependent immediately precedes the head The extracted word pairs can have as the first element both real adverbs and adjectives which function as an adverb. The train/test/dev files have the following format, the single parts are separated by space. adverb adjective phrase, where the adverb and the adjective in the phrase are separated by the string _adv_adj_ (e.g. immer leer immer_adv_adj_leer). For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. The word representations were trained on the lemmatized TüBa-D/DP treebank with the word2vec package. The embeddings were constructed using the skip-gram model with negative sampling (Mikolov et al., 2013). The embedding size is 200, context size is a symmetric window of 10 words, 25 negative samples were used and a sample probability of 0.0001. Representations were only trained for words and phrases with a minimum frequency of 30 occurrences. The final vocabulary contains 615,908 words. The resulting embeddings are stored in the binary word2vec format in twe-adv-adj.bin, which can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)).

  • Lexical Resource

    Die Datenbank ist das Herzstück von DIBS, sie enthält das gesamte gesammelte und nach unterschiedlichen Kriterien klassifizierte Material. Für die Redaktor-/innen ist sie mit Bearbeitungswerkzeugen ausgestattet, mit deren Hilfe auch die Wortartikel verfasst werden. Das Projekt DIBS ist zwar noch nicht voll entwickelt, doch sollen der Öffentlichkeit das Material der Datenbank und die bereits verfassten Wortartikel nicht vorenthalten werden. Natürlich ist die Datenbank mit einem Schreibschutz versehen. Derzeit enthält die Datenbank ca. 700.000 Sprachbelege, die etwa 40.000 Stichwörtern zugeordnet sind. Die bereits bearbeiteten Artikel sind markiert und mit dem Kürzel der jeweiligen Redaktorin bzw. des jeweiligen Redaktors versehen.

  • Lexical Resource

    Goethe-Wörterbuch. Hrsg. Von der Akademie der Wissenschaften der DDR und der Berlin-Brandenburgischen Akademie der Wissenschaften. Stuttgart: Kohlhammer 1978-.

  • Lexical Resource

    Word vectors trained using GloVe for the most frequent 1000000 tokens in the decow14ax corpus. See associated paper (Dima, 2015) for description of the training parameters.

  • Lexical Resource

    Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und Grundform. Die aktuelle Version des SentiWS enthält ungefähr 16.000 positive und 18.000 negative Wortformen. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.

  • Lexical Resource

    Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und Grundform. Die aktuelle Version des SentiWS enthält ungefähr 16.000 positive und 18.000 negative Wortformen. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.

  • Lexical Resource

    GermaNet ist ein lexikalisch-semantisches Wortnetz, das deutsche Nomina, Verben und Adjektive semantisch zueinander in Beziehung setzt, indem es lexikalische Einheiten, die dasselbe Konzept ausdrücken, in Synsets zusammenfasst und semantische Relationen zwischen diesen Synsets definiert. GermaNet hat viel mit dem Englischen WordNet® gemeinsam und kann als ein Online-Thesaurus oder als eine Lightweight-Ontologie betrachtet werden.

  • Lexical Resource

    Word and tag embeddings trained on TüDP-D/W and TüPP-D/Z using Wang2Vec.

  • Lexical Resource

    elexiko ist ein Online-Informationssystem zur deutschen Gegenwartssprache, das den Wortschatz der deutschen Sprache anhand von aktuellen Sprachdaten (bis ins Jahr 2013) in einzelnen Modulen dokumentiert, erklärt und wissenschaftlich kommentiert. Es enthält überwiegend Artikel, die nur mit automatisch ermittelten Angaben versehen sind. Die redaktionell bearbeiteten Stichwörter umfassen Einzelwortlemmata sowie Wortgruppenartikel, in denen Gemeinsamkeiten und Unterschiede von zwei oder mehr bearbeiteten Stichwörtern vergleichend beschrieben werden.

  • Lexical Resource

    Word representations used in Dima (2019). The vectors were generated from the concatenated encow14ax (https://corporafromtheweb.org/) and English Wikipedia - Müller and Schutze (2015) version, ~9 billion words of text. The corpus was also pre-processed for compounds, i.e. the compounds from the en-comcom dataset were linked with an underscore and treated as a single word - e.g. 'police car' was rewritten to 'police_car'. Embeddings trained using a minimum word frequency of 100, leading to a vocabulary 424,014 words. The vocabulary words and their frequency in the corpus can be found in the file 'glove_encow14ax_enwiki_9B.400k_min100.vocab'. Word representations with 4 different vector dimensionalities - 50 dimensional, 100 dimensional, 200 dimensional, 300 dimensional. The embeddings were trained with GloVe, for 15 iterations, using a 10-word symmetric window of text (20 words surrounding a particular word). MAX_ITER=15 WINDOW_SIZE=10 BINARY=0 NUM_THREADS=8 X_MAX=100

  • Lexical Resource

    Das Sprichwörterbuch in OWID (SWB) ist die erste empirisch abgesicherte und nach Kriterien der wissenschaftlichen Lexikografie erarbeitete Onlinedokumentation aktuell gebräuchlicher fester Sätze der deutschen Sprache – im Kern Sprichwörter. Das SWB wurde mithilfe systematischer Korpusanalysen auf der Basis von DeReKo neu erarbeitet und stellt somit keine Fortschreibung tradierter Wörterbücher dar.

  • Lexical Resource

    Digitale Version des niedersorbisch-deutschen Wörterbuchs von Manfred Starosta, "Dolnoserbsko-nimski słownik / Niedersorbisch-deutsches Wörterbuch" (1999). Dieses in TEI Lex-0 kodierte Wörterbuch wurde im Zuge des INSERT-Projekts aus einer dem Serbski institut / Sorbischen Institut vorliegenden, internen XML-Repräsentation des Quelltexts erstellt.

  • Lexical Resource

    Digitale Version des niedersorbisch-deutschen Wörterbuchs von Ernst Muka, "Wörterbuch der nieder-wendischen Sprache und ihrer Dialekte" (1911-1928). Dieses in TEI Lex-0 kodierte Wörterbuch wurde im Zuge des INSERT-Projekts aus einer dem Serbski institut / Sorbischen Institut vorliegenden, internen XML-Repräsentation des Quelltexts erstellt.

  • Lexical Resource

    Word representations used in Dima(2015), Dima (2019). The vectors were generated from the decow14ax corpus (https://corporafromtheweb.org/), ~10 billion words of raw text. Corpus pre-processing: words lowercased, punctuation removed, each number was replaced by the string 'NUMBER'. Embeddings trained using a minimum word frequency of 100, leading to a vocabulary 1,029,270 words. The vocabulary file 'decow14ax_all_min_100.vocab' contains these word representations and their frequency in the support corpus. 'decow14ax_full.vocab' contains the full vocabulary generated for the corpus (no cut-off). The embeddings were trained with GloVe, for 15 iterations, using a 10-word symmetric window of text (20 words surrounding a particular word). The files are suffixed with the dimensionality of the vector representations: 50 dimensional, 100 dimensional, 200 dimensional and 300 dimensional. MAX_ITER=15 WINDOW_SIZE=10 BINARY=0 NUM_THREADS=8 X_MAX=100

  • Lexical Resource

    The embeddings were trained with finalfrontier on the CONLL2017 corpora with more than 100m tokens. For all languages embeddings, were trained with the skip- and structgram algorithms and contain subword ngrams. All embeddings are stored in the finalfusion format and can be used an processed with tools provided by the finalfusion ecosystem. N-Gram range (inclusive): 3 - 6 Number of hashing buckets: 2^21 Hashing function: FNV-1a Window size: 10 Negative Samples: 5 Dimensions: 300 Minimum Token Frequency: 30

  • Lexical Resource

    Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und (falls anwendbar) Flexionsvarianten. Diese Version des SentiWS enthält ungefähr 1.650 positive und 1.800 negative Grundformen, so dass, inklusive der verschiedenen Flexionsformen, insgesamt etwa 16.000 positive und 18.000 negative Wortformen enthalten sind. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.

  • Lexical Resource

    Grammatisch-kritisches Wörterbuch der hochdeutschen Mundart. Versuch eines vollständigen grammatisch-kritischen Wörterbuchs der hochdeutschen Mundart. Von Johann Christoph Adelung, 5 Bde., 2. Aufl., Leipzig: Breitkopf & Sohn 1793-1801.

  • Lexical Resource

    The compounds that were used in Ma et al (2016) paper entitled "Letter Sequence Labeling for Compound Splitting". It contains both two-constituent and multi-constituent compounds. As standard evaluation also involves non-compounds, the data also include non-compounds that we used. The data are organized into the exact same training/test/development split as in the paper.

  • Lexical Resource

    Linguistic theories as data types.