chrplr / openlexicon Goto Github PK

Access to lexical databases

License: Creative Commons Attribution Share Alike 4.0 International

Makefile 0.03% R 2.19% HTML 89.88% Python 0.24% TeX 4.47% Awk 0.04% Perl 0.03% Emacs Lisp 0.01% CSS 0.41% JavaScript 2.71% Shell 0.01%

openlexicon's Introduction

Hi there 👋

Welcome to my github page. You will find here code and documents that I have produced other the years. Among others:

OpenLexicon: Easy access to lexical databases https://chrplr.github.io/openlexicon
Programming for Cognitive and Brain Sciences https://pcbs.rtfd.io
bbtkv2: Python module to acquire timing data using the blackboxtoolkit v2 https://bbtkv2.readthedocs.io/en/latest/intro.html
Linux tips https://chrplr-linux-tips.readthedocs.io/en/latest/
Audiovis: a general audio visual stimulus presentation script using expyriment https://chrplr.github.io/audiovis
Shuffle: a program to randomize lists with optional sequential constraints https://chrplr.github.io/shuffle
Examples of basic statistical analyses with R https://github.com/chrplr/statistics_with_R
Statutils: ommand-line tools to perform simple statistical data manipulations and analyses from data stored in text files https://chrplr.github.io/statsutils
install_spm12: script to install spm12's standalone version https://github.com/chrplr/install_spm12

More stuff is available on my homepage

Send me an email: mailto:[email protected]

openlexicon's People

Contributors

Stargazers

Watchers

Forkers

sedufau sbibauw mathias-sm pandelis zengjatzau cglacet jbourgin alhm02 rowe-morehouse sekoudiaonlp cbedetti benadamdev tchouanga12 anchit-chandran 45858casse gloignon taekobourque

openlexicon's Issues

potential bug report

Hi, I'm just curious that the first aurai exists in French?

imcompatible `freqlemlivres` and `freqlivres`

Hi, thanks for your awesome work!
However, when I use Lexique383.tsv, I observe the following:

From the manual I understand the freqlemlivres should be the frequency of lemma of the word and freqlivres should be the frequency of the word, right?
But as we see in the table, the lemma of danse(35155), danser(35158) and danseur(35172) are themselves, while these two fields are not equal. Why?

Certains genre sont absent de la BDD

bonjour,

Je suis en train d'utiliser http://www.lexique.org/databases/Lexique383/Lexique383.zip pour faire https://git.sr.ht/~pierrenn/couque mais je suis en train de m'apercevoir qu'il manque le genre a certains noms.

Pour certain c'est compréhensible (ex: coca), mais pour d'autres c'est un peu étrange (pourquoi le genre de maison n'est pas f) ?

Est-ce volontaire de votre part ? Ou quelque chose a corriger ?

merci

Fréquence en millier d'occurrences ?

Quand on va à la page 11 du manuel, on peut lire que la colonne freqLivres indique une fréquence en million d'occurrences. Or le mot le plus fréquent semble être de avec une valeur de 38928.92, soit 38 milliards d'occurence. Cependant on peut aussi lire dans le manuel que le nombre total de mot est de 17 millions. Où est l'erreur ? Est-ce que freqLivres ne serait pas en millier d'occurrences plutôt qu'en million ?

La même chose semble se vérifier pour les autres formes de fréquences.

Disconnected from the server. Reload, empty spreadsheet

In the time it takes to select a language, wait for the display to update and paste an expression into the filter box, the display reverts to greyed out and the above message appears.

Clicking on the 'Download filtered data' button produces an empty spreadsheet.

it's not clear how to contribute to Lexique

Hello,

Ideally, I wanted to just make a pull request with an updated Lexique csv, but AFAICT, Lexique does not actually live in this repository. Is that right?

It would be useful for the root README to say how to concretely contribute fixes to Lexique.

I'm thinking of fixing things like bad phonetics like the u or ° here :

> select ortho, phon, cgram from lexique where ortho in ('télétexte', 'quadruple');
quadruple	kwadRupl	ADJ
quadruple	kwadRupl	NOM
quadruple	kwadRupl	VER
télétexte	teletEks°t	NOM

I'm also wondering (although it's currently theoretical) about whether you'd accept a new column "h aspiré" with a boolean encoded in some way.

Mauvais type de valeurs pour certains champs pour une dizaine de mots.

Bonjour à tous,

Je suis @SekouDiaoNlp et je suis l'auteur de pylexique.

C'est une librairie Pythonique et Orientée Objet pour interagir avec la base de données de Lexique383 ainsi que chaque item lexical.

Le package est installable depuis PyPi ou Anaonda.

Pour chaque ligne de la base de donnée je remplis un objet de type LexItem dont les attributs doivent respecter le type de chaque champ.

J'ai défini cette classe de la manière suivante en me référant à votre documentation en ligne ainsi que celle distribuée avec le fichier http://www.lexique.org/databases/Lexique383/Lexique383.zip

class LexEntryTypes:
    """
    Type information about all the lexical attributes in a LexItem object.

    """
    ortho = str
    phon = str
    lemme = str
    cgram = str
    genre = str
    nombre = str
    freqlemfilms2 = float
    freqlemlivres = float
    freqfilms2 = float
    freqlivres = float
    infover = str
    nbhomogr = int
    nbhomoph = int
    islem = bool
    nblettres = int
    nbphons = int
    cvcv = str
    p_cvcv = str
    voisorth = int
    voisphon = int
    puorth = int
    puphon = int
    syll = str
    nbsyll = int
    cv_cv = str
    orthrenv = str
    phonrenv = str
    orthosyll = str
    cgramortho = str
    deflem = float
    defobs = int
    old20 = float
    pld20 = float
    morphoder = str
    nbmorph = int
    id = int

Pendant le développement de pylexique, l'utilisation du typage des attributes m'a permi de découvrir une petite dizaine d'erreurs dans le cas ou il y a un mismatch entre le type de l'attribut et celui de la valeur de l'attribut.
Grace au typage, pylexique peut automatiquement détecter et sauvegarder les erreurs de mauvais type.

Veuillez trouver ci-joint une version json des mots avec leur champ/valeur qui n'ont pas le même type qui est déclaré dans
la définition de classe.
pylexique a analysé les erreurs dans le fichier

Lexique383.xlsb

qui se trouve dans le fichier zip cité auparavant.

parseerrors.txt

Voici un petit échantillon des quelques premières lignes ayant des problèmes de typage:

  {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "sa": [
              {
                  "nbphons": "CV"
              },
              {
                  "puphon": "sa"
              },
              {
                  "nbsyll": "CV"
              }
          ]
      },
      {
          "sa": [
              {
                  "nbphons": "CV"
              },
              {
                  "puphon": "sa"
              },
              {
                  "nbsyll": "CV"
              }
          ]
      },
}

Le fichier json ne contient uniquement que les champs des lignes comportant un mismatch et utilise le champ 'ortho' pour les identifier.

Il ne s'agit que d'une dizaine d'erreurs et 'ai remarqué que les erreurs apparaissent toujours avec les mots dont  le champ `ortho` a toujours les valeurs 'sa', 'a', 'e' et 'o' et apparaissent tous en fin de lexique, J'imagine que cela fait peut être parti  du dernier lot de mots que vous avez ajouté au lexique et que ces quelques erreurs vous ont échappées. Nous sommes tous de faillibles humains non?

Dans tous les cas merci d'avoir mis Lexique383 en accés libre (je cite et le nom des auteurs, le lien du site, et les articles académiques).

Si vou avez besoin de contributeurs pour la partie PYTHON de OpenLexicon, je suis partant, et en plus j'ai du temps libre à cause du couvre feu :stuck_out_tongue_winking_eye:


Merci d'avance si vous pouvez régler le problème rapidement, car pour l'instant j'élimine la dizaine d'entrées problématiques.

Peace, Love and have un
@SekouDiaoNlp

lignes sans catégorie grammaticale

Dans Lexique3, parmi les lignes sans catégorie grammaticale, on trouve :

'à brûle-pourpoint',
'à cloche-pied',
'à rebrousse-poil'
'à tire-larigot',
'à touche-touche',
'à tue-tête',
'à-tue-tête'

Il apparaît à la lecture de https://www.cnrtl.fr/etymologie/tue-t%C3%AAte qu'il s'agit des locutions adverbiales composées d'un verbe + d'un nom. Est-ce qu'ajouter cette catégorie aurait un sens ?

phon : use "re" . simply and not phon "Re" with a capital "R"

erreurs d'OCR dans gougenheim.tsv

Je pense que les lignes suivantes :

1' (article le)	158	1.465
1' (article la)	156	1.319
1' (pronom le)	102	458
1' (pronom la)	69	200
1' (dans : l'on)	28	48

Devraient être :

l' (article le)	158	1.465
l' (article la)	156	1.319
l' (pronom le)	102	458
l' (pronom la)	69	200
l' (dans : l'on)	28	48

chrplr / openlexicon Goto Github PK

openlexicon's Introduction

Hi there 👋

openlexicon's People

Contributors

Stargazers

Watchers

Forkers

openlexicon's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs