Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Opsplitsen in typen woorden mogelijk? #4

Open
berkes opened this issue Mar 27, 2020 · 19 comments
Open

Opsplitsen in typen woorden mogelijk? #4

berkes opened this issue Mar 27, 2020 · 19 comments

Comments

@berkes
Copy link

berkes commented Mar 27, 2020

I ben op zoek naar woordenlijsten die opgesplitst in, of gemarkeerd zijn as:

  • meervoudsvorm
  • werkwoord
  • bijwoord
  • bijvoeglijk naamwoord

Dit is voor een frasegenerator die automatische "ids" kan genereren. In het Engels zijn deze veel te vinden, de software om dat te doen (en de onderliggende willekeurigheid en wiskunde is uitgewerkt).

In het Engels kun je dan eenvoudig termen maken als:
BeautifulFungiOrSpaghetti, AmazinglyScaryToy, NeitherTrashNorRifle, WolvesComputeBadly, NicePlantsObjectSteadily, NewBombayRisesCarefully

Om hiervan Nederlands te maken, zijn woordenlijsten met per categorie, enkele tien- tot hondertallen woorden die als meervoud, werkwoord, bijwoord, naamwoord, plaatsnaam, eignenaam enz aangemerkt zijn.

Mogelijk is dat binnen dit project niet mogelijk, maar weet iemand mij te verwijzen naar een openbron waar dit wel zo is opgezet?

@PanderMusubi
Copy link
Member

Dat is voor gegenereerde namen van chatrooms in Jitsi! :-) Was ik zelf ook naar aan het kijken. Deze informatie hebben we pas later dit jaar om te publiceren. We zijn hier ook zelf mee bezig, ook voor een lijst van Nederlandse woorden voor gegenereerde wachtwoordzinnen (passphrases).

Als je handig bent met Python en je hier aan mee wil werken kan ik je wel op weg helpen. Stuur ons een bericht op ons algemene e-mailadres.

@berkes
Copy link
Author

berkes commented Mar 30, 2020

Ik ben handig met Ruby, Rust, JavaScript en een beetje Python. Ik zie echter geen emailadres.

Het directe doel is inderdaad jitsi, al gebruik ik dit nu ook al voor mijn wachtwoordmanager[1]. En heb ik jaren terug eens een scheldwoordengenerator ter hilariteit van mijn kleine nichtje geschreven[2]. En kan ik iets dergelijks goed voor onze servernamen gebruiken[3].

In alle gevallen is een database waarbij de woorden aangemerkt zijn op "categorie" een grote verbetering. Enkel willekeurige woorden uit /usr/share/dict/nederlands pakken werkt, maar maakt niet zulke mooie frasen.

[1] https://gist.github.com/berkes/3f428f7e229df545508786446a0e7447
[2] https://gist.github.com/berkes/2c383a865eecee42ee2f1868707714b8
[3] https://git.webschuur.com/berkes/naminator

@PanderMusubi
Copy link
Member

Zie onze website voor e-mailadres.

@PanderMusubi
Copy link
Member

In de maand mei heb ik hier een oplossing voor.

@berkes
Copy link
Author

berkes commented Apr 29, 2020

Als er iets is wat ik ondertussen al kan bijdragen, hoor ik het graag.

@jeannegoossens
Copy link

Oh heel interessant! Weet niet hoe ver dit inmiddels ontwikkeld is, maar mogelijk is het nuttig hiervoor wat NLP libraries te gebruiken? Bijvoorbeeld frog is erg goed in 'part-of-speech' tagging van Nederlandse zinnen (zie het voorbeeld in het kopje 'what does it do' op hun website).

Ik heb de python binding van frog gebruikt voor een project vorig jaar. Als ik hier iets kan bijdragen hoor ik het graag! Lijkt me erg interessant.

@petervandenabeele
Copy link

Ook geïnteresseerd om te weten. Concreet wil ik vooral een lijst van alle Nederlandse werkwoorden maken en dan voor die werkwoorden waar relevant dt-fouten gaan opsporen.

@PanderMusubi
Copy link
Member

Dank voor de interesse. We gaan ook PoS-tags ondersteunen maar voorlopig druk met nieuwe versie spellingcontrole. Mocht je willen meehelpen, we zoeken mensen die maatwerk imports willen maken voor onze OpenThesaurus. Kunnen daar de maatwerk exports weer uit komen.

@berkes
Copy link
Author

berkes commented May 26, 2020

@PanderMusubi hoe wil je dit het liefst aangepakt zien?

Ik zie enkele mogelijkheden, misschien zijn er meer.

  1. een branch met uiteindelijk een pull-request met daarin meerdere tekstbestanden met het begin van enkel woordenlijsten.
  2. een branch met uiteindelijk een pull-request met daarin één CSV bestand waarin de woordenlijsten opgenomen zijn.
  3. een van bovenstaande opties, maar dan met een fork en een pull-request.
  4. een van bovenstaande opties maar dan in een nieuwe repo.
  5. een wiki waarin we woordenlijsten beginnen op te stellen.

In alle drie gevallen is nodig om te vinden welke categorieën we mee beginnen. Ik stel voor:

  • meervoudsvorm
  • werkwoord
  • bijwoord
  • bijvoeglijk naamwoord

Graag aanvullen als ik cruciale categorieën mis.

Bij losse bestanden stel ik voor per categorie een bestand te maken. Bijvoorbeeld meervouden.txt, werkwoorden.txt, bijvoeglijk-naamwoorden.txt enzovoort. Hier zullen dubbele woorden ontstaan, bijvoorbeeld werken is een meervoudsvorm (de werken aan de Antwerpse ring) en een werkwoord (ik wil graag werken).

Bij keuze voor een CSV stel ik voor die categoriën aan te merken. Dus bijvoorbeeld:

woord, meervoudsvorm, werkwoord, bijwoord, bijvoeglijk-naamwoord
werpen, n, y, n, n
werken, y, y, n, n

Bij keuze voor een wiki, stel ik voor om per categorie een wiki-pagina te maken.

Een fork maakt dat we wel los van elkaar moeten werken en elkaars werk moeten samenvoegen op het eind. Dat vereist wat coordinatie. Eventueel kan ik een fork maken waar een selecte groep lees/schrijf/etc rechten heeft.
Een branch maakt dat alles hier blijft, maar vereist dat een selecte groep (tijdelijk) lees-schrijf enzovoort rechten krijgen in de opentaal-wordlist repo.
Een nieuwe repo maakt dat het wél onder de opentaal org kan, maar in een repo waar (tijdelijk) een groepje lees- en schrijfrechten krijgt.

Mijn voorkeur gaat uit naar losse bestanden omdat deze makkelijker te parsen zijn voor nu. Vereist geen "csv-gereedschap", maar enkel de standaard tools die ieder systeem al heeft.
Mijn voorkeur gaat verder uit naar een nieuwe repo onder OpenTaal. Dit kan ik echter niet opzetten.

@PanderMusubi
Copy link
Member

PanderMusubi commented May 27, 2020

Bedankt voor je input. Ik ben al redelijk ver maar ander werk (de spellingcontrole hier) en werk aan Nuspell gaat even voor. Volgende week kom ik hier op terug. Nog even geduld.

@jeannegoossens
Copy link

@PanderMusubi Heeft u hierover een update?

@PanderMusubi
Copy link
Member

Komend weekend weer tijd voor en kom er dan op terug. Excuses voor de vertraging.

@PanderMusubi
Copy link
Member

Alstublieft https://github.com/OpenTaal/opentaal-wordlist/tree/master/experimenteel

@KeesCBakker
Copy link

KeesCBakker commented Jul 14, 2020

@PanderMusubi Awesome work! Ik mis een paar woorden op de meervoud-lijst.

Bron: https://onzetaal.nl/taaladvies/fotograven-fotografen/

  • astrosofen
  • digrafen
  • fonetografen
  • fonosofen
  • mesoscafen
  • tomografen
  • xenografen
  • xylografen

Verder mis ik nog de woorden:

  • oogpotloden
  • autobiografen
  • bathyscafen
  • oceanografen
  • theosofen
  • halfgoden
  • geweerschoten
  • wijnvaten
  • hoofdwegen
  • zeeslagen
  • handwerkslieden
  • speellieden
  • dagjesmensen
  • dipsauzen
  • voetencrèmes

@KeesCBakker
Copy link

KeesCBakker commented Jul 14, 2020

Er zitten ook geen 's-woorden in, zoals:

  • auto's
  • kimono's
  • ski's
  • menu's
  • paraplu's
  • villa's
  • firma's
  • baby's
  • pony's
  • hobby's
  • mascara's

@PanderMusubi
Copy link
Member

@KeesCBakker, goed gezien. Er staan momenteel alleen woorden in die niets anders dan de letters a t/m z bevatten. Dit is gedaan voor de toepassing in Jitsi om de naam en URL van een willekeurige chatroom te genereren. Later zullen we ook het ingefilterede bestand delen. Stay tuned.

@pge-01
Copy link

pge-01 commented Feb 9, 2022

@PanderMusubi

Het ligt (op dit moment) misschien niet in jullie scope, maar voor het gebruik van de woordenlijst in woordspellen zou het helpen als de voorgestelde categoriën worden uitgebreid met 'afkorting', zodat deze er uitgefilterd kunnen worden.

Bijvoorbeeld: wc, lts, vmbo, mavo, vwo.

Wc en lts zijn er uit te filteren (alleen medeklinkers), daarna wordt het lastig.

Leestekens (" ", "-", "'s") en dergelijke kunnen in zo'n bestand blijven en er later naar wens uitgefilterd worden.

Is dit voor u een hele opgave of zit het eigenlijk al in de database?

@PanderMusubi
Copy link
Member

Er is ook nog een verschil tussen woorden als vmbo (waar de letters los worden uitgesproken) en mavo (dat als een woord word uitgesproken). Dit is op basis van de gebruikte letters er niet uit te filteren. We hebben deze informatie deels in een oud systeem. Dat moet worden overgezet en worden aangevuld. Als over is gezet geef ik hier wel een seintje.

@pge-01
Copy link

pge-01 commented Feb 9, 2022

Bedankt voor de snelle reactie.
Dat is inderdaad ook een issue. Afhankelijk van het speltype kunnen de afkortingen er ook uit. Dat is natuurlijk aan de spelmaker.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants