science >> Wetenschap >  >> anders

CLICS:'s Werelds grootste database van taaloverschrijdende lexicale associaties

Wereldwijde distributie van talen die zijn opgenomen in de CLICS3-release, geïdentificeerd door taalfamilie. Krediet:S.J. Greenhill

Elke taal heeft gevallen waarin twee of meer concepten worden uitgedrukt door hetzelfde woord, zoals het Engelse woord "fly, " wat verwijst naar zowel de handeling van het vliegen als naar het insect. Door patronen in deze gevallen te vergelijken, die taalkundigen colexificaties noemen, in alle talen, onderzoekers kunnen inzicht krijgen in een breed scala aan vraagstukken, inclusief menselijke waarneming, taalevolutie en taalcontact. Het derde deel van de CLICS-database verhoogt het aantal talen aanzienlijk, concepten, en gegevensbronnen beschikbaar in eerdere versies, waardoor onderzoekers colexificaties op wereldwijde schaal in ongekend detail en diepte kunnen bestuderen.

Met gedetailleerde computerondersteunde workflows, CLICS faciliteert de standaardisatie van taalkundige datasets en biedt oplossingen voor veel van de hardnekkige uitdagingen in taalkundig onderzoek. "Terwijl data-aggregatie in het verleden over het algemeen gebaseerd was op ad-hocprocedures, onze nieuwe workflows en richtlijnen voor best practices zijn een belangrijke stap om de reproduceerbaarheid van taalkundig onderzoek te garanderen, ', zegt Tiago Tresoldi.

Effectiviteit van CLICS aangetoond in onderzoekstoepassingen

Het vermogen van CLICS om nieuw bewijs te leveren om geavanceerde vragen op het gebied van psychologie en cognitie aan te pakken, is al geïllustreerd in een recent onderzoek dat is gepubliceerd in Wetenschap , die zich concentreerde op de wereldwijde codering van emotionele concepten. De studie vergeleek colexificatienetwerken van woorden voor emotionele concepten uit een wereldwijde steekproef van talen, en onthulde dat de betekenissen van emoties sterk variëren tussen taalfamilies.

"In dit onderzoek, CLICS werd gebruikt om verschillen in de lexicale codering van emoties in talen over de hele wereld te bestuderen, maar het potentieel van de database is niet beperkt tot emotieconcepten. In de toekomst kunnen nog veel meer interessante vragen worden beantwoord, ", zegt Johann-Mattis List.

Colexificatienetwerk gericht op de concepten "hand" en "arm". Krediet:J.-M. Lijst, T. Tresoldi

Nieuwe standaarden en workflows maken het reproduceerbaar oogsten van wereldwijde lexicale gegevens mogelijk

Voortbouwend op de nieuwe richtlijnen voor gestandaardiseerde gegevensformaten in taaloverschrijdend onderzoek, die voor het eerst werden gepresenteerd in 2018, het CLICS-team was in staat om de hoeveelheid gegevens te verhogen van 300 taalvariëteiten en 1200 concepten in de oorspronkelijke database tot 3156 taalvariëteiten en 2906 concepten in de huidige installatie. De nieuwe versie garandeert ook de reproduceerbaarheid van het gegevensaggregatieproces, conform de best practices op het gebied van research data management. "Dankzij de nieuwe standaarden en workflows die we hebben ontwikkeld, onze data is niet alleen FAIR (vindbaar, toegankelijk, interoperabel, en reproduceerbaar), maar het proces om taalkundige gegevens van hun oorspronkelijke vorm naar onze taaloverschrijdende normen te tillen, is ook veel efficiënter dan in het verleden, ' zegt Robert Forkel.

De effectiviteit van de voor CLICS ontwikkelde workflow is getest en bevestigd in verschillende validatie-experimenten waarbij een groot aantal wetenschappers en studenten betrokken waren. Er werden twee verschillende leerlingtaken uitgevoerd, resulterend in de creatie van nieuwe datasets en de geleidelijke verbetering van de bestaande data. Studenten kregen de taak om de verschillende stappen van het maken van datasets te doorlopen die in het onderzoek zijn beschreven, bijv. data-extractie, datamapping (naar referentiecatalogi), en identificatie van bronnen. "Het is essentieel dat mensen van buiten het kernteam je tools gebruiken en testen en helpt enorm bij het verfijnen van alle processen, ", zegt Christoph Rzymski.

Nu CLICS en zijn workflow toegankelijk zijn voor een breder publiek, wetenschappers kunnen in de toekomst niet alleen direct bijdragen aan de database; ze kunnen ook profiteren van de gevestigde machines en hun eigen gerichte inzamelingen starten. "Het aantal taalkundigen dat onze standaarden en workflows actief gebruikt, neemt voortdurend toe. We hopen dat de release van deze nieuwe versie van CLICS ze verder zal uitdragen, ', zegt Simon Greenhill.