Wetenschap
Krediet:CC0 Publiek Domein
Een van de leukere dingen van het hoger onderwijs:bewust worden van de kenmerkende stijlen van auteurs, schilders, muzikanten nog voordat we hun namen te horen krijgen. We zullen, kenmerkende stijlen zijn niet alleen beperkt tot de kunsten.
Twee onderzoekers kunnen de wereld laten zien wat hun werk is aan stilistische vingerafdrukken en hoe deze kunnen worden gebruikt om programmeurs mogelijk te identificeren aan de hand van code en binaire bestanden.
"Machine Learning kan de identiteit van programmeurs blootleggen, " was de kop van Fossbytes . Het artikel ging over Rachel Greenstadt en Aylin Caliskan, die hun werk presenteerden op DefCon. Greenstadt is universitair hoofddocent, Drexel-universiteit; Caliskan is een assistent-professor in de informatica, George Washington-universiteit.
"Stilistische vingerafdrukken"? Betekenis? Louise Matsakis in Bedrade keek naar iets dat stylometrie wordt genoemd - de statistische analyse van taalstijlen. Ze zei dat "nieuwer onderzoek aantoont dat stylometrie ook kan worden toegepast op kunstmatige taalmonsters, zoals code. Software ontwikkelaars, het blijkt, laat ook een vingerafdruk achter."
In dit gebied, anonieme programmeurs kunnen worden geïdentificeerd. Fossbytes vatte de onderzoeksinspanningen samen:ze testten codes die door programmeurs waren ingediend en het systeem kon 83 procent van de keren dat het algoritme werd uitgevoerd correct identificeren.
Ze onderzochten "de-anonimisering van programmeurs" met machine learning. Ze arriveerden op de conferentie, klaar om te laten zien hoe abstracte syntaxisbomen "stilistische vingerafdrukken hebben, " en speurders kunnen deze vingerafdrukken mogelijk gebruiken om programmeurs te identificeren, van code en binaire bestanden. De vraag rijst:zijn deze algoritmen uit de hemel of uit de hel? Twee kanten van de medaille.
De plusfactor, blijkbaar, zou zijn bij het identificeren van die auteurs die malware planten. Negatieve factor:Coders die graag anoniem code bijdragen, kunnen hierdoor worden afgeschrikt, zoals vermeld in Fossbytes . "Er zijn momenten waarop programmeurs om legitieme redenen onbekend willen blijven en geïdentificeerd worden is niet altijd een goede zaak."
Matsakis merkte ook op over de gevolgen voor de privacy, "vooral voor de duizenden ontwikkelaars die open source code bijdragen aan de wereld."
Bedrade beschreef hun verkenning als een binair experiment, waar Caliskan en andere onderzoekers codevoorbeelden gebruikten van de jaarlijkse Code Jam-competitie van Google. Het machine learning-algoritme identificeerde 96 procent van de tijd correct een groep van 100 individuele programmeurs. met behulp van acht codevoorbeelden van elk.
als interessant, zelfs toen de steekproefomvang werd uitgebreid tot 600 programmeurs, "het algoritme maakte nog steeds 83 procent van de tijd een nauwkeurige identificatie."
Cory Doctorow in Boing Boing , In de tussentijd, noemde aanvullende inzichten in programmeerstijlen. Doctorow meldde dat, eigenlijk, ze ontdekten dat ervaren ontwikkelaars gemakkelijker te identificeren leken dan beginnende ontwikkelaars. Hoe vaardiger je bent, hoe unieker je werk blijkbaar wordt.
Hoezo? Doctorow merkte op dat dit "voor een deel kan zijn omdat beginnende programmeurs vaak code-oplossingen kopiëren en plakken van websites zoals Stack Overflow."
© 2018 Tech Xplore
Wetenschap © https://nl.scienceaq.com