Accueil » Actualité » Grâce à l’apprentissage automatique, le style des programmeurs est facilement reconnaissable

Grâce à l’apprentissage automatique, le style des programmeurs est facilement reconnaissable

Image 1 : Grâce à l'apprentissage automatique, le style des programmeurs est facilement reconnaissable

Vendredi dernier, lors de la conférence DefCon, Rachel Greenstadt, professeur agrégée d’informatique et son ancienne élève, Aylin Caliskan, ont confirmé que les programmeurs ont un style distinctif visible à travers leurs lignes de code. Grâce aux progrès accomplis par l’Intelligence artificielle, il est désormais facile de savoir qui a programmé quoi.

>> L’IA de ce robot ne sert qu’à une chose : retrouver Charlie

À en croire Wikipédia, la stylométrie est une discipline à « la croisée de la linguistique et de la statistique. Elle tente d’identifier le style d’un texte, inhérent à son auteur, mais aussi à son époque, son genre… », et selon le professeur Greenstadt, la stylométrie serait aussi applicable aux programmeurs. La chercheuse a utilisé des techniques d’apprentissage automatique pour identifier les auteurs de certaines lignes de code. Plutôt que de s’intéresser aux mots et aux langages utilisés, les scientifiques se sont concentrés sur des « arbres de syntaxe abstraite », un processus que Wired apparente à étudier la syntaxe et les structures des phrases plutôt que le vocabulaire et les mots utilisés. Selon mesdames Greenstadt et Caliskan, seules quelques lignes de code tirées de Github sont nécessaires pour reconnaître le style d’un programmeur. Mieux encore, les algorithmes qu’elles ont créés permettent d’identifier un programmeur à travers un code déjà compilé !

Les deux scientifiques ont démontré l’efficacité de leur méthode en l’essayant sur près de cent programmeurs, qui ont chacun soumis huit échantillons de code. Les algorithmes ont réussi à identifier l’auteur du code avec 96 % de précision. Lorsque testés sur un échantillon de 600 programmeurs, leur précision est descendue à 83 pour cent. Les résultats de cette étude seront probablement utilisés dans le cadre de la lutte contre le plagiat, un problème récurrent sur Internet, mais aussi auprès des étudiants, qui n’hésitent parfois pas à copier des textes entiers sur Internet. Il permettra aussi de déterminer qui est l’auteur de tel ou tel virus ou malware. L’invention pourra malheureusement aussi être utilisée à des fins moins nobles. Des organismes ou gouvernements peu scrupuleux pourraient utiliser ces outils pour identifier leurs dissidents et opposants.

>> À lire : La bêta de Firefox essaie de deviner les sites que vous voulez visiter