Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux

L’objectif de ce mémoire est d’explorer trois différentes techniques pour prédire la toxicité chez les utilisateurs des communautés en ligne. Notre motivation principale est d’aider les modérateurs de ces communautés à concentrer leurs efforts sur les utilisateurs les plus susceptibles d’écrire des...

Full description

Bibliographic Details
Main Author: Sanchez Viera, Talia
Other Authors: Khoury, Richard
Format: Dissertation
Language:French
Published: Université Laval 2020
Subjects:
Online Access:http://hdl.handle.net/20.500.11794/66590
Description
Summary:L’objectif de ce mémoire est d’explorer trois différentes techniques pour prédire la toxicité chez les utilisateurs des communautés en ligne. Notre motivation principale est d’aider les modérateurs de ces communautés à concentrer leurs efforts sur les utilisateurs les plus susceptibles d’écrire des messages toxiques, et éviter ainsi de gaspiller du temps et des ressources à surveiller toute la communauté. Nous avons d’abord créé un modèle mathématique capable de prédire les cinq traits de personnalité du modèle OCEAN (Ouverture, Conscienciosité, Extraversion, Agréabilité et Neuroticisme) et les trois traits de la Triade Noire (Narcissisme, Machiavélisme et Psychopathie)d’un utilisateur à partir de son style d’écriture et de son utilisation du vocabulaire. Nos expériences avec ce modèle sur les communautés de Twitter et Reddit ont démontré qu’il existe bien une relation entre la personnalité d’un utilisateur et le niveau de toxicité de ses messages. Particulièrement, nous avons constaté que les utilisateurs avec des valeurs élevées de narcissisme, de machiavélisme et de psychopathie et faibles valeurs de conscienciosité et agréabilité ont plus tendance à écrire des messages toxiques. Dans une deuxième étape, nous appliquons des algorithmes de partitionnement dans l’espace des traits de personnalité et dans l’espace des caractéristiques du langage. Nous avons observé qu’il est possible de détecter des groupes d’utilisateurs potentiellement risqués à surveiller sans avoir besoin de créer un profile pour chaque utilisateur. Finalement, nous avons créé un modèle de régression pour estimer le niveau de toxicité des utilisateurs en fonction de leurs attributs linguistiques. Nous avons observé que les utilisateurs prédits d’avoir les niveaux de toxicité plus élevés par notre régression sont également ceux qui ont des traits de Triade Noire très élevés selon notre modèle de personnalité. === The objective of this study is to explore three different techniques to predict toxicity online community users. Our main motivation is to help the moderators of these communities to focus their efforts on users who are more likely to write toxic messages, and thus avoid wasting time and resources by monitoring the entire community. First, we created a mathematical model capable of predicting the five personality traits of the OCEAN model (Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism) and the three traits of the Dark Triad (Narcissism, Machiavellianism and Psychopathy) for auser, based on their writing style and choice of vocabulary. The experiments we performed with this model on users of the Twitter and Reddit communities have shown that there is a relationship between a user’s personality and the level of toxicity of their messages. In particular, we found that users with high values of narcissism, Machiavellianism and psychopathy andlow values of conscientiousness and agreeableness were more likely to write toxic messages. For our second technique, we applied clustering algorithms on the predicted personality traits andon the observed language characteristics. This allowed us to show that it is possible to detect clusters of potentially risky users without having to create a profile for each user. Finally, we created a regression model to estimate the level of toxicity of users based on their linguistic attributes alone. We observed that the users predicted to have higher toxicity levels by our regression model are also those who have a very high value of Dark Triad traits according to our personality model.