Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux

L’objectif de ce mémoire est d’explorer trois différentes techniques pour prédire la toxicité chez les utilisateurs des communautés en ligne. Notre motivation principale est d’aider les modérateurs de ces communautés à concentrer leurs efforts sur les utilisateurs les plus susceptibles d’écrire des...

Full description

Bibliographic Details
Main Author: Sanchez Viera, Talia
Other Authors: Khoury, Richard
Format: Dissertation
Language:French
Published: Université Laval 2020
Subjects:
Online Access:http://hdl.handle.net/20.500.11794/66590
id ndltd-LAVAL-oai-corpus.ulaval.ca-20.500.11794-66590
record_format oai_dc
collection NDLTD
language French
format Dissertation
sources NDLTD
topic Traits de personnalité -- Intercorrélation -- Méthodes de simulation.
Internautes -- Langage -- Méthodes de simulation.
Internautes -- Attitudes -- Méthodes de simulation.
Communautés virtuelles -- Gestion.
spellingShingle Traits de personnalité -- Intercorrélation -- Méthodes de simulation.
Internautes -- Langage -- Méthodes de simulation.
Internautes -- Attitudes -- Méthodes de simulation.
Communautés virtuelles -- Gestion.
Sanchez Viera, Talia
Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux
description L’objectif de ce mémoire est d’explorer trois différentes techniques pour prédire la toxicité chez les utilisateurs des communautés en ligne. Notre motivation principale est d’aider les modérateurs de ces communautés à concentrer leurs efforts sur les utilisateurs les plus susceptibles d’écrire des messages toxiques, et éviter ainsi de gaspiller du temps et des ressources à surveiller toute la communauté. Nous avons d’abord créé un modèle mathématique capable de prédire les cinq traits de personnalité du modèle OCEAN (Ouverture, Conscienciosité, Extraversion, Agréabilité et Neuroticisme) et les trois traits de la Triade Noire (Narcissisme, Machiavélisme et Psychopathie)d’un utilisateur à partir de son style d’écriture et de son utilisation du vocabulaire. Nos expériences avec ce modèle sur les communautés de Twitter et Reddit ont démontré qu’il existe bien une relation entre la personnalité d’un utilisateur et le niveau de toxicité de ses messages. Particulièrement, nous avons constaté que les utilisateurs avec des valeurs élevées de narcissisme, de machiavélisme et de psychopathie et faibles valeurs de conscienciosité et agréabilité ont plus tendance à écrire des messages toxiques. Dans une deuxième étape, nous appliquons des algorithmes de partitionnement dans l’espace des traits de personnalité et dans l’espace des caractéristiques du langage. Nous avons observé qu’il est possible de détecter des groupes d’utilisateurs potentiellement risqués à surveiller sans avoir besoin de créer un profile pour chaque utilisateur. Finalement, nous avons créé un modèle de régression pour estimer le niveau de toxicité des utilisateurs en fonction de leurs attributs linguistiques. Nous avons observé que les utilisateurs prédits d’avoir les niveaux de toxicité plus élevés par notre régression sont également ceux qui ont des traits de Triade Noire très élevés selon notre modèle de personnalité. === The objective of this study is to explore three different techniques to predict toxicity online community users. Our main motivation is to help the moderators of these communities to focus their efforts on users who are more likely to write toxic messages, and thus avoid wasting time and resources by monitoring the entire community. First, we created a mathematical model capable of predicting the five personality traits of the OCEAN model (Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism) and the three traits of the Dark Triad (Narcissism, Machiavellianism and Psychopathy) for auser, based on their writing style and choice of vocabulary. The experiments we performed with this model on users of the Twitter and Reddit communities have shown that there is a relationship between a user’s personality and the level of toxicity of their messages. In particular, we found that users with high values of narcissism, Machiavellianism and psychopathy andlow values of conscientiousness and agreeableness were more likely to write toxic messages. For our second technique, we applied clustering algorithms on the predicted personality traits andon the observed language characteristics. This allowed us to show that it is possible to detect clusters of potentially risky users without having to create a profile for each user. Finally, we created a regression model to estimate the level of toxicity of users based on their linguistic attributes alone. We observed that the users predicted to have higher toxicity levels by our regression model are also those who have a very high value of Dark Triad traits according to our personality model.
author2 Khoury, Richard
author_facet Khoury, Richard
Sanchez Viera, Talia
author Sanchez Viera, Talia
author_sort Sanchez Viera, Talia
title Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux
title_short Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux
title_full Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux
title_fullStr Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux
title_full_unstemmed Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux
title_sort prédiction de comportements toxiques à partir des messages sur les réseaux sociaux
publisher Université Laval
publishDate 2020
url http://hdl.handle.net/20.500.11794/66590
work_keys_str_mv AT sanchezvieratalia predictiondecomportementstoxiquesapartirdesmessagessurlesreseauxsociaux
_version_ 1719371618180923392
spelling ndltd-LAVAL-oai-corpus.ulaval.ca-20.500.11794-665902020-12-30T17:09:17Z Prédiction de comportements toxiques à partir des messages sur les réseaux sociaux Sanchez Viera, Talia Khoury, Richard Traits de personnalité -- Intercorrélation -- Méthodes de simulation. Internautes -- Langage -- Méthodes de simulation. Internautes -- Attitudes -- Méthodes de simulation. Communautés virtuelles -- Gestion. L’objectif de ce mémoire est d’explorer trois différentes techniques pour prédire la toxicité chez les utilisateurs des communautés en ligne. Notre motivation principale est d’aider les modérateurs de ces communautés à concentrer leurs efforts sur les utilisateurs les plus susceptibles d’écrire des messages toxiques, et éviter ainsi de gaspiller du temps et des ressources à surveiller toute la communauté. Nous avons d’abord créé un modèle mathématique capable de prédire les cinq traits de personnalité du modèle OCEAN (Ouverture, Conscienciosité, Extraversion, Agréabilité et Neuroticisme) et les trois traits de la Triade Noire (Narcissisme, Machiavélisme et Psychopathie)d’un utilisateur à partir de son style d’écriture et de son utilisation du vocabulaire. Nos expériences avec ce modèle sur les communautés de Twitter et Reddit ont démontré qu’il existe bien une relation entre la personnalité d’un utilisateur et le niveau de toxicité de ses messages. Particulièrement, nous avons constaté que les utilisateurs avec des valeurs élevées de narcissisme, de machiavélisme et de psychopathie et faibles valeurs de conscienciosité et agréabilité ont plus tendance à écrire des messages toxiques. Dans une deuxième étape, nous appliquons des algorithmes de partitionnement dans l’espace des traits de personnalité et dans l’espace des caractéristiques du langage. Nous avons observé qu’il est possible de détecter des groupes d’utilisateurs potentiellement risqués à surveiller sans avoir besoin de créer un profile pour chaque utilisateur. Finalement, nous avons créé un modèle de régression pour estimer le niveau de toxicité des utilisateurs en fonction de leurs attributs linguistiques. Nous avons observé que les utilisateurs prédits d’avoir les niveaux de toxicité plus élevés par notre régression sont également ceux qui ont des traits de Triade Noire très élevés selon notre modèle de personnalité. The objective of this study is to explore three different techniques to predict toxicity online community users. Our main motivation is to help the moderators of these communities to focus their efforts on users who are more likely to write toxic messages, and thus avoid wasting time and resources by monitoring the entire community. First, we created a mathematical model capable of predicting the five personality traits of the OCEAN model (Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism) and the three traits of the Dark Triad (Narcissism, Machiavellianism and Psychopathy) for auser, based on their writing style and choice of vocabulary. The experiments we performed with this model on users of the Twitter and Reddit communities have shown that there is a relationship between a user’s personality and the level of toxicity of their messages. In particular, we found that users with high values of narcissism, Machiavellianism and psychopathy andlow values of conscientiousness and agreeableness were more likely to write toxic messages. For our second technique, we applied clustering algorithms on the predicted personality traits andon the observed language characteristics. This allowed us to show that it is possible to detect clusters of potentially risky users without having to create a profile for each user. Finally, we created a regression model to estimate the level of toxicity of users based on their linguistic attributes alone. We observed that the users predicted to have higher toxicity levels by our regression model are also those who have a very high value of Dark Triad traits according to our personality model. 2020 info:eu-repo/semantics/openAccess https://corpus.ulaval.ca/jspui/conditions.jsp info:eu-repo/semantics/masterThesis http://hdl.handle.net/20.500.11794/66590 fre 1 ressource en ligne (x, 66 pages) application/pdf Université Laval