Top 25 ensembles de données d'entraînement Twitter pour les data scientists (Gratuit)
26 sept. 2023
Ces derniers temps, le paysage des médias sociaux a subi des changements significatifs, y compris la transformation de Twitter après l'acquisition d'Elon Musk, où il est maintenant simplement appelé « X ». Alors que l'industrie bourdonne de rumeurs sur l'accès restreint aux données et les changements d'API, les professionnels de l'IA et de l'apprentissage automatique sont à la recherche de sources fiables de jeux de données d'entraînement Twitter pour alimenter leurs modèles avares de données.
Heureusement, il existe une multitude de super jeux de données d'entraînement Twitter (maintenant « X ») open source qui ont été collectés et partagés au cours de la dernière décennie. Nous avons rassemblé nos préférés afin que vous n'ayez pas à chercher sur Internet vous-même ! Vous pouvez également consulter notre 12 meilleurs ensembles de données de langage naturel qui sont gratuits.
Types de jeux de données d'entraînement Twitter
Avant d'explorer les jeux de données, classons-les en fonction de leur contenu et de leur utilité :
Jeu de données constitué de tweets liés à la pandémie de Covid-19 : Alors que la pandémie se déroulait, Twitter est devenu un hub de discussions. Ce jeu de données comprend plus de 150 millions de tweets, couvrant plusieurs langues.
Jeu de données Twitter général constitué de tweets aléatoires : Une collection aléatoire de tweets provenant de Twitter, fournissant un ensemble diversifié de données textuelles pour diverses tâches de traitement du langage naturel.
Caractéristiques des utilisateurs vs. caractéristiques uniquement des tweets dans un jeu de données Twitter : Certains jeux de données se concentrent sur les données liées aux utilisateurs, y compris les noms d'utilisateur, tandis que d'autres mettent l'accent sur le contenu des tweets.
Tweets pertinents extraits des réseaux sociaux via des techniques de régression logistique : Jeux de données qui emploient des techniques avancées pour extraire des tweets d'une pertinence spécifique.
Jeux de caractéristiques pour l'entraînement des modèles et des modèles d'apprentissage profond dans la collection de jeux de données Twitter : Jeux de données conçus pour servir de jeux de caractéristiques pour entraîner des modèles d'apprentissage automatique avancés.
Top 25 des jeux de données Twitter
Maintenant, explorons les 25 meilleurs jeux de données Twitter qui sont inestimables pour l'analyse des sentiments, la modération du contenu et diverses autres applications de l'IA :
16 millions de tweets non filtrés : Une compilation de 16 millions de tweets du 23 janvier au 8 février 2011, y compris des tweets importants et des tweets de spam.
Élection présidentielle de 2016 : Initialement compilé pour la transparence pendant l'élection présidentielle de 2016, ce jeu de données se concentre sur les tweets connexes.
Sentiment Twitter d'Apple : Se concentrant sur les tweets liés à Apple, ce jeu de données comprend le hashtag #AAPL et les références à @apple, avec des tweets classés comme Positifs, Négatifs ou Neutres.
Tweets d'Avengers Endgame : Ce jeu de données comprend plus de 10 000 enregistrements liés au film à succès « #AvengersEndgame » de 2019.
Charlottesville sur Twitter : Se concentrant sur 150 000 tweets liés au rassemblement Unite the Right à Charlottesville.
Tweets COVID-19 : Ce jeu de données Twitter contient plus de 150 millions de tweets liés à la pandémie mondiale de COVID-19, couvrant plusieurs langues avec un accent sur l'anglais, l'espagnol et le français.
Corpus de crédibilité en français et en anglais : Conçu pour détecter la désinformation, ce jeu de données est composé de tweets en français et en anglais liés aux rumeurs.
Support client sur Twitter : Ce vaste jeu de données comprend des interactions de service client sur Twitter, ainsi que les tweets et les réponses correspondants.
Jeu de données de tweets d'Elon Musk : Ce jeu de données est une collection des tweets d'Elon Musk du 2010-06-04 au 2017-04-05.
Chaque tweet de Donald Trump : Une compilation de tous les tweets publiés par Donald Trump, accessibles sur thetrumparchive.com.
Tweets de la saison 8 de Game of Thrones : Une collection de tweets reflétant les retours de Twitter après chaque épisode de la saison 8 de Game of Thrones.
Jeu de données de classification de genre Twitter : Ce jeu de données a été utilisé pour entraîner un prédicteur de genre AI de CrowdFlower. Vous pouvez lire tout sur le projet ici. Les contributeurs ont été invités à simplement consulter un profil Twitter et à juger si l'utilisateur était un homme, une femme ou une marque (non-individu).
jeux de données MovieTweetings : Ce jeu de données se compose d'évaluations sur des films qui étaient contenues dans des tweets bien structurés sur Twitter. Ce jeu de données est le résultat d'une recherche menée par Simon Dooms.
Tweets Twitter prétraités : Ces tweets ont été classés en positifs, négatifs et neutres pour l'analyse des sentiments.
Sentiment 140 : Ce jeu de données de Sentiment 140 est utile pour analyser les sentiments autour de sujets, de marques ou de produits spécifiques sur Twitter.
Émotion SMILE Twitter : Idéal pour l'analyse des sentiments, ce jeu de données contient plus de 3 000 tweets exprimant diverses émotions.
Jeu de données Twitter Stanford SNAP : Avec plus de 476 millions de tweets provenant de 20 millions d'utilisateurs sur une période de 7 mois, ce jeu de données provient de la base de données de la bibliothèque SNAP de l'Université de Stanford.
Top 20 des utilisateurs les plus suivis sur Twitter : Comprenant 52 000 tweets des 20 meilleurs profils Twitter, à l'exception des retweets.
Jeu de données de classification de sentiments TweetEval : Ce jeu de données comprend sept tâches hétérogènes sur Twitter, toutes encadrées comme une classification de tweets multi-classe. Les tâches incluent – ironie, haine, offensif, position, emoji, émotion et sentiment. Toutes les tâches ont été unifiées dans le même référentiel, chaque jeu de données étant présenté dans le même format et avec des divisions fixes pour l'entraînement, la validation et le test.
Sentiment des compagnies aériennes Twitter : Concentrez-vous sur les tweets liés aux grandes compagnies aériennes américaines, classés en sentiments positifs, neutres et négatifs.
Amis Twitter : Ce jeu de données fournit des informations sur les avatars, le nombre d'amis, les ID utilisateur, le nombre de followers, et plus encore.
Jeu de données d'actualités Twitter : Se concentrant sur 5 234 événements d'actualités et leurs tweets correspondants.
Données utilisateur Twitter : Comprenant 20 000 lignes, chacune contenant un nom d'utilisateur, un tweet aléatoire, un profil de compte, et des informations sur l'image/l'emplacement.
Jeu de données UMass Global English sur Twitter : Comprenant plus de 10 000 tweets, ce jeu de données est échantillonné aléatoirement à partir de messages Twitter géolocalisés et annoté en fonction de leur langue.
Jeu de données VoterFraud 2020 : Ce jeu de données se concentre sur les rumeurs concernant la fraude électorale lors de l'élection présidentielle de 2020, contenant 7,6 millions de tweets et près de 26 millions de retweets.
Accéder à ces jeux de données
Que vous travailliez sur l'analyse des sentiments, la modération du contenu ou toute autre tâche de traitement du langage naturel, ces jeux de données d'entraînement Twitter fournissent une richesse de données pour entraîner et affiner vos modèles d'apprentissage automatique.
Vous cherchez plus de jeux de données Twitter (maintenant X) :
Jeux de données Twitter d'Archive.org : Il s'agit d'une collection de jeux de données Twitter gratuits qui ont été compilés pour l'étude et la recherche. Vous pouvez utiliser beaucoup de données dans cette archive et choisir le flux que vous aimez. Les archives contiennent des tonnes d'informations qui peuvent être triées.
Catalogues de tweets Documenting the Now : Une archive de données Twitter publiques par Documenting the Now, abordant des sujets comme les élections, les manifestations, et les catastrophes naturelles.
Base de données de jeux de données Twitter Kaggle : Un hub pour les passionnés de science des données et les chercheurs avec une vaste collection de jeux de données partagés.
TweetSets (GWU) : Jeux de données publics par GWU, se concentrant principalement sur la politique américaine et les événements d'actualité.
Base de données de jeux de données Twitter Zenodo : Un dépôt hébergeant des données diverses et des travaux académiques, y compris des jeux de données Twitter contribué par des chercheurs indépendants.
Jeux de données Twitter d'Archive.org : Il s'agit d'une collection de jeux de données Twitter gratuits qui ont été compilés pour l'étude et la recherche. Vous pouvez utiliser beaucoup de données dans cette archive et choisir le flux que vous aimez. Les archives contiennent des tonnes d'informations qui peuvent être triées.
Dans le monde en constante évolution des médias sociaux, les jeux de données d'entraînement Twitter servent de piliers stables pour les passionnés d'IA et d'apprentissage automatique. Avec une vaste gamme de jeux de données disponibles, vous pouvez alimenter vos projets avec des données Twitter du monde réel, garantissant que vos modèles sont robustes, précis et prêts à relever les défis de l'ère numérique. Vous pouvez également consulter notre 65 des meilleurs jeux de données pour l'apprentissage automatique.
Restez en avance dans le jeu de l'IA et de l'apprentissage automatique en exploitant les connaissances contenues dans ces jeux de données, et gardez un œil sur les pratiques éthiques en matière d'annotation de données pour garantir la meilleure qualité de vos données d'entraînement.
Articles récents
Sommet de l'IA générative 2024
Sommet de l'IA générative 2024
Étude de cas client : Comptabilité automatisée pour un traitement intelligent
Étude de cas client : Comptabilité automatisée pour un traitement intelligent
Étude de cas client : contrôle logistique IA
Étude de cas client : contrôle logistique IA
Étude de cas client : Filtre de requête pour une plateforme CRM
Étude de cas client : Filtre de requête pour une plateforme CRM
Étude de cas client : Classification des produits
Étude de cas client : Classification des produits
Étude de cas client : Interius Farms révolutionne l'agriculture verticale avec l'IA et la robotique
Étude de cas client : Interius Farms révolutionne l'agriculture verticale avec l'IA et la robotique
Étude de cas client : Essayage virtuel de vêtements
Étude de cas client : Essayage virtuel de vêtements
Étude de cas client : SURGAR proposant une réalité augmentée pour la chirurgie laparoscopique
Étude de cas client : SURGAR proposant une réalité augmentée pour la chirurgie laparoscopique
Étude de cas client : Gestion intelligente des drones
Étude de cas client : Gestion intelligente des drones
Étude de cas client : Correspondance des éléments de requête pour la gestion de base de données
Étude de cas client : Correspondance des éléments de requête pour la gestion de base de données











