Modele extrait de deliberation sci

J`ai testé l`algorithme sur 20 newsgroup ensemble de données qui a des milliers d`Articles de nouvelles de nombreuses sections d`un rapport de nouvelles. Dans cet ensemble de données, je connaissais les principaux sujets d`actualité avant la main et je pouvais vérifier que LDA les identifiait correctement. La sortie du modèle est de 8 rubriques chacune catégorisées par une série de mots. LDA modèle ne donne pas un nom de sujet à ces mots et il est pour nous les humains de les interpréter. Voir ci-dessous exemple de sortie du modèle et comment „I“ ont assigné des sujets potentiels à ces mots. J`ai récemment commencé à apprendre sur l`allocation de Dirichlet latente (LDA) pour la modélisation de sujet et a été étonné de la puissance qu`il peut être et en même temps rapide à courir. Thème la modélisation est la tâche d`utiliser l`apprentissage non supervisé pour extraire les principaux sujets (représentés comme un ensemble de mots) qui se produisent dans une collection de documents. Voilà! Le modèle est construit. Maintenant, nous allons l`interpréter et voir si les résultats ont du sens. C`est en fait assez simple que nous pouvons utiliser le modèle de gensim LDA. Nous devons spécifier le nombre de rubriques dans l`ensemble de données. Disons que nous commençons avec 8 sujets uniques.

NB de passes est le nombre de passes de formation sur le document. Maintenant, pour chaque document pré-traité, nous utilisons l`objet dictionnaire juste créé pour convertir ce document en un sac de mots. C`est à dire pour chaque document que nous créons un dictionnaire signalant combien de mots et combien de fois ces mots apparaissent. Pour en savoir plus sur LDA s`il vous plaît vérifier ce lien. Il y a 20 cibles dans l`ensemble de données: `Alt. athéisme`, `COMP. Graphics`, `comp.os.ms-Windows. misc`, `COMP. sys. IBM.

PC. Hardware`, `COMP. sys. Mac. Hardware`, `COMP. Windows. x`, `misc. Forsale`, `Rec. autos`, `Rec. motos`, `Rec.

sport. baseball`, ` Rec. sport. hockey`, `Sci. crypt`, `Sci. Electronics`, `Sci. med`, `Sci. Space`, `SOC. religion.

Christian`, `Talk. politique. Guns`, `parler. politique. Mideast`, `Talk. politique. misc`, `Talk. religion. misc ce jeu de données a les nouvelles déjà regroupées en clés Sujets. Que vous pouvez obtenir par si vous avez un projet que nous pouvons collaborer sur, alors s`il vous plaît contactez-moi via mon site Web ou à priya.toronto3@gmail.com consultez le code GitHub pour regarder tous les sujets et jouer avec le modèle pour augmenter la diminution du nombre de sujets.

Nous pouvons filtrer davantage les mots qui se produisent très peu de fois ou se produisent très fréquemment. Le code est tout simplement et rapide à exécuter. Vous pouvez le trouver sur GitHub. Je vous encourage à le tirer et l`essayer. Nous utilisons les bibliothèques NLTK et gensim pour effectuer le prétraitement l`ensemble de données que j`ai utilisé est l`ensemble de données 20Newsgroup. Il est disponible sous les jeux de données sklearn et peut être facilement téléchargé car je suis très intrigué par ce post sur LDA guidée et aimerait l`essayer. Avant la modélisation thématique, nous convertissons le texte tokenisé et lemmatisés en un sac de mots, que vous pouvez considérer comme un dictionnaire où la clé est le mot et la valeur est le nombre de fois où ce mot se produit dans le corpus entier. LDA est utilisé pour classer le texte dans un document à un sujet particulier. Il construit un sujet par modèle de document et mots par modèle de sujet, modélisé en tant que distributions Dirichlet.

En regardant visuellement, nous pouvons dire que ce jeu de données a quelques sujets larges comme: PS: J`ai mon propre Conseil d`apprentissage profond et l`amour pour travailler sur des problèmes intéressants. J`ai aidé plusieurs startups à déployer des solutions innovantes basées sur l`IA. Consultez-nous à l`http://deeplearninganalytics.org/. Autres écrits: http://deeplearninganalytics.org/blog.