Petit déjeuner Search Foresight

67 %
33 %
Information about Petit déjeuner Search Foresight
Marketing

Published on March 1, 2014

Author: cariboo

Source: slideshare.net

Description

SEO et statistique linguistique.
Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO

tf*idf, cosinus de salton...

SEO & LINGUISTIQUE STATISTIQUE

De vieux concepts trop méconnus Gérard Salton : - Modèle vectoriel « de Salton », années 70

L’analyse en « sac de mots »

Tokenization, normalisation, et élimination des mots vides

Lemmatisation et racinisation « Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre. Cosette était maigre et blême. » Racinisation (stemming)

TF*IDF => ADIEU LA DENSITE DE MOTS CLES !

Identifier les termes importants : première idée Nombre d’occurrences du terme dans la page : Extraction Extraction Extraction Extraction Poids = 1 Poids = 3

Identifier les termes importants : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction Extraction Extraction 100 mots Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document

Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 1,5 milliards ! Combien de pages contiennent le mot clé globicéphale d’après Google ? 34000

Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent

Exemple de calcul sans et avec tf*idf Internet Internet Internet Globicéphale 1000 mots 1000 mots Densité 3 pour mille Densité 1 pour mille

Exemple de calcul sans et avec tf*idf Internet Internet Internet 1000 mots Index de Google 50 milliards de pages (?) Globicéphale 1000 mots 50*10^9 pages DF[internet] = 1,5 x 10^9 / 50 x 10^9 = 0,03 DF[globicephale] = 3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7

Exemple de calcul sans et avec tf*idf (simplifié) Internet Globicéphale Internet 1000 mots Internet 1000 mots TF*iDF[globicephale] = TF*iDF[internet] = 0,001/6,8 x 10^7= 1470! 0,003 / 0,03 = 0,1 1470 >>>> 0,1

La formule en résumé

Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable

Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire

Les bases théoriques de l’alignement sémantique • L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Alignement sémantique

La méthode allemande • Les SEO allemands appellent tf*idf wdf*idf mais c’est la même chose – Wdf= « within document frequency » • Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée

Analyse avec tf*idf

Les limites de l’exercice • Les poids de type « tf*idf » ne sont que l’un des signaux exploités par Google – Si la requête n’est pas concurrentielle : ok – Si la requête est concurrentielle : travail pas rentable • Comment améliorer le poids sans détériorer la qualité du texte ? • L’approche en sac de mots est très dépassée : indexation de syntagmes, de concepts…

Plus intéressant pour « analyser » son texte : LSI / LDA • Latent Semantic Indexing • Analyse en composantes principales sur l’espace vectoriel de Salton • Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours) • Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices – Peut servir pour analyser des textes en masse en vue de retraitements

Plus intéressant pour « analyser » son texte : LSI / LDA A quoi cela peut-il servir ? • la comparaison de documents dans l'espace des concepts – classification et catégorisation de documents • la recherche de documents similaires entre différentes langues • la recherche de relations entre les termes – résolution de synonymie et de polysémie • étant donné une requête, traduire les termes de la requête dans l'espace des concepts, pour retrouver des documents liés sémantiquement – recherche d'information, expansion de requête – Et analyser ses pages dans le contexte Hummingbird !

Conclusion

Merci !

Add a comment

Related presentations

Related pages

Search Foresight ⇒ SEO, CRO, Web Analytique, Formations

Petit Dej Search Foresight; Recherche pour : et du SEO en ... Search-Foresight propose des services pour développer votre visibilité naturelle et payante.
Read more

Petit déjeuner Search Foresight – Microsoft ...

Petit déjeuner Search Foresight avec Microsoft sur le référencement international et multilingue En partenariat avec Microsoft la première partie du petit
Read more

Petit Déjeuner Search-Foresight Paris

Événement "Petit Déjeuner Search-Foresight" de "Search Foresight - Groupe My Media", "Eurosites Georges V à "Paris"
Read more

Search Foresight | Facebook

Search Foresight. 49 likes · 1 talking about this. Search Foresight est une agence de référencement naturel spécialisée dans l'accompagnement ...
Read more

Petit Déjeuner Search-Foresight Issy-les-Moulineaux

Événement "Petit Déjeuner Search-Foresight" de "Search Foresight - Groupe My Media", "Campus Microsoft à "Issy-les-Moulineaux"
Read more

www.xing.com

SUMMARY:Petit Déjeuner Search-Foresight - Lille 28 janvier 2016 DESCRIPTION: LOCATION:HOTEL CARLTON LILLE, 3 RUE DE PARIS, 59000, LILLE, Frankreich
Read more

www.xing.com

SUMMARY:Petit Déjeuner Search-Foresight - Paris - 30 mars 2016 DESCRIPTION: LOCATION:Eurosites George V, 28 Avenue George V, 75008, Paris, Frankrei ch
Read more