advertisement

Petit déjeuner Search Foresight

67 %
33 %
advertisement
Information about Petit déjeuner Search Foresight
Marketing

Published on March 1, 2014

Author: cariboo

Source: slideshare.net

Description

SEO et statistique linguistique.
Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO

tf*idf, cosinus de salton...
advertisement

SEO & LINGUISTIQUE STATISTIQUE

De vieux concepts trop méconnus Gérard Salton : - Modèle vectoriel « de Salton », années 70

L’analyse en « sac de mots »

Tokenization, normalisation, et élimination des mots vides

Lemmatisation et racinisation « Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre. Cosette était maigre et blême. » Racinisation (stemming)

TF*IDF => ADIEU LA DENSITE DE MOTS CLES !

Identifier les termes importants : première idée Nombre d’occurrences du terme dans la page : Extraction Extraction Extraction Extraction Poids = 1 Poids = 3

Identifier les termes importants : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction Extraction Extraction 100 mots Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document

Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 1,5 milliards ! Combien de pages contiennent le mot clé globicéphale d’après Google ? 34000

Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent

Exemple de calcul sans et avec tf*idf Internet Internet Internet Globicéphale 1000 mots 1000 mots Densité 3 pour mille Densité 1 pour mille

Exemple de calcul sans et avec tf*idf Internet Internet Internet 1000 mots Index de Google 50 milliards de pages (?) Globicéphale 1000 mots 50*10^9 pages DF[internet] = 1,5 x 10^9 / 50 x 10^9 = 0,03 DF[globicephale] = 3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7

Exemple de calcul sans et avec tf*idf (simplifié) Internet Globicéphale Internet 1000 mots Internet 1000 mots TF*iDF[globicephale] = TF*iDF[internet] = 0,001/6,8 x 10^7= 1470! 0,003 / 0,03 = 0,1 1470 >>>> 0,1

La formule en résumé

Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable

Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire

Les bases théoriques de l’alignement sémantique • L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Alignement sémantique

La méthode allemande • Les SEO allemands appellent tf*idf wdf*idf mais c’est la même chose – Wdf= « within document frequency » • Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée

Analyse avec tf*idf

Les limites de l’exercice • Les poids de type « tf*idf » ne sont que l’un des signaux exploités par Google – Si la requête n’est pas concurrentielle : ok – Si la requête est concurrentielle : travail pas rentable • Comment améliorer le poids sans détériorer la qualité du texte ? • L’approche en sac de mots est très dépassée : indexation de syntagmes, de concepts…

Plus intéressant pour « analyser » son texte : LSI / LDA • Latent Semantic Indexing • Analyse en composantes principales sur l’espace vectoriel de Salton • Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours) • Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices – Peut servir pour analyser des textes en masse en vue de retraitements

Plus intéressant pour « analyser » son texte : LSI / LDA A quoi cela peut-il servir ? • la comparaison de documents dans l'espace des concepts – classification et catégorisation de documents • la recherche de documents similaires entre différentes langues • la recherche de relations entre les termes – résolution de synonymie et de polysémie • étant donné une requête, traduire les termes de la requête dans l'espace des concepts, pour retrouver des documents liés sémantiquement – recherche d'information, expansion de requête – Et analyser ses pages dans le contexte Hummingbird !

Conclusion

Merci !

Add a comment

Related presentations

Brands are more invested today than ever before on curating and distributing paid,...

Marketers need to be creating and publishing original content across many differen...

As content marketing continues to increase in popularity in every industry, more m...

Il Direct Email Marketing (DEM) è una tipologia di marketing diretto che usa la po...

This presentation contains all 120 rules from Part 1 of the 2nd edition of "Email ...

Olá, somos o Paulo Bernardes e o Pedro Silvestre, temos uma ambição em comum de me...

Related pages

Search Foresight ⇒ SEO, CRO, Web Analytique, Formations

Petit Dej Search Foresight; Recherche pour : et du SEO en ... Search-Foresight propose des services pour développer votre visibilité naturelle et payante.
Read more

Petit déjeuner Search Foresight – Microsoft ...

Petit déjeuner Search Foresight avec Microsoft sur le référencement international et multilingue En partenariat avec Microsoft la première partie du petit
Read more

Petit Déjeuner Search-Foresight Paris

Événement "Petit Déjeuner Search-Foresight" de "Search Foresight - Groupe My Media", "Eurosites Georges V à "Paris"
Read more

Search Foresight | Facebook

Search Foresight. 49 likes · 1 talking about this. Search Foresight est une agence de référencement naturel spécialisée dans l'accompagnement ...
Read more

Petit Déjeuner Search-Foresight Issy-les-Moulineaux

Événement "Petit Déjeuner Search-Foresight" de "Search Foresight - Groupe My Media", "Campus Microsoft à "Issy-les-Moulineaux"
Read more

www.xing.com

SUMMARY:Petit Déjeuner Search-Foresight - Lille 28 janvier 2016 DESCRIPTION: LOCATION:HOTEL CARLTON LILLE, 3 RUE DE PARIS, 59000, LILLE, Frankreich
Read more

www.xing.com

SUMMARY:Petit Déjeuner Search-Foresight - Paris - 30 mars 2016 DESCRIPTION: LOCATION:Eurosites George V, 28 Avenue George V, 75008, Paris, Frankrei ch
Read more