Référencement WIX: Pourquoi l'indexation pose problème actuellement ?

14 mai 2022
5 min de lecture

Avant toute chose, il ne s'agit pas d'un problème lié à WIX, mais d'un problème général de Google que l'on rencontre avec toutes les plateformes: Wordpress, Prestashop, Shopify, etc .

Nous allons vous expliquer pourquoi dans cet article.

Pour afficher les URL des pages web dans leur page de résultats de recherche (SERP), les moteurs de recherche doivent d'abord analyser et indexer leurs contenus. Ceci se fait après le crawl de chaque page par les spiders. C'est le principe de base du référencement naturel SEO. Sur Google, ce processus d'indexation des sites rencontre des problèmes depuis quelques mois. Les robots du moteur prennent plus de temps pour indexer les pages. Nous vous proposons une explication de ce bug de l'indexation Google. Nous vous expliquons également comment optimiser votre site internet WIX pour une indexation plus rapide.

Problème d'indexation : un constat général

Il y a encore quelques années, il suffisait de quelques heures pour que les robots de Google indexent une page qui vient d'être publiée. C'était possible notamment grâce à l'algorithme Caffeine qui facilite l'indexation des pages sur le moteur de recherche californien. Aujourd'hui, la donne n'est plus la même. Depuis quelques mois, Google prend de plus en plus de temps pour ajouter les nouvelles URL à son index. De nombreuses agences, éditeurs, et webmasters de sites internet se sont rendu compte que Googlebot n'arrive plus à indexer les pages ou même à explorer le web aussi rapidement qu'avant.

Dans certains cas, les pages sont crawlées, mais pas indexées, alors que parfois aucun des deux processus n'est initié. Sur la Google Search Console, les URL concernées sont indiquées comme étant « exclues » et portent le message d'erreurs « détectée, actuellement non indexée » ou encore « explorée, actuellement non indexée ».

Ce problème d'exploration et d'indexation ne résulte pas d'un bug isolé sur certains sites et bien évidement n'est pas du tout lié à WIX. Il s'agit d'un phénomène général qui peut toucher aussi bien les sites qualitatifs comme n'importe quels autres sites. Il n'y a aucune logique qui justifie le modèle de page pouvant être affecté. Qu'en est-il exactement ? Comment expliquer ce problème ?

Avant de répondre à cette interrogation, nous allons revenir rapidement sur le fonctionnement du crawl et de l'index de Google dans la partie suivante pour mieux comprendre le concept.

Rappel : le rôle des crawlers

Dans le domaine du référencement SEO, les crawlers sont des algorithmes qui permettent aux moteurs de recherche (Google, Bing, Qwant) de nourrir continuellement leur index (la fameuse base d'indexation). Chaque moteur de recherche possède son propre robot. Googlebot est celui de Google, et Bingbot celui de Microsoft Bing. Ces spiders ont pour rôle de parcourir l'ensemble du web ( et votre site WIX ) pour détecter les nouveaux articles publiés afin de les ajouter à leur index. Pour cela, ils suivent un principe de fonctionnement assez simple.

Dès qu'un robot d'exploration arrive sur une nouvelle page, il analyse son contenu et tente de comprendre la thématique traitée. Après cette étape d'inspection, il indexe l'URL de la page en fonction des mots-clés présents dans son contenu. Il s'agit en quelque sorte de catégoriser la page dans la base de données du moteur de recherche, afin que celle-ci soit proposée dans la SERP pour des requêtes pertinentes ( En effet plus votre page est pertinente et comprise par l'algorithme, plus celui ci aura facilité à faire une corrélation entre la requête de recherche et ce qu'il comprend de votre page, la faisant ainsi apparaitre dans les résultats de recherche de la première page Google, d'où l'importance de faire appel à un spécialiste SEO WIX ).

Lorsqu'une page web n'est pas indexée, elle ne peut ainsi pas apparaitre dans les résultats de recherche. Et pour cause, elle n'est simplement pas référencée sur le moteur de recherche.

Pourquoi l'indexation de Google est-elle problématique actuellement ?

Si de nombreuses pages web n'arrivent pas à être visitées ou prises en compte par Googlebot, le problème ne provient pas uniquement de Google. Pour la majorité des URL concernées, la cause de la non-indexation provient des sites eux-mêmes :

contenus trop courts et de mauvaise qualité,
maillage interne non optimisé pour le crawl,
absence de Sitemap,
mauvaises balises d'URL canoniques…

À cela s'ajoutent la complexité des tâches liées au crawl et la difficulté des bots à gérer les spams. C'est l'ensemble de ces éléments qui rend le processus d'exploration et d'indexation plus complexe pour les spiders de Google.

Le développement du web

Les solutions du numérique connaissent un accroissement à très grande échelle depuis quelques années. Avec l'évolution du digital, le web devient de plus en plus grand, pour répondre aux besoins d'informations sans cesse croissants. De nombreux sites internet sont ainsi publiés chaque jour. Selon les données recueillies sur Internet Live Stats, plus de 170 sites web auraient été créés toutes les minutes en 2021, soit environ 3 sites par seconde.

Face à cette croissance très rapide du web, les crawlers ont de difficultés à suivre le rythme. Pour évaluer toutes les métriques de classement SEO, ces derniers doivent en effet passer un certain temps sur chaque site. La quantité de sites publiés étant de plus en plus importante, il est difficile pour les crawlers d'analyser toutes les nouvelles pages dans un délai optimal. L'indexation des nouveaux contenus devient alors problématique.

Des tâches plus complexes pendant le crawl

Dans sa mission d'explorer et indexer les pages internet pour son moteur de recherche, Googlebot se voit maintenant affecter de nouvelles tâches plus complexes. Celles-ci rendent le crawl beaucoup plus difficile et ralentissent l'indexation des pages. Certaines d'entre elles empêchent simplement le crawl des pages et accentuent les erreurs d'indexation. Parmi les tâches les plus complexes affecter au spider de Google, on retrouve notamment :

le traitement sémantique du contenu de chaque page,
la lecture et la compréhension du fichier robots.txt et d'autres directives peu explicites,
la détection des contenus inutiles ou dupliqués,
l'interprétation des pages web explorées.

Chacune de ces opérations se révèle particulièrement complexe pour les spiders de Google.

La difficulté à gérer le spam

Pour ajouter de nouvelles URL à son index, le robot de Google doit tenter de lire le contenu textuel de chaque page. Et pour cela, il s'appuie principalement sur des algorithmes basés sur l'Intelligence artificielle tels que BERT, SMITH et MUM. Si ces réseaux de neurones permettent de mieux comprendre le contenu des pages, ils mettent cependant beaucoup de temps à traiter chaque URL. L'idée est d'assurer que chaque page indexée est unique et apporte des informations utiles aux internautes.

Les pages de mauvaise qualité dites spam sont ainsi filtrées durant le crawl. La présence de ce contenu sur un site peut donc ralentir le processus d'indexation, puisque chaque page doit être profondément analysée. Certaines erreurs peuvent également survenir durant ce processus et empêcher l'indexation du contenu. En cas de duplicate content par exemple, identifier le contenu original peut être très difficile pour Googlebot. Dans ce contexte, le risque du faux positif est très élevé. En d'autres termes, l'indexation du contenu légitime peut être bloquée au profit de la page dupliquée.

Pour éviter ce genre de problème, il est important de veiller à la qualité et la pertinence du contenu publié sur chaque page de votre site. À ce titre, notre agence wix expert certifiée seo vous propose un service de rédaction optimisée pour remplir vos pages. Nous rédigeons pour vous des articles pertinents et parfaitement structurés qui respectent les instructions de Google en matière de SEO.

Vous rencontrez un problème de référencement ou d'indexation avec votre site WIX ? nous vous proposons un audit SEO Gratuit de 15 minutes.

Audit SEO Gratuit

Réserver

Source https://www.emarketerz.fr https://www.internetlivestats.com/