Comprender cómo rastrean, procesan e indexan los motores de búsqueda las páginas web es fundamental para optimizar los sitios para los motores de búsqueda. Con el paso de los años, a medida que los motores de búsqueda como Google cambian sus procesos, resulta difícil hacer un seguimiento de lo que funciona y lo que no, especialmente con JavaScript del lado del cliente.
Hemos notado que persisten varias creencias antiguas que mantienen a la comunidad insegura sobre las mejores prácticas para el SEO de aplicaciones:
Para abordar estas creencias, nos asociamos con MERJ , una consultora líder en ingeniería de datos y optimización de motores de búsqueda, para realizar nuevos experimentos sobre el comportamiento de rastreo de Google. Analizamos más de 100 000 búsquedas de Googlebot en varios sitios para probar y validar las capacidades de optimización de motores de búsqueda de Google.
Veamos cómo ha evolucionado la representación de Google. Luego, exploraremos nuestros hallazgos y su impacto en el mundo real en las aplicaciones web modernas.
Con el paso de los años, la capacidad de Google para rastrear e indexar contenido web ha cambiado significativamente. Ver esta evolución es importante para comprender el estado actual del SEO para las aplicaciones web modernas.
En los primeros días de las búsquedas, Google indexaba principalmente contenido HTML estático. El contenido generado con JavaScript era prácticamente invisible para los motores de búsqueda, lo que llevó al uso generalizado de HTML estático para fines de SEO.
Google introdujo el esquema de rastreo AJAX, que permite a los sitios web proporcionar capturas de pantalla HTML de contenido generado dinámicamente. Se trataba de una solución provisional que requería que los desarrolladores crearan versiones independientes y rastreables de sus páginas.
Google comenzó a renderizar páginas usando un navegador Chrome sin interfaz gráfica, lo que marcó un avance significativo. Sin embargo, esta versión anterior del navegador aún tenía limitaciones para procesar las funciones modernas de JS.
En la actualidad, Google utiliza una versión actualizada de Chrome para la renderización, que se mantiene al día con las últimas tecnologías web. Los aspectos clave del sistema actual incluyen:
User-Agent. En su lugar, optimice la representación sin estado de su aplicación para Google e implemente la personalización a través de métodos con estado.Cache-Controlencabezados HTTP, el Servicio de representación web de Google emplea su propia heurística interna para determinar cuándo los activos almacenados en caché siguen siendo nuevos y cuándo es necesario volver a descargarlos.Hoy en día, el proceso de indexación de Google se parece a esto.
Con una mejor comprensión de lo que Google es capaz de hacer, veamos algunos mitos comunes y cómo impactan en el SEO.
Para investigar los siguientes mitos, realizamos un estudio utilizando la infraestructura de Vercel y la tecnología Web Rendering Monitor (WRM) de MERJ. Nuestra investigación se centró en nextjs.org, con datos complementarios de monogram.io y basement.io, que abarcan desde el 1 de abril hasta el 30 de abril de 2024.
Colocamos un middleware Edge personalizado en estos sitios para interceptar y analizar las solicitudes de los robots de los motores de búsqueda. Este middleware nos permitió:
La biblioteca de JavaScript, que se activa cuando una página termina de renderizarse, envía datos a un servidor de larga duración, incluidos:
Al comparar la solicitud inicial presente en los registros de acceso al servidor con los datos enviados desde nuestro middleware a un servidor de baliza externo, pudimos:
Para este artículo, nos centramos principalmente en los datos de Googlebot, que nos proporcionó el conjunto de datos más grande y confiable. Nuestro análisis incluyó más de 37 000 páginas HTML renderizadas que coincidieron con pares de balizas de servidor, lo que nos proporcionó una muestra sólida de la que extraer conclusiones.
Todavía estamos recopilando datos sobre otros motores de búsqueda, incluidos proveedores de IA como OpenAI y Anthropic, y esperamos hablar más sobre nuestros hallazgos en el futuro.
En las siguientes secciones, profundizaremos en cada mito, proporcionando una metodología más relevante según sea necesario.
Este mito ha llevado a muchos desarrolladores a evitar los frameworks JS o recurrir a soluciones alternativas complejas para el SEO.
Para probar la capacidad de Google para representar contenido JavaScript, nos centramos en tres aspectos clave:
nextjs.org, que utiliza una combinación de prerenderizado estático, renderizado del lado del servidor y renderizado del lado del cliente.nextjs.orgcargan contenido de forma asincrónica mediante llamadas a la API. Esto nos permitió determinar si Googlebot podía procesar e indexar contenido que no estaba presente en la respuesta HTML inicial.nextjs.orgestá creado con Next.js App Router y RSC. Pudimos ver cómo Googlebot procesaba e indexaba el contenido transmitido de manera incremental a la página.nextjs.org, excluyendo errores de código de estado y páginas no indexables, el 100 % de las páginas HTML dieron como resultado representaciones de página completa, incluidas páginas con interacciones JS complejas.Un error muy común es creer que Google tiene un proceso o criterio independiente para las páginas que utilizan mucho JavaScript. Nuestra investigación, combinada con declaraciones oficiales de Google, desmiente este mito.
Para probar en qué casos Google trata de forma diferente las páginas con mucho contenido JavaScript, adoptamos varios enfoques específicos:
@import@importsnoindexmetaetiquetas. Esto nos ayudó a comprender si las páginas con mucho código JavaScript se tratan de manera diferente en estos escenarios.@importprueba CSS confirmó que Google renderiza con éxito páginas con o sin JS.noindexmetaetiquetas en la respuesta HTML inicial no se procesaron, independientemente del contenido de JS. La eliminación de etiquetas del lado del cliente no es eficaz para fines de SEO; si una página contiene la etiqueta en la respuesta HTML inicial, no se procesará y el código JavaScript que elimina la etiqueta no se ejecutará.noindexnoindexnextjs.orgla escala de , tampoco encontramos correlación entre la complejidad de JavaScript y el retraso en la renderización. Sin embargo, un código JS más complejo en un sitio mucho más grande puede afectar la eficiencia del rastreo.Muchos profesionales de SEO creen que las páginas con mucho código JavaScript sufren retrasos significativos en la indexación debido a una cola de renderización. Nuestra investigación proporciona una visión más clara de este proceso.
Para abordar el impacto de la cola de renderización y el tiempo en el SEO, investigamos:
nextjs.org.nextjs.org(por ejemplo, /docs, /learn, /showcase).La distribución del retardo de renderizado fue la siguiente:
Sorprendentemente, el percentil 25 de las páginas se procesaron dentro de los 4 segundos posteriores al rastreo inicial, lo que pone en tela de juicio la noción de una “cola” larga.
Si bien algunas páginas enfrentaron retrasos importantes (hasta aproximadamente 18 horas en el percentil 99), estas fueron la excepción y no la regla.
También observamos patrones interesantes relacionados con la rapidez con la que Google procesa las URL con cadenas de consulta (?param=xyz):
| Tipo de URL | Percentil 50 | Percentil 75 | Percentil 90 |
| Todas las URL URL con cadena de consulta | 10 segundos | 26 segundos | ~3 horas |
| URL sin cadena de consulta | 10 segundos | 22 segundos | ~2,5 horas |
| URL con cadena de consulta | 13 segundos | 31 minutos | ~8,5 horas |
Estos datos sugieren que Google trata las URL de forma diferente si tienen cadenas de consulta que no afectan al contenido. Por ejemplo, en nextjs.org, las páginas con ?ref=parámetros experimentaron demoras de representación más prolongadas, especialmente en percentiles más altos.
Además, notamos que las secciones que se actualizaban con frecuencia /docstenían tiempos de renderización promedio más cortos en comparación con las secciones más estáticas. Por ejemplo, la /showcasepágina, a pesar de estar vinculada con frecuencia, mostraba tiempos de renderización más largos, lo que sugiere que Google puede ralentizar la nueva renderización de las páginas que no cambian significativamente.
Una creencia persistente en la comunidad de SEO es que los sitios que utilizan mucho JavaScript, especialmente aquellos que dependen de la representación del lado del cliente (CSR), como las aplicaciones de una sola página (SPA), sufren una detección de páginas más lenta por parte de Google. Nuestra investigación proporciona nuevos conocimientos al respecto.
Para investigar el impacto de JavaScript en el descubrimiento de páginas, hicimos lo siguiente:
/showcasepágina de nextjs.org , que contiene enlaces a páginas nuevas que no se habían descubierto anteriormente. Esto nos permitió probar si Google podía descubrir enlaces en datos de JavaScript que no se habían renderizado.https%3A%2F%2Fwebsite.com—en nuestra carga útil similar a RSC, lo que sugiere que su análisis de enlaces es muy estricto).<a>etiqueta o incrustado en una carga útil JSON) no afectaron la forma en que Google priorizó su rastreo. La prioridad de rastreo se mantuvo constante independientemente de si se encontró una URL en el rastreo inicial o después de la representación.sitemap.xmlreduce significativamente, si no elimina, las diferencias en el tiempo de descubrimiento entre los diferentes patrones de representación.Nuestra investigación ha desmentido varios mitos comunes sobre el manejo que hace Google de los sitios web con mucho JavaScript. A continuación, se presentan las conclusiones clave y las recomendaciones prácticas:
noindex el momento en que se agregan determinados elementos (como etiquetas) a la página es crucial, ya que es posible que Google no procese los cambios del lado del cliente.robots.txt.<a href="...">) en lugar de una navegación basada en JavaScript. Este enfoque mejora la navegación del usuario y la eficiencia del rastreo del motor de búsqueda, al tiempo que reduce potencialmente los retrasos en la representación.<lastmod>etiqueta en los sitemaps XML para guiar los procesos de rastreo e indexación de Google. Recuerde actualizarlos <lastmod>solo cuando se produzca una actualización de contenido significativa.Como hemos explorado, existen algunas diferencias entre las estrategias de renderizado cuando se trata de las capacidades de Google:
| Característica | Generación de sitios estáticos (SSG) | Regeneración estática incremental (ISR) | Representación del lado del servidor (SSR) | Representación del lado del cliente (CSR) |
| Eficiencia de rastreo: con qué rapidez y eficacia Google puede acceder, renderizar y recuperar páginas web. | Excelente | Excelente | Muy bien | Pobre |
| Descubrimiento: El proceso de encontrar nuevas URL para rastrear.* | Excelente | Excelente | Excelente | Promedio |
| Completitud de la representación (errores, fallos, etc.): con qué precisión y exhaustividad Google puede cargar y procesar tus páginas web sin errores. | Robusto | Robusto | Robusto | Puede fallar** |
| Tiempo de renderizado: el tiempo que tarda Google en renderizar y procesar por completo las páginas web. | Excelente | Excelente | Excelente | Pobre |
| Evaluación de la estructura de enlaces: cómo Google evalúa los enlaces para comprender la arquitectura del sitio web y la importancia de las páginas. | Después de renderizar | Después de renderizar | Después de renderizar | Después de la renderización, es posible que falten enlaces si la renderización falla |
| Indexación: El proceso mediante el cual Google almacena y organiza el contenido de su sitio. | Robusto | Robusto | Robusto | Es posible que no se indexe si falla la representación |
* Tener una versión actualizada sitemap.xmlreduce significativamente, si no elimina, las diferencias en el tiempo de descubrimiento entre diferentes patrones de renderizado.
** La renderización en Google generalmente no falla, como lo demuestra nuestra investigación; cuando lo hace, a menudo se debe a recursos bloqueados robots.txto casos extremos específicos.
Estas diferencias sutiles existen, pero Google descubrirá e indexará rápidamente su sitio independientemente de la estrategia de renderización. Concéntrese en crear aplicaciones web de alto rendimiento que beneficien a los usuarios más que en preocuparse por adaptaciones especiales para el proceso de renderización de Google.
Después de todo, la velocidad de la página sigue siendo un factor de clasificación, ya que el sistema de clasificación de experiencia de página de Google evalúa el rendimiento de su sitio en función de las métricas Core Web Vitals de Google .
Además, la velocidad de la página está vinculada a una buena experiencia del usuario: cada 100 ms de tiempo de carga ahorrado se correlaciona con un aumento del 8 % en la conversión del sitio web . Menos usuarios que abandonan la página significa que Google la trata como más relevante. El rendimiento es importante; los milisegundos importan.
Para conocer más sobre estos temas te recomendamos:
Fuente: Vercel.com
En la actualidad, cuando hablamos de empleo en el sector tecnológico, los trabajos para programadores…
La adopción del Software como Servicio (SaaS) en Latinoamérica ha experimentado un crecimiento sin precedentes…
En un mundo digital que evoluciona a la velocidad de la luz, el SEO no…
El SEO, o la optimización en motores de búsqueda, se ha convertido en una herramienta…
Los sitios web, blogs y campañas de marketing dependen cada vez más del contenido generado…
Descubra qué es la URL Rating (UR) y cómo se calcula