Uno de los problemas que vemos casi siempre en cualquier página web son los contenidos duplicados. Los sitios web con cientos de páginas son especialmente propensas a esto. Pero que exactamente califican como contenido duplicado? Porque tener contenido duplicado nos lleva a tener problemas y como podemos evitarlo? Vamos a cubrir todo estos detalles que dentro de este artículo.
¿Qué son los contenidos duplicados?
El contenido duplicado es exactamente lo que usted piensa que es: dos o más piezas de contenido que son idénticas, siendo la única diferencia la URL.
Google ve cada URL como una página separada. Debido a esto, sería considerar las siguientes URLs para ser completamente páginas diferentes:
Una página original con camisas rojas: p://website.com/camisas/rojas
La misma página, pero ordenada por precio: http://website.com/camisas/rojas?ordenado=asc
El problema aquí es que básicamente estamos mirando la misma página con el mismo contenido. La única diferencia es que el contenido de la última dirección (URL) se encuentra en un orden diferente. Así que Google puede ver esto como contenido duplicado.
¿Por qué un contenido duplicado es inadecuado?
El contenido duplicado confunde a los motores de búsqueda. ¿Por qué? Debido a que tiene un tiempo difícil de decidir cual página es más relevante para una consulta de búsqueda.
Los motores de búsqueda no se mostrarán dos piezas idénticas de contenido en las SERPs. Esto se hace para asegurar la búsqueda de calidad; ver el mismo contenido dos veces no es muy interesante para los usuarios.
Otro problema es el poder de los rankings en las páginas duplicadas. En lugar de tener una sola página con mucha autoridad, puedes tener varias páginas diluidas, con rendimiento subóptimo. Esto le podría costar una gran cantidad de tráfico orgánico.
Cómo se crea el contenido duplicado
El contenido duplicado puede ser creado de forma deliberada o por accidente. Sin embargo, el resultado es el mismo.
Un ejemplo de contenido duplicado deliberado es la versión preliminar de una página. Es efectivamente la misma página con el mismo contenido, por lo que cuando esta versión preliminar se indexan, va a ver un problema con contenido duplicado.
Sin embargo, hay un montón de situaciones en las que se crea involuntariamente el contenido duplicado. Puede haber varias causas, tales como:
- ID de sesiones.
- Las opciones de clasificación.
- Códigos de afiliados.
- Dominios.
- Etc…
ID de sesiones
Un identificador de sesiones es una variable, una cadena de números generados aleatoriamente y/o letras que se utilizan para realizar un seguimiento de los visitantes. A menudo se utilizan para los carritos de compra, por ejemplo:
http://ejemploweb.com/?sessionid=5649612
El problema de los identificadores de sesiones es obvia: se pueden crear cientos, tal vez incluso miles duplicados. Almacenar los identificadores de sesiones en las cookies puede resolver este problema, pero si se basan en esta opción, no se olvide de la EU Cookie Law (una solución ligera, elegante y potente que permite que su sitio cumpla con la ley europea de las cookies).
Opciones de ordenación
Cuando las personas piensan acerca de las opciones de clasificación, por lo general piensan sobre catálogos de productos de una tienda online donde los usuarios puedan ordenar por precios, fecha, etc. Pero las funciones de clasificación se encuentran también a menudo en otros sitios web. Las siguiente URL usa una función de clasificación típica del blog.
http://website.com/category?sort=asc
La dirección URL con la opción ordenada y el original básicamente son la misma página. Es el mismo contenido, solamente ordenados de una manera diferente.
Códigos afiliados
Los códigos afiliados están apareciendo por toda la web. Se utilizan para identificar la URL de referencia, que a su vez está recompensando por traer un nuevo visitante. Un código afiliado puede tener un aspecto como este, por ejemplo:
http://website.com/product?ref=name
Una vez más, este código puede crear un duplicado de la página original.
Dominios
Incluso algo tan simple como un nombre de dominio puede ser a veces problemático. Echa un vistazo a las siguientes URLs:
http://website.com
http://www.website.com
Los motores de búsqueda han recorrido un largo camino, pero de vez en cuando todavía consiguen este mal. Ambas URL probablemente apuntan a la página de inicio, sino porque ambas URL se ven diferentes a veces son vistos como páginas diferentes.
Cómo identificar el contenido duplicado
Hemos hablado de cómo el contenido duplicado se crea, pero ¿Cómo puedes identificar estos problemas de contenidos duplicaods en tu sitio web?
La forma más sencilla de hacerlo es a tráves de Google Search Console. Ingrese a su cuenta y vaya a optimización>Mejorar HTML. Aquí encontrará una lista de títulos duplicados (que es, problamente, el contenido duplicado).
Google Search Console
Alternativamente, puede entrar al sitio web: -buscar comando en la barra de direcciones para encontrar las páginas de un dominio especifico (por ejemplo, el sitio: webdesign.tutsplus.com). Este método es muy útil si se sospecha que una página en particular tiene varios duplicados. Utilice el comando de sitio y pegar un par de frases a partir de la página sospechose. Si obtiene un mensaje de Google diciendo “En orden de morstrarle los resultados más relevantes, se han omitido algunas entradas…”, es probable que tenga el contenido duplicado.
Finalmente, también puedes utilizar rastreadores web, es un software como Xenu y Screaming Frog puedes usarlo para recopilar información necesaria. Analizar los títulos de página en el informe de rastreo y comprobar si hay duplicados (interesante no).
Resolviendo problemas de contenidos duplicados
Como dice el dicho: “Cada enfermedad tiene una cura”. Afortunadamente, hay varias maneras de curar problemas de contenido duplicado:
Redireccionamiento 301
Una forma sencilla de evitar el contenido duplicado a la hora de la indexación es un redireccionamiento 301. De esta manera el usuario y los motores de búsqueda serán redireccionados desde el duplicado hacia el original. Como resultado, todo jugo de enlace se envía a la página original.
Un redireccionamiento 301 se implementa en servidores Apache añadiendo reglas al archivo .htaccess del servidor. Tenga en cuenta que este método “borra” de la copia. Si no desea deshacerse la página(s) por duplicado, se debe utilizar el siguiente método.
Rel=canonical
Hay otra manera de decirle a los motores de búsqueda sobre el contenido duplicado; la etiqueta rel= “canonical”. Esta pieza de código debe ser implementado en el <head> de una página web. Por ejemplo:
Digamos que tenemos Página B que es un duplicado de página A. Si queremos informar a los motores de búsqueda de este, podríamos poner el siguiente código en el marcador de la página B.
<link href=”http://website.com/Page-A” rel=”canonical” />
Este código indica que la página actual es en realidad una copia de la URL mencionada anteriormente. Después de su aplicación, la mayoría de los enlaces se transferirá a la página original y mejorando el ranking de clasificación de esa página. A contrario a la redirección 301, las páginas duplicadas seguirán siendo accesibles.
Las etiquetas de Meta Robots
Las meta etiquetas robots es un archivo txt donde te permite indexar y no indexar algunas página no relevantes que puedan afectar en los motores de búsqueda, puesto a que también se recomienda usarlo para evitar indexar errores 404 y páginas duplicadas a la hora de la indexación.
Reescritura de URL
Esta es una solución más avanzada. Es más difícil de implementar si tienes una comprensión limitada de código, pero puede ser útil en un número de ocasiones.
Como lo había mencionado antes, el nombre de dominio a menudo puede causar problemas de contenido duplicado (www vs versión no-www). Puede resolve este problema mediante la adición de una regla de reescritura de URL de su archivo .htaccess (algo más que hemos cubierto anteriormente sobre WEbdesingtuts+).. Elige tu dominio preferido (www o sin www) y automáticamente volverá a transcribir las URLs hacia el dominio especificado.
Otro de los problemas que hemos hablado es el uso de Identificadores de Sesiones. El mismo URL con un ID de sesión diferente adjuntado puede verse como contenido duplicado. Una vez más el archivo .htaccess se puede utilizar para desactivar estos parámetros.
Google Search Console
In la sección anterior habíamos hablado acerca de la automática reescritura de URL para nombres de dominio. Una forma más fácil de hacer esto es a tráves de Google Webmaster Tools. Simplemente basta con acceder a su cuenta, vaya a Configuraciones, clic en Settings y establecer un dominio preferido.
Dominio Preferido Google Search Console
Si estas utilizando párametros de URL dinámicos, puedes decirle a google como puedes manejarlos. Esta es la manera que puedes decirle qué parámetros deben ser ignorados. Esto es a menudo que puede resolver muchos problemas de contenido duplicado. Visita Google Search Console y vaya a Configuración> Parámetros de URL. Si quieres más información puedes encontrarlo en Google Support, pero asegúrese de utilizar esta función sólo si sabe cómo funcionan los parámetros, de lo contrario puede inadvertidamente bloquear páginas, así que ten cuidado.
Orientación por idioma internacional
Este problema está relacionado con el contenido duplicado, pero hay algunas diferencias.
Supongamos que una empresa que vende productos en Perú tiene dos sitios web: negocio.pe y negocio.cl. El primero está dirigido a Perú, este último en Chile. En ambos sitios web nos encontramos con contenido que es similar debido a que los webmastes no querían volver a escribir varias páginas de texto.
Es posible que la versión de Perú superará a la versión de Chile (incluso en Google.cl), ya que tiene más autoridad. ¿Cómo podemos solucionar este problema ?.
Si usamos el ejemplo anterior, tenemos que añadir el siguiente código en la sección <head> del dominio .cl.
1.
<link rel=”alternate” hreflang=”es-ES” href=”http://negocio.pe/pagina-ejemplo”/>
En el dominio .cl tenemos que colocar este código:
2.
<link rel=”alternate” hreflang=”es-CL” href=”http://negocio.com/pagina-ejemplo”/>
En esencia, uste está diciendo a Google que no hay una versión alternativa (o duplicada) en otro idioma. El atributo hreflang utiliza la norma ISO639-1 para identificar el idioma. Opcionalmente puedes agregar la región en formato ISO 3166-1.
Cierre de contenido
Es mejor prevenir que lamentar… vinculación interna sistemática puede evitar la creación de contenido duplicado. Si usted tiene http://www.negocio.com como un dominio preferido, no apunte sus enlaces internos a la versión sin www. El mismo consejo se aplica en los enlaces entrantes. Si usted enlaza hacia su propio sitio web desde otro dominio, utilice una estructura de vínculos coherentes.
Así que ya sabes, no crear intencionalmente el contenido duplicado copiando grandes trozos de texto de otros sitios web. Google es probable que encuentre información sobre él y las consecuencias que podría no ser tan agradable:
En los raros casos en cual Google percibe que el contenido duplicado puede mostrar con la intención de manipular nuestras clasificaciones y engañar a los usuarios…. el ranking del sitio puede sufrir, o en el sitio puede ser eliminado por completo del índice de Google.
Conclusión
El contenido duplicado es algo que se ve en casi todos los sitios web. Puedo tener varias causas, ya sean accidentales o de otro tipo.
A menos que desee para evitar el acceso de la página a través de un redireccionamiento 301, lo mejor es utilizar el atributo rel= anotación canónica. Como alternativa, puede utilizar la etiqueta meta o robots de reescritura de URL automática. Las herramientas de Google Search Console también ofrecen algunas formas de evitar el contenido duplicado.
Esta entrada tiene 0 comentarios