Web scraping, el que copia mas rápido posiciona mejor

scraping-2

Pongamos como ejemplo un caso real sobre robo de contenido web (web scraping), planteado por el webmaster del sitio perjudicado.

Un día comenzó a notar que los contenidos generados en su sitio se demoraban hasta 48 hs. en indexar en el buscador, mientras que los de su competencia, con la misma temática se indexaban en horas.

La sorpresa mayor la tuvo cuando encontró que el webmaster de su competencia copiaba textualmente sus últimos artículos de forma alevosa, estos aparecían en los resultados del búsqueda e incluso lograban un mejor posicionamiento en el buscador.

Como resultado, estos post en el sitio perjudicado eran relegados a una muy baja clasificación en el índice de Google por considerarlos duplicados, cuando realmente eran originales.

¿Por que ocurrió esto?… en este caso el sitio copiado estaba violando las directrices de calidad de Google, ya que participaba de un esquema de enlaces, por el cual le pesaba una acción manual, y como efecto colateral demoraba en la indexación.

Pero dejando de lado este caso puntual, aún sin existir una sanción, la demora al indexar contenido nuevo, es muy común en sitios web, ya sea debido a variaciones en la frecuencia de rastreo, autoridad, antigüedad etc.

Supongamos ahora, que algún “bloguero astuto”, aprovecha esa demora natural, y en vez de hacer “copy paste”, utiliza el feed RSS de nuestro sitio para robar nuestros artículos. Como sabemos, el feed generado mediante cualquiera de las plataformas conocidas, llega en segundos a los lectores de noticias y pueden ser replicados en cualquier medio, incluso en blogs.
Entonces, el mismo bloggero astuto, publica en las redes sociales un articulo nuestro como suyo, y fuerza a que el buscador indexe la publicación copiada mediante una Solicitud de rastreo o utilizando, Rastrear como Google  de Search console.

Resultado: el articulo ahora para Google es de su autoría y a nosotros “se nos escapó la tortuga”

¿Que debemos hacer para que esto no ocurra?

Lo primero es lograr que nuestros post se indexen mas rápido siguiendo los mismos pasos que el astuto personaje, pero algo mas elaborado:

No enviar los post completos al feed,  sino solo los resúmenes con un enlace para leer completo el articulo. Esto se puede configurar fácilmente desde cualquiera de las plataformas conocidas y es  algo que muchos olvidan.

También se puede lograr al asociar y vincular nuestros feeds con Feedburner, que ademas nos garantiza que la publicación llegará a la mayor cantidad de suscriptores en tiempo real,  pero si  activamos la función PingShot, se habilita el protocolo de publicación Pushsubhub, que evita en sus nodos concentradores, replicas de una suscripción.

Se supone que esto indicará al algoritmo cual es el contenido válido, pero si no es así, tengamos en cuenta que Feedburner pertenece a Google, y es de suponer que esto sienta un precedente ante cualquier reclamación por copia de contenido.

Reclamos por copia de contenido

Cuando nada de lo anterior resulto bien, Google ofrece enviar un Reporte de contenido copiado, aunque aclara que no es un informe de spam o de copyright, esto lo pone a la altura de una “declaración testimonial” y no una denuncia concreta.

Licencias Creative Commons

Tener licencias Creative Commons para proteger nuestro contenido, te da derecho a utilizar el ícono enlaza con el Commons Deed, para que quien acceda a tu contenido, se informe de las condiciones de la licencia.

Es un argumento válido para presionar a quien nos copia, lo que en mi barrio le llamamos “apriete”, y para argumentar en el Reporte de contenido copiado, pero está en manos de Google tomar una decisión, y esto puede llevar su tiempo.

El único modo que Google elimina la página scraper de los resultados en pocas horas, es presentando una solicitud basada en la ley estadounidense de protección de los derechos de autor (Digital Millennium Copyright Act, DMCA) que aunque muchos creen que se aplica solo a Música y videos de Youtube, también abarca texto.

Pero lograr esa protección DMCA, ya es motivo para otra nota.

Compartir

9 comentarios en “Web scraping, el que copia mas rápido posiciona mejor”

  1. Realmente hoy debemos ser custodios de lo que escribimos, no es posible que tengamos que verificar periódicamente si alguien nos ha copiado. Es desgastante encontrar otras webs que te copian descaradamente, y ademas monetizan sus páginas a costa nuestra.
    Me cansé de reportar contenido copiado porque parece que no da resultado ¿Que recomiendas hacer?

    Saludos

  2. Muy interesante Pablo, pero pareciera que Google no es que no puede si no que no quiere, justamente para penalizar al webmaster que no respeta sus directrices con exceso de meta datos, etc., porque creo que fácilmente se sabría cual es la publicación original con solo leer la fecha de publicación y hacer los reajustes necesarios en el buscador, pero ocurre que el que copia tampoco cumple las normas y en ese caso, tal vez, estaríamos frente a otra causa o causas para esta injusticia… no se, ese pinguino es un tanto extraño 😉

    1. No es tan simple como leer la fecha de publicación, la mayoria de los gestores de contenidos o blogs, permiten fácilmente publicar una nota con fecha anterior, eso facilita la labor del que roba contenido.
      Si lees este artículo de Matt Cutts sobre contenido copiado veras que no es tan sencillo http://goo.gl/JWsVd, alli dice entre lineas que Google no tenia forma de diferenciar a ciencia cierta el original de la copia.

      Ahora con el MarkUp de Autoría Google puede decidir con datos mas precisos quien es el autor, pero no muchos usuarios saben aun como implementarlo correctamente.

      PD: ya me acostumbré a que me cambien el nombre por Pablo 😉

  3. Tocaste un punto interesante y es justo eso. Todos dan un brinco cuando Google hace un cambio, pero son los webmasters los que deben ajustarse y no a Google precisamente sino a las normas de los usuarios, pues son estos los que realmente hacen las reglas. Los buscadores se esfuerzan por satisfacer a los usuarios y si tu sitio está hecho para los usuarios pues Google te amará…

  4. Asi es, y lamentablemente Google ha confirmado que no puede hacer nada, la única alternativa es publicar la nota simultaneamente en la mayor cantidad de bookmarks y redes sociales, a la espera que se indexe antes que alguien lo copie.

Responder a Carlos Pablak Cancelar respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *