Web scraping, el que copia mas rápido gana
Se trata de un caso real sobre robo de contenido web, planteado en el foro para webmasters de Google por el responsable del sitio perjudicado.
El usuario había notado que los contenidos generados en su sitio tardaban hasta 48 hs. en indexarse en el buscador, cuando los de su competencia directa con la misma temática se indexaban en horas.
La sorpresa mayor la tuvo cuando encontró que su competencia de forma alevosa, había comenzado a copiar textualmente sus últimas notas y esta eran consideradas originales por Google por indexarse primero.
Como resultado, estos post en el sitio perjudicado eran ignorados y no incluidos en el índice del buscador considerarlos duplicados, cuando realmente eran originales.
Por que ocurrió esto?… obviamente el problema era la demora en la indexación, tratando de averiguar la causa encontramos que el sitio copiado estaba faltando a las directrices de Google, puntualmente en exceso de meta datos.
Entonces por que seguía publicando si ser penalizado? … La conclusión mas lógica a la que llegamos, es que googlebot suele pasar por alto algunas faltas cuando el contenido es muy relevante, solo deja la página en cuarentena (sandbox) por algunos días, tiempo suficiente para que la competencia publique la nota como propia.
Este problema se ha agravado mas aun desde Febrero de 2011, cuando el algoritmo de Google tuvo un cambio drástico penalizando contenidos duplicados cuando antes no lo hacia.
Como este, son muchos los casos que generalmente se le hecha la culpa al buscador cuando en realidad son los webmasters que no se ajustan a sus reglas. Particularmente insisto en respeto a las directrices y publicar contenido relevante, ambos van de la mano como quedó demostrado aquí.

septiembre 2nd, 2011 at 10:03
[...] El contenido duplicado es uno de los mayores lastres que puede tener tu web a la hora de posicionarse, en ocasiones, incluso, aunque hayas publicado antes el contenido, si no tu web no tiene una frecuencia de rastreo tan alta como la web que te ha copiado; puede perjudicar directamente a un contenido que es tuyo y es original, a parte de la falta de ética de esta técnica conocida como scrapping (y que se incluso se puede llegar a automatizar), en este artículo se explica bastante bien en qué consiste el scrapping. [...]
septiembre 2nd, 2011 at 11:36
Buen aporte Daniel, sobre todo ahora que con Panda en acción se multiplican significativamente los episodios en que una copia aparece en mejor posición que el original.
Esperemos que el algoritmo corrija ese bug, ya que si el contenido es rey que sea justo para todos.
Gracias