¿Cómo evita Pinterest u otro pinboard el contenido duplicado?

No estoy seguro de lo que hacen exactamente, pero esta es la técnica más común. Al guardar una imagen, puede verificar si la URL de la imagen o el sitio web ya existe en la base de datos. En ese caso, no crea una nueva entrada en la base de datos, sino que simplemente vincula a la existente. También es posible utilizar otra información como ancho / alto / tamaño de archivo / nombre de la imagen para encontrar duplicados, aunque no son tan precisos ya que, por ejemplo, todas las imágenes de Instagram son del mismo tamaño.

Esta no es una solución al 100% y en realidad no es tan importante para evitar duplicados por completo. El gran objetivo es garantizar que una sola página no muestre la misma imagen dos veces. De esa forma, los usuarios tienen la impresión de que no hay duplicados. Y eso se puede lograr con bastante facilidad con las técnicas anteriores.

La solución de alta tecnología sería analizar el contenido de la imagen (composición, paleta de colores, reconocimiento de texto, etc.), pero sería un rendimiento muy intenso y probablemente no lo que hacen.

No lo hace Hay toneladas de contenido duplicado en Pinterest. Una de las cosas, de hecho, que lo hace tan interesante es ver qué se obtiene de dónde y cuál es la relación pin a repin.

De alguna manera evitan que indexe lo que realmente no necesitan. Es contenido generado por el usuario y, por supuesto, es más probable que se haya tomado de algún sitio. ¿Ha notado que la imagen de pinterest aparece en la búsqueda de imágenes con Google?