¿Cuáles son las mejores prácticas en el web scraping en el contexto de SEO?

No estoy seguro de qué ángulo está pidiendo. Esperemos que esté preguntando sobre el efecto de que otros raspen su contenido, y NO cómo raspar contenido en beneficio del SEO.

Aún así, el contenido es importante, y la curaduría es una contribución viable a la web. Entonces, si está preguntando CÓMO raspar otros sitios para SEO, le ofreceré algunas pautas al respecto.

De lo contrario, aquí hay algunos enlaces sobre cómo prevenirlo:

  • 7 maneras de proteger el sitio web del raspado y cómo evitar esta protección
  • Prevención del raspado web: mejores prácticas para mantener su contenido seguro
  • ScrapeBreaker
  • Atribución automatizada de enlaces con Copy-Magic-Paste

Sin embargo, si realmente quiere “raspar” el contenido, aquí hay algunos detalles: dirigidos a los datos, no al contenido del artículo sin procesar.

En primer lugar, esto es épico: Import.io | Plataforma de datos web y herramienta gratuita de raspado web

Aquí hay un enfoque aún más pesado para los datos tabulares: Uso de la función IMPORTHTML de Google Sheets para mostrar datos en Geckoboard

Si desea hacer algo como importar una fuente RSS en un sitio de WordPress: WP RSS Aggregator

Ok, eso es todo para ti. Por supuesto, hay una gran cantidad de usos legítimos para estas herramientas, pero si está buscando raspar contenido con el propósito de convertir el contenido de otras personas en contenido “único” para su propio sitio, simplemente no lo haga. Seriamente.

Los hilanderos de artículos son bastante tontos, he visto un montón de ellos. Puedes pensar “Lo giraré, luego lo editaré para que sea legible para los humanos”. En el momento en que elijas un artículo, encuentres un spinner, lo revises y lo edites, es posible que hayas escrito TU PROPIO ARTÍCULO ÚNICO, que es lo que debes hacer de todos modos.

Solo por diversión, pasé el párrafo anterior a través de una rueda de contenido. Esto es lo que ocurrió:

“Los hilanderos de artículos son bastante tontos, he visto un montón de ellos. Puede imaginar “lo haré girar, luego lo editaré para que sea legible para los humanos”. En el momento en que seleccione un artículo, encuentre una rueda giratoria, revise y edite; puede que simplemente haya escrito su artículo preciso personal, que es lo que debe hacer de todos modos ”.

Lo más probable es que una vez que solucione que de todos modos no pasará por Copyscape.

En cualquier caso, espero que eso responda a su pregunta. Toma el camino, amigo, la web no necesita más spam.

Si su pregunta se centra en los detalles de la empresa, como las marcas, las direcciones, los empleados u otros para promover su SEO, es posible que desee obtener datos de diferentes sitios web sociales como LinkedIn y Facebook. Si es así, le recomiendo que use la herramienta de raspado web Octoparse para extraer datos de estos sitios web. Podrías ver el tutorial ¿Cómo extraer información de LinkedIn? y Raspe los datos de Facebook para saber cómo obtener la información que desea.

¡Espero que esto pueda ayudarte!

No creo que haya cambios en el proceso de raspado web en sí mismo, sin importar si está utilizando datos para SEO o cualquier otro propósito más adelante.

Si está hablando de raspar el contenido de otra persona y usarlo como propio, es probable que ahora sea una buena idea. Pero si está hablando de recopilar algunos datos que está extrayendo de los datos recopilados y usarlos más tarde para escribir o generar su propio contenido, funcionará.