¿Cuál es la mejor manera de indexar 20 millones de páginas en Google?

Las Herramientas para webmasters de Google le permiten solicitar una mayor frecuencia de rastreo. La arquitectura de navegación se puede mejorar para ver si puede mejorar el acceso a más contenido. Míralo desde la perspectiva del usuario: si es difícil para un usuario encontrar una información específica, también puede ser difícil para los motores de búsqueda.

A menos que haya establecido la frecuencia de rastreo manualmente en las Herramientas para webmasters de Google, el rendimiento del sitio tendrá un efecto directo en la frecuencia de rastreo.

Solo intente hacer esto con un sitio que tenga la autoridad existente. Asegúrese de usar mapas de sitio XML, tenemos cientos de ellos con 50k páginas en cada uno, vinculados desde un índice de mapa del sitio, solo necesitamos enviar el índice a las Herramientas para webmasters y todas las URL de 20m + se envían automáticamente. Tenga en cuenta que esto es puramente optimización del lado del servidor, la optimización de los scripts del lado del cliente o CSS no tiene sentido ya que Googlebot no los rastrea. Asegúrese de que su SEO en la página y su estructura sean acertadas, evite enterrar páginas en el sitio

Asegúrese de no tener contenido duplicado debido a parámetros de URL inconsistentes o uso incorrecto de barras. Al eliminar el contenido duplicado, reduce el tiempo que Googlebot pasa rastreando algo que ya ha indexado.

Utilice enlaces de contenido relacionados y enlaces en el sitio dentro de su contenido siempre que sea posible. Aleatoriza algunos de tus enlaces. Una barra lateral con contenido interno aleatorio es un gran patrón para usar.

Encuentre formas de obtener enlaces externos a su contenido. Esto puede acelerar el proceso de indexación. Si es apropiado para el tipo de contenido, será más fácil compartirlo socialmente o por correo electrónico.

Referencia (webmasters.stackexchange)

Algunas mejores estrategias para indexar rápidamente 20 millones de páginas en google

  • Las Herramientas para webmasters de Google le permiten solicitar una mayor frecuencia de rastreo. Intenta hacerlo si aún no lo has hecho.
  • Eche otro vistazo a su arquitectura de navegación para ver si no puede mejorar el acceso a más contenido. Míralo desde la perspectiva del usuario: si es difícil para un usuario encontrar una información específica, también puede ser difícil para los motores de búsqueda.
  • Asegúrese de no tener contenido duplicado debido a parámetros de URL inconsistentes o uso incorrecto de barras. Al eliminar el contenido duplicado, reduce el tiempo que Googlebot pasa rastreando algo que ya ha indexado.
  • Utilice enlaces de contenido relacionados y enlaces en el sitio dentro de su contenido siempre que sea posible.
  • Aleatoriza algunos de tus enlaces. Una barra lateral con contenido interno aleatorio es un gran patrón para usar.
  • Use fechas y otros microformatos.
  • Utilice los canales RSS siempre que sea posible. Las fuentes RSS funcionarán de la misma manera que un mapa del sitio (de hecho, las Herramientas para webmasters de Google le permiten enviar una fuente como mapa del sitio).
  • Con respecto a los mapas de sitio, vea esta pregunta.
  • Encuentre formas de obtener enlaces externos a su contenido. Esto puede acelerar el proceso de indexación. Si es apropiado para el tipo de contenido, será más fácil compartirlo socialmente o por correo electrónico.
  • Proporcione una API para incentivar el uso de sus datos y enlaces externos a sus datos. Puede tener un enlace de atribución como requisito para el uso de datos.
  • Abraza a la comunidad. Si se comunica con las personas adecuadas de la manera correcta, obtendrá enlaces externos a través de blogs y Twitter.
  • Busque formas de crear una comunidad alrededor de sus datos. Encuentre una manera de hacerlo social. Las API, mashups, widgets sociales ayudan, pero también lo hacen un blog, exhibiciones comunitarias, foros y mecanismos de juego (también, vea este video).
  • Priorice qué contenido ha indexado. Con tantos datos, no todos serán absolutamente vitales. Tome una decisión estratégica sobre qué contenido es más importante, por ejemplo, será el más popular, tendrá la mejor oportunidad de ROI, será el más útil, etc. y asegúrese de que ese contenido se indexe primero.
  • Haga un análisis detallado de lo que está haciendo su competidor para indexar su contenido. Mire la arquitectura de su sitio, su navegación, sus enlaces externos, etc.

Gracias,

Kumar Singh de SrashtaSoft

  • Establezca la frecuencia de rastreo manualmente en las Herramientas para webmasters de Google, luego el rendimiento del sitio tendrá un efecto directo en la frecuencia de rastreo.
  • Solo trate de hacer esto con un sitio que tenga autoridad existente
  • Asegúrese de utilizar mapas de sitio XML, 50.000 páginas en cada uno, vinculados desde un índice de mapa del sitio, solo necesita enviar el índice a las Herramientas para webmasters y todas las URL de 20m + se envían automáticamente.
  • Debe asegurarse de que el sitio se pueda descargar lo más rápido posible. Tenga en cuenta que esto es puramente optimización del lado del servidor, la optimización de los scripts del lado del cliente o CSS no tiene sentido ya que Googlebot no rastrea estos
  • Asegúrese de que su SEO en la página y su estructura sean acertadas, evite enterrar páginas en el sitio

La mejor manera es crear múltiples mapas de sitio XML y enviarlos utilizando las herramientas para webmasters de Google. Depende de Google si los indexa o no, pero el mapa del sitio es una buena opción.

Como Kailash Aghera sugirió que funcionarán múltiples mapas de sitio. Pero crear 20 millones de entradas parece ser difícil. También puede intentar usar un servicio de ping como Pingfarm.