¿Cuál es el número mínimo de páginas que un motor de búsqueda general moderno tendría que indexar para ser útil?

“Útil” es una pregunta muy subjetiva. Las personas que con frecuencia hacen preguntas profundas y complejas de ingeniería de software específicas de lenguaje y algoritmos requerirán diferentes niveles de profundidad que aquellos que viajan mucho y solo quieren encontrar buenos precios en pasajes aéreos y los 5 mejores restaurantes y hoteles en cada ciudad.

Si tiene / realmente / buenos algoritmos, puede construir un motor de búsqueda que sea “bueno” para las personas que no requieren mucha profundidad con aproximadamente 100 millones de páginas. Para las personas que requieren profundidad, probablemente podría ser bastante útil en aproximadamente mil millones de páginas.

Esto depende PESADAMENTE de lo que elija incluir y excluir. ¿Están todas estas páginas en un solo idioma? ¿O son solo 100 páginas cada una de los principales 1 millón de sitios, independientemente del idioma y el contenido?

Aunque la web es fenomenalmente enorme, gran parte es duplicación y / o spam generado por computadora. Hay millones de sitios que son solo scraps / dumps de otros sitios (especialmente Wikipedia) e indexar 1000 copias de Wikipedia con diferentes CSS no te llevará muy lejos.

Piense en los sitios que visita regularmente y en los que aparecen regularmente en las búsquedas. ¿Cuántos de esos sitios útiles están por debajo de los primeros 100,000? ¿Importa si hay más de 100 millones de dominios cuando el 99.9% de sus necesidades están cubiertas por el 0.1% superior? Con un índice más pequeño, elegir lo que omites es bastante importante.

Hay un sitio con el que me gusta jugar cuando trato de encontrar resultados oscuros, es divertido experimentar con él y te ayuda a comprender cuánto afecta el tamaño / calidad de tu índice a tus resultados: Million Short