¿Cómo se “depura” un motor de búsqueda web?

Que medir

Existen varias medidas de rendimiento y corrección mediante las cuales se puede evaluar la calidad de los resultados de búsqueda.
Recuperación de información

Las métricas tradicionales de evaluación de IR (recuperación de información) son memoria y precisión
Evaluación IR

Recordar
El retiro mide la integridad de los resultados.
Recuperación = resultados relevantes / (resultados relevantes + documentos relevantes no encontrados)
Recuperación de información

Precisión
La precisión mide cómo los resultados coinciden con la consulta
Precisión = resultados relevantes / (resultados relevantes + resultados no relevantes)
Recuperación de información

Ganancia acumulativa con descuento (DCG)
DCG penaliza los documentos altamente relevantes que aparecen más abajo en una lista de resultados de búsqueda
Recuperación de información

Tasas de clics (CTR)
Los clics que los motores de búsqueda web reciben en sus resultados se pueden usar para predecir la relevancia de los documentos y compararlos con el orden de clasificación actual del motor de búsqueda.
Página sobre Umass
Página sobre Stanford
http://research.microsoft.com/en…

Percepción de relevancia subjetiva
Esto incluye la elección del diseño, resaltado, selección de fragmentos, reescritura de títulos, conocimiento de la marca de la fuente de resultados, resultados visuales.

Cómo medir

Amazon Mechanical Turk
Puede usar Amazon Mechanical Turk para que los evaluadores humanos califiquen la calidad del resultado. Sus clasificaciones se pueden utilizar para comparar diferentes algoritmos propios o ver cómo funciona su algoritmo frente a la competencia .
También puede hacer preguntas más específicas a los evaluadores, por ejemplo, por qué prefieren un resultado sobre otro. Este método de prueba es factible ya en la etapa inicial de desarrollo.
Twitter : Mejorando la búsqueda de Twitter con cómputo humano en tiempo real | Blog de Twitter
Bing : http://blog.crowdflower.com/2009…
Powerset : resultados de búsqueda de pruebas de Powerset en Mechanical Turk | TechCrunch

Buscar evaluadores de calidad
Los grandes motores de búsqueda como Google están contratando “Evaluadores de motores de búsqueda” o “Jueces de calidad de búsqueda” para evaluar la calidad de la búsqueda.
Google: Google Search Quality Rater: una entrevista

Muestras de usuarios / Experimentos de búsqueda de vida
Para un ajuste fino en la etapa posterior del desarrollo, puede proporcionar resultados de diferentes algoritmos a diferentes grupos de usuarios (muestreados aleatoriamente de su audiencia general).
Luego puede comparar el rendimiento de esos resultados, por ejemplo, midiendo la tasa de clics de resultados en diferentes posiciones en un conjunto de resultados.
Google ejecuta desde 50 hasta 200 experimentos en sitios de Google en todo el mundo.
Google: experimentos de búsqueda, grandes y pequeños
Google: evaluación de búsqueda en Google

Evaluación de TREC
Búsqueda de evaluación de relevancia y evaluación comparativa basada en grandes colecciones de pruebas proporcionadas por TREC (The Text REtrieval Conference, copatrocinado por NIST y el Departamento de Defensa de EE. UU.).
Las “respuestas correctas” son una parte vital de una colección de pruebas TREC. Solo se hacen juicios binarios (“relevantes” o “no relevantes”). Un documento se considera relevante si alguna parte del mismo es relevante. La evaluación es realizada por expertos humanos utilizando una técnica de agrupación en el conjunto de documentos. Los juicios de relevancia se consideran “completos” para ese conjunto particular de documentos.
Descripción general de la Conferencia de recuperación de texto (TREC)

Aprendiendo a clasificar (LETOR)
Aprender a clasificar es usar el aprendizaje automático supervisado o semi-supervisado para construir automáticamente un modelo de clasificación a partir de datos de entrenamiento.
Aprendiendo a clasificar
Página en Microsoft
Página en contenido de usuario de Google
Página en Microsoft

Registro visual
Cada característica y actualización de clasificación influye en la forma en que los usuarios interactúan con un motor de búsqueda. El seguimiento ocular da una idea de esos cambios de comportamiento y permite si los resultados deseados se lograron en realidad.
Liderazgo de pensamiento

Creo que la tasa de páginas de 0 resultados también es importante, creo que también estos KPI deberían ser suficientes para mejorar la búsqueda en el sitio

  • Número promedio de búsquedas por sesión
  • % de búsquedas que no devuelven un resultado
  • % de sesiones de búsqueda que hacen clic en los resultados de búsqueda
  • % de sesiones que salen de las páginas de resultados de búsqueda
  • Relación de conversión de visitantes que usan la búsqueda en el sitio
  • Términos de búsqueda principales y tasas de conversión correspondientes
  • Agrupaciones de palabras clave principales
  • Palabras clave descompuestas principales
  • Principales palabras clave que no devuelven resultados de búsqueda
  • Ubicaciones principales en el sitio desde donde se accede a la búsqueda en el sitio desde
  • Número de búsquedas por sesión / número de elementos agregados de los resultados de búsqueda
  • Duración de la sesión para todas las sesiones que incluyeron búsquedas
  • Tiempo promedio dedicado a las páginas de resultados de búsqueda
  • Tiempo promedio empleado antes de buscar
  • Valor promedio de pedido para clientes que usaron la búsqueda en el sitio
  • Después de evaluar estas métricas para todo el tráfico de su sitio, puede obtener información adicional al evaluar también sus segmentos de visitantes. Armado con esta información, puede personalizar la experiencia de búsqueda para servir mejor a sus visitantes

Google analitico:
Google Analytics utiliza las siguientes fórmulas para calcular las métricas utilizadas en los informes de búsqueda interna del sitio:

  • Visitas con búsqueda = El número de visitas que utilizaron la función de búsqueda de su sitio al menos una vez.
  • Porcentaje de visitas que utilizaron la búsqueda interna = Visitas con búsqueda / Total de visitas.
  • Total de búsquedas únicas = El número total de veces que se utilizó la búsqueda de su sitio. Esto excluye múltiples búsquedas en la misma palabra clave durante la misma visita.
  • Vistas de página de resultados / Búsqueda = Vistas de página de páginas de resultados de búsqueda / Total de búsquedas únicas.
  • Salidas de búsqueda = El número de búsquedas que realizó un visitante inmediatamente antes de abandonar el sitio.
  • Porcentaje de salidas de búsqueda = Salidas / visitas de búsqueda con búsqueda
  • Refinamientos de búsqueda = El número de veces que un visitante volvió a buscar inmediatamente después de realizar una búsqueda.
  • Porcentaje de refinamientos de búsqueda = El porcentaje de búsquedas que dieron como resultado un refinamiento de búsqueda. Calculado como refinamientos de búsqueda / páginas vistas de las páginas de resultados de búsqueda.
  • Tiempo después de la búsqueda = La cantidad promedio de tiempo que los visitantes pasan en su sitio después de realizar una búsqueda. Esto se calcula como la suma de todas las duraciones de búsqueda en todas las búsquedas / ( search_transitions + 1)
  • Profundidad de búsqueda = El número promedio de páginas que los visitantes vieron después de realizar una búsqueda. Esto se calcula como la suma de todas las profundidades de búsqueda en todas las búsquedas / ( search_transitions + 1)
  • https://support.google.com/analytics/answer/1032321?hl=en

En blekko, lo más importante que podemos hacer para mejorar una consulta es trabajar en nuestra curación humana. ¿Clasificamos la consulta en el conjunto correcto de nuestras 2,000 categorías (slashtags)? ¿Faltan sitios web importantes de las etiquetas?

Si aún no hemos solucionado el problema, la investigación se vuelve más amplia: ¿rastreamos las páginas correctas en esos sitios web? ¿Hicimos un buen trabajo al clasificar estos términos de consulta en particular?

Algo bueno de trabajar para Blekko es que no somos reservados sobre nuestra tecnología o clasificación, por lo que puedo ser muy abierto al hablar de ellos. Incluso publicamos el contenido de nuestras etiquetas en github como datos abiertos: https://github.com/blekko/

Hay varias formas de depurar problemas con relevancia o evaluar para ver si nuestras iniciativas están alcanzando el objetivo. Podemos hacer que los resultados de búsqueda se califiquen manualmente, basarse en datos sobre el uso de nuestros productos de búsqueda y encuestar a los clientes para conocer sus comentarios. Es importante tener en cuenta que ninguno de estos enfoques es adecuado de forma aislada.

A través de la evaluación, podremos descubrir las cosas que no funcionan correctamente y los aspectos de nuestros productos de búsqueda que nuestros clientes deben corregir más. Estas ideas nos permitirán dirigir nuestros esfuerzos hacia donde más importa y priorizar mejor las iniciativas y asignar recursos. En segundo lugar, una evaluación adecuada promueve la transparencia y la confianza en las iniciativas que emprendemos. Utilizamos métricas de éxito como criterios para determinar el impacto de nuestras iniciativas de mejora de relevancia y para medir la calidad de nuestros resultados de búsqueda en el camino. Las métricas también nos permiten comunicar el progreso, los aprendizajes y los éxitos. Los detalles se discuten aquí. Si no mantiene la puntuación, solo practica y aquí no todas las métricas se crean de la misma manera.

Bueno, si mi amiga no trabaja en Google, entonces no hay mucho que pueda compartir con ella. 🙂 Los detalles sobre cómo depurar y ajustar el motor de búsqueda son altamente confidenciales.

Cuando las personas me preguntan sobre la búsqueda de Google, generalmente busco información disponible públicamente que pueda compartir, por ejemplo, el blog de Google o una página de Soporte de Google. O hablo en términos muy generales sobre cómo, por ejemplo, diseñamos e implementamos algoritmos que nuestras métricas de evaluación muestran que mejoran la experiencia de búsqueda de nuestros usuarios, pero que el aprendizaje automático no es una ciencia exacta, y su comportamiento a veces es impredecible, especialmente cuando usted tiene cientos de señales que interactúan entre sí.

Hay una herramienta de webmaster con la ayuda de la que solía depurar un motor de búsqueda web. El nombre de las herramientas para webmasters es Google-bot.