Que medir
Existen varias medidas de rendimiento y corrección mediante las cuales se puede evaluar la calidad de los resultados de búsqueda.
Recuperación de información
Las métricas tradicionales de evaluación de IR (recuperación de información) son memoria y precisión
Evaluación IR
- Cómo mejorar los resultados de búsqueda de WordPress
- ¿Qué ocupa un lugar más alto en la búsqueda de Facebook, esas páginas con marca azul o con marca gris?
- Cómo comenzar en SEO (para clientes)
- ¿Cuánto debe gastar un sitio web en SEO en un mes?
- ¿Cuál es la mejor herramienta para verificar el vínculo de retroceso?
Recordar
El retiro mide la integridad de los resultados.
Recuperación = resultados relevantes / (resultados relevantes + documentos relevantes no encontrados)
Recuperación de información
Precisión
La precisión mide cómo los resultados coinciden con la consulta
Precisión = resultados relevantes / (resultados relevantes + resultados no relevantes)
Recuperación de información
Ganancia acumulativa con descuento (DCG)
DCG penaliza los documentos altamente relevantes que aparecen más abajo en una lista de resultados de búsqueda
Recuperación de información
Tasas de clics (CTR)
Los clics que los motores de búsqueda web reciben en sus resultados se pueden usar para predecir la relevancia de los documentos y compararlos con el orden de clasificación actual del motor de búsqueda.
Página sobre Umass
Página sobre Stanford
http://research.microsoft.com/en…
Percepción de relevancia subjetiva
Esto incluye la elección del diseño, resaltado, selección de fragmentos, reescritura de títulos, conocimiento de la marca de la fuente de resultados, resultados visuales.
Cómo medir
Amazon Mechanical Turk
Puede usar Amazon Mechanical Turk para que los evaluadores humanos califiquen la calidad del resultado. Sus clasificaciones se pueden utilizar para comparar diferentes algoritmos propios o ver cómo funciona su algoritmo frente a la competencia .
También puede hacer preguntas más específicas a los evaluadores, por ejemplo, por qué prefieren un resultado sobre otro. Este método de prueba es factible ya en la etapa inicial de desarrollo.
Twitter : Mejorando la búsqueda de Twitter con cómputo humano en tiempo real | Blog de Twitter
Bing : http://blog.crowdflower.com/2009…
Powerset : resultados de búsqueda de pruebas de Powerset en Mechanical Turk | TechCrunch
Buscar evaluadores de calidad
Los grandes motores de búsqueda como Google están contratando “Evaluadores de motores de búsqueda” o “Jueces de calidad de búsqueda” para evaluar la calidad de la búsqueda.
Google: Google Search Quality Rater: una entrevista
Muestras de usuarios / Experimentos de búsqueda de vida
Para un ajuste fino en la etapa posterior del desarrollo, puede proporcionar resultados de diferentes algoritmos a diferentes grupos de usuarios (muestreados aleatoriamente de su audiencia general).
Luego puede comparar el rendimiento de esos resultados, por ejemplo, midiendo la tasa de clics de resultados en diferentes posiciones en un conjunto de resultados.
Google ejecuta desde 50 hasta 200 experimentos en sitios de Google en todo el mundo.
Google: experimentos de búsqueda, grandes y pequeños
Google: evaluación de búsqueda en Google
Evaluación de TREC
Búsqueda de evaluación de relevancia y evaluación comparativa basada en grandes colecciones de pruebas proporcionadas por TREC (The Text REtrieval Conference, copatrocinado por NIST y el Departamento de Defensa de EE. UU.).
Las “respuestas correctas” son una parte vital de una colección de pruebas TREC. Solo se hacen juicios binarios (“relevantes” o “no relevantes”). Un documento se considera relevante si alguna parte del mismo es relevante. La evaluación es realizada por expertos humanos utilizando una técnica de agrupación en el conjunto de documentos. Los juicios de relevancia se consideran “completos” para ese conjunto particular de documentos.
Descripción general de la Conferencia de recuperación de texto (TREC)
Aprendiendo a clasificar (LETOR)
Aprender a clasificar es usar el aprendizaje automático supervisado o semi-supervisado para construir automáticamente un modelo de clasificación a partir de datos de entrenamiento.
Aprendiendo a clasificar
Página en Microsoft
Página en contenido de usuario de Google
Página en Microsoft
Registro visual
Cada característica y actualización de clasificación influye en la forma en que los usuarios interactúan con un motor de búsqueda. El seguimiento ocular da una idea de esos cambios de comportamiento y permite si los resultados deseados se lograron en realidad.
Liderazgo de pensamiento