¿Cuál es la mejor herramienta de anotación para vincular entidades?

Ambiverse Natural Language Understanding API es una API de vinculación de entidades y gestión de gráficos de conocimiento, basada en años de investigación de renombre mundial.

Contiene dos servicios (Portal del desarrollador):

  • Vinculación de entidades : el servicio Vinculación de entidades identifica y vincula nombres en texto (inglés, chino, español y alemán) a entidades en un gráfico de conocimiento basado en Wikipedia.
  • Knowledge Graph: el servicio Knowledge Graph le permite buscar y explorar el gráfico de conocimiento basado en Wikipedia, proporcionando información detallada de las entidades como descripciones, imágenes, URL de Wikipedia y sus tipos (por ejemplo, persona, músico, guitarrista, etc.).

El servicio de vinculación de entidades identifica automáticamente entidades nombradas, como personas, ubicaciones, organizaciones o productos en texto. Tomemos como ejemplo la frase “Cuando The Who tocó a Tommy en Columbus, Pete estaba en su mejor momento”. El lenguaje natural API entiende que “The Who” se refiere a la banda de rock clásico, que “Tommy” es uno de sus álbumes, que ” Pete “es su legendario guitarrista Pete Townshend, y finalmente ese” Columbus “se refiere a la ciudad de Columbus, Ohio, en los Estados Unidos. La tarea no es trivial, se puede hacer referencia a varias entidades con nombre con el mismo nombre. El nombre “Pete”, por ejemplo, puede significar múltiples entidades como Disney’s Pete, o Pete Seeger o incluso un barco, el USS Pete, entre muchos otros. Dado un texto, la API vinculará todas las entidades nombradas a un gráfico de conocimiento basado en Wikipedia.

Las entidades en el servicio Knowledge Graph contienen enlaces de Wikipedia, descripciones textuales, imágenes, enlaces a entidades relacionadas e información de tipo (Pete Townshend es un guitarrista de rock inglés, un artista de Atco Records, un cantante, un compositor, etc.). El servicio permite a los desarrolladores acceder al gráfico de conocimiento para consultar toda esa información sobre las entidades.

La identificación de entidades en el texto permite una transformación más precisa de los datos textuales en conocimiento procesable, medible y de fácil acceso. Al mismo tiempo, da acceso a todos los datos en la Nube de datos vinculados que está vinculada a Wikipedia, WikiData, DBpedia y YAGO, etc.

Aquí se pueden encontrar ejemplos concretos de cómo funciona la tecnología:

  • De 1914 a 1945 en minutos: una visión de la historia centrada en la entidad: un análisis de un libro de historia
  • Oh wie schön ist (offshore) Panamá! (¿O qué tienen en común un oso ficticio y un tigre con los jugadores de fútbol que juegan en una posición defensiva?): Un análisis de los Papeles de Panamá
  • También hay aplicaciones en búsqueda y análisis de tendencias detalladas en www.ambiverse.com

La tarea de vinculación de entidades tiene como objetivo identificar todos los fragmentos de texto pequeños en un documento que hace referencia a una entidad contenida en una base de conocimiento dada, por ejemplo, Wikipedia. La anotación generalmente se organiza en tres tareas. Dado un documento de entrada, la primera tarea consiste en descubrir los fragmentos que podrían referirse a una entidad. Como una mención podría referirse a varias entidades, es necesario realizar un paso de desambiguación, donde se selecciona la entidad correcta entre los candidatos. Finalmente, las entidades descubiertas se clasifican según alguna medida de relevancia. Se han propuesto muchos algoritmos de vinculación de entidades, pero desafortunadamente solo unos pocos autores han lanzado el código fuente o algunas API. Como resultado, evaluar hoy el rendimiento de un método en una sola subtarea o comparar diferentes técnicas es difícil.

Por estas razones, implementamos Dexter , un marco que implementa algunos algoritmos populares y proporciona todas las herramientas necesarias para desarrollar cualquier técnica de vinculación de entidades. Creemos que un marco compartido es fundamental para realizar comparaciones justas y mejorar el estado del arte.

Para obtener más información sobre el equipo y el marco, consulte la página acerca de.

Se está ejecutando una demostración simple del sistema en esta dirección. El etiquetador utilizado en la demostración es nuestra versión implementada de TAGME, tenga en cuenta que algunas anotaciones pueden ser diferentes, ya que los dos marcos utilizan diferentes volcados de Wikipedia y diferentes métodos para extraer los puntos.

Actualmente estamos trabajando para mejorar la calidad del código, que planeamos lanzar públicamente (bajo la licencia Apache V2) a mediados de septiembre (pero si no puede esperar, envíenos un correo electrónico y le daremos acceso a nuestro repositorio interno )

Mientras tanto, puede descargar el archivo binario que contiene todos los recursos para ejecutar Dexter.

El uso de entidades tagtog.net se vincula automáticamente a identificadores únicos que utilizan diccionarios personalizados, estos identificadores pueden pertenecer a cualquier base de conocimiento, incluido el dominio específico. La herramienta también proporciona una herramienta de anotación para que pueda crear manualmente el enlace.