¿Funciona realmente tu producto de IA? Cómo desarrollar el sistema de métricas adecuado

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.
En mi primera etapa como gerente de producto de aprendizaje automático (ML), una simple pregunta generó apasionados debates entre las distintas funciones y líderes: ¿Cómo sabemos si este producto realmente funciona? El producto que yo gestionaba atendía tanto a clientes internos como externos. El modelo permitió a los equipos internos identificar los principales problemas que enfrentaban nuestros clientes para priorizar las experiencias adecuadas para resolverlos. Con una red tan compleja de interdependencias entre clientes internos y externos, elegir las métricas adecuadas para capturar el impacto del producto fue crucial para encaminarlo hacia el éxito.
No monitorear el correcto funcionamiento de su producto es como aterrizar un avión sin instrucciones del control aéreo. Es imposible tomar decisiones informadas para su cliente sin saber qué funciona bien o mal. Además, si no define activamente las métricas, su equipo identificará sus propias métricas de respaldo. El riesgo de tener múltiples versiones de una métrica de "precisión" o "calidad" es que cada uno desarrolle su propia versión, lo que podría llevar a que no todos trabajen para obtener el mismo resultado.
Por ejemplo, cuando revisé mi objetivo anual y la métrica subyacente con nuestro equipo de ingeniería, la respuesta inmediata fue: "Pero esta es una métrica comercial, ya hacemos un seguimiento de la precisión y la recuperación".
Una vez que se ponga manos a la obra para definir las métricas de su producto, ¿por dónde empezar? En mi experiencia, la complejidad de operar un producto de aprendizaje automático con múltiples clientes también implica definir métricas para el modelo. ¿Qué uso para medir si un modelo funciona correctamente? Medir los resultados de los equipos internos para priorizar los lanzamientos según nuestros modelos no sería lo suficientemente rápido; medir si el cliente adoptó las soluciones recomendadas por nuestro modelo podría arriesgarnos a sacar conclusiones basadas en una métrica de adopción muy amplia (¿qué sucedería si el cliente no adoptó la solución porque solo quería contactar con un agente de soporte?).
Avanzamos rápidamente hasta la era de los grandes modelos de lenguaje (LLM), donde no solo tenemos un único resultado de un modelo de AA, sino que también tenemos respuestas de texto, imágenes y música como resultados. Las dimensiones del producto que requieren métricas ahora aumentan rápidamente: formatos, clientes, tipo... la lista continúa.
En todos mis productos, al crear métricas, mi primer paso es resumir lo que quiero saber sobre su impacto en los clientes en unas pocas preguntas clave. Identificar el conjunto correcto de preguntas facilita la identificación del conjunto correcto de métricas. Aquí hay algunos ejemplos:
- ¿El cliente obtuvo un resultado? → métrica de cobertura
- ¿Cuánto tiempo tardó el producto en proporcionar un resultado? → métrica de latencia
- ¿Le gustó el resultado al usuario? → Métricas de retroalimentación, adopción y retención de clientes
Una vez identificadas las preguntas clave, el siguiente paso es identificar un conjunto de subpreguntas para las señales de entrada y salida. Las métricas de salida son indicadores rezagados que permiten medir un evento ya ocurrido. Las métricas de entrada y los indicadores adelantados pueden utilizarse para identificar tendencias o predecir resultados. A continuación, se explica cómo añadir las subpreguntas adecuadas para indicadores rezagados y adelantados a las preguntas anteriores. No todas las preguntas deben tener indicadores adelantados o rezagados.
- ¿El cliente obtuvo un resultado? → cobertura
- ¿Cuánto tiempo tardó el producto en proporcionar un resultado? → latencia
- ¿Le gustó el resultado al usuario? → comentarios de los clientes, adopción y retención de clientes
- ¿El usuario indicó que la salida es correcta/incorrecta? (salida)
- ¿El resultado fue bueno/regular? (entrada)
El tercer y último paso es identificar el método para recopilar métricas. La mayoría de las métricas se recopilan a escala mediante nueva instrumentación mediante ingeniería de datos. Sin embargo, en algunos casos (como en la pregunta 3 anterior), especialmente para productos basados en aprendizaje automático, se pueden realizar evaluaciones manuales o automatizadas que evalúan los resultados del modelo. Si bien siempre es recomendable desarrollar evaluaciones automatizadas, comenzar con evaluaciones manuales para determinar si el resultado fue bueno o regular y crear una rúbrica para las definiciones de bueno, regular y no bueno también ayudará a sentar las bases para un proceso de evaluación automatizada riguroso y probado.
El marco anterior se puede aplicar a cualquier producto basado en aprendizaje automático para identificar la lista de métricas principales de su producto. Tomemos como ejemplo la búsqueda.
Pregunta | Métrica | Naturaleza de la métrica |
---|---|---|
¿El cliente obtuvo un resultado? → Cobertura | % de sesiones de búsqueda con resultados de búsqueda mostrados al cliente | Producción |
¿Cuánto tiempo tardó el producto en proporcionar un resultado? → Latencia | Tiempo que tarda en mostrarse los resultados de búsqueda para el usuario | Producción |
¿Le gustó el resultado al usuario? → Comentarios de los clientes, adopción y retención de clientes ¿El usuario indicó que el resultado es correcto o incorrecto? (Salida) ¿El resultado fue bueno o regular? (Entrada) | % de sesiones de búsqueda con comentarios positivos del cliente en los resultados de búsqueda o % de sesiones de búsqueda con clics del cliente % de resultados de búsqueda marcados como 'buenos/regulares' para cada término de búsqueda, por rúbrica de calidad | Producción Aporte |
¿Qué tal un producto para generar descripciones para un listado (ya sea un elemento del menú en Doordash o un listado de productos en Amazon)?
Pregunta | Métrica | Naturaleza de la métrica |
---|---|---|
¿El cliente obtuvo un resultado? → Cobertura | % de listados con descripción generada | Producción |
¿Cuánto tiempo tardó el producto en proporcionar un resultado? → Latencia | Tiempo necesario para generar descripciones para el usuario | Producción |
¿Le gustó el resultado al usuario? → Comentarios de los clientes, adopción y retención de clientes ¿El usuario indicó que el resultado es correcto o incorrecto? (Salida) ¿El resultado fue bueno o regular? (Entrada) | % de listados con descripciones generadas que requirieron ediciones del equipo de contenido técnico/vendedor/cliente % de descripciones de listados marcadas como 'buenas/regulares', según la rúbrica de calidad | Producción Aporte |
El enfoque descrito anteriormente es extensible a múltiples productos basados en aprendizaje automático. Espero que este marco le ayude a definir el conjunto de métricas adecuado para su modelo de aprendizaje automático.
Sharanya Rao es gerente de productos de grupo en Intuit .
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat