Créditos de imagen: Ignatieff/Getty Images
Mucho antes de que la mayoría de nosotros pensáramos en grandes modelos lingüísticos, DatosCebo Los cofundadores Kalyan Veermachanini y Neha Patki han estado creando una biblioteca de código abierto llamada Synthetic Data Vault o SDV Por un corto período. Las raíces de la empresa se remontan a 2016, cuando ambos trabajaban en el AI Data Lab del MIT. Tuvieron la idea de que, además de crear texto, imágenes y código, también se podían generar datos utilizando IA generativa.
Para las empresas que necesitan utilizar datos comerciales de alta calidad en modelos de lenguaje grandes (y para otros fines), pero no necesariamente pueden usar información de identificación personal para hacerlo, esta es una idea interesante. Hoy, la empresa surgió después de dos años para crear una versión comercial empresarial de SDV, así como de 8,5 millones de dólares en financiación inicial.
El director ejecutivo Veermachanini dice que esta capacidad de crear datos sintéticos a partir de bases de datos relacionales y tabulares es lo que distingue a la empresa de otras herramientas de creación de IA. «Nuestro software permite a nuestros clientes crear inicialmente un modelo de IA generativo personalizado. Luego pueden usar esos datos sintéticos en una variedad de casos de uso. Esto podría funcionar en atención médica, servicios financieros o en cualquier lugar donde sea necesario ocultar datos confidenciales para fines de prueba. y construcción de modelos.
Tradicionalmente, afirma, las empresas han tenido que crear datos sintéticos manualmente, lo cual es un proceso muy laborioso, difícil de escalar y propenso a errores. Al utilizar IA generativa para trabajar en un problema, simplemente describe el tipo de datos que necesita, el software analiza las características del conjunto de datos real y luego crea un conjunto simulado de alta calidad para fines de prueba sin revelar ninguna información confidencial.
Los fundadores comenzaron creando herramientas de código abierto, que resultaron muy populares y les ayudaron a probar diferentes partes centrales del software. «Hemos tenido más de un millón de descargas y mucha gente activa en nuestra comunidad», dijo el vicepresidente de Producto Patke. De hecho, tienen un canal de Slack en el que participan más de mil personas.
«Al hacer eso, creo que primero obtuvimos mucha validación para nuestros algoritmos subyacentes», dijo. «Tenemos confianza en que funciona, y si hay un error o algo así, nuestros usuarios públicos de código abierto lo encontrarán de inmediato». y podemos abordar cualquier «problema».
La gran diferencia entre la versión de código abierto y la versión comercial es el tamaño. La edición empresarial puede manejar hasta cien tablas, mientras que la edición abierta está diseñada para manejar sólo unas pocas tablas. Hasta la fecha, los clientes han creado modelos basados en más de 20 a 30 tablas.
La empresa cuenta actualmente con 11 empleados y prevé contratar unos 20 el próximo año, dependiendo de cómo crezca el negocio.
La financiación inicial de 8,5 millones de dólares de la startup fue dirigida por Link Ventures y Zetta Venture Partners con la participación de Uncordependent Ventures.
