Créditos de la imagen: flexión
Inflection, una startup de IA bien financiada que tiene como objetivo crear una «IA personal para todos», se deshizo con éxito del gran modelo de lenguaje que impulsa a su agente conversacional Pi. Es difícil evaluar la calidad de estos de alguna manera, y mucho menos de manera objetiva y sistemática, pero un poco de competencia es algo bueno.
Reflexión 1Como se llama el modelo, aproximadamente del tamaño y las capacidades de GPT-3.5 (también conocido como ChatGPT), medido en la potencia informática utilizada para entrenarlos. La empresa afirma que es competitiva o superior a otros modelos en este nivel, y lo respalda con una «Nota técnica» que describe algunos de los puntos de referencia que ha implementado en su modelo, el GPT-3.5, LLaMA, Chinchilla y PaLM-540B. .
De acuerdo con los resultados que publicaron, Inflection-1 en realidad se desempeña bien en varias métricas, como tareas de prueba de nivel de secundaria y preparatoria (piense en Biología 101) y criterios de «sentido común» (cosas como «Si Jack lanza una pelota al techo , Jill la tira hacia abajo, ¿dónde está la pelota?»). Principalmente se retrasa en la codificación, con GPT-3.5 superándolo fácilmente y, en comparación, GPT-4 elimina a la competencia; Se sabe que el modelo más grande de OpenAI dio un gran salto en calidad allí, por lo que no es sorprendente.
Inflection afirma que espera publicar los resultados de un modelo más grande comparable a GPT-4 y PaLM-2(L), pero sin duda están esperando hasta que valga la pena publicar los resultados. En cualquier caso, Inflection-2 o Inflection-1-XL o lo que sea que esté en el horno pero no completamente cocido.
La comunidad aún no ha desglosado formalmente los modelos de IA en el equivalente de aprendizaje automático de las clases de peso del boxeo, pero los conceptos se vinculan bastante bien. No esperes que un peso mosca se enfrente a un peso pesado, son prácticamente dos deportes diferentes. Lo mismo ocurre con los modelos de IA: el modelo pequeño no es tan capaz como el modelo grande, pero el modelo pequeño funciona de manera eficiente en el teléfono, mientras que el modelo grande requiere un centro de datos. Es algo de manzanas a naranjas.
Todavía es demasiado pronto para intentar tal cosa, ya que el campo aún es relativamente pequeño y no hay un consenso real sobre qué tamaños y formas de modelos de IA deben considerarse una pluma.
En última instancia, para la mayoría de estos modelos, la prueba de pudín se reduce a la degustación, por supuesto, y hasta que Inflection abra su modelo para un uso generalizado y una evaluación independiente, todos sus puntos de referencia deben tomarse con pinzas. Si quieres dispararle a una Pi, puedes añádelo en una de sus aplicaciones de mensajería, o Chatea con ella en línea aquí.