Este IA experimental se centra en entradas ultra largas con un método de atención dispersa de granularidad fina (DSA) que mantiene una alta calidad mientras reduce los cálculos y costos. Está diseñado para documentos extensos, grandes bases de código y flujos de trabajo de múltiples pasos en una sola llamada, con soporte cercano a ~128K tokens. Puedes habilitar modos de "pensamiento" o respuestas rápidas a través de plantillas de indicaciones, lo que lo hace flexible para razonamiento, generación de código, llamadas de herramientas y tareas de agente. Aunque el DSA reduce la sobrecarga de token a token, los contextos largos aún requieren una planificación cuidadosa de memoria y caché KV. Los pesos abiertos y el código bajo una licencia MIT permiten a los equipos localizar y ajustar para la investigación o sistemas de producción sensibles al costo.
