Cet IA expérimental se concentre sur des entrées ultra-longues avec une méthode d'attention épars fine-grained (DSA) qui maintient une qualité élevée tout en réduisant les calculs et les coûts. Il est conçu pour les grands documents, les grands bases de code, et les flux de travail multi-étapes en un seul appel, avec un support proche de ~128K jetons. Vous pouvez activer les modes "réflexion" ou réponse rapide via des modèles de prompt, le rendant flexible pour le raisonnement, la génération de code, les appels d'outils, et les tâches d'agent. Bien que le DSA réduise les frais généraux de jeton à jeton, les contextes longs nécessitent toujours une planification minutieuse de la mémoire et du cache KV. Les poids ouverts et le code sous une licence MIT permettent aux équipes de localiser et d'affiner pour la recherche ou les systèmes de production sensibles aux coûts.
