Ce qui vient de sortir
Google déploie Gemini 2.5 Flash, un modèle IA super-rapide qui introduit un bouton inédit : le thinking budget. En clair, vous choisissez la quantité de « réflexion »que l’IA consomme, de zéro à un plafond de tokens.
Pourquoi c’est malin ?
- Vitesse et coûts : moins l’IA raisonne, plus elle répond vite et moins elle coûte en GPU.
- Qualité sur mesure : pour une tâche complexe (analyse juridique, code), on monte le budget ; pour un chatbot simple, on peut le couper totalement.
Trois réglages à retenir
- Mode OFF (0) : Réponse éclair, coût mini / Usage : FAQ, support, requêtes triviales
- Mode Budget (ex. 500) : Bon compromis / Usage : Générer un résumé, écrire du code court
- Mode ON (max) : Raisonnement complet / Usage : Audit, planification longue, texte créatif
Et la concurrence ?
OpenAI et Meta parlent d’optimisation, mais aucun ne propose pour l’instant un curseur aussi simple pour doser le raisonnement à la volée. blog.google
À retenir : avec Gemini 2.5 Flash, vous payez (et attendez) seulement pour la réflexion dont vous avez vraiment besoin. Parfait pour équilibrer rapidité, facture et empreinte carbone sans sacrifier la qualité quand c’est crucial.