Microsoft acaba de lanzar Fara-7B, su primer modelo pequeño de lenguaje diseñado específicamente para usar computadoras como lo haríamos tú o yo.
Con solo 7 mil millones de parámetros, este modelo compacto está diseñado para ejecutarse directamente en tu dispositivo, lo que significa menos latencia, más privacidad y una experiencia más fluida.
Un modelo que usa tu PC como un humano
A diferencia de los típicos chatbots que solo generan respuestas de texto, Fara-7B es un agente de uso de computadora (CUA, por sus siglas en inglés) que realmente interactúa con tu sistema.
Puede hacer clic, escribir, desplazarse y navegar por sitios web tal como lo harías tú, pero de forma automatizada.
Lo más interesante es que no necesita todo un ecosistema de modelos en la nube para funcionar. Mientras que otros agentes de IA requieren servidores masivos y múltiples subsistemas trabajando en segundo plano, Fara-7B es un modelo único, compacto y autosuficiente.
Simplemente mira una captura de pantalla y toma decisiones basándose en lo que ve, sin depender de información adicional como árboles de accesibilidad o análisis complejos.
Cómo lo entrenaron (y por qué importa)
Microsoft desarrolló un sistema de entrenamiento llamado FaraGen que genera datos sintéticos a escala masiva.
Este sistema hace que agentes de IA realicen tareas reales en más de 70,000 dominios web, imitando comportamientos humanos como errores, reintentos, desplazamiento y búsquedas.
Cada sesión es revisada por tres jueces de IA separados para garantizar que los pasos tengan sentido y que los resultados coincidan con lo que aparece en pantalla.
Después de este filtrado riguroso, Microsoft conservó 145,630 sesiones verificadas que contienen más de 1 millón de acciones individuales para entrenar el modelo.
Rendimiento y eficiencia
Aquí viene lo bueno. Fara-7B usa alrededor de 124,000 tokens de entrada y solo 1,100 tokens de salida por tarea.
Microsoft estima que completar una tarea completa cuesta aproximadamente 2.5 centavos de dólar, en comparación con los 30 centavos que costarían agentes más grandes basados en GPT-4 u O3.
En cuanto a rendimiento, los números son sólidos para un modelo tan ligero. Alcanza un 73.5% en Web Voyager, 34.1% en OnlineMind 2 Webb, 26.2% en DeepShop y 38.4% en WebTailBench.
Este último benchmark es especialmente relevante porque se enfoca en tareas del mundo real como solicitudes de empleo y búsquedas inmobiliarias.
Ya está disponible (y puedes probarlo)
Fara-7B está disponible ahora en Microsoft Foundry y Hugging Face bajo una licencia MIT. También se integra con Magentic-UI, un prototipo de investigación de Microsoft Research AI Frontiers.
Pero hay más. Microsoft está lanzando una versión cuantizada y optimizada para silicio específicamente para las Copilot+ PCs con Windows 11.
Esto significa que puedes instalarlo y probarlo localmente en tu equipo sin depender de la nube. El paquete preoptimizado se puede descargar y ejecutar directamente en entornos comunitarios.
Al ser un modelo de pesos abiertos, Microsoft espera bajar las barreras para los desarrolladores que quieran experimentar y avanzar en la tecnología de agentes de uso de computadora, especialmente para automatizar tareas web cotidianas.