MAI-UI es la familia de agentes GUI de Alibaba Tongyi que puede percibir, razonar y actuar en interfaces de Android mediante instrucciones en lenguaje natural, superando a Gemini y GPT en tareas de navegación móvil.
¿Qué es MAI-UI?
MAI-UI (Mobile AI User Interface) es el conjunto de agentes de IA de Alibaba Tongyi Lab diseñados específicamente para controlar interfaces móviles de forma autónoma. El sistema puede recibir instrucciones en lenguaje natural y ejecutarlas dentro de aplicaciones Android: hacer clic, deslizar, escribir texto y pulsar botones del sistema. Lo que distingue a MAI-UI es su arquitectura integrada que combina, por primera vez en un único framework, tres capacidades clave: interacción con el usuario, llamadas a herramientas MCP y colaboración dispositivo-nube. Esto le permite manejar tareas complejas de forma coordinada sin necesidad de arquitecturas separadas. La familia de modelos incluye versiones de 2B, 8B, 32B y 235B parámetros, todos construidos sobre Qwen3VL. En benchmarks como AndroidWorld, MAI-UI supera a Gemini 2.5 Pro, Seed1.8 y UI-Tars-2 en tareas de navegación móvil general. Los pesos de MAI-UI-2B y MAI-UI-8B están disponibles en Hugging Face, lo que permite a equipos de investigación y empresas experimentar con automatización móvil avanzada sin dependencia de plataformas cerradas.
Casos de uso principales
Automatización de apps móviles, testing de interfaces, agentes IA en Android, investigación en GUI agents.
Puntuación Oledir
3.9/5 — Agente móvil IA