Debe saber que Google está dando todo lo que tiene para que su chatbot Gemini y su modelo de lenguaje de gran alcance tengan más éxito, incluida la integración en toda su gama de productos. En Android, Gemini se ha convertido en el servicio de asistente predeterminado en muchos dispositivos, y la cantidad de cosas que puede hacer continúa creciendo con cada actualización. Aunque Gemini tiene la capacidad de poder interactuar con algunos servicios externos, su capacidad para controlar las aplicaciones de Android es muy limitada en este momento. Sin embargo, eso podría cambiar de manera importante con el lanzamiento de Android 16 el próximo año, que incluirá una nueva API que permite a servicios como Gemini llevar a cabo acciones en nombre de los usuarios dentro de las aplicaciones.
Una nueva API que permite a servicios como Gemini llevar a cabo acciones en nombre de los usuarios dentro de las aplicaciones
Las extensiones de Gemini son la forma en que el chatbot de Google interactúa hoy por hoy con los servicios externos. Las extensiones le proporcionan a Gemini acceso a servicios web como lo son; Google Flights, Google Hotels, así como OpenStax y más, lo que le permite extraer datos de estos servicios cuando se le hace preguntas relevantes. Del mismo modo hay extensiones para cosas como Google Maps, Google Home, YouTube y así mismo, Google Workspace, todas las cuales se encuentran disponibles como aplicaciones en Android.
Sin embargo, estas extensiones permiten que el chatbot use los datos de su cuenta al llamar a las API de backend para estos servicios en lugar de controlar directamente las respectivas aplicaciones de Android. Finalmente, hay algunas extensiones como Utilities que permiten que Gemini controle las aplicaciones de Android directamente, pero solo permiten que el chatbot lleve a cabo acciones básicas usando intenciones bien definidas.
Vale la pena destacar que el problema con las extensiones de Gemini es que no son escalables. Hay demasiadas aplicaciones de Android para las que Google no tiene la capacidad de poder crear extensiones, por no mencionar el hecho de que numerosas aplicaciones no ofrecen API públicas a las que Gemini pueda acceder. Mediante una combinación de tecnologías como la lectura de pantalla, la IA multimodal y así mismo, la entrada de accesibilidad, Gemini podría, en teoría, permitir a los usuarios controlar cualquier aplicación de Android a través del lenguaje natural, pero los resultados posiblemente no serían muy buenos dada la falta de contexto.
Una mejor solución vendría siendo que Google proporcione una API que permita a las aplicaciones trabajar directamente con Gemini para ejecutar determinadas funciones de la aplicación, que es exactamente lo que Google parece estar haciendo en Android 16.
Es de resaltar que cuando Google lanzó Android 16 DP1 a inicios de la semana pasada, detectamos un misterioso conjunto de nuevas API en los documentos para desarrolladores de Google relacionadas con una nueva característica denominada “funciones de la aplicación”.
Según la documentación de Google, una función de la aplicación “es una pieza específica de funcionalidad que una aplicación ofrece al sistema”. Estas funcionalidades se pueden integrar en varias funciones del sistema.
Cabe destacar que la descripción de las funciones de las aplicaciones por parte de Google es vaga, posiblemente de forma intencionada, sin embargo, favorablemente la descripción de uno de los nuevos métodos proporciona un ejemplo de una función de una aplicación. La descripción del método habla de cómo los identificadores de funciones tienen que ser únicos dentro de las aplicaciones y de que, “por ejemplo, una función para pedir comida podría identificarse como ‘orderFood’”. Así, por ejemplo, una aplicación de restaurante podría implementar una función de aplicación para pedir comida, o una aplicación de hotel podría implementar una función de aplicación para reservar una habitación.
Lo cierto es que, los detalles son limitados, pero parece que las aplicaciones crean funciones al definir un servicio al que solo tiene la posibilidad de acceder un proceso del sistema. Estas funciones de aplicación están expuestas al marco de búsqueda de aplicaciones de Android, que viene siendo el marco que impulsa la experiencia de búsqueda universal en Pixel Launcher, entre otras cosas. Las funciones de aplicación pueden ser ejecutadas por aplicaciones que tengan el permiso EXECUTE_APP_FUNCTIONS o el EXECUTE_APP_FUNCTIONS_TRUSTEDpermiso en Android 16.
Aunque ambos permisos solo se pueden conceder a las aplicaciones del sistema, el primero actualmente solo se otorga a las aplicaciones del sistema que tienen la ASSISTANTfunción (es decir, la aplicación de Google), mientras que el segundo actualmente solo se otorga a las aplicaciones del sistema que tienen la SYSTEM_UI_INTELLIGENCEfunción (es decir, Android System Intelligence). Ambos permisos permiten a las aplicaciones llevar a cabo acciones en nombre de los usuarios dentro de las aplicaciones, sin embargo, “las aplicaciones que contribuyen con funciones de la aplicación pueden optar por no permitir que los llamadores con el” EXECUTE_APP_FUNCTIONSpermiso, y en su lugar solo permiten que los llamadores con el EXECUTE_APP_FUNCTIONS_TRUSTEDpermiso las ejecuten.
Aunque faltan cuantiosos detalles, parece ser que la nueva función de funciones de aplicaciones de Android 16, permitirá a Gemini controlar las aplicaciones de una manera que Google Assistant nunca logró hacer.