Gemini prepara una nueva función para generar música a partir de texto

  • El análisis del APK de Gemini para Android revela la función interna MUSIC_GENERATION_AS_TOOL para crear música desde indicaciones de texto.
  • Google aprovecharía modelos como Lyria y una nueva sección My Stuff para organizar canciones generadas directamente en la app de Gemini.
  • La herramienta se plantea como complemento a Nano Banana, con foco en usuarios finales y posibles límites por suscripción y derechos de autor.
  • La generación musical nativa en Gemini situaría a Google en competencia directa con soluciones como Suno, Udio, AIVA o Adobe Generate Soundtrack.

generación de música a partir de texto para Gemini

La creación musical asistida por inteligencia artificial (modelos como MusicLM de Google) está a punto de dar un giro importante con la entrada en escena de una nueva función de generación de música a partir de texto para Gemini. Diversos análisis del código de la aplicación de Google para Android apuntan a que la compañía prepara una herramienta capaz de transformar simples descripciones escritas en piezas de audio completas.

Lo relevante de este movimiento es que la composición musical dejaría de ser un experimento reservado a desarrolladores o a proyectos aislados y pasaría a integrarse, de forma directa, en la app móvil de Gemini. De confirmarse, cualquier usuario podría pedir una banda sonora, una base instrumental o una melodía concreta escribiendo unas pocas líneas, sin necesidad de manejar software profesional ni saber teoría musical.

Una función oculta en el APK de Gemini para Android

La pista principal sobre esta futura función procede del examen de la versión 17.2.51.sa.arm64 de la aplicación de Gemini para Android. El portal especializado Android Authority ha localizado en el código de desarrollo una referencia explícita a una nueva capacidad identificada como MUSIC_GENERATION_AS_TOOL, incluida en la misma sección interna donde se listan las herramientas principales del asistente, como la generación de imágenes, vídeo, Deep Research o la integración con Google Search.

Esta etiqueta no parece un simple experimento puntual, sino la descripción de una herramienta musical integrada al mismo nivel que otras funciones clave de Gemini. En paralelo, se han encontrado otras cadenas de texto que refuerzan esta idea, como TYPE_MY_STUFF_GENERATED_MUSIC, pensada para clasificar contenidos musicales generados, o mensajes de error del tipo «isMusicGenSupported is false, show error message», que apuntan a controles internos para activar o desactivar la característica según la cuenta o el dispositivo.

Según el análisis de Android Authority, la función estaría todavía en una fase temprana de desarrollo, sin interfaz visible para el usuario y sin documentación pública. Por ahora, todo lo que se conoce procede de estas referencias técnicas internas, no de un anuncio oficial de Google.

Este tipo de hallazgos en APK es relativamente habitual en el ecosistema Android: primero aparecen las menciones en el código, después llegan las pruebas internas limitadas y, si todo avanza según lo previsto, se produce el lanzamiento público a través de una actualización de la app.

herramienta de Gemini para crear música con IA

De Nano Banana a la música: el siguiente paso creativo de Gemini

Durante los últimos meses, Google ha ido configurando a Gemini como un centro creativo multimodal capaz de trabajar con texto, imágenes y vídeo dentro de una misma experiencia. Un paso importante en esa estrategia fue Nano Banana, el sistema de generación y edición de imágenes que permite diseñar ilustraciones y composiciones visuales con instrucciones en lenguaje natural.

Con el tiempo, la compañía ha extendido Nano Banana hacia una versión más avanzada, con razonamiento mejorado y acceso a información en tiempo real en la web, con el objetivo de facilitar desde la creación de prototipos visuales hasta diagramas o infografías a partir de notas escritas. La lógica ahora parece clara: replicar este enfoque, pero orientado al audio y la música.

Las distintas filtraciones hablan de una especie de “Nano Banana para la música”, una herramienta de generación sonora, similar a OnePlus AI Music Studio, que se integraría de forma nativa en Gemini y que permitiría describir el tipo de pieza deseada —género, ritmo, ambiente, duración aproximada o contexto de uso— para obtener una composición original en cuestión de segundos.

En la práctica, esto podría traducirse en peticiones del estilo “canción de rock ochentero motivadora para entrenar”, “banda sonora tranquila para estudiar” o “melodía épica para un tráiler de videojuego”, a las que Gemini respondería con archivos de audio reproducibles sin que el usuario tenga que hacer nada más que escribir el prompt.

El papel de Lyria y el uso actual de la música en el ecosistema de Google

Esta posible función no parte de cero. Google ya dispone de modelos específicos orientados a la música, como Lyria, diseñado para generar y manejar estructuras musicales complejas. Lyria se ha utilizado hasta ahora principalmente a través de la API de Gemini y en proyectos experimentales, como la generación de audio vinculada a vídeos producidos con Veo o iniciativas de YouTube dentro del programa Dream Track.

En su configuración actual, Lyria permite a desarrolladores crear aplicaciones donde el usuario puede componer, dirigir y ejecutar música instrumental en tiempo real de forma interactiva. Sin embargo, estas capacidades se mueven en un terreno más técnico, orientado a quienes saben trabajar con APIs y entornos de desarrollo.

La gran diferencia de la nueva herramienta de generación de música a partir de texto para Gemini sería su orientación al usuario final: en lugar de requerir conocimientos de programación, las funciones musicales aparecerían como una opción más en la interfaz de la app, junto al resto de contenidos generados por la IA.

En la propia estructura de la aplicación ya se observan movimientos en esa dirección. La sección “My Stuff” (Mis cosas), donde se agrupan los contenidos creados con Gemini por tipo (texto, imágenes, vídeo, etc.), incorpora en el código interno una nueva categoría dedicada a la música generada. Todo indica que Google quiere que estas piezas de audio se puedan guardar, organizar y reproducir fácilmente desde el mismo espacio donde se almacenan el resto de creaciones.

Cómo podría funcionar para el usuario: prompts, accesos y límites

Aunque todavía no hay una interfaz terminada, las referencias encontradas apuntan a un uso similar al de la generación de imágenes. El usuario escribiría una descripción textual detallando el estilo musical, el estado de ánimo, el tempo aproximado o el uso previsto, y Gemini se encargaría del resto, devolviendo una pista de audio lista para escuchar.

Algunas cadenas de código sugieren que podría existir un sistema de restricciones por tipo de cuenta, algo en línea con lo que ya sucede con otras funciones avanzadas de la plataforma. No se descarta que la generación musical quede limitada a suscriptores de planes de pago, como quienes tengan acceso a Gemini Advanced o a ofertas bajo etiquetas como Google AI Premium.

También aparecen indicios de gestión de errores y disponibilidad regional, con mensajes preparados para notificar cuando la función no esté soportada en un dispositivo, un país o un perfil concreto. En Europa, donde la regulación sobre datos y derechos de autor es más estricta, será especialmente relevante ver cómo gestiona Google el despliegue.

En paralelo, la compañía estaría trabajando en My Stuff como sistema de organización transversal. En el caso de la música, esta sección agruparía las distintas composiciones generadas y permitiría al usuario buscar, filtrar y reutilizar sus pistas sin necesidad de descargarlas o exportarlas a otras plataformas, facilitando flujos de trabajo más ágiles para creadores de contenido y perfiles profesionales.

Ventaja competitiva y relación con otras soluciones de IA musical

La eventual llegada de la generación de música desde texto para Gemini situaría a Google en una posición particular dentro del mercado de la IA creativa. En la actualidad, ChatGPT puede ayudar a escribir letras, estructuras de canciones o ideas armónicas, pero no genera directamente archivos de audio reproducibles con música terminada dentro de la propia aplicación.

Por su parte, empresas como Adobe han introducido soluciones específicas como Generate Soundtrack, que crea bandas sonoras adaptadas a la duración y el tono de los vídeos dentro de Premiere. Sin embargo, estas funciones siguen en fase beta y se encuentran integradas sobre todo en un ecosistema profesional centrado en la edición audiovisual, no en un chatbot generalista.

En el plano de los servicios especializados, plataformas como Suno, Udio o AIVA ya ofrecen generación de canciones completas, fondos instrumentales o música para videojuegos a partir de prompts. La diferencia estaría en que Gemini, de concretarse esta función, integraría la música como una pieza más de un entorno multimodal que ya combina texto, imágenes y vídeo, lo que podría resultar especialmente interesante para creadores que quieran gestionar todo su contenido desde un único asistente.

Este enfoque unificado podría convertirse en una ventaja competitiva, sobre todo para usuarios que trabajan desde el móvil y quieren pasar de un boceto de guion a la imagen promocional y, después, a la pista sonora sin cambiar de herramienta.

Derechos de autor, estilo de los artistas y encaje legal en Europa

Como ocurre cada vez que la IA se adentra en el terreno musical, la cuestión técnica llega acompañada de un debate complejo sobre derechos de autor, entrenamiento de modelos y uso comercial de las obras. La industria ya ha mostrado preocupación por la posibilidad de que estos sistemas imiten estilos reconocibles de artistas reales —por ejemplo, hacer que una IA cante— o se basen en catálogos protegidos sin autorización.

Las filtraciones no aclaran qué límites impondrá Google, pero se especula con la existencia de barreras para evitar la copia directa de voces, melodías o patrones excesivamente similares a canciones conocidas. El enfoque de Adobe con Firefly, donde se hace hincapié en un entrenamiento orientado a minimizar conflictos legales y en la generación de música sobre todo instrumental sin voces, puede servir como referencia de hacia dónde podría moverse el sector.

En el contexto europeo, marcado por normativas más estrictas en materia de propiedad intelectual y uso de datos para entrenar modelos, el despliegue de una función así podría ser gradual y estar condicionado por nuevas interpretaciones regulatorias. Es previsible que Google tenga que ofrecer información más detallada sobre qué materiales se han utilizado para entrenar los modelos y bajo qué condiciones se pueden emplear las piezas generadas en proyectos comerciales.

Todo ello llega en un momento en el que la conversación sobre el impacto de la IA en la música profesional está especialmente viva, con asociaciones de artistas, sellos y entidades de gestión vigilando de cerca la aparición de estas tecnologías.

Estado actual del desarrollo y lo que pueden esperar los usuarios

Por ahora, la generación de música a partir de texto para Gemini no está disponible en la app pública. Google no ha aportado detalles oficiales sobre fechas, territorios de lanzamiento ni condiciones de uso, y todo lo que se sabe procede de la inspección de la APK y de la comparación con otras funciones ya desplegadas.

Mientras tanto, quienes quieran trabajar con IA musical dentro del ecosistema de Google deben recurrir a soluciones basadas en la API de Gemini o a proyectos donde Lyria se integra de forma controlada, normalmente dirigidos a desarrolladores o iniciativas experimentales. Para el usuario de a pie, no hay todavía un botón en Gemini que permita decir “crea una pieza musical” y recibir al instante un archivo sonoro descargable.

Aun así, el patrón que se ha observado en otras funciones de la compañía sugiere que, cuando una característica aparece repetidamente en el código y se acompaña de cadenas de organización interna como la nueva categoría de música en My Stuff, suele ser cuestión de tiempo que llegue a las pruebas internas ampliadas y, después, al lanzamiento general.

En un escenario donde la competencia entre grandes modelos de IA se intensifica —con OpenAI preparando nuevas funciones para ChatGPT y otras tecnológicas afinando sus propias propuestas creativas—, la incorporación de música como formato nativo en Gemini encajaría con la estrategia de Google de reforzar su posición como plataforma creativa integral.

Todo apunta a que la música será la próxima pieza en completarse dentro del tablero de Gemini: una función aún en construcción, descubierta entre líneas de código, que podría permitir a cualquier persona pasar de unas pocas palabras a una pista sonora original sin salir de la app, con el reto añadido de encajar tecnológica y legalmente en mercados exigentes como el europeo y en un ecosistema donde la creatividad humana y la inteligencia artificial tendrán que aprender a convivir muy de cerca.

MakeBestMusic
Artículo relacionado:
Cómo hacer jingles con IA: guía completa, herramientas gratis y ejemplos