Gemini permite transcribir audios de forma automática |

Google ha incorporado una nueva función en Gemini que permite a los usuarios subir archivos para su análisis, incluyendo audios. Esta característica está disponible tanto en la versión web como en las aplicaciones móviles del chatbot de inteligencia artificial.

A partir de ahora, los usuarios pueden cargar grabaciones de audio en sus chats con Gemini para que este las resuma o transcriba según una instrucción dada. Esto resulta especialmente útil para estudiantes y profesionales que utilizan este tipo de archivos en su día a día.

Los estudiantes que graban sus clases pueden ahora subir esas grabaciones a Gemini para obtener transcripciones y resúmenes que faciliten la comprensión del contenido. Asimismo, los trabajadores que toman notas de audio, ya sea en entrevistas o anotaciones personales, también pueden utilizar Gemini para procesar esta información sin necesidad de hacerlo manualmente.

*Imagen referencial generada por IA.

Josh Woodward, jefe de Google Labs y de la app de Gemini, anunció en X (Twitter) que el soporte para audios era una de las características más solicitadas por los usuarios. La nueva herramienta ya está disponible en la web a través de gemini.google.com y en las aplicaciones para iOS y Android.

Cómo cargar y transcribir audios a través de Gemini

Si usas Gemini desde el ordenador, puedes cargar un archivo de audio haciendo clic en el ícono “+” y seleccionando Subir archivos. Luego, solo necesitas elegir el archivo y añadir la instrucción deseada, como “Transcríbela”, para que la inteligencia artificial genere una versión en texto del contenido.

En las aplicaciones para Android o iPhone, el proceso es similar. Debes tocar en “+” y luego en Archivos. Localiza el audio que deseas analizar y sigue el mismo procedimiento. También puedes formular preguntas o solicitar un resumen si el archivo es extenso.

Es importante mencionar que Gemini tiene ciertas limitaciones para procesar audios. La IA solo puede manejar archivos en formatos estándar, como MP3, WAV, FLAC o M4A. Para audios de WhatsApp, puede ser necesario convertirlos, ya que generalmente están en formato OPUS, que no es compatible.

Además, los usuarios de la versión gratuita de Gemini pueden procesar audios de hasta 10 minutos de duración. Los usuarios de versiones de pago, como Google AI Pro o Google AI Ultra, pueden procesar audios de hasta 3 horas. También se permite un peso máximo de 100 MB por archivo, y se pueden cargar hasta 10 archivos en un mismo prompt, o hasta 10 archivos comprimidos en un ZIP.

Fuente original: ver aquí