Tres herramientas gratis que potencian tu terminal (y tu IA)
Tres utilidades gratis y open source que potencian a tu agente: MarkItDown (leer documentos sin quemar tokens), VibeVoice (texto a voz) y Whisper (voz a texto).
Un agente de IA es tan bueno como las herramientas que tiene a la mano. En esta entrega te muestro tres utilidades gratis y de código abierto que potencian tu terminal: una para leer documentos sin malgastar dinero, una para convertir texto en voz y otra para convertir voz en texto. Las tres son de Microsoft y OpenAI, y se instalan en minutos.
1. MarkItDown — leer archivos sin quemar tokens
Cuando le pasas un PDF o un Word a una IA, gran parte del costo se va en "ruido": formato, metadatos, basura invisible. MarkItDown (de Microsoft) convierte PDF, Word, Excel, PowerPoint y más a Markdown limpio, conservando títulos, listas y tablas. En sus pruebas, un PowerPoint de 29 KB quedó en 289 bytes: 99% menos. Menos texto = menos tokens = más barato y más rápido.
Se instala con Python:
pip install markitdown[all]
Y convertir cualquier documento es una línea:
markitdown informe.pdf -o informe.md
Ahora le das el .md a tu agente en vez del PDF: entiende mejor y gastas una fracción.
Úsalo antes de pedirle a la IA que "resuma este documento": convierte primero a Markdown y pásale el texto limpio. Notarás la diferencia en velocidad y costo.
2. VibeVoice — convierte tus textos en voz
VibeVoice (de Microsoft, licencia MIT) es un modelo de texto a voz sorprendentemente natural: genera hasta 90 minutos de audio y admite varias voces en la misma grabación, ideal para convertir un artículo o tus apuntes en un "podcast" para escuchar mientras caminas.
- La forma rápida de probarlo: su demo en Hugging Face (busca "microsoft/VibeVoice"), pegas el texto y escuchas.
- La forma seria: lo corres local. Pide una GPU decente, pero existe la variante ligera VibeVoice-Realtime-0.5B para equipos modestos.
Combínalo con la serie: convierte tu documento a Markdown con MarkItDown, pídele a la IA que lo resuma, y dale ese resumen a VibeVoice para escucharlo.
3. Whisper — convierte voz en texto
El camino inverso. Whisper (de OpenAI, open source) transcribe audio a texto con muy buena precisión, incluso en español. Perfecto para pasar a texto una clase grabada, una reunión o una nota de voz. Con ffmpeg instalado (lo vimos en el post de convertir), transcribir es:
pip install -U openai-whisper
whisper clase.mp3 --language Spanish --model small
Te deja la transcripción en varios formatos (.txt, .srt para subtítulos…). Y de nuevo: esa transcripción se la puedes pasar a tu agente para que la resuma o la convierta en apuntes.
El patrón que vale oro
Fíjate en el hilo de las tres: todo se vuelve texto. Un documento, una grabación, una idea hablada… una vez en texto, tu agente de IA puede leerlo, resumirlo, traducirlo o reescribirlo. Estas herramientas son los "traductores" que conectan el mundo real con la terminal. Gratis, en tu máquina, sin pedir permiso.
Parte de la serie Terminal para todos.
Comentarios (0)
- Sé el primero en comentar.