Juan Diego Andrés PRADA··RAMÍREZ Entrar
← Escritos Tutoriales

Tres herramientas gratis que potencian tu terminal (y tu IA)

Tres utilidades gratis y open source que potencian a tu agente: MarkItDown (leer documentos sin quemar tokens), VibeVoice (texto a voz) y Whisper (voz a texto).

JD
Juan Diego Prada
18 de junio, 2026 · 3 min de lectura 3

Un agente de IA es tan bueno como las herramientas que tiene a la mano. En esta entrega te muestro tres utilidades gratis y de código abierto que potencian tu terminal: una para leer documentos sin malgastar dinero, una para convertir texto en voz y otra para convertir voz en texto. Las tres son de Microsoft y OpenAI, y se instalan en minutos.

1. MarkItDown — leer archivos sin quemar tokens

Cuando le pasas un PDF o un Word a una IA, gran parte del costo se va en "ruido": formato, metadatos, basura invisible. MarkItDown (de Microsoft) convierte PDF, Word, Excel, PowerPoint y más a Markdown limpio, conservando títulos, listas y tablas. En sus pruebas, un PowerPoint de 29 KB quedó en 289 bytes: 99% menos. Menos texto = menos tokens = más barato y más rápido.

Se instala con Python:

PowerShell
pip install markitdown[all]

Y convertir cualquier documento es una línea:

PowerShell
markitdown informe.pdf -o informe.md

Ahora le das el .md a tu agente en vez del PDF: entiende mejor y gastas una fracción.

Úsalo antes de pedirle a la IA que "resuma este documento": convierte primero a Markdown y pásale el texto limpio. Notarás la diferencia en velocidad y costo.

2. VibeVoice — convierte tus textos en voz

VibeVoice (de Microsoft, licencia MIT) es un modelo de texto a voz sorprendentemente natural: genera hasta 90 minutos de audio y admite varias voces en la misma grabación, ideal para convertir un artículo o tus apuntes en un "podcast" para escuchar mientras caminas.

  • La forma rápida de probarlo: su demo en Hugging Face (busca "microsoft/VibeVoice"), pegas el texto y escuchas.
  • La forma seria: lo corres local. Pide una GPU decente, pero existe la variante ligera VibeVoice-Realtime-0.5B para equipos modestos.

Combínalo con la serie: convierte tu documento a Markdown con MarkItDown, pídele a la IA que lo resuma, y dale ese resumen a VibeVoice para escucharlo.

3. Whisper — convierte voz en texto

El camino inverso. Whisper (de OpenAI, open source) transcribe audio a texto con muy buena precisión, incluso en español. Perfecto para pasar a texto una clase grabada, una reunión o una nota de voz. Con ffmpeg instalado (lo vimos en el post de convertir), transcribir es:

PowerShell
pip install -U openai-whisper
whisper clase.mp3 --language Spanish --model small

Te deja la transcripción en varios formatos (.txt, .srt para subtítulos…). Y de nuevo: esa transcripción se la puedes pasar a tu agente para que la resuma o la convierta en apuntes.

El patrón que vale oro

Fíjate en el hilo de las tres: todo se vuelve texto. Un documento, una grabación, una idea hablada… una vez en texto, tu agente de IA puede leerlo, resumirlo, traducirlo o reescribirlo. Estas herramientas son los "traductores" que conectan el mundo real con la terminal. Gratis, en tu máquina, sin pedir permiso.

Parte de la serie Terminal para todos.

¿Te aportó este escrito?
0

Comentarios (0)

  • Sé el primero en comentar.