← Escritos Tutoriales

Tres herramientas gratis que potencian tu terminal (y tu IA)

Tres utilidades gratis y open source que potencian a tu agente: MarkItDown (leer documentos sin quemar tokens), VibeVoice (texto a voz) y Whisper (voz a texto).

Juan Diego Prada

18 de junio, 2026 · 3 min de lectura 67

Un agente de IA es tan bueno como las herramientas que tiene a la mano. En esta entrega te muestro tres utilidades gratis y de código abierto que potencian tu terminal: una para leer documentos sin malgastar dinero, una para convertir texto en voz y otra para convertir voz en texto. Las tres son de Microsoft y OpenAI, y se instalan en minutos.

1. MarkItDown — leer archivos sin quemar tokens

Cuando le pasas un PDF o un Word a una IA, gran parte del costo se va en "ruido": formato, metadatos, basura invisible. MarkItDown (de Microsoft) convierte PDF, Word, Excel, PowerPoint y más a Markdown limpio, conservando títulos, listas y tablas. En sus pruebas, un PowerPoint de 29 KB quedó en 289 bytes: 99% menos. Menos texto = menos tokens = más barato y más rápido.

Se instala con Python:

PowerShell

pip install markitdown[all]

Y convertir cualquier documento es una línea:

PowerShell

markitdown informe.pdf -o informe.md

Ahora le das el .md a tu agente en vez del PDF: entiende mejor y gastas una fracción.

Úsalo antes de pedirle a la IA que "resuma este documento": convierte primero a Markdown y pásale el texto limpio. Notarás la diferencia en velocidad y costo.

2. VibeVoice — convierte tus textos en voz

VibeVoice (de Microsoft, licencia MIT) es un modelo de texto a voz sorprendentemente natural: genera hasta 90 minutos de audio y admite varias voces en la misma grabación, ideal para convertir un artículo o tus apuntes en un "podcast" para escuchar mientras caminas.

La forma rápida de probarlo: su demo en Hugging Face (busca "microsoft/VibeVoice"), pegas el texto y escuchas.
La forma seria: lo corres local. Pide una GPU decente, pero existe la variante ligera VibeVoice-Realtime-0.5B para equipos modestos.

Combínalo con la serie: convierte tu documento a Markdown con MarkItDown, pídele a la IA que lo resuma, y dale ese resumen a VibeVoice para escucharlo.

3. Whisper — convierte voz en texto

El camino inverso. Whisper (de OpenAI, open source) transcribe audio a texto con muy buena precisión, incluso en español. Perfecto para pasar a texto una clase grabada, una reunión o una nota de voz. Con ffmpeg instalado (lo vimos en el post de convertir), transcribir es:

PowerShell

pip install -U openai-whisper
whisper clase.mp3 --language Spanish --model small

Te deja la transcripción en varios formatos (.txt, .srt para subtítulos…). Y de nuevo: esa transcripción se la puedes pasar a tu agente para que la resuma o la convierta en apuntes.

El patrón que vale oro

Fíjate en el hilo de las tres: todo se vuelve texto. Un documento, una grabación, una idea hablada… una vez en texto, tu agente de IA puede leerlo, resumirlo, traducirlo o reescribirlo. Estas herramientas son los "traductores" que conectan el mundo real con la terminal. Gratis, en tu máquina, sin pedir permiso.

Parte de la serie Terminal para todos.

#terminal #productividad #gratis #herramientas

¿Te aportó este escrito?

Comentarios (0)

Sé el primero en comentar.

← Más escritos Inicio