Cómo extraer texto de imágenes y PDFs escaneados (OCR)

¿Qué es el OCR?

OCR (Optical Character Recognition, reconocimiento óptico de caracteres) es la tecnología que convierte imágenes de texto — fotografías de documentos, capturas de pantalla, PDFs escaneados — en texto digital editable y con capacidad de búsqueda.

Sin OCR, un PDF escaneado es simplemente una imagen. Con OCR, el texto se convierte en datos reales que puedes editar, copiar, buscar e indexar.

Cuándo necesitas OCR

Digitalizar documentos físicos (facturas, contratos, cartas).
Extraer texto de capturas de pantalla de una web.
Hacer editable un PDF escaneado.
Transcribir textos de libros o revistas escaneadas.
Procesar documentos para análisis de datos o IA.

Factores que afectan a la calidad del OCR

Factor	Recomendación
Resolución de la imagen	Mínimo 300 DPI para texto
Calidad de la fotografía	Bien iluminada, sin sombras ni reflejos
Inclinación del texto	Menos de 5° — muchos OCR corrigen automáticamente
Fuente del texto	Fuentes estándar funcionan mejor que manuscritos
Idioma	Configura el idioma correcto en el motor OCR

Método 1: Google Drive (gratis, muy preciso)

Google Drive usa el OCR de Google Cloud Vision, uno de los más precisos disponibles:

Sube la imagen o PDF a Google Drive.
Clic derecho → Abrir con → Google Docs.
Google Docs abre el archivo con el texto reconocido debajo de la imagen.
Copia el texto o guarda el documento.

Soporta más de 100 idiomas, incluyendo español.

Método 2: KaijuConverter

Ve a Convertir JPG a TXT o PDF a TXT.
Sube la imagen o el PDF escaneado.
Descarga el texto extraído.

Usa Tesseract 4 con motor LSTM para alta precisión en español e inglés.

Método 3: Tesseract OCR (línea de comandos, gratis)

Tesseract es el motor OCR open source de referencia, originalmente desarrollado por HP y mantenido por Google:

# Instalar en Ubuntu/Debian
sudo apt install tesseract-ocr tesseract-ocr-spa

# Reconocer texto en español de un JPG
tesseract documento.jpg output -l spa

# Salida: output.txt con el texto reconocido

# Para PDF con múltiples páginas
tesseract documento.pdf output -l spa pdf

Método 4: Microsoft OneNote (gratis con cuenta Microsoft)

Inserta la imagen en una página de OneNote.
Clic derecho sobre la imagen → Copiar texto de la imagen.
Pega el texto en cualquier editor.

Buen resultado para texto impreso en condiciones normales.

Precisión del OCR según el tipo de documento

Tipo de documento	Precisión típica
Texto impreso, alta calidad	98-99%
Texto impreso, fotocopia	90-95%
Formulario con campos	85-95%
Texto manuscrito (letra clara)	70-85%
Texto manuscrito (letra difícil)	50-70%
Texto en imágenes de baja resolución	60-80%

Cómo mejorar los resultados

Aumenta la resolución: escanea a 300 DPI mínimo, 600 DPI para texto pequeño.
Convierte a blanco y negro: elimina colores que confunden al OCR.
Corrige la inclinación: muchos programas de escaneo lo hacen automáticamente.
Elige el idioma correcto: un OCR configurado para inglés comete más errores en español.
Revisa siempre: el OCR comete errores, especialmente con fuentes poco comunes o texto muy pequeño.

Conversiones relacionadas

JPG a TXT — OCR de imagen a texto
PNG a TXT
PDF a TXT — extrae texto de PDFs
PDF a DOCX — convierte PDF con OCR a Word editable