## ¿Qué es el OCR?
**OCR** (Optical Character Recognition, reconocimiento óptico de caracteres) es la tecnología que convierte imágenes de texto — fotografías de documentos, capturas de pantalla, PDFs escaneados — en texto digital editable y con capacidad de búsqueda.
Sin OCR, un PDF escaneado es simplemente una imagen. Con OCR, el texto se convierte en datos reales que puedes editar, copiar, buscar e indexar.
## Cuándo necesitas OCR
- Digitalizar documentos físicos (facturas, contratos, cartas).
- Extraer texto de capturas de pantalla de una web.
- Hacer editable un PDF escaneado.
- Transcribir textos de libros o revistas escaneadas.
- Procesar documentos para análisis de datos o IA.
## Factores que afectan a la calidad del OCR
| Factor | Recomendación |
|---|---|
| Resolución de la imagen | Mínimo 300 DPI para texto |
| Calidad de la fotografía | Bien iluminada, sin sombras ni reflejos |
| Inclinación del texto | Menos de 5° — muchos OCR corrigen automáticamente |
| Fuente del texto | Fuentes estándar funcionan mejor que manuscritos |
| Idioma | Configura el idioma correcto en el motor OCR |
## Método 1: Google Drive (gratis, muy preciso)
Google Drive usa el OCR de Google Cloud Vision, uno de los más precisos disponibles:
1. Sube la imagen o PDF a Google Drive.
2. Clic derecho → **Abrir con → Google Docs**.
3. Google Docs abre el archivo con el texto reconocido debajo de la imagen.
4. Copia el texto o guarda el documento.
Soporta más de 100 idiomas, incluyendo español.
## Método 2: KaijuConverter
1. Ve a [Convertir JPG a TXT](/convert/jpg-to-txt) o [PDF a TXT](/convert/pdf-to-txt).
2. Sube la imagen o el PDF escaneado.
3. Descarga el texto extraído.
Usa Tesseract 4 con motor LSTM para alta precisión en español e inglés.
## Método 3: Tesseract OCR (línea de comandos, gratis)
Tesseract es el motor OCR open source de referencia, originalmente desarrollado por HP y mantenido por Google:
```bash
# Instalar en Ubuntu/Debian
sudo apt install tesseract-ocr tesseract-ocr-spa
# Reconocer texto en español de un JPG
tesseract documento.jpg output -l spa
# Salida: output.txt con el texto reconocido
# Para PDF con múltiples páginas
tesseract documento.pdf output -l spa pdf
```
## Método 4: Microsoft OneNote (gratis con cuenta Microsoft)
1. Inserta la imagen en una página de OneNote.
2. Clic derecho sobre la imagen → **Copiar texto de la imagen**.
3. Pega el texto en cualquier editor.
Buen resultado para texto impreso en condiciones normales.
## Precisión del OCR según el tipo de documento
| Tipo de documento | Precisión típica |
|---|---|
| Texto impreso, alta calidad | 98-99% |
| Texto impreso, fotocopia | 90-95% |
| Formulario con campos | 85-95% |
| Texto manuscrito (letra clara) | 70-85% |
| Texto manuscrito (letra difícil) | 50-70% |
| Texto en imágenes de baja resolución | 60-80% |
## Cómo mejorar los resultados
1. **Aumenta la resolución**: escanea a 300 DPI mínimo, 600 DPI para texto pequeño.
2. **Convierte a blanco y negro**: elimina colores que confunden al OCR.
3. **Corrige la inclinación**: muchos programas de escaneo lo hacen automáticamente.
4. **Elige el idioma correcto**: un OCR configurado para inglés comete más errores en español.
5. **Revisa siempre**: el OCR comete errores, especialmente con fuentes poco comunes o texto muy pequeño.
## Conversiones relacionadas
- [JPG a TXT](/convert/jpg-to-txt) — OCR de imagen a texto
- [PNG a TXT](/convert/png-to-txt)
- [PDF a TXT](/convert/pdf-to-txt) — extrae texto de PDFs
- [PDF a DOCX](/convert/pdf-to-docx) — convierte PDF con OCR a Word editable
Guía