¿Qué es DjVu?
DjVu (pronunciado "déjà vu") es un formato de archivo comprimido optimizado para almacenar documentos escaneados, particularmente aquellos con contenido mixto — texto, arte lineal e ilustraciones fotográficas en la misma página. Desarrollado en AT&T Labs por Yann LeCun, Léon Bottou y colegas en 1996, DjVu fue diseñado para resolver un problema específico: cómo distribuir libros, revistas y documentos escaneados de alta calidad a través de conexiones lentas a internet.
Cuando DjVu fue introducido a finales de los años 90, una página de libro escaneada a 300 DPI podía ser un TIFF de 5 MB. La misma página como JPEG sería de 200 KB pero con artefactos de compresión inaceptables en el texto. DjVu logró 100-300 KB por página con excelente claridad de texto usando una estrategia de compresión fundamentalmente diferente: separar la página en sus componentes y comprimir cada uno de forma óptima.
Cómo funciona la compresión DjVu
La innovación clave de DjVu es el algoritmo de compresión wavelet IW44 combinado con un pipeline de análisis de documentos que separa una página escaneada en tres capas:
1. Capa de fondo (BG44)
Contiene información de color de baja frecuencia — la textura del papel, imágenes fotográficas y degradados. Se comprime usando el algoritmo wavelet progresivo IW44.
2. Capa de primer plano (FG44)
Contiene la información de color del texto y el arte lineal. Para la mayoría de los documentos de texto, esta capa es muy simple (texto negro sobre blanco) y se comprime a un tamaño casi nulo.
3. Capa de máscara / JB2
El JB2 contiene una representación bitonal (dos colores: negro o blanco) de todo el texto y el arte lineal. JB2 usa coincidencia de patrones para encontrar formas de caracteres repetidos (como todas las ocurrencias de la letra "e" o "a") y las almacena solo una vez, con punteros a cada posición donde aparecen.
4. Diccionario compartido
El diccionario compartido extiende la coincidencia de patrones de JB2 a través de múltiples páginas — todas las páginas de un libro comparten una única biblioteca de formas de caracteres.
El resultado:
- Páginas escaneadas con mucho texto: 20-100 KB (frente a 1-3 MB para TIFF)
- Páginas escaneadas fotográficas: 50-200 KB (comparable a JPEG)
- Contenido mixto (texto + fotos): 50-150 KB
Abrir archivos DjVu
DjVu no tiene soporte nativo en la mayoría de sistemas operativos. Necesitas software dedicado:
Windows:
- Sumatra PDF (gratuito, soporte DjVu nativo)
- WinDjView (gratuito, ligero)
- DjView (gratuito, multiplataforma)
macOS:
- DjView (gratuito)
Linux:
- Evince (visor de documentos GNOME — soporta DjVu)
- Okular (visor de documentos KDE — soporta DjVu)
Navegador:
- Sin soporte nativo. DjVu.js es un renderizador JavaScript para integración web.
Convertir DjVu
DjVu a PDF (la conversión más común)
# Usando DjVuLibre (paquete djvulibre)
# En Ubuntu: apt install djvulibre-bin
# En macOS: brew install djvulibre
ddjvu -format=pdf entrada.djvu salida.pdf
# Con especificación de DPI
ddjvu -format=pdf -resolution=300 entrada.djvu salida.pdf
# Rango de páginas
ddjvu -format=pdf -page=1-50 entrada.djvu salida_parcial.pdf
DjVu a TIFF o PNG (exportación página por página)
# Exportar todas las páginas como archivos TIFF individuales
ddjvu -format=tiff -resolution=300 entrada.djvu pagina-%04d.tiff
# Exportar una sola página como PNG
ddjvu -format=png -page=5 entrada.djvu pagina_5.png
Crear DjVu desde escaneos
# c44 — comprimir un JPEG/PNG a DjVu (página en color)
c44 pagina_escaneada.jpg pagina.djvu
# cjb2 — comprimir un TIFF bitonal a JB2 (mejor compresión para texto)
cjb2 -lossy texto_escaneado.tiff pagina_texto.djvu
# djvm — combinar múltiples archivos DjVu en un documento multipágina
djvm -c documento.djvu pagina1.djvu pagina2.djvu pagina3.djvu
DjVu vs PDF para documentos escaneados
| Característica | DjVu | |
|---|---|---|
| Compresión para escaneos de texto | Excelente (JB2 + IW44) | Buena (JBIG2 + JPEG2000 en PDF 1.5+) |
| Tamaño de archivo para escaneo 300 DPI | 20-100 KB/página | 50-300 KB/página |
| Soporte universal de visores | No (requiere plugin/app) | Sí (PDF está en todas partes) |
| Soporte nativo en navegadores | No | Sí (visor PDF del navegador) |
| Herramientas de creación | DjVuLibre, Any2DjVu | Prácticamente todo |
Cuándo DjVu gana: archivar grandes bibliotecas de libros o revistas escaneados con el mínimo tamaño de archivo mientras se preserva una excelente calidad visual.
Cuándo PDF gana: todo lo demás — compatibilidad universal, soporte en navegadores, edición, formularios, firmas digitales y ecosistema de herramientas.
Dónde se usa DjVu hoy
A pesar de ser eclipsado por PDF, DjVu mantiene presencia en comunidades específicas:
Internet Archive (archive.org): usa DjVu como uno de sus formatos principales para escaneos de libros — millones de libros de dominio público están disponibles en formato DjVu junto con PDF.
Comunidad de habla rusa: DjVu tiene un seguimiento particularmente fuerte en las comunidades de habla rusa, donde muchos manuales técnicos, libros de texto y obras literarias se distribuyen como archivos DjVu.
Retro computing: las revistas de informática vintage y los manuales técnicos de los años 80-90 se encuentran a menudo como escaneos DjVu.
Conversiones relacionadas
Conversiones frecuentes del catálogo: