Saltar al contenido principal
Convertidor de imágenes Convertidor de vídeo Convertidor de audio Convertidor de documentos
Herramientas Guías Formatos Precios API
Iniciar sesión
🇬🇧 English 🇧🇷 Português 🇩🇪 Deutsch
Guía

DOCX: Word Open XML — La Anatomía Técnica del Formato de Documento Más Común del Mundo

PC Por Pablo Cirre

Conversiones relacionadas

Pon en práctica lo que acabas de aprender — convierte tus archivos ahora en segundos, gratis y sin registro.

Preguntas frecuentes

El enfoque más sencillo es la biblioteca python-docx: `pip install python-docx`, luego `doc = Document("fichero.docx"); texto = "\n".join(p.text for p in doc.paragraphs)`. Para contenido de tablas, itera `doc.tables[i].rows[j].cells[k].text`. Alternativamente, renombra el .docx a .zip, extráelo y analiza `word/document.xml` buscando elementos `<w:t>`. Línea de comandos: `pandoc fichero.docx -t plain > salida.txt`.

Envía <strong>PDF</strong> cuando el documento es final y el layout debe preservarse tal cual (contratos, facturas, certificados). Envía <strong>DOCX</strong> cuando los revisores deben editar, comentar o usar control de cambios. Muchos equipos envían ambos: PDF como versión canónica + DOCX para feedback editable. PDF/A es el adecuado para archivado legal (ISO 19005).

OOXML es parcialmente propietario — Microsoft Word implementa muchas características de su espacio de nombres de extensión privado que LibreOffice no soporta completamente. Diferencias comunes: fuentes personalizadas no instaladas en el sistema, gráficos SmartArt complejos, algunos objetos de dibujo y espaciado de párrafo avanzado. Para minimizar diferencias: usa solo fuentes estándar, evita SmartArt y prueba ambos renderizadores.

Round-trip entre formatos similares (DOCX ↔ ODT, DOCX → PDF) suele ser seguro. Round-trip con funciones específicas del formato (macros de Word, tablas complejas, notas al pie) suele perder fidelidad. Las fuentes incrustadas sobreviven solo si origen y destino lo soportan (PDF sí, DOCX sí, HTML plano no). Previsualiza siempre antes de borrar el original.

Con python-docx, los encabezados y pies de página pertenecen al objeto section: `section = doc.sections[0]; encabezado = section.header; para = encabezado.paragraphs[0]; para.text = "Mi Encabezado"`. Para números de página, necesitas insertar un código de campo usando XML directo.

Si el PDF contiene texto real (no imágenes escaneadas), <code>pdftotext</code> de poppler-utils o <a href="/es/convert/pdf-a-txt">PDF a TXT</a> funcionan en segundos. Si el PDF es escaneado, necesitas OCR — Tesseract es el estándar open-source. Las herramientas PDF de KaijuConverter detectan automáticamente texto vs. imagen y enrutan según el caso.

DOCX es un documento Word estándar. DOCM es un "Documento Word con Macros Habilitadas" — tiene la misma estructura pero permite macros VBA incrustadas en `word/vbaProject.bin`. Para seguridad, muchas puertas de enlace de correo electrónico y políticas corporativas bloquean los ficheros DOCM. Si recibes un DOCX que no puede guardar macros, renómbralo a DOCM.

Edición ligera (anotaciones, firmas, campos de formulario) es viable en cualquier lector PDF. Edición estructural (cambiar párrafos, reemplazar imágenes) es incómoda — PDF es un formato de presentación, no de edición. El flujo robusto es: mantén el origen DOCX/MD/HTML como máster y regenera el PDF cuando haya cambios. Las herramientas que "editan PDF" hacen ingeniería inversa del layout y suelen romperlo.