Saltar al contenido principal
Convertidor de imágenes Convertidor de vídeo Convertidor de audio Convertidor de documentos
Herramientas Guías Formatos Precios API
Iniciar sesión
🇬🇧 English 🇧🇷 Português 🇩🇪 Deutsch
Guía

Formato DOCX: Dentro del estándar Open XML de Microsoft Word

PC Por Pablo Cirre

Conversiones relacionadas

Pon en práctica lo que acabas de aprender — convierte tus archivos ahora en segundos, gratis y sin registro.

Preguntas frecuentes

Sí. LibreOffice Writer (gratuito, multiplataforma) abre ficheros DOCX con excelente compatibilidad. Google Docs puede importar DOCX y editarlo en el navegador. OnlyOffice, WPS Office y Apple Pages también soportan DOCX. El formato complejo (tablas avanzadas, cuadros de texto, estilos personalizados) puede no renderizarse de forma idéntica en aplicaciones que no sean Microsoft.

Envía <strong>PDF</strong> cuando el documento es final y el layout debe preservarse tal cual (contratos, facturas, certificados). Envía <strong>DOCX</strong> cuando los revisores deben editar, comentar o usar control de cambios. Muchos equipos envían ambos: PDF como versión canónica + DOCX para feedback editable. PDF/A es el adecuado para archivado legal (ISO 19005).

La causa más común son las fuentes faltantes. DOCX almacena nombres de fuentes pero no los datos de fuente por defecto. Si el destinatario no tiene Calibri, Arial o tu fuente personalizada, su aplicación sustituye otra fuente, cambiando el reflujo de texto, los saltos de línea y la paginación. Solución: incrustar fuentes antes de compartir (Archivo → Opciones → Guardar → marcar "Incrustar fuentes") o convertir a PDF.

Round-trip entre formatos similares (DOCX ↔ ODT, DOCX → PDF) suele ser seguro. Round-trip con funciones específicas del formato (macros de Word, tablas complejas, notas al pie) suele perder fidelidad. Las fuentes incrustadas sobreviven solo si origen y destino lo soportan (PDF sí, DOCX sí, HTML plano no). Previsualiza siempre antes de borrar el original.

Como DOCX es un fichero ZIP, puedes extraer word/document.xml y analizar el XML. En Python: from docx import Document; doc = Document("fichero.docx"); texto = "\n".join([p.text for p in doc.paragraphs]). En bash: unzip -p fichero.docx word/document.xml | sed "s/<[^>]*>//g" (elimina etiquetas XML, aproximado). Para extracción precisa incluyendo tablas y cabeceras, usa python-docx o la biblioteca docx2txt.

Si el PDF contiene texto real (no imágenes escaneadas), <code>pdftotext</code> de poppler-utils o <a href="/es/convert/pdf-a-txt">PDF a TXT</a> funcionan en segundos. Si el PDF es escaneado, necesitas OCR — Tesseract es el estándar open-source. Las herramientas PDF de KaijuConverter detectan automáticamente texto vs. imagen y enrutan según el caso.

DOC es el formato binario heredado de Microsoft usado desde Word 97 hasta 2003. Almacena datos del documento en una estructura binaria propietaria (Compound Document File Format) que no fue documentada públicamente durante años. DOCX (introducido con Word 2007) está basado en el estándar Office Open XML — un archivo ZIP con ficheros XML, especificado públicamente bajo ECMA-376 e ISO/IEC 29500. Los ficheros DOCX son típicamente 50-75% más pequeños que los ficheros DOC equivalentes debido a la compresión ZIP.

Edición ligera (anotaciones, firmas, campos de formulario) es viable en cualquier lector PDF. Edición estructural (cambiar párrafos, reemplazar imágenes) es incómoda — PDF es un formato de presentación, no de edición. El flujo robusto es: mantén el origen DOCX/MD/HTML como máster y regenera el PDF cuando haya cambios. Las herramientas que "editan PDF" hacen ingeniería inversa del layout y suelen romperlo.