跳至主要內容

DOCX 格式说明

www.gremlins-book.com大约 5 分钟

什么是 DOCX 文件?

DOCX 是 Microsoft Word 文档的一种众所周知的格式。自 2007 年 Microsoft Office 2007 发布以来,这种新文档格式的结构已从纯二进制更改为 XML 和二进制文件的组合。Docx 文件可以使用 Word 2007 和横向版本打开,但不能使用支持 .doc 文件扩展名的早期版本的 MS Word。

简史

在 Microsoft 开放 DOC 文件格式的规范后,其竞争对手很容易对格式进行逆向工程,并在自己的应用程序中提供相同的支持。此外,以开放文档格式形式进行的开放式办公室竞争迫使 Microsoft 采用更开放和更广泛的标准。在 2000 年代初期,Microsoft 决定进行更改以符合 Office Open XML 标准。根据这一新标准,文档被赋予了.docx 扩展名,XML 为“X”。 2007 年,这种新的文件格式成为 2007 Office 套件的一部分,也用于新版本的 Microsoft Office。新的文件类型增加了文件大小小、损坏更改少和图像表示格式良好的优点。

DOCX 文件格式规范

Docx 文件由包含在 ZIP 存档中的 XML 文件的集合组成。您可以通过展开新 Word 文档的内容来查看其内容。该集合包含分类为以下类别的 XML 文件的列表:

  • 元数据文件 – 包含有关存档中其他可用文件的信息
  • 文档 – 包含文档的实际内容

元数据文件

Microsoft Word 使用这些文件来查找文件之间的关系并查找文档的内容。提取 Word 文档存档时,它包含许多此类文件,如下所述。

关系 - _rels/.rels

此文件包含告诉 MS Word 在何处查找文档内容和其他链接的信息。每个关系都由唯一的关系 ID 标识,并将引用的 XML 文件指定为目标。示例关系文件如下所示:

<Relationship Id#"rId1" Type#"http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target#"word/document.xml"/>.

内容类型

文档内部可以包含多种类型的媒体,例如图像、主题、艺术字等。文件 [Content_Types].xml 包含有关文档中存在的此类媒体类型的信息。此类 XML 文件的内容显示如下:

<Override PartName#"/word/document.xml" ContentType#"application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>

源链接 - _rels/document.xml.rels

此 XML 文件引用资源信息,例如嵌入在文档中的图像。

主文件的内容

这适用于包含文档文本内容的主 XML 存档文件。此内容根据 OpenOffice XML 规范由一系列节点表示。该文件的内容主要由段落和表格组成,尽管它们也可以是其他节点。

文件格式节点

主 document.xml 文件是表示文件整体内容的节点集合。每个节点都有一个开头和一个结尾,用于封装其他节点或内容。此类 xml 文件的简化示例如下:

<w:document>
   <w:body>
       <w:p w:rsidR#"005F670F" w:rsidRDefault#"005F79F5">
           <w:r><w:t>Example Document</w:t></w:r>
       </w:p>
       <w:sectPr w:rsidR#"005F670F">
           <w:pgSz w:w#"12240" w:h#"15840"/>
           <w:pgMar w:top#"1440" w:right#"1440" w:bottom#"1440" w:left#"1440" w:header#"720" w:footer#"720"
                    w:gutter#"0"/>
           <w:cols w:space#"720"/>
           <w:docGrid w:linePitch#"360"/>
       </w:sectPr>
   </w:body>
</w:document>

以下是有关 DOCX 文件中包含的用于表示内容的一些节点的信息。

<w:document> - 表示文件主要内容的根元素。

<w:body> - 表示文档的正文,其中可以包含许多其他元素节点,例如段落、表格和节。

段落

段落是文档中内容的主要容器。表示文档中的 <w:p> 元素。此外,段落由一个或多个包含段落实际文本的 <w:r> 运行组成。除了运行之外,段落还可以包含其他文档元素,例如超链接、注释等。段落结构示例如下所示:

<w:p>
<w:pPr>
<w:pStyle> w:val#"MyStyle"/>
<w:spacing w:before#"120" w:after#"120"/>
</w:pPr>
<w:r>
<w:t xml"space#"preserve">A paragraph is main container in a document that further consists of a one or more runs where the text of paragraph is actually contained.</w:t>
</w:r>
</w:p>

来自<文心一言>

docx 电子书格式是 Microsoft Office Word 2007 以上版本使用的文档格式,基于 Office Open XML 标准的压缩文件格式取代了其目前专有的默认文件格式,扩展名后缀为.docx

docx 格式文件的主要内容是保存为 XML 格式的,但文件并非直接保存于磁盘,而是保存在一个 ZIP 文件中,然后取扩展名为 docx。将.docx 格式的文件后缀改为 ZIP 后解压,可以看到解压出来的文件夹中有 word 这样一个文件夹,它包含了 Word 文档的大部分内容。而其中的 document.xml 文件则包含了文档的主要文本内容。

在 word 文件夹下面有个 document.xml 文件,文本内容就在这个文件里,在 media 文件夹下面还有图片等其它文件。

docx 格式文件比 doc 文件所占用空间更小,具有跨平台性、可靠性、可编辑性、安全性等特点。它可以在不同操作系统和设备上进行查看和打印,保持文档的一致性和可读性,也可以通过专业的编辑工具进行编辑和修改,添加注释、标记和表单等元素。此外,docx 格式还支持多种元素,如文本、图像、链接、表格、多媒体等,具有高度的可扩展性和可靠性。

总之,docx 电子书格式是一种广泛使用的文档格式,具有多种优点和功能,适用于各种场景和需求。

引用

上次编辑于: