Работа с Microsoft Word

Архитектура форматов данных и спецификации файлов
Microsoft Word использует формат DOCX (Office Open XML), регламентированный международным стандартом ISO/IEC 29500:2016. Внутренняя структура представляет собой ZIP-архив, содержащий XML-файлы, описывающие разметку документа (word/document.xml), стили (word/styles.xml), настройки (word/settings.xml) и отношения между частями. В отличие от формата ODF (OpenDocument, ISO 26300), используемого LibreOffice Writer, OOXML Word поддерживает строгую схему для вложенных таблиц с абсолютным позиционированием и сложной цепной нумерацией заголовков без потери семантики.
Отличия от альтернатив на уровне движка рендеринга
Техническое преимущество Word перед Google Docs (веб-версия) заключается в локальном вычислительном конвейере. Движок рендеринга Word использует аппаратное ускорение через Direct2D (Windows) для сглаживания шрифтов ClearType, тогда как браузерное отображение Google Docs relies on стандартный HTML5 Canvas с эмуляцией метрик, что приводит к смещению межстрочных интервалов на 0.5–2 пт при использовании редких гарнитур (например, PT Serif или EB Garamond). LibreOffice Writer при открытии сложных DOCX-файлов с макросами ActiveX (XLA) показывает расхождения в кернинге для шрифтов с буквенными лигатурами (до 3% ошибок позиционирования), что связано с различной реализацией библиотеки ICU (International Components for Unicode) в версиях 74 и 72.
Спецификации материалов: метаданные и версионирование
Документы Word версии 2021/2026 поддерживают строгое разделение слоёв: слои содержимого (text layer), слои аннотаций (comment layer), слои служебной разметки (revision layer). Каждый слой имеет собственный xml:space и атрибуты w:rsidR (ревизионный идентификатор сессии). Рекомендованный стандарт качества Microsoft — отсутствие более 0.01% потерянных символов при конвертации между DOCX и RTF через API Open XML SDK 2.5. Документы с более чем 2000 вложенными закладками (bookmarks) требуют включения режима ускоренного доступа (Shared String Table) с индексом до 106 записей, иначе время загрузки превышает 8 секунд на процессорах серии Intel Core i5-1240P (частота 1.7 ГГц).
Параметры производства: совместимость бинарных сборок
Сборка Word 2026 (билд 16.0.17000.20000) содержит два режима совместимости: Strict Open XML (строгое соответствие ISO 29500) и Transitional Open XML (с возможностью встраивать OLE-объекты и VBA-макросы). Альтернативы, такие как WPS Office Writer (версия 12.2), реализуют неполную поддержку WordArt с градиентной заливкой — при открытии документа с 36-битными градиентами возникает переполнение буфера на этапе растеризации, что приводит к замене градиента на сплошную заливку 25% серого. Качество векторных шрифтов в Word обеспечивается движком Uniscribe (Windows 11 23H2+), который обрабатывает OpenType-фичи (hlig, swsh) без падения FPS при прокрутке документа объёмом 500 страниц с 12 внедрёнными шрифтами (истинный тип TTF/OTF).
Стандарты качества: контроль размера и времени сжатия
Стандарт корпоративной работы в Word 2026 предписывает ограничение размера файла до 512 МБ (без внедрённых медиа). При превышении лимита Office автоматически включает сжатие изображений с использованием алгоритма JPEG-XR (потери не более 2% по PSNR при уровне качества 95). В отличие от G Suite, где сжатие применяется безусловно (на серверной стороне снижение до 70% от оригинала), Word сохраняет контроль над пиксельной плотностью (до 300 DPI) и цветовым профилем ICC (sRGB 2.1 или Adobe RGB 1998). Тесты на соответствие ISO 32000-2:2020 (PDF/A-3) показывают, что Word генерирует PDF-копии документов с точностью шрифтовой таблицы cmap до 1/1000 em-квадрата, что соответствует категории «высокая точность» по классификации PDF Association.
- Параметр сглаживания шрифтов (FontRenderingMode) — оптимизация ClearType для субпиксельного рендеринга на дисплеях RGB (шаг пикселя 0.022 мм). Альтернативы (LibreOffice) используют серый антиалиасинг, что при печати на CMYK-принтерах (разрешение 1200 DPI) даёт погрешность насыщенности до 5%.
- Формат хранения графики — EMF+ (Enhanced Metafile Plus) с поддержкой альфа-канала 8 бит. При экспорте через Google Docs происходит перекодировка в PNG (без альфа), что теряет полупрозрачность теней.
- Размер таблицы стилей (StyleDefinitions) — объём до 5 МБ XML-кода без фрагментации. При превышении (более 10 000 уникальных стилей) автоматически включается индексный массив с хранением хэшей (CRC32 в начало файла).
Добавлено: 07.05.2026
