OCR таблиц в смете КС-2: как автоматизировать проверку
Формы КС-2 и КС-3 содержат сложные многоуровневые таблицы. Рассказываем, как doc2text распознаёт сметы и помогает сметчикам проверять объёмы и стоимости.
OCR таблиц в смете КС-2: как автоматизировать проверку
Формы КС-2 (Акт о приёмке выполненных работ) и КС-3 (Справка о стоимости выполненных работ) — стандарт строительной документации в России. Многоуровневые таблицы, нумерация разделов, единицы измерения и цены — всё это делает автоматическое распознавание нетривиальной задачей. doc2text справляется с этим благодаря специализированному OCR-движку.
Структура формы КС-2
Форма КС-2 утверждена Постановлением Госкомстата России от 11.11.1999 № 100. Стандартная форма содержит:
- Шапку с реквизитами (заказчик, подрядчик, объект, договор)
- Таблицу с работами: порядковый номер, наименование работы, номер единичной расценки, единица измерения, количество, стоимость единицы, стоимость всего
- Итоговую строку и раздел подписей
Сложности распознавания
Реальные КС-2 от подрядчиков часто содержат:
- Объединённые ячейки для разделов работ
- Вложенные нумерации (1, 1.1, 1.1.1)
- Перенос таблицы на несколько страниц с повторяющимися заголовками
- Сканы низкого качества (150–200 dpi)
Стандартные PDF-конвертеры при таких условиях теряют структуру: числа «плывут» между столбцами, объединённые ячейки разбиваются некорректно.
Как doc2text распознаёт КС-2
Многоуровневая таблица
doc2text анализирует пространственное расположение текстовых блоков и восстанавливает табличную структуру даже при объединённых ячейках. Алгоритм определяет:
- Горизонтальные и вертикальные линии разделителей
- Принадлежность текстового блока к конкретной ячейке
- Иерархию строк при вложенной нумерации
Проверка числовой согласованности
После распознавания AI проверяет: сумма по позициям = итоговой строке. Расхождение флагируется как аномалия.
Пример запроса: «Найди строки, где количество × цена единицы ≠ стоимость всего» — система вернёт список позиций с ошибками арифметики.
Сравнение КС-2 с локальной сметой
Загрузите и КС-2, и исходную смету в одно рабочее пространство. Затем спросите: «Сравни объёмы в КС-2 и смете по позиции “Устройство монолитных перекрытий”» — AI найдёт соответствующие строки в обоих документах и сравнит значения.
Типичные ошибки в КС-2, которые находит doc2text
1. Задвоение позиций. Подрядчик дважды указал одну и ту же работу с разными наименованиями. Запрос «найди дублирующиеся работы» выявляет такие случаи.
2. Несоответствие единиц измерения. В смете — куб. м, в КС-2 — кв. м. При сравнении это немедленно видно.
3. Отклонение объёмов сверх допустимого. По договору допустимо отклонение ±10%. Запрос «какие позиции в КС-2 превышают смету более чем на 10%» даёт мгновенный ответ.
4. Отсутствие раздела по договору субподряда. Если в договоре прописан раздел работ, которого нет в КС-2 — это сигнал для уточнения.
Практический workflow для сметчика
- Загрузите КС-2 от подрядчика в doc2text
- Загрузите исходную локальную смету в то же рабочее пространство
- Задайте вопрос: «Составь сводную таблицу: позиция | объём по смете | объём по КС-2 | отклонение %»
- Получите результат с цитатами из обоих документов
Этот workflow заменяет 2–4 часа ручной сверки на 5–10 минут.
Требования к качеству скана
Для корректного распознавания КС-2 рекомендуется:
- Разрешение не ниже 200 dpi (оптимально 300 dpi)
- PDF с текстовым слоем (если есть) — ускоряет и повышает точность
- Ориентация страниц — вертикальная (landscape-документы распознаются медленнее)
Сканы с явными дефектами (смазанность, тени от переплёта более 30% страницы) могут снижать точность. В таких случаях doc2text предупреждает о низкой уверенности распознавания по проблемным областям.
Масштаб: от одной КС-2 до портфеля объектов
doc2text позволяет создавать несколько рабочих пространств — по одному на объект или договор. Каждое пространство хранит все КС-2, КС-3 и сметы по объекту, что позволяет мгновенно проверить любой документ в контексте всей документации объекта.
Это особенно актуально для тендерных специалистов, ведущих одновременно 5–10 объектов: каждый объект — отдельное пространство с полным архивом документов.