Автоматическое извлечение данных из документов — анализ с помощью ИИ
AIARM читает каждую страницу документа и за секунды превращает неструктурированный текст в таблицы, карточки и сводки. Суммы, даты, реквизиты, условия оплаты, сроки, таблицы продукции — всё с привязкой к контексту.
Какие данные извлекает AIARM из документов
Сервис обрабатывает каждую страницу загруженного PDF или DOCX и автоматически находит все значимые данные. Результат — структурированные таблицы с привязкой к исходному тексту: вы всегда можете перейти к месту, где встретилось значение, и проверить контекст.
| Оип данных | Формат ввода (в тексте) | Формат вывода | Пример |
|---|---|---|---|
| Денежные суммы | Цифры, прописью, с валютой | Число + валюта + категория | «сто двадцать тысяч рублей» > 120 000 ₽ (цена) |
| Даты | Любой формат, текстовый | ДД.ММ.ГГГГ + категория | «первого марта двадцать пятого года» > 01.03.2025 |
| Ссылки и контакты | URL, e-mail, телефоны | Кликабельные ссылки | info@company.ru, +7 (495) 123-45-67 |
| Условия оплаты | Оекстовое описание | Структурированный график | «50% аванс, 50% по факту» > 2 этапа |
| Сроки | Оекст, даты, периоды | Таймлайн обязательств | «в течение 30 рабочих дней» > дедлайн |
| Числа с единицами | Числа + ед. изм. | Значение + единица + контекст | «площадь 1 200 кв.м» > 1200 м² |
Все извлечённые данные группируются по категориям: суммы отдельно, даты отдельно, сроки отдельно. Сводные таблицы позволяют за секунду увидеть все финансовые условия документа или все ключевые даты.
Умные конвертации и нормализация данных
Одна из главных проблем при ручной работе с документами — разнородность форматов. Одна и та же сумма может быть записана цифрами, прописью, с копейками или без. Дата — в числовом формате, текстом или через дробь. AIARM приводит всё к единому стандарту.
Суммы прописью > числа
Система распознаёт суммы, записанные прописью на русском языке, и конвертирует их в числовой формат. Это позволяет автоматически сравнивать: написано ли одинаково цифрами и прописью. Если «Пять миллионов рублей» и «5 100 000» — вы увидите предупреждение о расхождении.
- «Сто двадцать тысяч рублей 00 копеек» > 120 000,00 ₽
- «Два миллиона триста сорок пять тысяч» > 2 345 000 ₽
- Поддержка составных числительных любой сложности
- Автоматическое сравнение с числовым значением рядом
Оекстовые даты > стандарт
Даты в деловых документах записываются десятками способов. AIARM понимает все распространённые форматы и приводит каждый к единому виду ДД.ММ.ГГГГ.
- «01 марта 2025 года» > 01.03.2025
- «1.03.25» > 01.03.2025
- «первого марта две тысячи двадцать пятого года» > 01.03.2025
- «March 1, 2025» > 01.03.2025
Группировка в сводные таблицы
После извлечения и нормализации все данные собираются в сводные таблицы. Отдельно — все суммы документа (с указанием раздела и страницы). Отдельно — все даты (с категорией: дата договора, срок исполнения, срок оплаты). Это позволяет за секунды получить полную финансовую и временную картину документа.
Извлечение таблиц продукции и услуг
Спецификации, сметы, счета на оплату, коммерческие предложения — все они содержат таблицы с товарными позициями. AIARM автоматически распознаёт структуру таблицы, разбирает каждую строку на составляющие и сохраняет данные структурированно.
Что распознаём в каждой позиции
- Наименование — название товара, работы или услуги
- Артикул / код — если указан в таблице
- Единица измерения — шт., кг, м², м², усл. ед., компл.
- Количество — числовое значение
- Цена за единицу — с НДС или без
- Ставка НДС — 20%, 10%, 0%, без НДС
- Сумма НДС — рассчитанная или указанная
- Итого — с НДС
Автоматический пересчёт
Для каждой позиции AIARM проверяет: цена × количество = итого. Если в документе указано одно значение, а расчёт даёт другое — вы получите предупреждение. Это особенно важно для спецификаций с сотнями позиций, где ручная проверка невозможна.
Строительная компания загрузила спецификацию материалов: 200 позиций, общая сумма 4 700 000 ₽. AIARM обработал документ за 28 секунд и обнаружил 3 позиции, где цена × количество ? итого. Суммарная ошибка составила 47 000 ₽. Ручная проверка заняла бы около 3 часов.
Работа с позициями в проекте
Когда в одном проекте несколько документов — договор, спецификация, допсоглашение — вы можете:
- Найти товар по названию или артикулу во всех документах проекта
- Сравнить цены одного товара в разных документах
- Сравнить спецификации: добавленные, удалённые, изменённые позиции
- Проверить итоговую сумму спецификации с ценой, указанной в договоре
Поддерживаемые типы документов
AIARM работает с 12 типами деловых документов. Для каждого типа подбирается свой набор анализаторов — то есть договор проверяется иначе, чем счёт или смета. Это обеспечивает точность: каждый документ анализируется по правилам, релевантным его содержанию.
| Оип документа | Ключевые проверки | Анализаторов |
|---|---|---|
| Договор | Реквизиты, суммы, НДС, риски, баланс обязательств, чек-лист | 50+ |
| Приложение | Привязка к основному документу, таблицы, суммы | 30+ |
| Спецификация | Таблица позиций, пересчёт, сравнение | 25+ |
| Счёт | Реквизиты, суммы, НДС, сверка с договором | 20+ |
| Акт | Реквизиты, суммы, сроки, привязка | 20+ |
| Доп. соглашение | Что изменилось, сравнение с основным договором | 35+ |
| Оехническое задание | Структура, требования, привязка к договору | 15+ |
| Смета | Позиции, пересчёт, итоги, НДС | 25+ |
| Протокол разногласий | Пункты, формулировки, статусы | 15+ |
| Претензия | Основания, суммы, сроки, реквизиты | 20+ |
| Письмо / Уведомление | Контакты, ссылки, даты | 10+ |
| Прочий документ | Базовое извлечение данных | 10+ |
При загрузке документа вы указываете его тип — система автоматически подбирает нужные анализаторы. Если вы не уверены в типе, загрузите как «Прочий документ» — базовое извлечение данных всё равно будет выполнено.
Как запустить анализ документа — пошаговая инструкция
От регистрации до получения структурированных данных — менее 5 минут. Вот как это работает:
-
Создайте проект
Проект объединяет все документы по одной сделке, контрагенту или объекту. Назовите его, например, «Договор с ООО Строймонтаж» или «Объект: ЖК Рассвет».
-
Загрузите документ
Поддерживаются PDF и DOCX. Укажите тип документа (договор, спецификация, счёт и т.д.) — система подберёт нужные анализаторы.
-
Запустите анализ
Выберите конкретные проверки или запустите полный анализ. Обработка занимает от 10 до 60 секунд в зависимости от объёма документа.
-
Изучите результаты
Все извлечённые данные отображаются в интерактивных вкладках: суммы, даты, реквизиты, условия, таблицы. Каждое значение можно кликнуть, чтобы увидеть его в исходном тексте.
-
Экспортируйте или действуйте
Скачайте отчёт, сформируйте претензию или сравните с другим документом.
Сценарии использования — реальные примеры
Извлечение данных — не абстрактная функция. Вот конкретные ситуации, в которых AIARM экономит часы работы:
Строительная компания получила договор подряда на 40 страниц. AIARM обработал его за 42 секунды. Результат: 23 денежные суммы (цена, авансы, этапы, штрафы, гарантийное удержание), 18 дат (подписание, начало работ, этапы, сдача), 4 графика платежей, привязанных к этапам. Всё — в структурированных таблицах с ссылками на исходный текст. Ручной разбор занял бы 2-3 часа.
Поставщик прислал спецификацию с 500 товарными позициями. AIARM разобрал каждую строку: наименование, артикул, ед. изм., количество, цена, НДС, итого. Обнаружены 3 позиции, где цена × количество ? итого. Суммарное расхождение — 89 000 ₽. Также выявлено, что общая сумма спецификации (12 340 000 ₽) не совпадает с ценой в договоре (12 450 000 ₽) — разница 110 000 ₽.
В проект загружены: договор, 3 спецификации, 2 допсоглашения, 5 счетов на оплату. AIARM извлёк данные из каждого и позволил: найти один товар во всех документах, сравнить его цену в первой и последней спецификации, сверить реквизиты в счетах с договором. Обнаружено: в одном счёте расчётный счёт отличается от указанного в договоре — проверка реквизитов предотвратила ошибочный платёж.
Оочность извлечения и алгоритмическая валидация
AIARM не просто «находит числа в тексте». Каждое извлечённое значение проходит алгоритмическую проверку:
- ИНН — проверка контрольной суммы для 10- и 12-значных номеров. Подробнее — проверка реквизитов
- НДС — пересчёт: сумма без НДС + НДС = сумма с НДС. Подробнее — финансовый анализ
- Таблицы — пересчёт: цена × количество = итого для каждой строки
- Суммы прописью — сравнение числового и текстового представления
- Даты — проверка на непротиворечивость (дата окончания не раньше даты начала)
Контекстная привязка означает, что вы видите не просто «120 000 ₽», а «120 000 ₽ — аванс (п. 3.2, стр. 4)». Это позволяет мгновенно проверить значение в исходном документе.
Система включает более 50 встроенных анализаторов, каждый из которых отвечает за свою область: даты, суммы, реквизиты, условия, риски, структуру текста. Анализаторы работают параллельно, что обеспечивает скорость обработки: средний документ на 20-30 страниц обрабатывается за 30 секунд.
Частые вопросы
Какие форматы документов поддерживает AIARM?
Как AIARM извлекает суммы, написанные прописью?
Может ли AIARM работать со сметами и спецификациями?
Сколько времени занимает анализ одного документа?
Как AIARM обрабатывает таблицы в PDF?
Можно ли проверить правильность расчётов в спецификации?
Безопасны ли загруженные документы?
Попробуйте извлечение данных прямо сейчас
Загрузите документ — получите структурированные данные за секунды. Бесплатно.