Автоматическое извлечение данных из документов — анализ с помощью ИИ

AIARM читает каждую страницу документа и за секунды превращает неструктурированный текст в таблицы, карточки и сводки. Суммы, даты, реквизиты, условия оплаты, сроки, таблицы продукции — всё с привязкой к контексту.

AIARM — это сервис автоматического анализа деловых документов, который извлекает из текста денежные суммы, даты, реквизиты, условия оплаты, сроки исполнения и таблицы продукции. Каждое найденное значение сопровождается контекстом: вы видите, где именно оно встретилось и в каком смысле упоминается.
50+встроенных анализаторов
12типов документов
~30 сексреднее время анализа
6категорий извлекаемых данных

Какие данные извлекает AIARM из документов

Сервис обрабатывает каждую страницу загруженного PDF или DOCX и автоматически находит все значимые данные. Результат — структурированные таблицы с привязкой к исходному тексту: вы всегда можете перейти к месту, где встретилось значение, и проверить контекст.

Оип данных Формат ввода (в тексте) Формат вывода Пример
Денежные суммы Цифры, прописью, с валютой Число + валюта + категория «сто двадцать тысяч рублей» > 120 000 ₽ (цена)
Даты Любой формат, текстовый ДД.ММ.ГГГГ + категория «первого марта двадцать пятого года» > 01.03.2025
Ссылки и контакты URL, e-mail, телефоны Кликабельные ссылки info@company.ru, +7 (495) 123-45-67
Условия оплаты Оекстовое описание Структурированный график «50% аванс, 50% по факту» > 2 этапа
Сроки Оекст, даты, периоды Таймлайн обязательств «в течение 30 рабочих дней» > дедлайн
Числа с единицами Числа + ед. изм. Значение + единица + контекст «площадь 1 200 кв.м» > 1200 м²

Все извлечённые данные группируются по категориям: суммы отдельно, даты отдельно, сроки отдельно. Сводные таблицы позволяют за секунду увидеть все финансовые условия документа или все ключевые даты.

Умные конвертации и нормализация данных

Одна из главных проблем при ручной работе с документами — разнородность форматов. Одна и та же сумма может быть записана цифрами, прописью, с копейками или без. Дата — в числовом формате, текстом или через дробь. AIARM приводит всё к единому стандарту.

Суммы прописью > числа

Система распознаёт суммы, записанные прописью на русском языке, и конвертирует их в числовой формат. Это позволяет автоматически сравнивать: написано ли одинаково цифрами и прописью. Если «Пять миллионов рублей» и «5 100 000» — вы увидите предупреждение о расхождении.

Оекстовые даты > стандарт

Даты в деловых документах записываются десятками способов. AIARM понимает все распространённые форматы и приводит каждый к единому виду ДД.ММ.ГГГГ.

Группировка в сводные таблицы

После извлечения и нормализации все данные собираются в сводные таблицы. Отдельно — все суммы документа (с указанием раздела и страницы). Отдельно — все даты (с категорией: дата договора, срок исполнения, срок оплаты). Это позволяет за секунды получить полную финансовую и временную картину документа.

Извлечение таблиц продукции и услуг

Спецификации, сметы, счета на оплату, коммерческие предложения — все они содержат таблицы с товарными позициями. AIARM автоматически распознаёт структуру таблицы, разбирает каждую строку на составляющие и сохраняет данные структурированно.

Что распознаём в каждой позиции

Автоматический пересчёт

Для каждой позиции AIARM проверяет: цена × количество = итого. Если в документе указано одно значение, а расчёт даёт другое — вы получите предупреждение. Это особенно важно для спецификаций с сотнями позиций, где ручная проверка невозможна.

Кейс: спецификация на 200 позиций

Строительная компания загрузила спецификацию материалов: 200 позиций, общая сумма 4 700 000 ₽. AIARM обработал документ за 28 секунд и обнаружил 3 позиции, где цена × количество ? итого. Суммарная ошибка составила 47 000 ₽. Ручная проверка заняла бы около 3 часов.

Работа с позициями в проекте

Когда в одном проекте несколько документов — договор, спецификация, допсоглашение — вы можете:

Поддерживаемые типы документов

AIARM работает с 12 типами деловых документов. Для каждого типа подбирается свой набор анализаторов — то есть договор проверяется иначе, чем счёт или смета. Это обеспечивает точность: каждый документ анализируется по правилам, релевантным его содержанию.

Оип документа Ключевые проверки Анализаторов
ДоговорРеквизиты, суммы, НДС, риски, баланс обязательств, чек-лист50+
ПриложениеПривязка к основному документу, таблицы, суммы30+
СпецификацияТаблица позиций, пересчёт, сравнение25+
СчётРеквизиты, суммы, НДС, сверка с договором20+
АктРеквизиты, суммы, сроки, привязка20+
Доп. соглашениеЧто изменилось, сравнение с основным договором35+
Оехническое заданиеСтруктура, требования, привязка к договору15+
СметаПозиции, пересчёт, итоги, НДС25+
Протокол разногласийПункты, формулировки, статусы15+
ПретензияОснования, суммы, сроки, реквизиты20+
Письмо / УведомлениеКонтакты, ссылки, даты10+
Прочий документБазовое извлечение данных10+

При загрузке документа вы указываете его тип — система автоматически подбирает нужные анализаторы. Если вы не уверены в типе, загрузите как «Прочий документ» — базовое извлечение данных всё равно будет выполнено.

Как запустить анализ документа — пошаговая инструкция

От регистрации до получения структурированных данных — менее 5 минут. Вот как это работает:

  1. Создайте проект

    Проект объединяет все документы по одной сделке, контрагенту или объекту. Назовите его, например, «Договор с ООО Строймонтаж» или «Объект: ЖК Рассвет».

  2. Загрузите документ

    Поддерживаются PDF и DOCX. Укажите тип документа (договор, спецификация, счёт и т.д.) — система подберёт нужные анализаторы.

  3. Запустите анализ

    Выберите конкретные проверки или запустите полный анализ. Обработка занимает от 10 до 60 секунд в зависимости от объёма документа.

  4. Изучите результаты

    Все извлечённые данные отображаются в интерактивных вкладках: суммы, даты, реквизиты, условия, таблицы. Каждое значение можно кликнуть, чтобы увидеть его в исходном тексте.

  5. Экспортируйте или действуйте

    Скачайте отчёт, сформируйте претензию или сравните с другим документом.

Сценарии использования — реальные примеры

Извлечение данных — не абстрактная функция. Вот конкретные ситуации, в которых AIARM экономит часы работы:

Кейс 1: Договор подряда, 40 страниц

Строительная компания получила договор подряда на 40 страниц. AIARM обработал его за 42 секунды. Результат: 23 денежные суммы (цена, авансы, этапы, штрафы, гарантийное удержание), 18 дат (подписание, начало работ, этапы, сдача), 4 графика платежей, привязанных к этапам. Всё — в структурированных таблицах с ссылками на исходный текст. Ручной разбор занял бы 2-3 часа.

Кейс 2: Спецификация, 500 позиций

Поставщик прислал спецификацию с 500 товарными позициями. AIARM разобрал каждую строку: наименование, артикул, ед. изм., количество, цена, НДС, итого. Обнаружены 3 позиции, где цена × количество ? итого. Суммарное расхождение — 89 000 ₽. Также выявлено, что общая сумма спецификации (12 340 000 ₽) не совпадает с ценой в договоре (12 450 000 ₽) — разница 110 000 ₽.

Кейс 3: Пакет документов по сделке

В проект загружены: договор, 3 спецификации, 2 допсоглашения, 5 счетов на оплату. AIARM извлёк данные из каждого и позволил: найти один товар во всех документах, сравнить его цену в первой и последней спецификации, сверить реквизиты в счетах с договором. Обнаружено: в одном счёте расчётный счёт отличается от указанного в договоре — проверка реквизитов предотвратила ошибочный платёж.

Оочность извлечения и алгоритмическая валидация

AIARM не просто «находит числа в тексте». Каждое извлечённое значение проходит алгоритмическую проверку:

Контекстная привязка означает, что вы видите не просто «120 000 ₽», а «120 000 ₽ — аванс (п. 3.2, стр. 4)». Это позволяет мгновенно проверить значение в исходном документе.

Система включает более 50 встроенных анализаторов, каждый из которых отвечает за свою область: даты, суммы, реквизиты, условия, риски, структуру текста. Анализаторы работают параллельно, что обеспечивает скорость обработки: средний документ на 20-30 страниц обрабатывается за 30 секунд.

Частые вопросы

Какие форматы документов поддерживает AIARM?
AIARM работает с документами в форматах PDF и DOCX. PDF-файлы могут быть как текстовыми, так и отсканированными (с OCR-слоем). Рекомендуемый размер — до 100 страниц для оптимальной скорости обработки.
Как AIARM извлекает суммы, написанные прописью?
Система использует морфологический анализ русского языка для распознавания числительных любой сложности: «Два миллиона триста сорок пять тысяч шестьсот семьдесят восемь рублей 90 копеек» > 2 345 678,90 ₽. Затем автоматически сравнивает с числовым значением, указанным рядом.
Может ли AIARM работать со сметами и спецификациями?
Да, это одна из ключевых функций. AIARM разбирает таблицы продукции и услуг, извлекая наименование, артикул, количество, цену, НДС и итого по каждой позиции. Для строительных компаний это особенно востребовано: сметы с сотнями позиций обрабатываются за секунды.
Сколько времени занимает анализ одного документа?
Среднее время — около 30 секунд для документа на 20-30 страниц. Для спецификаций с сотнями позиций — до 60 секунд. Простые документы (счёт, акт на 1-2 страницы) — 5-10 секунд.
Как AIARM обрабатывает таблицы в PDF?
Система распознаёт структуру таблицы в PDF, определяет столбцы (наименование, количество, цена, итого и т.д.) и извлекает данные построчно. Если таблица занимает несколько страниц — данные объединяются автоматически.
Можно ли проверить правильность расчётов в спецификации?
Да. AIARM автоматически пересчитывает: цена × количество = итого для каждой строки. Если расчётное значение не совпадает с указанным в документе — вы получите предупреждение с указанием разницы. Также проверяется общая сумма: сумма позиций = итого документа.
Безопасны ли загруженные документы?
Документы хранятся на защищённых серверах и доступны только вам и участникам вашего проекта. Данные передаются по зашифрованному каналу (HTTPS). Вы можете удалить документ и все его данные в любой момент.

Попробуйте извлечение данных прямо сейчас

Загрузите документ — получите структурированные данные за секунды. Бесплатно.