Извлечь числа из текста с контекстом — анализ цифр в договоре онлайн

AIARM извлекает все числовые значения из документа и классифицирует их по смыслу: суммы, проценты, сроки, штрафы, количество. Каждое число — с контекстом и семантической меткой. Не простой поиск цифр, а интеллектуальный анализ значений.

Извлечение чисел из документа — это автоматический процесс, при котором AIARM находит все числовые значения в тексте загруженного файла и классифицирует каждое по смыслу: денежные суммы, проценты и ставки, сроки исполнения, штрафные санкции, количество и объём. Каждое число сопровождается контекстом — фрагментом текста, из которого оно взято, и семантической меткой. Это не регулярное выражение для поиска цифр, а NLP-модель, которая понимает значение числа в контексте документа.

5категорий классификации
~20 сексреднее время анализа
95-99%точность распознавания

Зачем извлекать числа из документа

Любой деловой документ — это набор числовых условий: цены, сроки, штрафы, проценты, количества. Договор на 20 страниц может содержать от 50 до 200 числовых значений. Ручной поиск и проверка каждого занимает от 30 минут до 2 часов — и всё равно остаётся риск пропустить критическое число, спрятанное в середине абзаца.

Типичные задачи, для которых нужно извлечение чисел:

Кейс: пропущенный штраф в договоре поставки

Менеджер закупок получил договор поставки на 18 страниц. При беглом чтении он обратил внимание на основную сумму (4.5 млн рублей), сроки поставки (60 дней) и условия оплаты (предоплата 30%). Но пропустил число в п. 8.4.3: «штраф в размере 0.5% от стоимости непоставленного товара за каждый день просрочки». При задержке поставки на 30 дней штраф составил бы 675 000 рублей. AIARM извлёк все 87 числовых значений из документа за 22 секунды — штраф был обнаружен в категории «Штрафы и пени» и помечен как высокорисковый.

Как AIARM извлекает числа — логика, а не regex

Обычный поиск цифр регулярными выражениями (regex) не различает число «5» в номере пункта «5.1» и в сроке «5 рабочих дней». AIARM использует NLP-модель, которая анализирует контекст каждого числа и определяет его семантическое значение.

Что делает NLP-модель

Пошаговый процесс

  1. Загрузите документ. PDF (текстовый или скан), DOCX, изображения. Для сканов автоматически запускается OCR-распознавание.
  2. Извлечение текста. Система разбирает документ на абзацы, таблицы, списки — сохраняя структуру для контекстной привязки.
  3. Поиск числовых значений. Первый проход — регулярные выражения для цифр. Второй проход — NLP для чисел прописью и составных выражений.
  4. Классификация. Каждое число получает семантическую метку на основе контекста: сумма, процент, срок, штраф, количество.
  5. Формирование таблицы. Результат — структурированная таблица с числом, типом, контекстом, страницей и уровнем уверенности.

Классификация извлечённых чисел

Каждое найденное число автоматически попадает в одну из пяти категорий. Классификация основана на контексте — словах вокруг числа, разделе документа, заголовке столбца (если число в таблице).

Категория Что входит Пример из текста Результат AIARM
Суммы и цены Денежные значения с валютой «общая стоимость составляет 1 500 000 рублей» 1 500 000 ₽ | Сумма | Раздел «Цена договора»
Проценты и ставки Процентные значения, ставки, доли «неустойка в размере 0.1% за каждый день» 0.1% | Процент (неустойка) | Раздел «Ответственность»
Сроки и даты Количество дней, месяцев, лет «в течение 30 календарных дней с момента подписания» 30 дней | Срок | Раздел «Сроки исполнения»
Количество и объём Штуки, метры, тонны, площади «партия в количестве 500 штук» 500 шт. | Количество | Спецификация, поз. 3
Штрафы и пени Фиксированные штрафы, пени, неустойки «штраф в размере 50 000 рублей за каждое нарушение» 50 000 ₽ | Штраф | Раздел «Ответственность»

Для углублённого анализа денежных сумм используйте специализированный инструмент поиска сумм, который дополнительно проверяет валюту, НДС и кросс-сверку между разделами документа. А для штрафных санкций — инструмент поиска штрафов и пени, который рассчитывает потенциальные суммы штрафов при разных сценариях.

Обработка неоднозначных значений

Некоторые числа могут относиться к нескольким категориям. Например, «5%» — это процент, но в контексте «штраф 5% от суммы» это ещё и штрафная санкция. AIARM присваивает основную и дополнительную категорию, сортируя по релевантности. Число «30» в контексте «30 дней» — срок, в контексте «30 000 рублей» — сумма, в контексте «30 штук» — количество. Модель делает правильный выбор в 95-99% случаев.

Формат вывода и работа с результатами

Результат извлечения — интерактивная таблица, которую можно фильтровать, сортировать и экспортировать. Каждая строка — одно числовое значение с полным набором метаданных.

Колонки таблицы результатов

Колонка Описание Пример значения
Число Нормализованное числовое значение 1 500 000
Исходный текст Как число записано в документе «один миллион пятьсот тысяч рублей»
Категория Семантическая метка Сумма
Контекст 1-2 предложения вокруг числа «Общая стоимость работ по настоящему договору составляет...»
Раздел / Страница Местоположение в документе Раздел 3, стр. 5
Уверенность Степень уверенности модели в классификации 98%

Фильтрация и сортировка

Экспорт в Excel

Таблица экспортируется в XLSX с сохранением всех колонок и фильтров. Каждая категория — на отдельном листе. Это удобно для передачи результатов: финансисту — лист «Суммы», юристу — лист «Штрафы», менеджеру — лист «Сроки». Для комплексной проверки всех финансовых условий используйте финансовый анализ документа.

Подсветка в документе

Каждое найденное число кликабельно — нажатие переводит к соответствующему месту в исходном документе с подсветкой. Это позволяет мгновенно проверить контекст, не переключаясь между таблицей результатов и PDF-файлом.

Применение в юридической и финансовой практике

Извлечение чисел — универсальный инструмент, который используется на разных этапах работы с документами. Вот конкретные сценарии с измеримыми результатами.

Кейс 1: Экспресс-аудит договора перед подписанием

Ситуация: Генеральный директор получил договор на согласование — 25 страниц, подписание через 2 часа. Времени на полное чтение нет. Действие: Загрузка в AIARM, извлечение чисел, фильтр «Суммы + Штрафы + Сроки». Результат за 18 секунд: сумма договора — 8.2 млн руб., предоплата 40% (3.28 млн), штраф за просрочку — 0.3% в день (до 9 млн за год), гарантийный срок — 12 месяцев. Полная картина финансовых условий — без чтения 25 страниц.

Кейс 2: Сравнение числовых условий в двух версиях

Ситуация: Контрагент прислал вторую редакцию договора. Менеджер хочет понять, что изменилось в числах. Действие: Извлечение чисел из v1 и v2, сравнение таблиц. Результат: цена увеличилась с 5 млн до 5.8 млн (+16%), срок поставки сократился с 90 до 60 дней, штраф за просрочку вырос с 0.1% до 0.3% в день. Все изменения — на одном экране.

Кейс 3: Проверка спецификации на 200 позиций

Ситуация: Спецификация к договору поставки — 200 позиций с ценами, количеством и итоговыми суммами. Нужно проверить: совпадают ли итоги по позициям с общей суммой? Действие: Извлечение всех чисел из спецификации, фильтр «Суммы». Результат: 200 цен позиций + 200 количеств + 200 итогов по строкам + общая сумма. Автоматическая сверка: итого по позициям = 4 856 300 руб., указанная общая сумма = 4 856 000 руб. Расхождение 300 рублей обнаружено за 25 секунд.

Для полного анализа документа — включая не только числа, но и реквизиты, условия, риски — используйте комплексный инструмент извлечения данных.

Поддерживаемые форматы документов

AIARM извлекает числа из всех основных форматов деловых документов. Для каждого формата — оптимальный метод обработки:

Формат Метод обработки Особенности
PDF (текстовый) Прямое извлечение текста Максимальная точность, сохранение таблиц
PDF (скан) OCR-распознавание Русский и английский язык, точность 97%+ при 300 DPI
DOCX Парсинг XML-структуры Сохранение таблиц, списков и форматирования
JPG, PNG, TIFF OCR-распознавание Для сканов отдельных страниц и фотографий документов

Пакетная обработка: загрузите несколько файлов одновременно — результаты объединяются в общую таблицу с указанием файла-источника. Это удобно для анализа пакета тендерной документации или комплекта приложений к договору.

Отличие от простого поиска цифр (Ctrl+F и regex)

Зачем нужен специализированный инструмент, если можно найти цифры через поиск? Вот конкретные различия:

Критерий Ctrl+F / Regex AIARM
Числа прописью Не находит Распознаёт и конвертирует: «двести тысяч» → 200 000
Классификация Отсутствует Автоматическая: сумма / процент / срок / штраф / количество
Контекст Нужно переходить к каждому найденному месту Контекст в таблице — оценка без возврата к документу
Шум (номера пунктов, страниц) Включён в результаты Автоматически отфильтрован
Диапазоны («от 5 до 10») Два отдельных числа Единый диапазон с типом
Экспорт Ручное копирование Excel в 1 клик с категориями на отдельных листах
Пакетная обработка По одному файлу Несколько файлов одновременно

Главное отличие — AIARM понимает смысл числа, а не просто находит цифры. «5» в «п. 5.1 настоящего Договора» — это номер пункта (игнорируется). «5» в «срок выполнения — 5 рабочих дней» — это срок (категория «Сроки»). «5» в «штраф 5% от суммы» — это процент штрафа (категория «Штрафы»). Regex не различает эти случаи. AIARM — различает.

Частые вопросы

Чем извлечение чисел в AIARM отличается от поиска по Ctrl+F?

Ctrl+F находит цифры по шаблону, но не понимает их смысл. AIARM использует NLP-модель: определяет тип числа (сумма, срок, штраф), исключает служебные числа (номера пунктов, страниц), распознаёт числа прописью и формирует структурированную таблицу с контекстом каждого значения.

Распознаёт ли инструмент числа, записанные прописью?

Да, AIARM распознаёт числа прописью на русском языке: «двести тысяч рублей» → 200 000, «тридцать календарных дней» → 30. Также обрабатываются составные записи: «один миллион двести тридцать четыре тысячи пятьсот шестьдесят семь рублей» → 1 234 567.

Как классифицируются найденные числа — по каким категориям?

Пять основных категорий: суммы и цены (денежные значения), проценты и ставки (процентные значения), сроки и даты (количество дней/месяцев), количество и объём (штуки, метры, тонны), штрафы и пени (штрафные санкции). Классификация основана на контексте — словах вокруг числа и разделе документа.

Можно ли извлечь числа из отсканированного PDF?

Да, для сканированных PDF автоматически запускается OCR-распознавание. Поддерживаются русский и английский языки. При разрешении скана 300 DPI и выше точность распознавания составляет 97-99%. Также поддерживаются изображения JPG, PNG и TIFF.

Как экспортировать извлечённые числа в Excel?

Нажмите кнопку «Экспорт в Excel» в интерфейсе результатов. Таблица сохраняется в формате XLSX с отдельными листами для каждой категории: «Суммы», «Проценты», «Сроки», «Штрафы», «Количество». Все колонки — число, тип, контекст, раздел — сохраняются.

Обрабатываются ли числа в таблицах внутри документа?

Да, числа из таблиц извлекаются с привязкой к заголовку столбца и строки. Например, число «15 000» из ячейки таблицы будет иметь контекст: «Позиция 3, столбец Цена за единицу». Это особенно полезно для спецификаций с десятками и сотнями позиций.

Извлеките числа из документа прямо сейчас

Загрузите PDF или DOCX — получите таблицу всех числовых значений с классификацией за секунды.