Извлечь числа из текста с контекстом — анализ цифр в договоре онлайн

AIARM извлекает все числовые значения из документа и классифицирует их по смыслу: суммы, проценты, сроки, штрафы, количество. Каждое число — с контекстом и семантической меткой. Не простой поиск цифр, а интеллектуальный анализ значений.

Извлечение чисел из документа — это автоматический процесс, при котором AIARM находит все числовые значения в тексте загруженного файла и классифицирует каждое по смыслу: денежные суммы, проценты и ставки, сроки исполнения, штрафные санкции, количество и объём. Каждое число сопровождается контекстом — фрагментом текста, из которого оно взято, и семантической меткой. Это не регулярное выражение для поиска цифр, а NLP-модель, которая понимает значение числа в контексте документа.

5категорий классификации

~20 сексреднее время анализа

95-99%точность распознавания

Зачем извлекать числа из документа

Любой деловой документ — это набор числовых условий: цены, сроки, штрафы, проценты, количества. Договор на 20 страниц может содержать от 50 до 200 числовых значений. Ручной поиск и проверка каждого занимает от 30 минут до 2 часов — и всё равно остаётся риск пропустить критическое число, спрятанное в середине абзаца.

Типичные задачи, для которых нужно извлечение чисел:

Экспресс-аудит договора. Мгновенный обзор всех финансовых условий: суммы, штрафы, пени, неустойки, лимиты ответственности — всё в одной таблице
Проверка спецификаций. Все количества и цены из приложения в структурированном виде — легко сравнить с другими документами
Подготовка сводки для руководства. Ключевые цифры из контракта — сумма, сроки, штрафы — в одном отчёте, без необходимости читать весь документ
Поиск скрытых условий. Пропущенное число может означать незамеченный штраф в 0.5% за каждый день просрочки, неверный срок или скрытую комиссию
Сравнение версий. Какие числовые условия изменились между v1 и v2 договора? Извлечение чисел из обеих версий даёт мгновенный ответ

Кейс: пропущенный штраф в договоре поставки

Менеджер закупок получил договор поставки на 18 страниц. При беглом чтении он обратил внимание на основную сумму (4.5 млн рублей), сроки поставки (60 дней) и условия оплаты (предоплата 30%). Но пропустил число в п. 8.4.3: «штраф в размере 0.5% от стоимости непоставленного товара за каждый день просрочки». При задержке поставки на 30 дней штраф составил бы 675 000 рублей. AIARM извлёк все 87 числовых значений из документа за 22 секунды — штраф был обнаружен в категории «Штрафы и пени» и помечен как высокорисковый.

Как AIARM извлекает числа — логика, а не regex

Обычный поиск цифр регулярными выражениями (regex) не различает число «5» в номере пункта «5.1» и в сроке «5 рабочих дней». AIARM использует NLP-модель, которая анализирует контекст каждого числа и определяет его семантическое значение.

Что делает NLP-модель

Анализ контекста. Модель читает слова вокруг числа: «рублей», «дней», «процентов», «штук» — и определяет категорию
Распознавание чисел прописью. «Двести тысяч рублей» превращается в 200 000 с пометкой «сумма». «Тридцать календарных дней» — в 30 с пометкой «срок»
Обработка таблиц. Числа в таблицах извлекаются с привязкой к заголовку столбца и строки: «Цена: 15 000» из ячейки на пересечении «Позиция 3» и «Цена за единицу»
Распознавание диапазонов. Выражение «от 5 до 10 рабочих дней» трактуется как единый диапазон срока, а не два отдельных числа
Фильтрация шума. Номера страниц, сноски, нумерация пунктов, реквизиты (ИНН, ОГРН) — всё это автоматически исключается из результатов как служебные числа

Пошаговый процесс

Загрузите документ. PDF (текстовый или скан), DOCX, изображения. Для сканов автоматически запускается OCR-распознавание.
Извлечение текста. Система разбирает документ на абзацы, таблицы, списки — сохраняя структуру для контекстной привязки.
Поиск числовых значений. Первый проход — регулярные выражения для цифр. Второй проход — NLP для чисел прописью и составных выражений.
Классификация. Каждое число получает семантическую метку на основе контекста: сумма, процент, срок, штраф, количество.
Формирование таблицы. Результат — структурированная таблица с числом, типом, контекстом, страницей и уровнем уверенности.

Классификация извлечённых чисел

Каждое найденное число автоматически попадает в одну из пяти категорий. Классификация основана на контексте — словах вокруг числа, разделе документа, заголовке столбца (если число в таблице).

Категория	Что входит	Пример из текста	Результат AIARM
Суммы и цены	Денежные значения с валютой	«общая стоимость составляет 1 500 000 рублей»	1 500 000 ₽ \| Сумма \| Раздел «Цена договора»
Проценты и ставки	Процентные значения, ставки, доли	«неустойка в размере 0.1% за каждый день»	0.1% \| Процент (неустойка) \| Раздел «Ответственность»
Сроки и даты	Количество дней, месяцев, лет	«в течение 30 календарных дней с момента подписания»	30 дней \| Срок \| Раздел «Сроки исполнения»
Количество и объём	Штуки, метры, тонны, площади	«партия в количестве 500 штук»	500 шт. \| Количество \| Спецификация, поз. 3
Штрафы и пени	Фиксированные штрафы, пени, неустойки	«штраф в размере 50 000 рублей за каждое нарушение»	50 000 ₽ \| Штраф \| Раздел «Ответственность»

Для углублённого анализа денежных сумм используйте специализированный инструмент поиска сумм, который дополнительно проверяет валюту, НДС и кросс-сверку между разделами документа. А для штрафных санкций — инструмент поиска штрафов и пени, который рассчитывает потенциальные суммы штрафов при разных сценариях.

Обработка неоднозначных значений

Некоторые числа могут относиться к нескольким категориям. Например, «5%» — это процент, но в контексте «штраф 5% от суммы» это ещё и штрафная санкция. AIARM присваивает основную и дополнительную категорию, сортируя по релевантности. Число «30» в контексте «30 дней» — срок, в контексте «30 000 рублей» — сумма, в контексте «30 штук» — количество. Модель делает правильный выбор в 95-99% случаев.

Формат вывода и работа с результатами

Результат извлечения — интерактивная таблица, которую можно фильтровать, сортировать и экспортировать. Каждая строка — одно числовое значение с полным набором метаданных.

Колонки таблицы результатов

Колонка	Описание	Пример значения
Число	Нормализованное числовое значение	1 500 000
Исходный текст	Как число записано в документе	«один миллион пятьсот тысяч рублей»
Категория	Семантическая метка	Сумма
Контекст	1-2 предложения вокруг числа	«Общая стоимость работ по настоящему договору составляет...»
Раздел / Страница	Местоположение в документе	Раздел 3, стр. 5
Уверенность	Степень уверенности модели в классификации	98%

Фильтрация и сортировка

По категории. Покажите только суммы, только сроки или только штрафы — одним кликом
По величине. Крупнейшие суммы наверху — мгновенно видны ключевые финансовые условия
По разделу. Все числа из раздела «Ответственность» — для быстрой оценки рисков
По уверенности. Числа с низкой уверенностью — первые кандидаты для ручной проверки

Экспорт в Excel

Таблица экспортируется в XLSX с сохранением всех колонок и фильтров. Каждая категория — на отдельном листе. Это удобно для передачи результатов: финансисту — лист «Суммы», юристу — лист «Штрафы», менеджеру — лист «Сроки». Для комплексной проверки всех финансовых условий используйте финансовый анализ документа.

Подсветка в документе

Каждое найденное число кликабельно — нажатие переводит к соответствующему месту в исходном документе с подсветкой. Это позволяет мгновенно проверить контекст, не переключаясь между таблицей результатов и PDF-файлом.

Применение в юридической и финансовой практике

Извлечение чисел — универсальный инструмент, который используется на разных этапах работы с документами. Вот конкретные сценарии с измеримыми результатами.

Кейс 1: Экспресс-аудит договора перед подписанием

Ситуация: Генеральный директор получил договор на согласование — 25 страниц, подписание через 2 часа. Времени на полное чтение нет. Действие: Загрузка в AIARM, извлечение чисел, фильтр «Суммы + Штрафы + Сроки». Результат за 18 секунд: сумма договора — 8.2 млн руб., предоплата 40% (3.28 млн), штраф за просрочку — 0.3% в день (до 9 млн за год), гарантийный срок — 12 месяцев. Полная картина финансовых условий — без чтения 25 страниц.

Кейс 2: Сравнение числовых условий в двух версиях

Ситуация: Контрагент прислал вторую редакцию договора. Менеджер хочет понять, что изменилось в числах. Действие: Извлечение чисел из v1 и v2, сравнение таблиц. Результат: цена увеличилась с 5 млн до 5.8 млн (+16%), срок поставки сократился с 90 до 60 дней, штраф за просрочку вырос с 0.1% до 0.3% в день. Все изменения — на одном экране.

Кейс 3: Проверка спецификации на 200 позиций

Ситуация: Спецификация к договору поставки — 200 позиций с ценами, количеством и итоговыми суммами. Нужно проверить: совпадают ли итоги по позициям с общей суммой? Действие: Извлечение всех чисел из спецификации, фильтр «Суммы». Результат: 200 цен позиций + 200 количеств + 200 итогов по строкам + общая сумма. Автоматическая сверка: итого по позициям = 4 856 300 руб., указанная общая сумма = 4 856 000 руб. Расхождение 300 рублей обнаружено за 25 секунд.

Для полного анализа документа — включая не только числа, но и реквизиты, условия, риски — используйте комплексный инструмент извлечения данных.

Поддерживаемые форматы документов

AIARM извлекает числа из всех основных форматов деловых документов. Для каждого формата — оптимальный метод обработки:

Формат	Метод обработки	Особенности
PDF (текстовый)	Прямое извлечение текста	Максимальная точность, сохранение таблиц
PDF (скан)	OCR-распознавание	Русский и английский язык, точность 97%+ при 300 DPI
DOCX	Парсинг XML-структуры	Сохранение таблиц, списков и форматирования
JPG, PNG, TIFF	OCR-распознавание	Для сканов отдельных страниц и фотографий документов

Пакетная обработка: загрузите несколько файлов одновременно — результаты объединяются в общую таблицу с указанием файла-источника. Это удобно для анализа пакета тендерной документации или комплекта приложений к договору.

Отличие от простого поиска цифр (Ctrl+F и regex)

Зачем нужен специализированный инструмент, если можно найти цифры через поиск? Вот конкретные различия:

Критерий	Ctrl+F / Regex	AIARM
Числа прописью	Не находит	Распознаёт и конвертирует: «двести тысяч» → 200 000
Классификация	Отсутствует	Автоматическая: сумма / процент / срок / штраф / количество
Контекст	Нужно переходить к каждому найденному месту	Контекст в таблице — оценка без возврата к документу
Шум (номера пунктов, страниц)	Включён в результаты	Автоматически отфильтрован
Диапазоны («от 5 до 10»)	Два отдельных числа	Единый диапазон с типом
Экспорт	Ручное копирование	Excel в 1 клик с категориями на отдельных листах
Пакетная обработка	По одному файлу	Несколько файлов одновременно

Главное отличие — AIARM понимает смысл числа, а не просто находит цифры. «5» в «п. 5.1 настоящего Договора» — это номер пункта (игнорируется). «5» в «срок выполнения — 5 рабочих дней» — это срок (категория «Сроки»). «5» в «штраф 5% от суммы» — это процент штрафа (категория «Штрафы»). Regex не различает эти случаи. AIARM — различает.

Частые вопросы

Чем извлечение чисел в AIARM отличается от поиска по Ctrl+F?

Ctrl+F находит цифры по шаблону, но не понимает их смысл. AIARM использует NLP-модель: определяет тип числа (сумма, срок, штраф), исключает служебные числа (номера пунктов, страниц), распознаёт числа прописью и формирует структурированную таблицу с контекстом каждого значения.

Распознаёт ли инструмент числа, записанные прописью?

Да, AIARM распознаёт числа прописью на русском языке: «двести тысяч рублей» → 200 000, «тридцать календарных дней» → 30. Также обрабатываются составные записи: «один миллион двести тридцать четыре тысячи пятьсот шестьдесят семь рублей» → 1 234 567.

Как классифицируются найденные числа — по каким категориям?

Пять основных категорий: суммы и цены (денежные значения), проценты и ставки (процентные значения), сроки и даты (количество дней/месяцев), количество и объём (штуки, метры, тонны), штрафы и пени (штрафные санкции). Классификация основана на контексте — словах вокруг числа и разделе документа.

Можно ли извлечь числа из отсканированного PDF?

Да, для сканированных PDF автоматически запускается OCR-распознавание. Поддерживаются русский и английский языки. При разрешении скана 300 DPI и выше точность распознавания составляет 97-99%. Также поддерживаются изображения JPG, PNG и TIFF.

Как экспортировать извлечённые числа в Excel?

Нажмите кнопку «Экспорт в Excel» в интерфейсе результатов. Таблица сохраняется в формате XLSX с отдельными листами для каждой категории: «Суммы», «Проценты», «Сроки», «Штрафы», «Количество». Все колонки — число, тип, контекст, раздел — сохраняются.

Обрабатываются ли числа в таблицах внутри документа?

Да, числа из таблиц извлекаются с привязкой к заголовку столбца и строки. Например, число «15 000» из ячейки таблицы будет иметь контекст: «Позиция 3, столбец Цена за единицу». Это особенно полезно для спецификаций с десятками и сотнями позиций.

Попробовать онлайн — бесплатно

Вставьте текст документа

0 / 5000 символов Бесплатно без регистрации · до 5 000 символов · Войдите для загрузки файлов

Извлеките числа из документа прямо сейчас

Загрузите PDF или DOCX — получите таблицу всех числовых значений с классификацией за секунды.

Создать аккаунт бесплатно Войти