Извлечь числа из текста с контекстом — анализ цифр в договоре онлайн
AIARM извлекает все числовые значения из документа и классифицирует их по смыслу: суммы, проценты, сроки, штрафы, количество. Каждое число — с контекстом и семантической меткой. Не простой поиск цифр, а интеллектуальный анализ значений.
Извлечение чисел из документа — это автоматический процесс, при котором AIARM находит все числовые значения в тексте загруженного файла и классифицирует каждое по смыслу: денежные суммы, проценты и ставки, сроки исполнения, штрафные санкции, количество и объём. Каждое число сопровождается контекстом — фрагментом текста, из которого оно взято, и семантической меткой. Это не регулярное выражение для поиска цифр, а NLP-модель, которая понимает значение числа в контексте документа.
Зачем извлекать числа из документа
Любой деловой документ — это набор числовых условий: цены, сроки, штрафы, проценты, количества. Договор на 20 страниц может содержать от 50 до 200 числовых значений. Ручной поиск и проверка каждого занимает от 30 минут до 2 часов — и всё равно остаётся риск пропустить критическое число, спрятанное в середине абзаца.
Типичные задачи, для которых нужно извлечение чисел:
- Экспресс-аудит договора. Мгновенный обзор всех финансовых условий: суммы, штрафы, пени, неустойки, лимиты ответственности — всё в одной таблице
- Проверка спецификаций. Все количества и цены из приложения в структурированном виде — легко сравнить с другими документами
- Подготовка сводки для руководства. Ключевые цифры из контракта — сумма, сроки, штрафы — в одном отчёте, без необходимости читать весь документ
- Поиск скрытых условий. Пропущенное число может означать незамеченный штраф в 0.5% за каждый день просрочки, неверный срок или скрытую комиссию
- Сравнение версий. Какие числовые условия изменились между v1 и v2 договора? Извлечение чисел из обеих версий даёт мгновенный ответ
Менеджер закупок получил договор поставки на 18 страниц. При беглом чтении он обратил внимание на основную сумму (4.5 млн рублей), сроки поставки (60 дней) и условия оплаты (предоплата 30%). Но пропустил число в п. 8.4.3: «штраф в размере 0.5% от стоимости непоставленного товара за каждый день просрочки». При задержке поставки на 30 дней штраф составил бы 675 000 рублей. AIARM извлёк все 87 числовых значений из документа за 22 секунды — штраф был обнаружен в категории «Штрафы и пени» и помечен как высокорисковый.
Как AIARM извлекает числа — логика, а не regex
Обычный поиск цифр регулярными выражениями (regex) не различает число «5» в номере пункта «5.1» и в сроке «5 рабочих дней». AIARM использует NLP-модель, которая анализирует контекст каждого числа и определяет его семантическое значение.
Что делает NLP-модель
- Анализ контекста. Модель читает слова вокруг числа: «рублей», «дней», «процентов», «штук» — и определяет категорию
- Распознавание чисел прописью. «Двести тысяч рублей» превращается в 200 000 с пометкой «сумма». «Тридцать календарных дней» — в 30 с пометкой «срок»
- Обработка таблиц. Числа в таблицах извлекаются с привязкой к заголовку столбца и строки: «Цена: 15 000» из ячейки на пересечении «Позиция 3» и «Цена за единицу»
- Распознавание диапазонов. Выражение «от 5 до 10 рабочих дней» трактуется как единый диапазон срока, а не два отдельных числа
- Фильтрация шума. Номера страниц, сноски, нумерация пунктов, реквизиты (ИНН, ОГРН) — всё это автоматически исключается из результатов как служебные числа
Пошаговый процесс
- Загрузите документ. PDF (текстовый или скан), DOCX, изображения. Для сканов автоматически запускается OCR-распознавание.
- Извлечение текста. Система разбирает документ на абзацы, таблицы, списки — сохраняя структуру для контекстной привязки.
- Поиск числовых значений. Первый проход — регулярные выражения для цифр. Второй проход — NLP для чисел прописью и составных выражений.
- Классификация. Каждое число получает семантическую метку на основе контекста: сумма, процент, срок, штраф, количество.
- Формирование таблицы. Результат — структурированная таблица с числом, типом, контекстом, страницей и уровнем уверенности.
Классификация извлечённых чисел
Каждое найденное число автоматически попадает в одну из пяти категорий. Классификация основана на контексте — словах вокруг числа, разделе документа, заголовке столбца (если число в таблице).
| Категория | Что входит | Пример из текста | Результат AIARM |
|---|---|---|---|
| Суммы и цены | Денежные значения с валютой | «общая стоимость составляет 1 500 000 рублей» | 1 500 000 ₽ | Сумма | Раздел «Цена договора» |
| Проценты и ставки | Процентные значения, ставки, доли | «неустойка в размере 0.1% за каждый день» | 0.1% | Процент (неустойка) | Раздел «Ответственность» |
| Сроки и даты | Количество дней, месяцев, лет | «в течение 30 календарных дней с момента подписания» | 30 дней | Срок | Раздел «Сроки исполнения» |
| Количество и объём | Штуки, метры, тонны, площади | «партия в количестве 500 штук» | 500 шт. | Количество | Спецификация, поз. 3 |
| Штрафы и пени | Фиксированные штрафы, пени, неустойки | «штраф в размере 50 000 рублей за каждое нарушение» | 50 000 ₽ | Штраф | Раздел «Ответственность» |
Для углублённого анализа денежных сумм используйте специализированный инструмент поиска сумм, который дополнительно проверяет валюту, НДС и кросс-сверку между разделами документа. А для штрафных санкций — инструмент поиска штрафов и пени, который рассчитывает потенциальные суммы штрафов при разных сценариях.
Обработка неоднозначных значений
Некоторые числа могут относиться к нескольким категориям. Например, «5%» — это процент, но в контексте «штраф 5% от суммы» это ещё и штрафная санкция. AIARM присваивает основную и дополнительную категорию, сортируя по релевантности. Число «30» в контексте «30 дней» — срок, в контексте «30 000 рублей» — сумма, в контексте «30 штук» — количество. Модель делает правильный выбор в 95-99% случаев.
Формат вывода и работа с результатами
Результат извлечения — интерактивная таблица, которую можно фильтровать, сортировать и экспортировать. Каждая строка — одно числовое значение с полным набором метаданных.
Колонки таблицы результатов
| Колонка | Описание | Пример значения |
|---|---|---|
| Число | Нормализованное числовое значение | 1 500 000 |
| Исходный текст | Как число записано в документе | «один миллион пятьсот тысяч рублей» |
| Категория | Семантическая метка | Сумма |
| Контекст | 1-2 предложения вокруг числа | «Общая стоимость работ по настоящему договору составляет...» |
| Раздел / Страница | Местоположение в документе | Раздел 3, стр. 5 |
| Уверенность | Степень уверенности модели в классификации | 98% |
Фильтрация и сортировка
- По категории. Покажите только суммы, только сроки или только штрафы — одним кликом
- По величине. Крупнейшие суммы наверху — мгновенно видны ключевые финансовые условия
- По разделу. Все числа из раздела «Ответственность» — для быстрой оценки рисков
- По уверенности. Числа с низкой уверенностью — первые кандидаты для ручной проверки
Экспорт в Excel
Таблица экспортируется в XLSX с сохранением всех колонок и фильтров. Каждая категория — на отдельном листе. Это удобно для передачи результатов: финансисту — лист «Суммы», юристу — лист «Штрафы», менеджеру — лист «Сроки». Для комплексной проверки всех финансовых условий используйте финансовый анализ документа.
Подсветка в документе
Каждое найденное число кликабельно — нажатие переводит к соответствующему месту в исходном документе с подсветкой. Это позволяет мгновенно проверить контекст, не переключаясь между таблицей результатов и PDF-файлом.
Применение в юридической и финансовой практике
Извлечение чисел — универсальный инструмент, который используется на разных этапах работы с документами. Вот конкретные сценарии с измеримыми результатами.
Ситуация: Генеральный директор получил договор на согласование — 25 страниц, подписание через 2 часа. Времени на полное чтение нет. Действие: Загрузка в AIARM, извлечение чисел, фильтр «Суммы + Штрафы + Сроки». Результат за 18 секунд: сумма договора — 8.2 млн руб., предоплата 40% (3.28 млн), штраф за просрочку — 0.3% в день (до 9 млн за год), гарантийный срок — 12 месяцев. Полная картина финансовых условий — без чтения 25 страниц.
Ситуация: Контрагент прислал вторую редакцию договора. Менеджер хочет понять, что изменилось в числах. Действие: Извлечение чисел из v1 и v2, сравнение таблиц. Результат: цена увеличилась с 5 млн до 5.8 млн (+16%), срок поставки сократился с 90 до 60 дней, штраф за просрочку вырос с 0.1% до 0.3% в день. Все изменения — на одном экране.
Ситуация: Спецификация к договору поставки — 200 позиций с ценами, количеством и итоговыми суммами. Нужно проверить: совпадают ли итоги по позициям с общей суммой? Действие: Извлечение всех чисел из спецификации, фильтр «Суммы». Результат: 200 цен позиций + 200 количеств + 200 итогов по строкам + общая сумма. Автоматическая сверка: итого по позициям = 4 856 300 руб., указанная общая сумма = 4 856 000 руб. Расхождение 300 рублей обнаружено за 25 секунд.
Для полного анализа документа — включая не только числа, но и реквизиты, условия, риски — используйте комплексный инструмент извлечения данных.
Поддерживаемые форматы документов
AIARM извлекает числа из всех основных форматов деловых документов. Для каждого формата — оптимальный метод обработки:
| Формат | Метод обработки | Особенности |
|---|---|---|
| PDF (текстовый) | Прямое извлечение текста | Максимальная точность, сохранение таблиц |
| PDF (скан) | OCR-распознавание | Русский и английский язык, точность 97%+ при 300 DPI |
| DOCX | Парсинг XML-структуры | Сохранение таблиц, списков и форматирования |
| JPG, PNG, TIFF | OCR-распознавание | Для сканов отдельных страниц и фотографий документов |
Пакетная обработка: загрузите несколько файлов одновременно — результаты объединяются в общую таблицу с указанием файла-источника. Это удобно для анализа пакета тендерной документации или комплекта приложений к договору.
Отличие от простого поиска цифр (Ctrl+F и regex)
Зачем нужен специализированный инструмент, если можно найти цифры через поиск? Вот конкретные различия:
| Критерий | Ctrl+F / Regex | AIARM |
|---|---|---|
| Числа прописью | Не находит | Распознаёт и конвертирует: «двести тысяч» → 200 000 |
| Классификация | Отсутствует | Автоматическая: сумма / процент / срок / штраф / количество |
| Контекст | Нужно переходить к каждому найденному месту | Контекст в таблице — оценка без возврата к документу |
| Шум (номера пунктов, страниц) | Включён в результаты | Автоматически отфильтрован |
| Диапазоны («от 5 до 10») | Два отдельных числа | Единый диапазон с типом |
| Экспорт | Ручное копирование | Excel в 1 клик с категориями на отдельных листах |
| Пакетная обработка | По одному файлу | Несколько файлов одновременно |
Главное отличие — AIARM понимает смысл числа, а не просто находит цифры. «5» в «п. 5.1 настоящего Договора» — это номер пункта (игнорируется). «5» в «срок выполнения — 5 рабочих дней» — это срок (категория «Сроки»). «5» в «штраф 5% от суммы» — это процент штрафа (категория «Штрафы»). Regex не различает эти случаи. AIARM — различает.
Частые вопросы
Чем извлечение чисел в AIARM отличается от поиска по Ctrl+F?
Ctrl+F находит цифры по шаблону, но не понимает их смысл. AIARM использует NLP-модель: определяет тип числа (сумма, срок, штраф), исключает служебные числа (номера пунктов, страниц), распознаёт числа прописью и формирует структурированную таблицу с контекстом каждого значения.
Распознаёт ли инструмент числа, записанные прописью?
Да, AIARM распознаёт числа прописью на русском языке: «двести тысяч рублей» → 200 000, «тридцать календарных дней» → 30. Также обрабатываются составные записи: «один миллион двести тридцать четыре тысячи пятьсот шестьдесят семь рублей» → 1 234 567.
Как классифицируются найденные числа — по каким категориям?
Пять основных категорий: суммы и цены (денежные значения), проценты и ставки (процентные значения), сроки и даты (количество дней/месяцев), количество и объём (штуки, метры, тонны), штрафы и пени (штрафные санкции). Классификация основана на контексте — словах вокруг числа и разделе документа.
Можно ли извлечь числа из отсканированного PDF?
Да, для сканированных PDF автоматически запускается OCR-распознавание. Поддерживаются русский и английский языки. При разрешении скана 300 DPI и выше точность распознавания составляет 97-99%. Также поддерживаются изображения JPG, PNG и TIFF.
Как экспортировать извлечённые числа в Excel?
Нажмите кнопку «Экспорт в Excel» в интерфейсе результатов. Таблица сохраняется в формате XLSX с отдельными листами для каждой категории: «Суммы», «Проценты», «Сроки», «Штрафы», «Количество». Все колонки — число, тип, контекст, раздел — сохраняются.
Обрабатываются ли числа в таблицах внутри документа?
Да, числа из таблиц извлекаются с привязкой к заголовку столбца и строки. Например, число «15 000» из ячейки таблицы будет иметь контекст: «Позиция 3, столбец Цена за единицу». Это особенно полезно для спецификаций с десятками и сотнями позиций.
Извлеките числа из документа прямо сейчас
Загрузите PDF или DOCX — получите таблицу всех числовых значений с классификацией за секунды.