Извлечь ссылки из текста онлайн — автоматическое извлечение URL, email и телефонов из документов
AIARM автоматически находит в тексте документа все ссылки, email-адреса, номера телефонов и ссылки на нормативные акты. Загрузите PDF или DOCX — получите структурированную таблицу с типом каждой ссылки, адресом и контекстом упоминания за секунды.
Извлечение ссылок из документа — это автоматический процесс, при котором AIARM сканирует каждую страницу загруженного файла и находит все типы ссылок: URL-адреса (http/https), email-адреса, номера телефонов в российском формате, ссылки на федеральные законы, кодексы и постановления, а также упоминания внутренних документов (приложений, протоколов, допсоглашений). Результат — таблица с категоризацией, контекстом и возможностью экспорта в Excel.
Зачем извлекать ссылки из документов
Деловые документы — договоры, спецификации, тендерная документация, письма — содержат десятки ссылок: на законы, email контактных лиц, URL внешних ресурсов, номера телефонов, упоминания приложений и протоколов. Ручной поиск таких ссылок занимает от 30 минут до нескольких часов, а риск пропустить критически важную ссылку растёт с каждой страницей.
Типичные задачи, которые решает автоматическое извлечение ссылок:
- Контроль актуальности нормативных ссылок. Договор ссылается на ФЗ-44, п. 3 ст. 94 — действует ли эта редакция? AIARM находит все ссылки на законы и кодексы, позволяя юристу проверить каждую за минуту вместо часа
- Сбор контактных данных. Из пакета входящих документов — 20 писем, 5 договоров, 10 приложений — нужно собрать все email и телефоны. Вручную это занимает полдня, с AIARM — 2 минуты
- Проверка URL в технической документации. Техническое задание ссылается на 8 внешних сервисов — все ли URL работают? Извлечение ссылок с проверкой доступности решает эту задачу автоматически
- Аудит ссылок на приложения. Договор упоминает «Приложение 1», «Приложение 2», «Приложение 3» — все ли они действительно приложены? Система находит все внутренние ссылки и позволяет сверить комплектность
- Подготовка реестра нормативных актов. Для регуляторного комплаенса нужен список всех законов, на которые ссылается документ. AIARM формирует такой реестр автоматически
Юрист загрузил рамочный договор поставки (40 страниц, PDF). AIARM за 18 секунд нашёл: 12 ссылок на федеральные законы и кодексы, 3 email-адреса (бухгалтерия, юридический отдел, руководитель проекта), 2 URL на сайты контрагента, 7 упоминаний внутренних приложений. Результат — таблица с контекстом каждой ссылки, готовая к проверке.
Какие типы ссылок извлекает AIARM
Система распознаёт шесть категорий ссылок. Для каждой категории используется специализированный алгоритм: от регулярных выражений для URL и email до NLP-моделей для ссылок на нормативные акты в свободной формулировке.
| Тип ссылки | Формат распознавания | Пример из текста | Результат |
|---|---|---|---|
| URL (http/https) | Полные и сокращённые URL | «см. https://zakupki.gov.ru/epz/order» | URL: zakupki.gov.ru, статус: 200 OK |
| Стандартный формат email | «направить на buh@company.ru» | Email: buh@company.ru, контекст: бухгалтерия | |
| Телефон | Российский формат (+7, 8, скобки) | «тел.: +7 (495) 123-45-67» | Телефон: +7 495 123-45-67, контекст: контакт |
| Ссылки на законы | ФЗ, ГК РФ, постановления, приказы | «в соответствии с п. 1 ст. 702 ГК РФ» | Закон: ГК РФ ст. 702 п. 1, тип: подряд |
| Внутренние документы | Приложения, протоколы, допсоглашения | «согласно Приложению 3 к настоящему Договору» | Приложение 3, привязка: текущий договор |
| Реквизиты документов | Номера, даты документов | «Договор № 123/2024 от 15.03.2024» | Документ: 123/2024, дата: 15.03.2024 |
Каждая найденная ссылка сопровождается контекстом — фрагментом текста, в котором она встретилась. Это позволяет быстро оценить значимость ссылки, не возвращаясь к исходному документу. Для URL-адресов дополнительно выполняется проверка доступности (HTTP-статус), что особенно важно при аудите технической документации.
Ссылки на нормативные акты распознаются даже в свободной формулировке: «в соответствии с действующим законодательством о защите прав потребителей» будет классифицировано как ссылка на ФЗ «О защите прав потребителей». Для этого используется NLP-модель, обученная на корпусе российских правовых текстов.
Как работает извлечение ссылок в AIARM
Процесс полностью автоматизирован: вы загружаете документ, система обрабатывает его и возвращает структурированный результат. Вот как это работает шаг за шагом:
- Загрузите документ. Поддерживаются PDF (включая сканы с OCR-распознаванием), DOCX, а также изображения (JPG, PNG, TIFF). Перетащите файл в окно загрузки или выберите из файловой системы.
- Система распознаёт текст. Для сканированных PDF и изображений применяется OCR. Для текстовых PDF и DOCX — прямое извлечение текста с сохранением структуры абзацев и таблиц.
- Многослойный анализ ссылок. Первый слой — регулярные выражения для URL, email, телефонов. Второй слой — NLP-модель для ссылок на законы и внутренние документы. Третий слой — контекстный анализ: определение категории и значимости каждой ссылки.
- Проверка доступности. Для URL-адресов выполняется HTTP-запрос с проверкой статуса (200, 301, 404, timeout). Результат отображается в таблице рядом с каждым URL.
- Формирование результата. Все ссылки группируются по категориям, каждая сопровождается контекстом и метаданными. Результат доступен в интерфейсе и для экспорта в Excel.
Среднее время обработки одного документа — 15 секунд для текстового PDF до 50 страниц. Для сканированных документов время увеличивается за счёт OCR-распознавания, но редко превышает 60 секунд.
Алгоритм учитывает особенности российских деловых документов: формат телефонов с кодами городов и мобильных операторов, ссылки на законы в формате «ФЗ от ДД.ММ.ГГГГ № NNN-ФЗ», номера документов с косой чертой и дефисами. Для полного анализа документа — включая суммы, даты, реквизиты и условия — используйте комплексное извлечение данных.
Контекст каждой ссылки — не просто адрес, а полная картина
Главное отличие AIARM от простых парсеров ссылок — каждая найденная ссылка сопровождается контекстом. Вы видите не изолированный URL или email, а фрагмент текста, в котором он встретился, с привязкой к разделу и пункту документа.
Что входит в контекст ссылки
- Фрагмент текста. 1-2 предложения вокруг ссылки — достаточно, чтобы понять смысл без возврата к документу
- Раздел документа. «Раздел 5. Ответственность сторон», «Приложение 2. Спецификация» — привязка к структуре
- Номер пункта. Если документ структурирован — точный номер пункта (например, «п. 7.3.2»)
- Тип ссылки. Автоматическая классификация: нормативная, контактная, внутренняя, внешняя
- Значимость. Нормативная ссылка в разделе «Ответственность» важнее, чем в преамбуле — система учитывает это при ранжировании
Контекстный анализ особенно полезен при работе с большими документами. В договоре на 100 страниц может быть 50+ ссылок — без контекста проверка каждой потребует возврата к исходному тексту. С контекстом юрист оценивает значимость ссылки прямо в таблице результатов.
Типизация ссылок по контексту
| Тип по контексту | Описание | Пример |
|---|---|---|
| Нормативная ссылка | Ссылка на закон, кодекс, постановление в обосновании условий договора | «...в соответствии с п. 1 ст. 702 ГК РФ подрядчик обязуется...» |
| Контактные данные | Email, телефон контактного лица или отдела | «Уведомления направлять на адрес: legal@partner.ru» |
| Внешний ресурс | URL стороннего сервиса, портала, реестра | «Проверка выполняется на портале zakupki.gov.ru» |
| Внутренний документ | Ссылка на приложение, протокол, допсоглашение | «Перечень работ указан в Приложении 2» |
| Реквизиты документа | Номер и дата документа, на который ссылается текст | «Согласно Договору № 45/2023 от 10.01.2023» |
Контактные данные из документов также проверяются вместе с реквизитами сторон — система сверяет email и телефоны с данными из профиля компании и сигнализирует о расхождениях.
Сценарии использования извлечения ссылок
Инструмент применяется в разных рабочих ситуациях — от проверки одного договора до массового аудита документации. Вот три типичных сценария с конкретными результатами.
Ситуация: Рамочный договор поставки на 35 страниц, заключён 3 года назад. Нужно проверить актуальность всех ссылок на законы перед пролонгацией. Действие: Загрузка PDF в AIARM, запуск извлечения ссылок. Результат за 12 секунд: найдено 15 ссылок на ФЗ и ГК РФ. Система отметила 2 ссылки на утратившие силу редакции. Юрист подготовил протокол разногласий за 20 минут вместо 3 часов ручной проверки. Найденные ссылки на законы можно проверить на актуальность в отдельном инструменте.
Ситуация: 50 входящих писем и документов от нового контрагента — нужно собрать все контактные данные для CRM. Действие: Пакетная загрузка файлов, извлечение ссылок с фильтром «Email + Телефоны». Результат: 23 уникальных email-адреса, 8 номеров телефонов, каждый с указанием документа-источника и контактного лица. Экспорт в Excel — готовая база контактов за 5 минут вместо 4 часов ручной обработки.
Ситуация: Пакет тендерной документации: основной договор + 12 приложений + 3 допсоглашения. Нужно убедиться, что все упомянутые приложения действительно приложены. Действие: Загрузка основного договора, извлечение ссылок с фильтром «Внутренние документы». Результат: найдено 18 ссылок на приложения и допсоглашения. 2 приложения, упомянутые в тексте, отсутствовали в пакете — аудитор запросил их до подписания. Для детальной проверки приложений используйте инструмент проверки приложений к договору.
Каждый из этих сценариев демонстрирует ключевое преимущество автоматического извлечения: вместо ручного поиска по десяткам страниц вы получаете структурированную таблицу за секунды. При работе с большими объёмами документации — тендеры, проектная документация, серии договоров — экономия времени составляет 80-95%.
Экспорт и фильтрация результатов
Результаты извлечения ссылок доступны в нескольких форматах и с гибкой фильтрацией — вы получаете именно те данные, которые нужны для конкретной задачи.
Фильтрация по типу ссылки
В интерфейсе результатов доступны фильтры по каждому из 6 типов ссылок. Нужны только email-адреса? Включите фильтр «Email» — остальные категории скроются. Нужны только ссылки на законы? Фильтр «Нормативные» покажет только их. Фильтры комбинируются: «Email + Телефоны» — все контактные данные в одной таблице.
Экспорт в Excel
Таблица ссылок экспортируется в формате XLSX с сохранением всех колонок: тип, адрес/номер, контекст, раздел документа, статус проверки. Каждая категория ссылок размещается на отдельном листе — удобно для передачи разным специалистам: юристу — нормативные ссылки, менеджеру — контактные данные, IT-специалисту — URL.
Массовая проверка URL
Для всех найденных URL-адресов выполняется автоматическая проверка доступности. Результат — HTTP-статус для каждого URL:
- 200 OK — ресурс доступен и работает
- 301/302 — ресурс перемещён (возможно, URL устарел)
- 404 — ресурс не найден (ссылка битая)
- Timeout — сервер не отвечает (возможны проблемы с доступом)
Это особенно важно для технической документации и спецификаций, где URL ведут на внешние сервисы, API-документацию или порталы. Битая ссылка в договоре — это потенциальный риск: если контрагент ссылается на ресурс, который не работает, условия могут быть истолкованы неоднозначно.
Интеграция с другими инструментами AIARM
Извлечённые ссылки интегрируются с другими анализаторами AIARM:
- Ссылки на законы передаются в модуль проверки нормативных актов для проверки актуальности
- Email и телефоны сверяются с реквизитами сторон из профиля компании
- Внутренние документы проверяются модулем проверки приложений на комплектность
- Номера документов используются при сравнении версий для построения цепочки изменений
AIARM vs ручной поиск ссылок — сравнение
Зачем нужен специализированный инструмент, если можно использовать Ctrl+F? Вот конкретное сравнение по типичному рабочему сценарию — проверка ссылок в договоре на 40 страниц:
| Критерий | Ручной поиск (Ctrl+F) | AIARM |
|---|---|---|
| Время на 40 страниц | 45-90 минут | 15-20 секунд |
| Полнота (% найденных ссылок) | 70-85% (пропуск свободных формулировок) | 95-99% |
| Ссылки на законы в свободной форме | Часто пропускаются | NLP-распознавание |
| Контекст ссылки | Нужно возвращаться к документу | Автоматически в таблице |
| Проверка доступности URL | Вручную в браузере | Автоматическая (HTTP-статус) |
| Экспорт результатов | Ручное копирование | Excel в 1 клик |
| Пакетная обработка | По одному документу | Несколько файлов одновременно |
Ключевое преимущество — не только скорость, но и полнота. Ручной поиск пропускает ссылки в нестандартных формулировках: «в соответствии с действующим гражданским законодательством» — это ссылка на ГК РФ, но Ctrl+F её не найдёт. AIARM распознаёт такие формулировки благодаря NLP-модели, обученной на российских правовых текстах.
Поддерживаемые форматы документов
AIARM работает со всеми основными форматами деловых документов. Для каждого формата используется оптимальный метод извлечения текста:
| Формат | Метод обработки | Особенности |
|---|---|---|
| PDF (текстовый) | Прямое извлечение текста | Максимальная точность, сохранение структуры |
| PDF (скан) | OCR-распознавание | Поддержка русского и английского языка |
| DOCX | Парсинг XML-структуры | Сохранение гиперссылок и форматирования |
| JPG, PNG, TIFF | OCR-распознавание | Для сканов отдельных страниц |
Для сканированных документов точность распознавания зависит от качества скана. При разрешении 300 DPI и выше точность составляет 97-99%. Для документов с низким качеством скана (факсы, копии копий) рекомендуется предварительная обработка изображения.
DOCX-файлы обрабатываются с учётом встроенных гиперссылок: если в тексте «подробнее на сайте» содержит скрытый URL, AIARM извлечёт и отобразит его. Для полного анализа документа — включая суммы, даты, реквизиты и риски — используйте комплексное извлечение данных.
Частые вопросы
Какие форматы документов поддерживаются для извлечения ссылок?
AIARM поддерживает PDF (текстовые и сканированные), DOCX, а также изображения (JPG, PNG, TIFF). Для сканированных PDF и изображений используется OCR-распознавание текста. Максимальная точность достигается при разрешении скана 300 DPI и выше.
Распознаёт ли AIARM телефоны в свободном формате?
Да, система распознаёт телефоны в российском формате: +7 (XXX) XXX-XX-XX, 8-XXX-XXX-XX-XX, (XXX) XXX-XX-XX и другие вариации. Также распознаются телефоны без разделителей и с текстовыми пояснениями: «тел.: 84951234567», «факс: +7 495 123 45 67».
Можно ли проверить доступность найденных URL?
Да, для всех найденных URL автоматически выполняется HTTP-проверка. Вы видите статус каждого URL: 200 (доступен), 301/302 (перенаправление), 404 (не найден), timeout (сервер не отвечает). Это помогает выявить битые ссылки в документации.
Как AIARM отличает email от обычного текста?
Система использует строгий паттерн для email-адресов: наличие символа @, валидный домен, корректный формат имени пользователя. Дополнительно проверяется контекст — email в разделе «Реквизиты» или после слова «email:» получает более высокий приоритет. Ложные срабатывания минимальны.
Работает ли извлечение со сканированными PDF?
Да, для сканированных PDF применяется OCR-распознавание с поддержкой русского и английского языка. Точность зависит от качества скана: при 300 DPI и выше — 97-99%, при низком качестве (факсы, копии) — 85-95%. URL и email распознаются даже при незначительных артефактах OCR.
Можно ли извлечь ссылки из нескольких файлов сразу?
Да, AIARM поддерживает пакетную обработку. Загрузите несколько файлов — результаты будут объединены в общую таблицу с указанием файла-источника для каждой ссылки. Это удобно при работе с пакетами тендерной документации, входящей корреспонденцией или комплектами договоров.
Извлекает ли AIARM ссылки из таблиц внутри документа?
Да, система обрабатывает весь текст документа, включая содержимое таблиц, колонтитулов, сносок и примечаний. Ссылки, найденные в таблицах, помечаются соответствующим контекстом — вы видите, в какой ячейке и в какой таблице была найдена ссылка.
Извлеките ссылки из документа прямо сейчас
Загрузите PDF или DOCX — получите таблицу всех ссылок с контекстом за секунды. Бесплатно.