Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это содержимое относится к:
версии 4.0 (GA) | Предыдущие версии:
версии 3.1 (GA)
версии 3.0 (устаревание)
версии 2.1
Для начала работы с пользовательскими моделями аналитики документов требуется несколько обучающих документов. Если у вас есть как минимум пять документов, вы можете приступить к обучению пользовательской модели. Вы можете обучить пользовательскую модель шаблона (пользовательскую форму) или пользовательскую нейронную модель (пользовательский документ). В этом документе описан процесс обучения кастомных моделей.
Требования к входным данным пользовательской модели
Сначала убедитесь, что набор обучающих данных соответствует требованиям к входным данным для аналитики документов.
Поддерживаются следующие форматы файлов.
| Модель | Изображение: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Прочитать | ✔ | ✔ | ✔ |
| Макет | ✔ | ✔ | ✔ |
| Общий документ | ✔ | ✔ | |
| Предварительно собранный | ✔ | ✔ | |
| Настраиваемое извлечение | ✔ | ✔ | |
| Настраиваемая классификация | ✔ | ✔ | ✔ |
- Фотографии и сканы: для получения наилучших результатов предоставьте одну четкую фотографию или высококачественный скан на каждый документ.
- PDF и TIFF: для PDF и TIFF можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
- Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
- Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
- Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
- Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно 8-точечному тексту при 150 точках на дюйм.
- Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
- Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
- Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
- Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.
Советы по обучающим данным
Чтобы оптимизировать набор данных для обучения, следуйте приведенным ниже советам.
- Используйте текстовые pdf-документы вместо документов на основе изображений. Сканированные PDF-файлы обрабатываются как изображения.
- Используйте примеры, которые имеют все поля, завершенные для форм с полями ввода.
- Используйте формы с разными значениями в каждом поле.
- Используйте более крупный набор данных (10–15 изображений), если образы форм имеют более низкое качество.
Отправка обучающих данных
После сбора набора форм или документов для обучения необходимо отправить его в контейнер хранилища BLOB-объектов Azure. Если вы не знаете, как создать учетную запись хранилища Azure с контейнером, следуйте краткому руководству по служба хранилища Azure для портала Azure. Вы можете использовать бесплатный уровень F0, чтобы попробовать сервис, а затем перейти на платный уровень для рабочей среды.
Видео: обучение пользовательской модели
- После сбора и отправки обучаемого набора данных вы можете обучить настраиваемую модель. В следующем видео мы создадим проект и рассмотрим некоторые основы успешной маркировки и обучения модели.
Создание проекта в Студии аналитики документов
Document Intelligence Studio предоставляет и оркестрирует все вызовы API, необходимые для завершения набора данных и обучения модели.
Начните с перехода к Студии аналитики документов. При первом использовании Студии необходимо инициализировать подписку, группу ресурсов и ресурс. Затем следуйте предварительным требованиям для пользовательских проектов, чтобы настроить Студию для доступа к набору данных для обучения.
В Студии выберите плитку «Пользовательская модель извлечения» и нажмите кнопку «Создать проект».
create projectВ диалоговом окне укажите имя проекта, необязательно описание и нажмите кнопку "Продолжить".На следующем шаге рабочего процесса выберите или создайте ресурс аналитики документов перед продолжением.
Важно
Пользовательские нейронные модели доступны только в нескольких регионах. Если вы планируете обучать нейронную модель, выберите или создадите ресурс в одном из этих поддерживаемых регионов.
Затем выберите учетную запись хранения, используемую для загрузки вашего набора данных обучения пользовательской модели. Путь к папке должен быть пустым, если учебные документы находятся в корне контейнера. Если ваши документы находятся в подпапке, введите относительный путь из корневого каталога контейнера в поле Путь к папке. После настройки учетной записи хранения нажмите кнопку "Продолжить".
Наконец, просмотрите параметры project и выберите Create Project, чтобы создать новый project. Теперь вы должны находиться в окне маркировки и просматривать файлы в указанном наборе данных.
Пометьте свои данные
В вашем проекте ваша первая задача — отметить набор данных полями, которые вы хотите извлечь.
Файлы, отправленные в хранилище, перечислены слева от экрана с первым файлом, готовым к маркировке.
Начните маркировать ваш набор данных и создайте первое поле, нажав кнопку "плюс" (➕) в правом верхнем углу.
Введите имя поля.
Назначьте значение полю, выбрав слово или слова в документе. Выберите поле в раскрывающемся списке или списке полей на правой панели навигации. Помеченное значение находится под именем поля в списке полей.
Повторите процесс для всех полей, которые вы хотите наметить для набора данных.
Пометьте оставшиеся документы в наборе данных, выбрав каждый документ и выбрав нужный текст.
Теперь у вас есть все документы в наборе данных с меткой. Файлы.labels.json и .ocr.json соответствуют каждому документу в наборе данных обучения и новому файлу fields.json. Этот обучающий набор данных направляется для тренировки модели.
Обучение модели
Теперь, имея размеченный набор данных, можно обучить модель. Нажмите кнопку "Train" в правом верхнем углу.
В диалоговом окне создания модели придумайте уникальный идентификатор модели и, при необходимости, описание. Идентификатор модели принимает строковый тип данных.
В режиме сборки выберите тип модели, которую вы хотите обучить. Дополнительные сведения о типах и возможностях модели.
Выберите "Обучение ", чтобы инициировать процесс обучения.
Модели шаблонов обучаются за несколько минут. Нейронные модели могут занять до 30 минут для обучения.
Перейдите в меню "Модели", чтобы просмотреть состояние работы модели.
Тестирование модели
После завершения обучения модели можно протестировать модель, выбрав модель на странице списка моделей.
Выберите модель и нажмите кнопку "Тест ".
Нажмите кнопку
+ Add, чтобы выбрать файл для тестирования модели.Выбрав файл, нажмите кнопку "Анализ ", чтобы проверить модель.
Результаты модели отображаются в главном окне, а извлеченные поля отображаются в правой панели навигации.
Проверьте модель, оценив результаты для каждого поля.
В правой панели навигации также есть пример кода для вызова модели и результатов JSON из API.
Поздравляем, вы научились обучать пользовательскую модель в Студии Document Intelligence! Модель готова к использованию с REST API или пакетом SDK для анализа документов.
Применяется к:
v2.1.
Другие версии:v3.0
При использовании настраиваемой пользовательской модели аналитики документов вы предоставляете собственные данные обучения для операции обучения пользовательской модели, чтобы модель могла обучаться на ваших отраслевых формах. Следуйте этому руководству, чтобы узнать, как эффективно собирать и подготавливать данные для обучения модели.
Вам потребуется по крайней мере пять завершенных форм одного типа.
Если вы хотите использовать данные обучения, помеченные вручную, необходимо начать с по крайней мере пять завершенных форм одного типа. Вы по-прежнему можете использовать неназначенные формы в дополнение к требуемому набору данных.
Требования к входным данным пользовательской модели
Сначала убедитесь, что набор обучающих данных соответствует требованиям к входным данным для аналитики документов.
Поддерживаются следующие форматы файлов.
| Модель | Изображение: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Прочитать | ✔ | ✔ | ✔ |
| Макет | ✔ | ✔ | ✔ |
| Общий документ | ✔ | ✔ | |
| Предварительно собранный | ✔ | ✔ | |
| Настраиваемое извлечение | ✔ | ✔ | |
| Настраиваемая классификация | ✔ | ✔ | ✔ |
- Фотографии и сканы: для получения наилучших результатов предоставьте одну четкую фотографию или высококачественный скан на каждый документ.
- PDF и TIFF: для PDF и TIFF можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
- Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
- Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
- Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
- Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно 8-точечному тексту при 150 точках на дюйм.
- Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
- Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
- Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
- Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.
Советы по обучающим данным
Следуйте этим советам, чтобы оптимизировать набор данных для обучения.
- Используйте текстовые pdf-документы вместо документов на основе изображений. Сканированные PDF-файлы обрабатываются как изображения.
- Используйте примеры, в которых заполнены все поля для завершенных форм.
- Используйте формы с разными значениями в каждом поле.
- Используйте более крупный набор данных (10-15 изображений) для завершенных форм.
Отправка обучающих данных
После сбора набора документов для обучения необходимо отправить его в контейнер хранилища BLOB-объектов Azure. Если вы не знаете, как создать учетную запись хранения Azure с контейнером, следуйте краткому руководству служба хранилища Azure для портала Azure. Используйте стандартный уровень производительности.
Если вы хотите использовать данные, помеченные вручную, отправьте .labels.json и .ocr.json файлы, соответствующие учебным документам. Для создания этих файлов можно использовать средство создания примеров меток (или собственный пользовательский интерфейс).
Упорядочение данных в вложенных папках (необязательно)
По умолчанию API Обучение настраиваемой модели использует только документы, расположенные в корневом каталоге контейнера хранилища. Однако вы можете обучать модель с данными из вложенных папок, если указать их в вызове API. Как правило, текст вызова обучения пользовательской модели имеет следующий формат, где <SAS URL> — это URL-адрес с общей подписью доступа вашего контейнера.
{
"source":"<SAS URL>"
}
Если добавить следующее содержимое в текст запроса, API обучается с документами, расположенными в вложенных папках. Поле "prefix" является необязательным и ограничивает набор данных обучения файлам, пути которых начинаются с заданной строки. Таким образом, значение "Test", например, приводит к тому, что API будет просматривать только файлы или папки, начинающиеся с слова Test.
{
"source": "<SAS URL>",
"sourceFilter": {
"prefix": "<prefix string>",
"includeSubFolders": true
},
"useLabelFile": false
}
Дальнейшие действия
Теперь, когда вы узнали, как создать обучающий набор данных, следуйте краткому руководству, чтобы обучить пользовательскую модель Document Intelligence и начать использовать ее в ваших формах.