Как подготовить данные и определить схему для пользовательской модели NER

Чтобы создать пользовательскую модель NER, для обучения нужны качественные данные. В этой статье объясняется, как подойти к выбору и подготовке данных, а также определить схему. Определение схемы представляет собой первый шаг в жизненном цикле разработки проекта. Схема определяет типы/категории сущностей, которые модель должна извлечь из текста во время выполнения.

Структура схемы

Схема определяет типы или категории сущностей, которые ваша модель должна извлечь из текста во время выполнения.

Просмотрите документы в своем наборе данных, чтобы ознакомиться с их форматом и структурой.
Определите сущности, которые нужно извлечь из данных.

Например, если вы извлекаете сущности из сообщений электронной почты поддержки, может потребоваться извлечь "Имя клиента", "Имя продукта", "Дата запроса" и "Контактные данные".
Избегайте неоднозначности типов сущностей.

Неоднозначность возникает, когда выбранные вами типы сущностей похожи друг на друга. Чем более неоднозначные данные схемы, тем больше помеченных данных, которые необходимо различать между различными типами сущностей.

Например, если вы извлекаете данные из юридического контракта, чтобы извлечь "Имя первой стороны" и "Имя второй стороны", необходимо добавить дополнительные примеры для преодоления неоднозначности, так как имена обеих сторон выглядят похожими. Предотвращая неоднозначность, вы экономите время и усилия, а также получаете более качественные результаты.
Избегайте сложных сущностей. Сложные сущности могут быть трудно выбрать точно из текста. Рассмотрите возможность разбиения его на несколько сущностей.

Например, извлечение "Адрес" будет сложной задачей, если не разделено на более мелкие сущности. Есть много вариантов отображения адреса. Чтобы обучить модель, потребуется множество сущностей с метками для извлечения адресов в целом, без разбивки на меньшие сущности. Однако при замене "Адрес" на "Имя улицы", "PO Box", "Город", "Штат" и "Zip", модель требует меньше меток для каждой сущности.

Выбор данных

Качество данных, с помощью которых обучается модель, значительно влияет на ее производительность.

Используйте реальные данные, отражающие проблемный участок вашей области применения, чтобы эффективно обучить модель. Искусственные данные можно использовать для ускорения процесса обучения начальной модели, но он отличается от реальных данных и делает модель менее эффективной при использовании.
Максимально сбалансируйте распределение данных, не слишком отклоняясь от реального распределения.
При возможности используйте самые разнообразные данные, чтобы избежать лжевзаимосвязи в модели. Недостаточное разнообразие в обучающих данных может привести к ложным корреляциям модели, которых может не быть в реальных данных.
Избегайте дублирования документов в данных. Дублирование данных негативно влияет на обучение, метрики и производительность модели.
Учитывайте источники своих данных. Если вы собираете данные только от одного человека, отдела или одной части вашего сценария, вы, вероятно, упускаете разнообразие, которое может быть важным для вашей модели, чтобы ваша модель могла изучить.

Примечание.

Если документы находятся на нескольких языках, выберите параметр enable multi-lingual во время создания проекта и задайте язык для большинства документов.

Подготовка данных

Чтобы создать проект, необходимо отправить обучающие данные в контейнер больших двоичных объектов в вашей учетной записи хранения. Вы можете создавать и отправлять обучающие документы непосредственно из Azure или с помощью средства "Обозреватель службы хранилища Azure". Средство "Обозреватель службы хранилища Azure" позволяет быстро отправлять большие объемы данных.

Можно использовать только документы .txt. Если данные имеют другой формат, вы можете изменить формат документа с помощью команды анализа CLUtils.

Вы можете отправить аннотированный набор данных или отправить ненататированный набор данных и пометить данные.

Тестовый набор

При определении набора тестирования обязательно включите примеры документов, которые отсутствуют в наборе обучения. Определение набора тестирования является важным шагом для вычисления производительности модели. Кроме того, убедитесь, что набор тестирования содержит документы, представляющие все сущности, используемые в проекте.

Следующие шаги

Создайте пользовательский проект NER, если вы этого еще не сделали. Если вы впервые используете пользовательскую модель NER, рекомендуем создать пример проекта с помощью инструкций из краткого руководства. Дополнительные сведения см. в практической статье.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-18