Примечание о прозрачности для Анализ текста для здоровья

Важно

Для удобства предоставляются только переводы, отличные от английского языка. Ознакомьтесь с EN-US версией этого документа для окончательной версии.

Что такое заметка о прозрачности?

Важно

Анализ текста для здоровья предоставляется «как есть» и «со всеми ошибками». Анализ текста для здоровья не предназначен и не доступен для использования в качестве медицинского устройства, средства клинической поддержки, инструмента для диагностики или другой технологии, предусматривающей использование в диагностике, излечении, смягчении, лечении или профилактике заболеваний или других состояний, и Microsoft не предоставляет лицензии или права использовать эту возможность для таких целей. Эта возможность не предназначена или предназначена для реализации или развертывания в качестве замены профессионального медицинского совета или медицинского мнения, диагностики, лечения или клинического решения медицинского специалиста, и не следует использовать таким образом. Клиент несет ответственность за любое использование Анализ текста для здоровья. Клиент должен отдельно лицензировать все исходные словари, которые он намерен использовать в рамках условий, установленных для соответствующего приложения к лицензии UMLS Metathesaurus License Agreement или любой аналогичной будущей ссылки. Клиент несет ответственность за обеспечение соответствия этим условиям лицензии, включая любые географические или другие применимые ограничения.

Анализ текста для здоровья теперь позволяет извлекать социальные факторы, влияющие на здоровье (SDOH), и упоминания этнической принадлежности в тексте. Эта возможность может не охватывать все потенциальные SDOH и не делает выводов на основе SDOH или этнической принадлежности (например, информация об использовании веществ видна, но злоупотребление веществами не предполагается). Все решения, использующие выходные данные Анализ текста в сфере здравоохранения, которые влияют на отдельных лиц или распределение ресурсов (включая, но не ограничиваясь теми, которые связаны с выставлением счетов, персоналом или управлением уходом за пациентами), должны приниматься под наблюдением человека и не должны основываться исключительно на результатах модели. Цель возможности извлечения SDOH и этнической принадлежности заключается в том, чтобы помочь поставщикам улучшить результаты в области здравоохранения. Эту возможность не следует использовать для стигматизации или делания отрицательных выводов о пользователях или потребителях данных SDOH и пациентских популяциях в целях, отличных от заявленной — помощи поставщикам в улучшении результатов здравоохранения.

Система ИИ включает не только технологию, но и людей, которые будут использовать его, людей, которые будут затронуты им, и среды, в которой она развернута. Создание системы, которая подходит для ее целевой цели, требует понимания того, как работает технология, какие возможности и ограничения существуют, а также как достичь оптимальной производительности. Заметки о прозрачности Microsoft предназначены для того, чтобы помочь вам понять, как работает наша технология ИИ, какие решения могут принимать владельцы системы, влияющие на производительность и поведение системы, а также подчеркнуть важность учета всей системы в целом, включая технологии, людей и окружающую среду. При разработке или развертывании собственной системы можно использовать прозрачные заметки или поделиться ими с пользователями, которые будут использовать вашу систему или на которых она повлияет.

Прозрачные записки Microsoft являются частью более широких усилий Microsoft по реализации наших принципов ИИ. Дополнительные сведения см. в статье Принципы ответственного ИИ от Microsoft.

Основы Анализ текста для здоровья

Введение

Анализ текста для функции здравоохранения в языке Azure в Foundry Tools использует методы обработки естественного языка для поиска и маркировки ценной информации о здоровье, например, диагностики, симптомов, лекарств и лечения в неструктурированном тексте. Служба может использоваться для различных типов неструктурированных медицинских документов, включая сводки по выпискам, клинические заметки, клинические протоколы испытаний, медицинские публикации и многое другое. Анализ текста для здравоохранения выполняет распознавание именованных сущностей (NER), извлекает связи между идентифицированными сущностями, выявляет утверждения, такие как отрицание и условность, и связывает обнаруженные сущности с общими словарями.

Анализ текста для здравоохранения может получать неструктурированный текст на английском языке в рамках его общего предложения на стадии общедоступности. В настоящее время в предварительной версии поддерживаются дополнительные языки. Дополнительные сведения см. в разделе "Поддержка языков".

Вы можете ознакомиться с обзором API и его возможностями. Кроме того, см. поддерживаемые сущности и отношения.

Кроме того, настройка теперь предлагается для Анализ текста for Health в рамках новой предварительной версии, которая позволяет персонализировать Анализ текста для здоровья. Custom Анализ текста для здравоохранения позволяет клиентам использовать собственные данные для обучения пользовательской модели NER, предназначенной для здравоохранения, с целью извлечения специфичных для их домена категорий, расширяя существующую карту сущностей Анализ текста для здравоохранения. Клиенты также могут определять лексикон или специальный словарь для новых пользовательских сущностей, а также использовать существующие Анализ текста для сущностей в области здравоохранения, таких как название лекарства. Таким образом, пользовательские Анализ текста для здравоохранения предлагают те же возможности, что и стандартные, с дополнением: расширение существующей карты сущностей за счет добавления новых сущностей машинного обучения, а также добавление настраиваемого словаря к существующим сущностям.

Ключевые термины

Анализ текста для здоровья в настоящее время выполняет распознавание именованных сущностей (NER), извлечение отношений, обнаружение утверждений и связывание сущностей для биомедицинского текста. Можно также дополнить извлечение пользовательских сущностей с помощью компонентов, обученных на сущностях и списков, которые теперь доступны с использованием пользовательских Анализ текста для сферы здравоохранения.

Термин	Определение
Распознавание именованных сущностей	Обнаруживает слова и фразы, которые упоминаются в неструктурированном тексте, которые могут быть связаны с одним или несколькими семантичными типами, такими как диагностика, имя лекарства, симптом или знак или возраст.
Извлечение реляционных данных	Определяет значимые связи между понятиями, упомянутыми в тексте. Например, отношение времени и условия можно определить, связав название условия с временем.
Обнаружение утверждений	Модификаторы сущностей Surfaces, упомянутые в тексте, такие как отрицание или условность. Смысл медицинского содержимого может быть сильно затронут этими модификаторами.
Связывание сущностей	Различает отдельные сущности путем связывания именованных сущностей, упомянутых в тексте с понятиями, которые находятся в предопределенной базе данных концепций, например в единой системе медицинского языка (UMLS).
Обученный компонент сущности	Позволяет определение новых пользовательских сущностей, таких как лечение, объект или медицинский инструмент, путем обучения пользовательской модели с помеченными данными.
Компонент списка сущностей	Позволяет извлекать новые пользовательские сущности или существующие сущности из Анализ текста для медицины, используя распознаватель лексикона путем определения списка синонимов или словаря, соответствующих выбранным сущностям. Например, "Лекарство A" можно определить как новое значение списка в сущности названия лекарства.

Возможности

Системное поведение

Чтобы использовать Анализ текста для здравоохранения, вы передаете необработанный, неструктурированный текст для анализа, и результат API обрабатывается в вашем приложении. Четыре ключевых функции выполняются в одном вызове API: распознавание сущностей, извлечение отношений, связывание сущностей и обнаружение утверждений. Анализ выполняется в исходном виде без дополнительной настройки предварительно обученной модели. Вы можете использовать Анализ текста для здравоохранения с помощью размещенного API или развернув его в контейнере в вашем локальном окружении. Дополнительные сведения см. в статье how to call Анализ текста for health.

Чтобы настроить Анализ текста для здравоохранения, используйте интерфейс для создания пользовательских сущностей в Анализ текста, чтобы создавать новые сущности, которые расширят существующую предварительно созданную карту сущностей. Вы также можете определить новый словарь для распознавания с использованием точного сопоставления для новых пользовательских сущностей, а также существующих предварительно созданных категорий сущностей, таких как имя лекарства. После определения карты сущностей проекта можно обучить и развернуть пользовательскую модель для прогнозирования. Развернутая пользовательская модель по умолчанию поддерживает все функции, которые уже включены в Анализ текста for health для предопределенных категорий сущностей. Кроме того, пользовательская модель предоставляет NER для новых категорий сущностей, а также любой словарь, определенный для предварительно созданных сущностей. Таким образом, предсказания для пользовательской модели выполняют распознавание именованных сущностей, извлечение связей между сущностями, связывание сущностей и обнаружение достоверности для анализа текста в области здравоохранения. Также проводится пользовательское распознавание именованных сущностей с целью извлечения определяемых пользователем категорий сущностей вместе с заданным словарем для новых и существующих категорий сущностей. Все данные, используемые для обучения пользовательской модели, будут храниться в вашем частном объектном хранилище. Кроме того, для вызова пользовательской модели требуется ключ подписки APIM, что означает, что пользовательская модель доступна только пользователям, которым предоставлен общий доступ к секретному ключу.

Предполагаемые варианты использования

Анализ текста для здравоохранения можно использовать в нескольких сценариях в различных отраслях, где этот тип системы поддерживает такие сценарии. Ниже приведены некоторые распространенные мотивы клиентов для использования Анализ текста для здоровья:

Содействие и автоматизация обработки медицинских документов для корректного кодирования с целью повышения точности медицинского обслуживания и выставления счетов.
Повышение эффективности анализа данных здравоохранения для повышения эффективности моделей здравоохранения на основе ценности (например, Medicare).
Улучшение агрегирования ключевых данных для отслеживания тенденций ухода за пациентами и истории без добавления накладных расходов для поставщиков медицинских услуг.
Добиться прогресса в принятии стандартов HL7, которые являются платформой для обмена, интеграции, совместного использования и получения электронных сведений о здравоохранении в поддержку повседневной клинической практики и управления, а также общей доставки и оценки медицинских услуг.

Те же варианты использования и рекомендации применяются к пользовательским Анализ текста для работоспособности, но пользовательские Анализ текста для работоспособности лучше подходят для сценариев, когда клиент имеет данные и хотел бы расширить существующую предварительно созданную карту сущностей, создав свои собственные категории сущностей или определив словарь для новых и существующих категорий сущностей.

Примеры вариантов использования

Следующие варианты использования являются популярными примерами для приложений Анализ текста для здравоохранения и пользовательских возможностей Анализ текста для здравоохранения.

Извлечение аналитических сведений и статистики. Определите медицинские сущности, такие как симптомы, лекарства и диагнозы в разнообразных клинических документах, включая клинические заметки. Используйте эту информацию для получения аналитических сведений и статистики о популяции пациентов, поиска клинических документов и исследований документов и публикаций.
Создание прогнозной аналитики и прогнозных моделей из исторических данных. Позволяет разрабатывать решения для планирования, поддержки принятия решений, анализа рисков и многого другого на основе моделей прогнозирования, созданных с помощью исторических данных.
Вспомогательная аннотация и кураторство. Поддержка решений для аннотирования и управления клиническими данными. Например, для поддержки клинического кодирования, оцифровки данных, созданных вручную, и автоматизации отчетов реестра.
Решения по поддержке для отображения или анализа информации о здоровье. Поддержка решений для отображения или анализа информации о здоровье. Например, в целях отчетности поддерживают процессы проверки качества или помечают возможные ошибки, которые должны быть проверены человеком.

Пользовательские Анализ текста для здоровья

Анализ текста для здравоохранения позволяет разработчикам обрабатывать и извлекать информацию из неструктурированных медицинских данных. Хотя здравоохранительная функция может обрабатывать и извлекать широкий спектр типов данных и категорий понятий, существуют случаи, когда клиент может добавить новый тип сущности, специфичный для своих данных, или даже добавить дополнительные медицинские термины в существующей категории понятий.

Таким образом, цель пользовательского Анализ текста для здоровья заключается в предоставлении возможности настройки Анализ текста для здоровья. Это позволяет клиентам расширять карту сущностей за счет включения полностью новых категорий сущностей, специфичных для их данных, а также добавлять пользовательский словарь в существующие категории сущностей.

Пользовательская текстовая аналитика для здравоохранения позволяет клиентам обучать пользовательскую модель машинного обучения для извлечения сущностей здравоохранения с помощью их помеченных данных и пользовательских словарей. Это позволит клиентам определять новые медицинские сущности, относящиеся к их данным. Служба также будет вызывать Анализ текста для здравоохранения, предоставляя все функции и карту сущностей, уже указанную в Анализ текста для здравоохранения. В качестве дополнительного уровня настройки клиенты смогут добавлять собственный словарь в существующие текстовые аналитики для медицинских сущностей, чтобы дополнить предварительно заданный ответ своими данными.

Клиент отвечает за предоставление достаточных помеченных данных и словаря для обучения пользовательской модели; Таким образом, производительность модели может отличаться в зависимости от качества и полноты помеченных данных обучения, используемых клиентом относительно новых категорий сущностей, которые необходимо определить. Рекомендуется всегда тестировать и оценивать модель перед развертыванием в рабочей среде, чтобы избежать регрессии качества модели, так как обучение пользовательских моделей является итеративным процессом, который очень чувствительны к входным данным обучения.

Ограничения

Покрытие: возможность извлечения SDOH может не охватывать все потенциальные SDOH. Распознавание ограничено этнической принадлежностью и категорий сущностей, указанных здесь и которые распознаются Анализ текста в области здравоохранения — Инструменты Foundry | Microsoft Learn.
Языки: В настоящее время возможности извлечения SDOH и этнической принадлежности включены только для английского текста. Анализ текста для здравоохранения может получать неструктурированный текст на английском языке в рамках его общего предложения на стадии общедоступности. В настоящее время в предварительной версии поддерживаются дополнительные языки.
Орфография: неправильное правописание может повлиять на выходные данные. В частности, связывание сущностей ищет термины и синонимы только на основе конкретной правильной орфографии. Если, например, название препарата написано с ошибкой, у системы может быть достаточно информации, чтобы распознать, что текст является названием лекарственного средства, однако она может не идентифицировать связь так, как это было бы для правильно написанного названия.
Производительность. Возможные типы ошибок описаны в разделе "Производительность системы" ниже.
Анализ текста, настроенный для здравоохранения (в предварительной версии): поддерживает все языки, поддерживаемые Анализом текста для здравоохранения. Чтобы обучить пользовательскую модель, необходимо предоставить службе обучения не менее 10 меток для каждой новой пользовательской категории сущностей. Чтобы обучить пользовательскую модель, клиент должен добавить не менее 10 документов в набор данных проекта. Распознаватели Lexicon, используемые для извлечения определяемого клиентом словаря, зависят от точного сопоставления регистра на указанном языке, то есть клиент должен добавить все варианты конкретного слова и включить его для всех языков ввода для своего проекта. При использовании пользовательской Анализ текста для здравоохранения, связывание сущностей, извлечение связей и обнаружение утверждений будут поддерживаться для сущностей Анализ текста в здравоохранении, но не будут возвращаться для новых категорий пользовательских сущностей.

Производительность системы

Анализ текста для здравоохранения и пользовательских Анализ текста для здравоохранения в целом могут иметь как ложные положительные ошибки, так и ложные отрицательные ошибки для каждой возможности, поддерживаемой функцией здравоохранения. В следующих разделах описано несколько примеров потенциальных типов ошибок.

Распознавание именованных сущностей (NER)

Ложное срабатывание

В NER ложноположительная ошибка возникает, когда система неправильно определяет сущность как принадлежащую к категории. В следующем примере COVID-19 неправильно помечен как EXAMINATION_NAME. На самом деле, COVID-19 является диагнозом, а не именем обследования. Таким образом, это ложное срабатывание для EXAMINATION_NAME.

Во втором примере водка является ложным совпадением для MEDICATION_NAME. Вместо этого его следует классифицировать как SUBSTANCE_USE.

Снимок экрана: распознавание именованных сущностей ложноположительный результат.

Снимок экрана: неправильное классификация использования веществ.

Ложный отрицательный

Ложный отрицательный результат в NER возникает, когда сущность должна быть определена как принадлежащая к категории, но не была. В следующем примере сущность ER должна быть определена как CARE_ENVIRONMENT, но это не так. Если сущность не распознана должным образом, связанный код не распознается.

Снимок экрана:

В следующих двух примерах второе упоминание о ЭТНИЧЕСКОЙ ПРИНАДЛЕЖНОСТИ и сведения о предыдущей занятости не распознаются должным образом.

Снимок экрана: ошибка этнической классификации.

Снимок экрана: неправильное классификация занятости.

Извлечение связей

Ложное срабатывание

При извлечении связи ложноположительная ошибка возникает, когда связь не должна была быть идентифицирована, но она была. В следующем примере значение теста AST было неправильно приписано тесту ALT, который уже имеет назначенный ему показатель.

Снимок экрана ложных отрицаний при извлечении связей.

Ложный отрицательный

Ложное отрицательное значение при извлечении связей происходит, когда отношение должно было быть распознано, но не было. В предыдущем примере значение измерения 45 не было назначено для проверки AST и должно было быть.

Связывание сущностей

Ложное срабатывание

Связывание сущностей достигается путем поиска точного соответствия между понятиями в общих словарях и распознанной сущности. Ложноположительная ошибка при связывании сущностей случается в редких случаях, когда сущность обнаруживается, хотя она не должна была (ложноположительное распознавание именованных сущностей) и соответствующая концепция, как представляется, существует в терминологии. Ложное положительное значение для связывания сущностей также может произойти для неоднозначных терминов с несколькими различными понятиями сопоставления в общих словарях.

Ложный отрицательный

Поскольку связывание сущностей точно соответствует исходному тексту, вы можете получить ложный отрицательный результат, если есть достаточный сигнал для правильного распознавания сущности, но написание этой сущности в тексте неверно. Например, в следующем тексте, где слово "терапии" написано с ошибкой, вы не получите соответствующую связанную сущность UMLS: C0087111.

Снимок экрана: связывание сущностей false negative.

Обнаружение утверждений

Ложное срабатывание

При детекции утверждений ложное срабатывание происходит, когда система обнаруживает несуществующее утверждение в тексте. В следующем примере сущность респираторного заболевания ошибочно представлена как ДИАГНОЗ для COVID-19.

Снимок экрана: обнаружение отрицания ложноположительный результат.

Ложный отрицательный

Ложное отрицательное значение в обнаружении утверждений возникает, когда утверждение не фиксируется. В следующем примере симптом "ответ" должен быть отрицаем, так как не было ответа на упомянутые лекарства.

Снимок экрана отрицательного результата при обнаружении отрицания.

Оценка анализа текста для здравоохранения

Методы оценки

Анализ текстов для здравоохранения обучен и оценивается на различных типах неструктурированных медицинских документов, включая сводки по выпискам, клинические записи, протоколы клинических испытаний, медицинские публикации и т. д. Модель SDOH, которая выявляет статус проживания, занятость и использование психоактивных веществ, обучена и оценивается на ручном аннотированном наборе данных, который поставляется из двух независимых источников: примерно 750 случайным образом отобранных собственных клинических заметок и около 1500 случайным образом отобранных клинических заметок из корпуса, предоставленного медицинским центром США и сосредоточенных главным образом на взрослых пациентах. Первоначальный корпус охватывает более 10 лет собранных данных и тысячи госпитализаций пациентов. Он обеспечивает почти равное представление мужчин и женщин-пациентов. Следует отметить, что никакого дальнейшего анализа репрезентативности обучающих данных (например, географического, демографических или этнических представлений) не было выполнено. Несмотря на то, что внутренние тесты демонстрируют потенциал модели для обобщения в разных популяциях и географических регионах, следует тщательно рассмотреть, как обучающие и оценочные данные являются репрезентативными в контексте предполагаемого использования. Чтобы оценить систему в отношении потенциального вреда справедливости, набор данных оценки был разделен на подгруппы документов социальными и демографическими факторами, такими как пол, возраст, этническое происхождение, занятость и статус жизни. Были оценены целевые минимальные уровни производительности для каждой группы, как и относительные различия в производительности между группами.

Оценка пользовательской Текстовой аналитики для здравоохранения

Пользовательская Анализ текста для здравоохранения использует кастомную базовую модель здравоохранения, которая дорабатывается с помощью данных, предоставленных клиентом, в сочетании с предварительно созданной моделью Анализ текста для здравоохранения. Используемая базовая модель здравоохранения является той же базовой моделью, на которой построен анализ текста для карты сущностей здоровья.

Пользовательская аналитика текста для функций здоровья включает в себя внутреннюю оценку как часть процесса разработки. Это позволяет клиенту создавать тестовый набор данных и просматривать показатели F1, точности и полноты для определенных пользовательских категорий объектов. Аналитика текста для заранее созданных сущностей здравоохранения не включается во внутреннюю оценку. В этом опыте также представлено руководство по модели для предоставления клиенту способов повышения результатов тестирования, таких как рекомендация дополнительных меток для сущностей, которые показывают низкие результаты.

Оценка и интеграция анализа текста для здравоохранения для вашего использования

Microsoft хочет помочь вам ответственно разрабатывать и развертывать решения, использующие язык. Эти соображения соответствуют нашей приверженности разработке ответственного ИИ. Если вы решите, как использовать и реализовывать продукты и решения, созданные языковыми функциями, учитывайте следующие факторы.

Общие рекомендации

Когда вы готовитесь к развертыванию Анализ текста для здоровья, следующие действия помогут вам добиться успеха.

Поймите, что он может сделать: полностью оцените возможности Анализ текста в области здравоохранения, чтобы понять его возможности и ограничения. Узнайте, как он будет выполняться в вашем сценарии и контексте.
Тестирование с реальными, разнообразными данными: Узнайте, как Анализ текста для здравоохранения будет работать в вашем сценарии, тщательно проверив его с использованием реальных условий и данных, отражающих разнообразие ваших пользователей, географии и контексты развертывания. Небольшие наборы данных, искусственные данные и тесты, которые не отражают ваш сквозной сценарий, вряд ли будут достаточно представлять производительность производственной среды.
Уважайте право человека на конфиденциальность: только собирать или использовать данные и сведения от отдельных лиц для законных и оправданных целей. Используйте только данные и сведения, которые у вас есть согласие на использование или разрешены юридически.
Юридическая проверка. Получите соответствующую юридическую проверку решения, особенно если вы будете использовать его в конфиденциальных или высокориском приложениях. Ознакомьтесь с ограничениями, которые могут потребоваться для работы и любых рисков, которые необходимо устранить перед использованием. Это ваша ответственность за устранение таких рисков и устранение любых проблем, которые могут возникнуть.
Проверка системы. Если вы планируете интегрировать и ответственно использовать продукт с поддержкой ИИ или функцию в существующую систему для программного обеспечения или процессов клиента или организации, необходимо время, чтобы понять, как будет затронута каждая часть вашей системы. Рассмотрим, как ваше решение ИИ соответствует принципам Microsoft ответственного ИИ.
Человек в цикле: оставлять человека в процессе и включать контроль человека в качестве постоянной области для изучения. Это означает постоянный контроль над продуктом или компонентом, основанным на искусственном интеллекте, и обеспечение роли людей в принятии любых решений, основанных на выходных данных модели. Чтобы предотвратить вред и управлять тем, как работает модель ИИ, убедитесь, что люди имеют способ вмешаться в решение в режиме реального времени.
Безопасность. Убедитесь, что решение безопасно и имеет надлежащие элементы управления для сохранения целостности содержимого и предотвращения несанкционированного доступа.
Цикл отзывов клиентов: предоставление канала отзывов, который пользователи и частные лица могут использовать для сообщения о проблемах со службой после его развертывания. После развертывания продукта или компонента, на основе искусственного интеллекта, требуется постоянный мониторинг и улучшение. Иметь план и будьте готовы к реализации отзывов и предложений по улучшению.

См. также

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30

Примечание о прозрачности для Анализ текста для здоровья

Что такое заметка о прозрачности?

Основы Анализ текста для здоровья

Введение

Ключевые термины

Возможности

Системное поведение

Предполагаемые варианты использования

Примеры вариантов использования

Рекомендации при выборе варианта использования

Социальные детерминанты здоровья и этнической принадлежности

Пользовательские Анализ текста для здоровья

Ограничения

Производительность системы

Распознавание именованных сущностей (NER)

Извлечение связей

Связывание сущностей

Обнаружение утверждений

Рекомендации по улучшению производительности системы

Оценка анализа текста для здравоохранения

Методы оценки

Оценка пользовательской Текстовой аналитики для здравоохранения

Оценка и интеграция анализа текста для здравоохранения для вашего использования

Общие рекомендации

См. также

Обратная связь

Дополнительные ресурсы