Обнаружение и удаление персонально идентифицирующей информации в беседах

Язык Azure в инструменте Foundry Tools, связанном с API анализа PII, анализирует аудиообсуждение для выявления и редактирования конфиденциальной информации (PII), используя различные предопределенные категории. Этот API работает как на транскрибированном тексте (называемом расшифровками), так и на чатах. Для расшифровок процесс редактирования сегментов аудио, содержащих личную информацию, упрощается путем предоставления сведений о времени этих сегментов.

Определение способа обработки данных (необязательно)

Указание модели обнаружения персональных данных

По умолчанию эта функция использует последнюю доступную модель ИИ для входных данных. Вы также можете настроить запросы API для использования определенной версии модели.

Поддержка языков

Для получения дополнительной информации см.страницу поддержки языка PII. В настоящее время модель разговорного ИИ для обработки персональных данных поддерживает только английский язык. Модель предварительной версии и API поддерживают те же языки списков , что и другие языки.

Поддержка регионов

API общения PII поддерживает все регионы Azure, поддерживаемые языком Azure.

Отправка данных

Входные данные можно отправить в API в виде списка элементов беседы. Анализ выполняется при получении запроса. Так как API является асинхронным, может возникнуть задержка между отправкой запроса API и получением результатов. Сведения о размере и количестве запросов, которые можно отправлять в минуту и секунду, см. в следующих ограничениях данных.

При использовании асинхронной функции результаты API доступны в течение 24 часов с момента приема запроса и указываются в ответе. По истечении этого периода результаты очищаются и больше не будут доступны для извлечения.

При отправке данных в личные данные беседы можно отправлять по одному разговору (чату или разговору) на запрос.

API пытается обнаружить все определенные категории сущностей для заданных входных данных беседы. Если вы хотите указать, какие сущности обнаружены и возвращаются, используйте необязательный piiCategories параметр с соответствующими категориями сущностей.

Для речевых расшифровок обнаруженные сущности возвращаются по указанному redactionSource значению параметра. В настоящее время поддерживаемые значения redactionSource: text, lexical, itn и maskedItn (которые сопоставляются с REST API Речь в текст форматов display, \, displayText, lexical, itn и maskedItn соответственно). Кроме того, для ввода голосовых данных этот API также предоставляет информацию о временных метках аудио, что позволяет редактировать аудиоматериалы. Для использования функции audioRedaction используйте необязательный includeAudioRedaction флаг со true значением. Редактирование аудио выполняется с использованием лексического формата ввода.

Примечание.

PiI беседы теперь поддерживает 40 000 символов в виде размера документа.

Получение обнаруженных персональных данных

При получении результатов от функции распознавания персональных данных можно передать результаты в приложение в потоке или сохранить выходные данные в файл в локальной системе. Ответ API включает распознанные сущности, включая их категории и подкатегории, а также оценки достоверности. Строка текста с сущностями PII, редактированная, также возвращается.

Перейдите на страницу обзора ресурса на портале Azure
В меню слева выберите Ключи и конечная точка. Для проверки подлинности запросов API вам потребуется один из ключей и конечной точки.
Скачайте и установите пакет клиентской библиотеки для выбранного языка:

Язык Версия пакета

.NET 1.0.0

Питон 1.0.0
Дополнительные сведения о клиенте и возвращаемом объекте см . в следующей справочной документации:
- C#
- Python

Язык	Версия пакета
.NET	1.0.0
Питон	1.0.0

Политика редактирования (версия только для 2024-11-15-preview)

В версии 2024-11-15-preview вы можете определить redactionPolicy параметр для отражения политики редактирования, используемой при редактировании документа в ответе. Поле политики поддерживает три типа политик:

noMask
characterMask (по умолчанию)
entityMask

Политика noMask позволяет пользователю возвращать ответ без redactedText поля.

Политика characterMask позволяет маскировать redactedText с помощью символа, сохраняя длину и смещение исходного текста. Это ожидаемое поведение.

Есть также необязательное поле redactionCharacter, в котором можно ввести символ, который будет использоваться в редактировании, если вы используете политику characterMask.

Политика entityMask позволяет маскировать текст обнаруженной сущности PII её типом.

Используйте следующий пример, если вы хотите изменить политику редактирования.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "1",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "2",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "3",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionCharacter"
                "redactionPolicy": {
                    "policyKind": "characterMask",
                    //characterMask|entityMask|noMask
                    "redactionCharacter": "*"
                }
            }
        }
    ]
}
`

Отправьте расшифровки, используя преобразование речи в текст

Используйте следующий пример, если у вас есть беседы, транскрибированные с помощью функции речи службы "Речь " в текст :

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Отправка текстовых чатов

Используйте следующий пример, если у вас есть беседы, возникшие в текстовых сообщениях. Например, беседы через текстовый клиент чата.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview"
            }
        }
    ]
}
`

Получите результат

Получите operation-location из заголовка ответа. Значение похоже на следующий URL-адрес:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Чтобы получить результаты запроса, используйте следующую команду cURL. Обязательно замените my-job-id числовым значением идентификатора, полученным из предыдущего заголовка ответа operation-location:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Ограничения службы и данных

Сведения о размере и числе запросов, которые можно отправлять в минуту и секунду, см. в статье об ограничениях службы.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-18