Что такое обобщение?

Важный

Функция суммаризации отменяется в Azure Language с 31 марта 2029 г. После этой даты функция суммирования больше не поддерживается. В окне поддержки мы рекомендуем пользователям переносить существующие рабочие нагрузки и направлять все новые проекты в модели Microsoft Foundry, которые предоставляют расширенные возможности для распознавания естественного языка и могут легко интегрироваться в приложения.

Сводка — это функция, предлагаемая языком Azure в средстве Foundry, сочетание создаваемых моделей больших языков и моделей кодировщика, оптимизированных для задач, которые предлагают решения для суммирования с более высоким качеством, экономичностью и низкой задержкой. Используйте эту статью, чтобы узнать больше об этой функции и о том, как её использовать в ваших приложениях.

В стандартной комплектации сервис предоставляет решения для суммирования трех типов жанров: простые тексты, диалоги и собственные документы. Суммаризация текста принимает только блоки обычного текста. Функция резюмирования разговоров принимает разговорный ввод, включая различные аудиосигналы речи. Функция суммирования документов в их родных форматах принимает документы в таких форматах, как Word, PDF или простой текст. Для получения дополнительной информации см. разделПоддерживаемые форматы документов.

Подсказка

Попробуйте выполнить сводку на портале Microsoft Foundry. Там можно использовать существующий ресурс Language Studio или создать новый ресурс Foundry , чтобы использовать эту службу.

Возможности

Эта документация содержит следующие типы статей:

  • Быстрые старты — это инструкции для начала работы, которые помогут вам сделать запросы к сервису.
  • Руководства содержат инструкции по использованию сервиса более конкретными или индивидуальными способами.

Стандартный рабочий процесс

Чтобы использовать эту возможность, нужно в приложении передать данные для анализа и обработать полученный от API результат. Анализ выполняется без изменений, без какой-либо дополнительной настройки модели, использованной на ваших данных.

  1. Создайте ресурс Azure Language in Foundry Tools, который предоставляет доступ к функциям, предлагаемым языком. Он создает пароль (называемый ключом) и URL-адрес конечной точки, используемый для проверки подлинности запросов API.

  2. Создайте запрос, используя REST API или клиентскую библиотеку для C#, Java, JavaScript или Python. Также можно отправить асинхронные вызовы с пакетным запросом, чтобы объединить в один вызов несколько запросов к разным функциям API.

  3. Отправьте запрос, содержащий текстовые данные. Ключ и конечная точка используются для проверки подлинности.

  4. Выполните потоковую передачу ответа или сохраните его локально.

Kлючевые особенности текстового резюмирования

Текстовое резюмирование использует методы обработки естественного языка для создания краткого содержания для простых текстов, которые могут быть взяты из документа, разговора или любых других текстов. Этот API предоставляет два подхода к суммированию:

  • Экстрактивное суммирование: Создаёт резюме, извлекая ключевые предложения из исходного текста вместе с информацией об их расположении.

    • Несколько извлечённых предложений: Эти предложения совместно передают основную идею исходного текста. Они взяты из исходного текста и являются оригинальными предложениями.
    • Оценка ранга: Оценка ранга показывает, насколько релевантно предложение основной теме. Суммаризация текста ранжирует извлеченные предложения, и вы можете определить, будут ли они возвращены в порядке их появления или в соответствии с их рангом. Например, если вы запрашиваете краткое изложение из трех предложений, то экстрактивное суммирование возвращает три предложения с наивысшими оценками.
    • Позиционная информация: начальная позиция и длина извлечённых предложений.
  • Абстрактивное суммирование: Создает краткое и связное резюме, состоящее из предложений или слов, которые не являются дословными извлечениями из оригинального источника.

    • Тексты резюме: Абстрактивное суммирование возвращает резюме для каждого диапазона контекстуального ввода. Длинный ввод можно сегментировать, чтобы вернуть несколько групп текстов резюме с их соответствующим диапазоном контекстного ввода.
    • Контекстуальный диапазон ввода: Диапазон в предоставленных данных, который использовался для создания текста краткого содержания.

В качестве примера рассмотрим следующий абзац текста:

В компании Microsoft мы стремимся продвинуть технологии искусственного интеллекта за пределы существующих методов, применяя более целостный подход, ориентированный на человека, к обучению и пониманию. В качестве главного технического директора по литейным инструментам я работал с командой удивительных ученых и инженеров, чтобы превратить этот поиск в реальность. В моей роли я наслаждаюсь уникальной перспективой в понимании взаимосвязи между тремя аспектами человеческого познания: монолингвальный текст (X), аудио- или визуальные сенсорные сигналы (Y) и мультиязычность (Z). На пересечении всех трёх есть нечто магическое — то, что мы называем XYZ-код, как показано на Рисунке 1 — совместное представление для создания более мощного ИИ, который может лучше говорить, слышать, видеть и понимать человека. Мы верим, что код XYZ позволяет нам реализовать наше долгосрочное видение: перенос обучения между доменами, охватывающий различные модальности и языки. Цель состоит в том, чтобы иметь предобученные модели, которые могут совместно изучать представления для поддержки широкого спектра последующих задач в области искусственного интеллекта, подобно тому, как это делают люди сегодня. За последние пять лет мы достигли уровня человеческих возможностей в эталонах распознавания разговорной речи, машинного перевода, ответа на вопросы в разговорной форме, понимания текстов и создания подписей к изображениям. Эти пять достижений предоставили нам сильные сигналы к нашим более амбициозным устремлениям в создании заметного скачка в возможностях искусственного интеллекта, достижению многосенсорного и многоязычного обучения, соответствующего тому, как люди учатся и понимают. Я считаю, что общий XYZ-код является основополагающим компонентом этого устремления, если он основан на внешних источниках знаний в последующих AI задачах.

Запрос на API для суммаризации текста обрабатывается после его получения путем создания задачи для бэкенда API. Если задание выполнено успешно, возвращается результат API. Результат доступен для получения в течение 24 часов. После этого времени вывод данных очищается. Из-за поддержки многоязычности и эмодзи, ответ может содержать смещения текста. Для получения дополнительной информации см. как обрабатывать смещения.

Если мы используем предыдущий пример, API может вернуть следующие резюме:

Экстрактивная суммаризация:

  • "В компании Microsoft мы стремимся продвинуть искусственный интеллект за пределы существующих методов, применяя более целостный, ориентированный на человека подход к обучению и пониманию."
  • Мы верим, что XYZ-код позволяет нам реализовать наше долгосрочное видение: перенос обучения между различными доменами, охватывающий различные модальности и языки.
  • Цель состоит в том, чтобы иметь предварительно обученные модели, которые могут совместно обучаться представлениям, поддерживающим широкий спектр последующих задач ИИ, аналогично тому, как это делают люди сегодня.

Абстрактная сводка:

  • Корпорация Microsoft применяет более целостный и ориентированный на человека подход к обучению и пониманию. Мы верим, что код XYZ позволяет нам реализовать наше долгосрочное видение: перенос обучения между доменами, охватывающий различные модальности и языки. За последние пять лет мы достигли человеческого уровня в распознавании речевого потока на контрольных тестах.

Начните с резюмирования

Чтобы использовать функции суммаризации, отправьте данные на анализ и обработайте вывод API в вашем приложении. Анализ выполняется без изменений, без какой-либо дополнительной настройки модели, использованной на ваших данных. Существует два способа использования summarization:

Вариант разработки Описание
Microsoft Foundry Foundry — это онлайн-платформа, которая позволяет использовать связывание сущностей с текстовыми примерами с собственными данными после регистрации. Дополнительные сведения см. на веб-сайте Foundry или документации по Foundry.
REST API или Клиентская библиотека (Azure SDK) Интегрируйте текстовое суммирование в ваши приложения с использованием REST API или библиотеки клиента, доступной на различных языках. Для получения дополнительной информации см. summarization quickstart.

Требования к вводу и ограничения на обслуживание

  • Суммирование анализирует текст. Дополнительную информацию см. в разделе Ограничения данных и услуг в руководстве.
  • Обобщение работает с различными письменными языками. Для получения дополнительной информации см. language support.

Справочная документация и примеры кода

При использовании резюмирования текста в ваших приложениях обратитесь к следующей справочной документации и примерам для языка:

Вариант разработки / язык Справочная документация Образцы
C# Документация по C# Примеры C#
Ява Документация по Java Примеры для Java
JavaScript Документация по работе с JavaScript. Примеры JavaScript
Питон Документация по Python. Примеры для Python

Ответственный ИИ

Система искусственного интеллекта включает не только технологию, но и людей, которые её используют, людей, на которых она влияет, и среду развёртывания. Прочитайте заметку о прозрачности для суммирования, чтобы узнать о разумном использовании и внедрении ИИ в ваши системы. Для получения дополнительной информации см. следующие статьи: