Поделиться через


Соединитель облачных Microsoft 365 Copilot веб-сайтов предприятия

Соединитель облачных Microsoft 365 Copilot корпоративных веб-сайтов позволяет вашей организации индексировать веб-страницы и содержимое с веб-сайтов компании или общедоступных веб-сайтов в Интернете. После настройки соединителя и индексирования содержимого с веб-сайта пользователи могут искать это содержимое в Поиске (Майкрософт) и Microsoft 365 Copilot.

Эта статья предназначена для администраторов Microsoft 365 или тех, кто настраивает, запускает и отслеживает соединитель облачной Microsoft 365 Copilot веб-сайтов предприятия.

Важно!

Вы можете использовать локальный соединитель Copilot корпоративных веб-сайтов для индексирования веб-сайтов , размещенных в локальной среде или в частных облаках.

Возможности

  • Индексирование веб-страниц с веб-сайтов, доступных в облаке.
  • Индексирование до 50 веб-сайтов в одном подключении.
  • Исключите веб-страницы из обхода с помощью правил исключения.
  • Используйте семантический поиск в Copilot , чтобы пользователи могли находить соответствующее содержимое.

Это поддерживаемые типы файлов.

Расширение файла Тип файла Описание
PDF PDF Формат PDF
.odt Текст OpenDocument Текстовый документ OpenDocument
.ods Электронная таблица OpenDocument Электронная таблица OpenDocument
ODP-файл Презентация OpenDocument Презентация OpenDocument
ODG-файл Графика OpenDocument Графика OpenDocument
XLS Excel (старый) Электронная таблица Excel (старый формат)
XLSX Excel (новое) Электронная таблица Excel (новый формат)
PPT PowerPoint (старая версия) Презентация PowerPoint (старый формат)
PPTX PowerPoint (новый) Презентация PowerPoint (новый формат)
DOC Word (старая версия) документ Word (старый формат)
DOCX Word (новое) документ Word (новый формат)
.csv CSV значения Comma-Separated
TXT обычный текст; Обычный текстовый файл
.xml XML Расширяемый язык разметки
MD-файл Markdown Файл Markdown
RTF Rich Text Format Rich Text Format
.tsv Значения, разделенные табуляции значения Tab-Separated
GIF GIF Формат GIF
.jpeg JPEG Изображение JPEG
JPG JPG Изображение JPEG
PNG PNG Переносимая сетевая графика
.mp3 MP3-проигрыватели MPEG Audio Layer III
.wav WAV Формат звукового файла Waveform
.aiff AIFF Формат файла аудиообмена
.flac FLAC Бесплатный аудиокодек без потерь
.aac AAC Расширенное кодирование звука
.alac ALAC Apple Lossless Audio Codec
.wma WMA (Lossy) Звук Windows Media (с потерями)
.wma WMA (без потерь) Звук Windows Media (без потерь)
.ogg OGG Формат звука Ogg Vorbis
.ИКМ ИКМ Звук модуляции Pulse-Code
.mp4 MP4 Видеофайл MPEG-4
.mkv MKV Видеофайл Matroska
.avi AVI Чередовка аудиовидеофонов
.wmv WMV Видео в формате Windows Media
.mov MOV Apple QuickTime Movie
.flv FLV Формат флэш-видео
AVCHD-файл AVCHD Расширенное кодирование видео высокой четкости
.webm WebM Файл веб-мультимедиа
.mpeg MPEG-2 Формат группы экспертов по перемещению рисунков
.hevc HEVC/H.265 Кодирование видео с высокой эффективностью

Это поддерживаемые типы MIME.

Тип MIME Описание
text/html Язык HTML, используемый для форматирования структуры веб-страницы.
text/webviewhtml Тип MIME, используемый для веб-содержимого, отображаемого в элементах управления WebView.
text/x-server-parsed-html Проанализированные сервером HTML-документы, часто используемые для серверных включений (SSI).

Ограничения

  • Не поддерживает такие механизмы проверки подлинности, как SAML, токен JWT, проверка подлинности на основе Forms и т. д.
  • Не поддерживает обход динамического содержимого на веб-страницах.

Предварительные условия

  • Вы должны быть администратором поиска для клиента Microsoft 365 вашей организации.
  • URL-адреса веб-сайта. Чтобы подключиться к содержимому веб-сайта, вам потребуется URL-адрес веб-сайта. Вы можете индексировать несколько веб-сайтов (до 50) в одном соединении.
  • Учетная запись службы (необязательно): учетная запись службы требуется только в том случае, если веб-сайты требуют проверки подлинности. Общедоступные веб-сайты не требуют проверки подлинности, и их можно сканировать напрямую. Для веб-сайтов, требующих проверки подлинности, рекомендуется иметь выделенную учетную запись для проверки подлинности и обхода контента.

Начало работы

Снимок экрана: экран создания подключения для облачного соединителя Copilot корпоративных веб-сайтов.

Отображаемое имя

Отображаемое имя используется для идентификации каждой ссылки в Copilot, помогая пользователям легко распознавать связанный файл или элемент. Отображаемое имя также означает доверенное содержимое. Отображаемое имя также используется в качестве фильтра источника содержимого. Для этого поля используется значение по умолчанию, но его можно настроить на имя, которое распознают пользователи в вашей организации.

Добавление URL-адресов веб-сайта в индекс

Укажите корень веб-сайта, который вы хотите сканировать. Соединитель Enterprise Websites Cloud Copilot использует этот URL-адрес в качестве отправной точки и следует по всем ссылкам из этого URL-адреса для обхода контента. В одном подключении можно проиндексировать до 50 различных URL-адресов сайтов.

Соединитель сканирует только веб-страницы в домене корневых URL-адресов и не поддерживает обход URL-адресов вне домена. Перенаправление поддерживается только в том же домене. Если на веб-страницах для обхода есть перенаправления, вы можете добавить перенаправленный URL-адрес непосредственно в список URL-адресов для обхода.

Использование карты сайта для обхода контента

Если этот параметр выбран, соединитель сканирует только URL-адреса, перечисленные в карте сайта. Этот параметр также позволяет настроить добавочный обход контента на более позднем этапе. Если не выбрано или карта сайта не найдена, соединитель выполняет глубокий обход всех ссылок, найденных в корневом URL-адресе сайта.

Если этот параметр выбран, средство-обходчик выполняет следующие действия:

А. Средство-обходчик ищет файл robots.txt в корневом расположении. Например, если указан URL-адрес https://www.contoso.com, то средство-обходчик ищет файл robots.txt по адресу https://www.contoso.com/robots.txt.

Б. При поиске файла robots.txt программа-обходчик находит ссылки карты сайта в файле robots.txt.

c. Затем сканер сканирует все веб-страницы, как указано в файлах карты сайта.

d. Если на любом из описанных выше шагов произошел сбой, средство-обходчик выполняет глубокое сканирование веб-сайта, не вызывая никаких ошибок.

Индексирование только страниц в указанном подкаталоге

Соединитель веб-сайта предлагает возможность индексировать только веб-страницы, которые находятся в указанном подкаталоге.

  • Если этот параметр не установлен, соединитель всегда начинает обход контента из корня URL-адреса. Например, если указанный URL-адрес — https://www.contoso.com/electronics, то соединитель начинает обход контента из https://www.contoso.com.
  • Если этот параметр установлен, соединитель начинает обход контента с точного входного URL-адреса. Например, если указанный URL-адрес — https://www.contoso.com/electronics, то соединитель начинает обход контента из https://www.contoso.com/electronics.

Укажите тип проверки подлинности

Выбранный метод проверки подлинности применяется ко всем веб-сайтам, предоставленным для индексирования в соединении. Для проверки подлинности и синхронизации содержимого с веб-сайтов выберите один из пяти поддерживаемых методов:

А. Нет
Выберите этот параметр, если веб-сайты общедоступны без каких-либо требований проверки подлинности.

Б. Обычная проверка подлинности
Чтобы пройти проверку подлинности с помощью обычной проверки подлинности, введите имя пользователя и пароль своей учетной записи.

Совет

Попробуйте несколько перестановок имени пользователя для проверки подлинности. Примеры-

c. SiteMinder
Для проверки подлинности SiteMinder требуется правильно отформатированный URL-адрес, https://custom_siteminder_hostname/smapi/rest/createsmsessionимя пользователя и пароль.

d. Microsoft Entra учетные данные клиента OAuth 2.0
OAuth 2.0 с Microsoft Entra ID требуется идентификатор ресурса, идентификатор клиента и секрет клиента.

Идентификатор ресурса, идентификатор клиента и значения секрета клиента зависят от того, как вы выполнили настройку проверки подлинности на основе Microsoft Entra ID для веб-сайта. Один из двух указанных вариантов может подойти для вашего веб-сайта:

  1. Если вы используете приложение Microsoft Entra как поставщик удостоверений, так и клиентское приложение для доступа к веб-сайту, идентификатор клиента и идентификатор ресурса являются идентификатором приложения этого отдельного приложения, а секрет клиента — это секрет, созданный в этом приложении.

    После настройки клиентского приложения обязательно создайте секрет клиента, перейдя в раздел Сертификаты & секреты приложения. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова.

    На следующих снимках экрана вы можете просмотреть шаги по получению идентификатора клиента и секрета клиента, а также настроить приложение, если вы создаете приложение самостоятельно.

    • Просмотр параметров в разделе фирменной символики:

    • Просмотр параметров в разделе проверки подлинности:

      Примечание.

      Для URI перенаправления на веб-сайте не требуется указанный выше маршрут. Только если вы используете маркер пользователя, отправленный Azure на веб-сайте для проверки подлинности, вам нужен маршрут.

    • Просмотр идентификатора клиента в разделе Essentials:

    • Просмотр секрета клиента в разделе Сертификаты & секреты :

  2. Если вы используете приложение (первое приложение) в качестве поставщика удостоверений для своего веб-сайта в качестве ресурса и другое приложение (второе приложение) для доступа к веб-сайту, идентификатор клиента — это идентификатор приложения второго приложения, а секрет клиента — секрет, настроенный во втором приложении. Однако идентификатор ресурса — это идентификатор вашего первого приложения.

    Вам не нужно настраивать секрет клиента в этом приложении, но необходимо добавить роль приложения в разделе Роли приложения , который позже будет назначен вашему клиентскому приложению. См. изображения, чтобы узнать, как добавить роль приложения.

    • Создание роли приложения:

    • Изменение новой роли приложения:

      После настройки приложения-ресурса создайте клиентское приложение и предоставьте ему разрешение на доступ к приложению-ресурсу, добавив роль приложения, настроенную выше, в разрешениях API клиентского приложения.

      Примечание.

      Сведения о предоставлении разрешений клиентскому приложению см. в статье Краткое руководство. Настройка клиентского приложения для доступа к веб-API.

    На следующих снимках экрана показан раздел предоставления разрешений клиентскому приложению.

    • Добавление разрешения:

    • Выбор разрешений:

    • Добавление разрешений:

    После назначения разрешений необходимо создать секрет клиента для этого приложения, перейдя в раздел Сертификаты & секреты. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова. Используйте идентификатор приложения из этого приложения в качестве идентификатора клиента, секрет из этого приложения в качестве секрета клиента и идентификатор приложения первого приложения в качестве идентификатора ресурса.

e. Учетные данные клиента OIDC (любой поставщик удостоверений)
Поток учетных данных клиента OIDC предназначен для проверки подлинности между компьютерами с использованием любого поставщика удостоверений. Чтобы настроить проверку подлинности учетных данных клиента OIDC, необходимо зарегистрировать приложение на сервере авторизации (например, Okta, Auth0, Keycloak, Ping Identity и т. д.).

Входные данные, необходимые для конфигурации:

  • Идентификатор клиента: идентификатор, назначенный приложению во время регистрации.
  • Секрет клиента: секретный ключ, назначенный приложению во время регистрации.
  • Области: список разрешений, необходимых приложению. Эти области предопределяются на сервере авторизации. (например, read:data write:data admin:operations)
  • URL-адрес конечной точки токена: конкретная конечная точка на сервере авторизации, где запрашиваются маркеры.

Пример. Проверка подлинности учетных данных клиента Okta OIDC

Чтобы проиллюстрировать пример, давайте рассмотрим настройку проверки подлинности учетных данных клиента OIDC с помощью Okta в качестве поставщика удостоверений. Следующие шаги являются иллюстративными и могут отличаться в зависимости от реализации. Сведения о настройке проверки подлинности OIDC см. в документации okta.

  1. Создание интеграции приложений OIDC в Okta
    • Перейдите к разделу Приложения > Приложения в консоли okta Администратор.
    • Щелкните Создать интеграцию приложений и выберите OIDC — OpenID Connect.
    • Выберите Служба или Веб в качестве типа приложения.
  2. Настройка параметров приложения:
    • Имя приложения. Присвойте приложению описательное имя (например, "Приложение с учетными данными клиента").
    • Логотип (необязательно): при необходимости отправьте логотип.
    • Тип предоставления: выберите Учетные данные клиента. Отключите другие типы предоставления, если это не требуется для других потоков.
    • URI перенаправления для входа. Так как вы используете учетные данные клиента, вам не нужно настраивать URI перенаправления.
    • URI перенаправления выхода (необязательно): обычно не требуется для учетных данных клиента.
    • Нажмите кнопку Готово.
  3. Настройка метода проверки подлинности клиента
    • Выберите Секрет клиента в раскрывающемся списке Проверка подлинности клиента .
    • Нажмите кнопку Сохранить, чтобы создать секрет клиента (видимый только один раз).
  4. Настройка областей
    • В разделе Области назначьте области OAuth 2.0 (например, read:data, write:data). Это просто имена; вы определяете, что они означают в приложении.
    • Убедитесь, что области соответствуют требуемым разрешениям API.
  5. Назначение приложения пользователям и группам
    • На вкладке Назначения назначьте приложение соответствующим пользователям или группам.
    • Даже для приложений-служб назначения обеспечивают правильное применение политик.
  6. Конфигурация конечной точки токена
    • URL-адрес маркера обычно имеет значение https://{yourOrg}.okta.com/oauth2/v1/token.
    • Используйте эту конечную точку для запроса маркеров доступа.

4. Развертывание для ограниченной аудитории

Разверните это подключение в ограниченной базе пользователей, если вы хотите проверить его в Copilot и других поверхностях поиска, прежде чем развернуть развертывание для более широкой аудитории. Дополнительные сведения об ограниченном выпуске см. в разделе Поэтапное развертывание.

На этом этапе вы готовы создать подключение для облачных веб-сайтов. Вы можете нажать кнопку Создать , чтобы опубликовать веб-страницы подключения и индексировать их с веб-сайтов.

Для других параметров, таких как разрешения доступа, правила включения данных, схема, частота обхода контента и т. д., у нас есть значения по умолчанию в зависимости от того, что лучше всего подходит для веб-сайтов. Ниже приведены значения по умолчанию:

Пользователи Описание
Разрешения доступа Все в вашей организации видят это содержимое
Содержимое Описание
URL-адреса для исключения Нет
Управление свойствами Сведения о проверка свойств по умолчанию и их схеме см. в разделе содержимое.
Синхронизация Описание
Добавочный обход контента Частота: каждые 15 минут (поддерживается только при обходе карты сайта)
Полный обход контента Частота: каждый день

Если вы хотите изменить любое из этих значений, необходимо выбрать параметр "Настраиваемая настройка".

Настраиваемая настройка

В пользовательской настройке можно изменить любые значения по умолчанию для пользователей, содержимого и синхронизации.

Пользователи

Снимок экрана: вкладка

Разрешения доступа

Соединитель Enterprise Websites Cloud Copilot поддерживает разрешения на поиск, видимые только для всех . Индексированные данные отображаются в результатах поиска для всех пользователей в вашей организации.

Содержимое

Снимок экрана: вкладка

Добавление URL-адресов для исключения (необязательные ограничения обхода контента)

Существует два способа предотвратить обход страниц: запретить их в файле robots.txt или добавить в список исключений.

  1. Поддержка robots.txt

    Соединитель проверяет, есть ли файл robots.txt для корневого сайта. Если он существует, он следует и учитывает направления, найденные в этом файле. Если вы не хотите, чтобы соединитель выполнял обход определенных страниц или каталогов на сайте, добавьте эти страницы или каталоги в объявления "Запретить" в файл robots.txt.

  2. Добавление URL-адресов для исключения

    При необходимости можно создать список исключений , чтобы исключить некоторые URL-адреса из обхода, если это содержимое является конфиденциальным или не стоит обхода. Чтобы создать список исключений, просмотрите корневой URL-адрес. Исключенные URL-адреса можно добавить в список во время процесса настройки.

Конфигурация сайта

Соединитель поддерживает два варианта настройки поведения обходчика.

  1. Индексирование страниц, содержащих директиву "noindex" в теге meta или заголовке ответа HTTP X-Robots-Tag. Выбор этого параметра заставляет средство-обходчик индексировать эти страницы и переопределить поведение обходчика по умолчанию.
  2. Игнорируйте директивы "Разрешить" и "Запретить", указанные в файле "robots.txt". При выборе этого параметра программа-обходчик игнорирует директивы обхода в robots.txt файле.

Управление свойствами

Здесь можно добавить или удалить доступные свойства с веб-сайтов, назначить схему свойству (определить, является ли свойство доступным для поиска, с возможностью запроса, с возможностью извлечения или уточнения), изменить семантиковую метку и добавить псевдоним в свойство . Свойства, выбранные по умолчанию, перечислены ниже.

Свойство source Метка Описание Схема
авторов авторов Люди, которые участвовали в работе с элементом в источнике данных Запрос, извлечение
Содержимое Содержимое Все текстовое содержимое веб-страницы Поиск
CreatedDateTime Дата создания Данные и время создания элемента в источнике данных Запрос, извлечение
Описание Извлечение, поиск
FileType Расширение файла Расширение файла для контента для обхода Запрос, уточнение, извлечение
ЗначокURL IconUrl URL-адрес значка веб-страницы Восстанавливать
LastModifiedBy Автор последнего изменения Пользователь, который в последний раз изменял элемент в источнике данных Запрос, извлечение
LastModifiedDateTime Время последней измененной даты Дата и время последнего изменения элемента в источнике данных. Запрос, извлечение
Title Title Заголовок элемента, который вы хотите показать в Copilot и других интерфейсах поиска Извлечение, поиск
URL-адрес url Целевой URL-адрес элемента в источнике данных Восстанавливать

Соединитель Корпоративного веб-сайта cloud Copilot поддерживает два типа свойств источника:

  1. Метатег

    Соединитель извлекает все метатеги, которые могут иметь корневые URL-адреса, и отображает их. Вы можете выбрать теги, которые следует включить для обхода контента. Выбранный тег индексируется для всех предоставленных URL-адресов, если они доступны.

    Снимок экрана: вкладка

    Выбранные метатеги можно использовать для создания пользовательских свойств. Кроме того, на странице схемы вы можете управлять ими дальше (с возможностью запроса, с возможностью поиска, с возможностью извлечения, с возможностью уточнения).

  2. Параметры пользовательских свойств

    Индексированные данные можно дополнить, создав пользовательские свойства для выбранных метатегов или свойства соединителя по умолчанию.

    Снимок экрана: вкладка

    Чтобы добавить пользовательское свойство, выполните приведенные далее действия.

    1. Введите имя свойства. Это имя отображается в результатах поиска из этого соединителя.
    2. Для значения выберите Статическое или Строковое/регулярное сопоставление. Статическое значение включается во все результаты поиска из этого соединителя. Строковое или регулярное значение зависит от добавляемого правила.
    3. Если выбрано статическое значение, введите значение, которое вы хотите отображать.
    4. Если вы выбрали значение String/rRegex:
      • В разделе Добавление выражений в списке Свойства выберите свойство по умолчанию или мета-тег из списка. В поле Пример значения введите строку, представляющую тип значений, которые могут отображаться. Этот пример используется при предварительном просмотре правила. В поле Выражение введите регулярное выражение, чтобы определить часть значения свойства, которая должна отображаться в результатах поиска. Можно добавить до трех выражений.
      • В разделе Создание формулы введите формулу для объединения значений, извлеченных из выражений.

Дополнительные сведения о регулярных выражениях см. в разделе Регулярные выражения .NET или найдите в Интернете справочное руководство по выражению регулярных выражений.

Синхронизация

Снимок экрана: вкладка

Интервал обновления определяет частоту синхронизации данных между источником данных и индексом соединителя Copilot. Существует два типа интервалов обновления: полный обход контента и добавочный обход контента. Дополнительные сведения см. в разделе Параметры обновления.

При необходимости можно изменить значения интервала обновления по умолчанию.

Примечание.

Добавочный обход контента поддерживается только в том случае, если выбран параметр обхода карты сайта.

Устранение неполадок

После публикации подключения можно просмотреть состояние Источников данных в Центре администрирования. Сведения об обновлении и удалении см. в статье Управление соединителем. Инструкции по устранению распространенных проблем можно найти здесь.

Если у вас возникли проблемы или вы хотите отправить отзыв, обратитесь в Microsoft Graph | Поддержка.