Обновление потока данных

Потоки данных позволяют подключаться, преобразовывать, объединять и загружать данные в хранилище для нижнего потребления. Ключевым элементом потоков данных является процесс обновления, который применяет шаги преобразования, определенные во время разработки для извлечения, преобразования и загрузки данных в целевое хранилище.

Снимок экрана: пример потока данных.

Обновление потока данных можно активировать одним из двух способов( по запросу или путем настройки расписания обновления). Запланированное обновление выполняется в зависимости от заданных дней и времени.

Предварительные требования

Ниже приведены предварительные требования для обновления потока данных:

Обновление по запросу

Чтобы обновить поток данных по запросу, выберите значок Обновить, найденный в списке рабочих областей или в линейных представлениях.

Снимок экрана, показывающий, где выбрать обновление в представлении списка рабочих областей.

Существуют другие способы активации обновления потока данных по запросу. После успешного завершения публикации потока данных запускается обновление по запросу. Обновление на основе запроса также можно активировать с помощью конвейера, содержащего действие потока данных.

Запланированное обновление

Чтобы автоматически обновить поток данных по расписанию, выберите значок запланированного обновления , найденный в представлении списка рабочих областей:

Снимок экрана, показывающий, где выбрать запланированное обновление в режиме списка рабочих областей.

В разделе обновления можно определить частоту и интервалы времени для обновления потока данных до 48 раз в день. На следующем снимка экрана показано ежедневное расписание обновления в течение 12 часов.

Снимок экрана с примером настройки обновления расписания каждые 12 часов.

Отмена обновления

Отмена обновления потока данных полезна, если требуется остановить обновление во время пикового времени, если емкость приближается к его ограничениям, или если обновление занимает больше времени, чем ожидалось. Используйте функцию отмены обновления, чтобы остановить обновление потоков данных.

Чтобы отменить обновление потока данных, выберите значок "Отмена", найденный в списке рабочих областей или в представлениях родословной для потока данных, находящегося в процессе выполнения.

Снимок экрана: настройка расписания обновления потока данных на странице параметров потока данных.

После отмены обновления потока данных состояние журнала обновления потока данных обновляется, чтобы отразить состояние отмены:

Снимок экрана: представление журнала обновления потоков данных для отмененного обновления потока данных.

Ограничения обновления

Для обновлений потока данных существует несколько ограничений:

  1. Каждый поток данных допускает до 300 обновлений в 24-часовом скользячем окне. Если это ограничение превышено, в журнале обновления может появиться ошибка, и обновления будут возобновляться после падения использования ниже порогового значения. Для потоков данных Gen2, не связанных с CI/CD, ограничение составляет 150 обновлений за 24-часовое скользящее окно.
  2. Помимо ограничений потока данных, регулирование на уровне системы может применяться для защиты общей стабильности службы. Это означает, что в то время как 300 обновлений, распределенных на 24 часа, приемлемы, попытка выполнить 300 обновлений в течение короткого времени (например, 60 секунд) может привести к ограничению скорости и отказу в запросах. Эти защиты существуют для обеспечения надежности системы.
  3. Если запланированное обновление потока данных завершается сбоем последовательно, мы приостанавливаем расписание обновления потока данных и отправим владельцу потока данных сообщение электронной почты. В этом случае применяются следующие правила:
    • 72 часа (3 дня)
      • Процент отказов 100% за 72 часа
      • Не менее 6 обновлений (2 обновления в день)
    • 168 часов (1 неделя)
      • 100% уровень отказов в течение 168 часов
      • Минимум 5 обновлений (1 обновление в день)
  4. Одна оценка запроса имеет ограничение в 8 часов.
  5. Общее время обновления одного обновления потока данных ограничено максимумом в 24 часа.
  6. Для каждого потока данных может быть не более 50 промежуточных запросов или запросов с назначением выходных данных или комбинацией обоих.

Периодические сбои при использовании Dataflow через коннектор Dataflows

Если подчиненные элементы (например, семантические модели или другие потоки данных) используют данные из Dataflow Gen2 с помощью соединителя Dataflows, они извлекают данные через внутренний API. Этот API может испытывать периодические тайм-ауты, что может привести к сбою при обновлении потребляющего элемента с сообщением об ошибке, таким как "Ключ не соответствует ни одной из строк в таблице".

Эта ошибка не означает, что данные отсутствуют или неверны. Он указывает, что серверная служба временно не смогла вернуть результаты потока данных.

Рекомендуемое решение: Настройте назначение данных (Lakehouse или Хранилище) для каждого исходного потока данных и обновите подчиненные элементы, чтобы считывать непосредственно из этого назначения с помощью соединителя Lakehouse или Warehouse вместо соединителя потоков данных. Считывая данные из хранилища OneLake напрямую, обходите внутренний API полностью и устраняете этот режим сбоя. Это изменение также обычно повышает общую производительность обновления.

Дополнительные сведения об этом ограничении см. в разделе об ограничениях для потока данных фабрики данных 2-го поколения.

Актуализация последствий аннулирования для выходных данных

Обновление потока данных можно остановить с помощью функции отмены обновления или сбоя во время обработки запросов потока данных. Различные результаты можно наблюдать в зависимости от типа назначения и момента остановки обновления. Ниже приведены возможные результаты для двух типов назначения данных для запроса:

  • Запрос загружает данные в промежуточный режим. Данные из последнего успешного обновления доступны.
  • Запрос загружает данные в место назначения данных: данные, записанные до точки отмены, доступны.

Не все запросы в потоке данных обрабатываются одновременно, например, если поток данных содержит множество запросов или некоторые запросы зависят от других. Если обновление отменено до оценки запроса, загружающего данные в место назначения, то в назначении этого запроса нет изменений.

Недостаточно разрешений для стадийных артефактов

Если обновление завершается ошибкой "Сбой обновления потока данных из-за нехватки разрешений на доступ к промежуточным артефактам", это означает, что пользователь, создавший первый поток данных в рабочей области, не вошел в Fabric в течение более 90 дней или покинул организацию. Чтобы устранить проблему, пользователь, упомянутый в сообщении об ошибке, должен войти в Fabric. Если пользователь покинул организацию, откройте запрос в службу поддержки.