Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Применяется к рекомендации по оптимизации затрат в Azure Well-Architected Framework:
CO:10 | Оптимизация затрат на данные. Расходы на данные с приоритетом данных. Оптимизация данных должна включать улучшения управления данными (многоуровневого и хранения), тома, репликации, резервного копирования, форматов файлов и решений хранения. |
---|
В этом руководстве описываются рекомендации по оптимизации затрат на данные для рабочей нагрузки. Оптимизация затрат на данные подразумевает минимизацию расходов, связанных с хранилищем и управлением данными в соответствии со своей важностью и частотой доступа. Соответствующее управление данными может значительно сократить затраты и согласовать расходы с помощью служебной программы данных. Пренебрежение оптимизацией затрат на данные может привести к неэффективным расходам, неэффективному выделению ресурсов и финансовым отходам из-за неправильного хранения данных и ненужных данных.
Определения
Срок | Определение |
---|---|
Управление жизненным циклом данных | Процесс управления данными в течение всего жизненного цикла, от создания до удаления. Этот процесс включает в себя организацию, хранение, защиту и архивацию данных на основе его значений и шаблонов использования. |
Избыточность данных | Практика хранения повторяющихся копий данных в нескольких системах хранения или расположениях. Цель избыточности данных — повысить доступность данных и отказоустойчивость. |
Распределение данных по уровням | Стратегия хранения, которая включает классификацию данных на основе частоты доступа и их хранения на уровнях хранилища соответствующим образом. |
Политика хранения | Длительность хранения данных перед его удалением. Он указывает период времени, в течение которого данные должны быть сохранены в соответствии с юридическими, нормативными или бизнес-требованиями. |
Основные стратегии проектирования
В рамках определенной рабочей нагрузки вы оптимизируете затраты на данные, сокращая расходы, связанные с хранением и управлением данными. Существуют различные стратегии и рекомендации по минимизации затрат на хранение и обработку данных. Цель состоит в том, чтобы выравнивать затраты на данные с приоритетом данных. Необходимо назначить уровни затрат типам данных на основе их важности или частоты доступа.
Основными драйверами для затрат на данные рабочей нагрузки являются частота доступа, задержка доступа и объем хранилища. В следующих рекомендациях содержатся стратегии оптимизации затрат в этих драйверах затрат.
Создание инвентаризации данных
Прежде чем оптимизировать затраты на данные, необходимо создать инвентаризацию данных. Изучите доступ к данным и определите его важность в рабочей нагрузке и ее операциях. Определите, к каким данным часто обращаются и к каким данным обращаются реже. Следующие действия инвентаризации помогут эффективно выделить ресурсы хранилища.
Сбор сведений о доступе к данным: Проводите аудит данных, чтобы определить и каталогировать все хранилища данных. Определите ценность наборов данных на основе их важности для бизнес-операций, возврата инвестиций и частоты использования. Сбор журналов доступа, метрик использования или аналитики из решений для хранения данных.
Определите типы данных: Классифицируйте данные на основе его типа, таких как персональные данные, финансовые данные, интеллектуальная собственность или операционные данные. Понимание конфиденциальности и критическости каждого типа данных.
Определение шаблонов доступа: Определите шаблоны доступа к данным, такие как ежедневные, еженедельные или ежемесячные шаблоны использования. Вы должны понимать требования к задержке, размерам файлов и требованиям к свежести данных для данных.
Приоритет данных
Приоритет данных — это процесс классификации и назначения уровней важности типам данных на основе конфиденциальности и критическости. Приоритет данных должен соответствовать важности среды. Например, рабочие данные более важны, чем предварительные данные.
Оцените важность различных типов данных для рабочей нагрузки, выполнив следующие действия:
Определите уровни приоритета: Установите уровни приоритета для данных (таких как высокий, средний и низкий) на основе его ценности в организации, нормативных требований и потенциального эффекта потери данных. Цель состоит в том, чтобы выровнять приоритет данных в соответствующем решении данных.
Назначьте метки: Метка каждого набора данных с его конфиденциальностью и критическим значением. Метки можно применять на уровне строки, столбца или файла в зависимости от структуры данных и использования. Для баз данных можно использовать специальное средство для маркировки и связывания конфиденциальности и критическости данных с определенными строками и столбцами. Этот подход обеспечивает детальный контроль над управлением и доступом к данным.
Оптимизация управления данными
Управление данными — это процесс хранения, перемещения и защиты данных рабочей нагрузки. Оптимизируя управление данными, вы можете выравнивать расходы на приоритет данных и получать больше ценности от данных. Рассмотрим следующие стратегии управления данными.
Оптимизация управления жизненным циклом данных
Важно управлять данными на протяжении всего жизненного цикла. Этапы жизненного цикла включают создание данных (или приобретение), хранилище, использование, общий доступ, хранение и удаление (удаление или архивация). Цель управления жизненным циклом данных — оптимизировать решения для хранения данных при соблюдении соответствующих правил и политик.
Хранилище данных имеет три критически важных компонента затрат:
Затраты на хранение: расходы, связанные с хранением данных, например за гигабайт.
Затраты на транзакции: затраты, связанные с операциями с данными, такими как операции записи, операции чтения и извлечение данных (на гигабайт). Чтение и запись данных может иметь разные затраты.
Затраты на задержку: расходы, связанные с скоростью или задержкой доступа к данным.
Ниже приведены основные рекомендации по управлению жизненным циклом данных.
Используйте многоуровневую настройку данных: Цель многоуровневого распределения данных — выравнивание доступа и хранения с наиболее экономичным уровнем хранилища. Уровни хранилища варьируются от частого или немедленного доступа (горячего) до редкого или отложенного доступа (холодный).
Это стоит больше для использования уровня, который не соответствует потребностям доступа к данным и хранения. Например, данные, к которым обращается приложение, часто должны находиться в горячем хранилище. Данные, к которым приложение обращается редко, должны находиться в холодном хранилище. Эффективное управление этими аспектами помогает обеспечить эффективное хранилище данных.
Рассмотрите требования к соответствию: Реализация уровня данных требует тщательного рассмотрения требований к соответствию и политике управления данными. Требования к соответствию требованиям и юридическим требованиям часто управляют доступом к данным и хранением. Установите политики хранения данных, чтобы обеспечить соответствие юридическим, нормативным и бизнес-требованиям.
Определите политики жизненного цикла данных. Политики жизненного цикла данных указывают, когда и как следует перемещать данные между уровнями хранилища на основе предопределенных критериев. Эти политики гарантируют, что данные хранятся на соответствующем уровне в течение требуемой длительности. Например, политика может указывать, что данные должны храниться на горячем уровне в течение 30 дней, в холодном уровне в течение 90 дней и в архивном уровне в течение одного года. Задайте срок хранения на основе таких факторов, как юридические требования, отраслевые правила или внутренние политики.
Использование автоматизации: политики хранения могут активировать перемещение данных между уровнями. Перед созданием любого пользовательского решения необходимо автоматизировать политики с помощью функций платформы.
Когда срок хранения определенного уровня истекает, политика может автоматически переместить данные на следующий уровень более низкой стоимости. Например, когда срок хранения для горячего уровня заканчивается, политика может переместить данные на холодный уровень. Политика гарантирует, что данные постоянно оптимизированы на основе шаблонов доступа и требований к затратам.
Компромисс. Управление политиками хранения данных требует постоянного мониторинга и обслуживания. Это может привести к дополнительным издержкам для процессов управления данными. Это также может повлиять на затраты на хранение. Более длительные периоды хранения или использование уровней хранилища с более высокими затратами может увеличить расходы на хранение.
Риск. Плохая реализация управления жизненным циклом данных может привести к потере данных или ограниченному доступу к критически важным данным. Необходимо иметь надлежащие механизмы резервного копирования и восстановления, чтобы снизить риск потери данных.
Оптимизация сегментации данных
Оптимизация сегментации данных включает стратегическое упорядочение данных в отдельные сегменты и консолидацию аналогичных типов данных для эффективного выделения ресурсов хранилища. Он позволяет адаптировать распределение ресурсов хранилища с приоритетом данных.
Чтобы эффективно оптимизировать сегментацию данных, вы классифицируете данные по типу и шаблону использования. Затем сегменты данных помещают в наиболее эффективное решение в зависимости от их рабочих сходств и требований. Например, вы размещаете данные, требующие высокопроизводительного хранилища ресурсов с более быстрым временем извлечения. Архивные данные используют ресурс с более низкими затратами с более медленным временем извлечения.
Такой подход гарантирует, что данные с высоким спросом используют более быстрое хранилище для оптимальной производительности и менее доступных данных используют более дешевое хранилище. Аналогичным образом, если типы данных совместно используют шаблоны использования, их следует сгруппировать по одному ресурсу, чтобы сократить затраты, упростить управление и улучшить обработку данных.
Свести к минимуму передачу данных
Минимизация передачи данных относится к сокращению перемещения данных между сетями, чтобы снизить затраты на передачу данных. Это уменьшает объем данных, которые рабочая нагрузка перемещает и снижает плату за использование сети. Чтобы свести к минимуму передачу данных, рассмотрите следующие рекомендации.
- Используйте правильное расположение. поместите данные по географическому расположению к пользователям. Близкое взаимодействие с данными сокращает сетевое перемещение, что ускоряет доступ и оптимизирует затраты.
- Используйте кэширование. Рассмотрите преимущества кэширования, чтобы свести к минимуму передачу данных.
- Используйте сеть доставки содержимого. Сеть доставки содержимого может хранить статические данные ближе к пользователям. Это уменьшает перемещение данных по сети и помогает отключить использование пропускной способности.
Оптимизация безопасности и соответствия требованиям
Некоторые рабочие данные требуют более высоких требований к безопасности и соответствию требованиям. Эти меры могут привести к дополнительным затратам, связанным с защитой данных, шифрованием, резервным копированием, хранением и аудитом.
Необходимо убедиться, что изменения в решениях хранилища данных соответствуют этим требованиям. Данные, имеющие более низкие требования к безопасности и соответствию, часто представляют собой возможность оптимизировать затраты.
Оптимизация тома данных
Поиск стратегий для уменьшения объема данных, которые можно хранить, может помочь сократить затраты. Изменив специальные возможности данных и реализуя следующие методы, можно эффективно оптимизировать объем сохраненных данных:
Захватывайте меньше данных: ознакомьтесь с данными, которые вы захватываете. Определите, является ли это ненужным для ваших целей. Измените процесс, параметры или конфигурации, чтобы записать только необходимые данные.
Сжатие данных: сжатие экономит деньги, уменьшая размер данных. Это наиболее эффективно в сценариях записи один раз, чтения или чтения редко. Он более подходит для более холодного хранения.
Компромисс. Сжатие и распаковка данных увеличивают время ЦП.
Удаление ненужных данных: реализуйте политики для упрощения процесса хранения соответствующих сведений. Оцените период хранения резервных копий и моментальных снимков, а также удалите данные, которые больше не нужны. Возможно, вам потребуется процесс, который приводит к конечному удалению данных, например первому архивированием данных и включен период обратимого удаления. Всегда учитывайте возможность восстановления перед удалением данных.
Дедупликация данных: реализуйте методы дедупликации данных для устранения избыточных данных. Дедупликация снижает требования к хранилищу, обеспечивая хранение только уникальных блоков данных, поэтому вы экономите затраты. Используйте алгоритмы хэширования и сравнение блоков данных. Регулярно выполняются процессы дедупликации для выявления и устранения повторяющихся данных.
Оптимизация поведения пользователей. В рабочих нагрузках, которые собирают данные, созданные пользователем, обучают пользователей важности эффективного хранилища данных. Рекомендуется регулярно просматривать и удалять ненужные файлы и данные. Реализуйте квоты хранилища или модели ценообразования, которые препятствуют чрезмерному хранилищу данных.
Оптимизация репликации данных
Репликация данных включает создание нескольких копий данных и их хранение в других географических расположениях или зонах для надежности. Репликация гарантирует, что если в одном расположении или зоне возникает сбой или сбой, вы по-прежнему можете получить доступ к данным из реплицированных копий в других расположениях.
Эта избыточность помогает повысить доступность и устойчивость данных. Это сводит к минимуму риск потери данных и простоя.
Чтобы оптимизировать репликацию данных для оптимизации затрат, рассмотрите следующие рекомендации.
Оцените требования к репликации данных: оцените конкретные потребности рабочей нагрузки и определите требуемый уровень репликации данных. Учитывайте такие факторы, как критичность данных, цели времени восстановления (ОСРВ) и цели точки восстановления (RPOS).
Выберите правильную стратегию репликации: выберите технологию репликации, которая соответствует целям оптимизации затрат. Рассмотрите требования соглашения об уровне обслуживания (SLA) для рабочей нагрузки.
Оцените такие параметры, как синхронная репликация, асинхронная репликация или сочетание обоих. Основываясь на таких факторах, как требования к согласованности данных и рекомендации по пропускной способности сети. Оцените уровень доступности, необходимый для рабочей нагрузки, и оцените необходимость зонального и регионального избыточности.
Оптимизация пропускной способности сети. Свести к минимуму использование пропускной способности сети путем реализации методов сжатия и дедупликации данных. Эти методы могут снизить объем передаваемых во время репликации данных, что может сократить затраты.
Мониторинг и оптимизация частоты репликации. Регулярно просматривайте и настраивайте частоту репликации на основе изменяющихся потребностей рабочей нагрузки. Точное настройка частоты репликации может помочь оптимизировать затраты, уменьшая ненужные затраты на репликацию.
Оптимизация резервных копий
Резервная копия — это периодический моментальный снимок или копия данных, которые можно создавать и хранить отдельно от основного хранилища. При повреждении данных, случайном удалении или сбое системы можно использовать резервные копии для восстановления данных до предыдущего состояния.
Ниже приведены некоторые методы оптимизации резервных копий.
Классификация данных: классифицируйте данные на основе его важности и приоритетности для резервного копирования. Классификация помогает сосредоточить ресурсы на резервном копировании критически важных данных, минимизируя затраты на резервное копирование данных, которые менее важны.
Добавочные резервные копии. Вместо выполнения полных резервных копий каждый раз рекомендуется реализовать добавочные резервные копии. Добавочные резервные копии фиксируют только изменения, внесенные с момента последней резервной копии, что может снизить требования к хранилищу и пропускной способности сети.
Компромисс. Добавочные резервные копии требуют дополнительных шагов и времени для восстановления данных. Сначала необходимо восстановить полную резервную копию, а затем применить каждую добавочную резервную копию в последовательности, пока не достигнет нужной точки восстановления.
Сжатие резервных копий: включите сжатие во время процесса резервного копирования, чтобы уменьшить размер файлов резервной копии. Сжатые резервные копии требуют меньше места в хранилище, поэтому вы можете сэкономить затраты.
Уровни хранилища резервных копий. Оцените политики хранения резервных копий и рассмотрите возможность перемещения старых резервных копий на более низкие уровни хранилища, например холодное хранилище или архивное хранилище. Хранение менее часто доступных резервных копий в вариантах экономичного хранилища помогает оптимизировать затраты.
Период хранения резервных копий: проверьте и измените срок хранения резервных копий на основе бизнес-требований и нормативных требований. Сохранение резервных копий в течение длительной длительности может привести к дополнительным затратам на хранение.
Частота резервного копирования: анализ частоты резервного копирования для различных типов данных. Настройте расписание резервного копирования на основе частоты изменений данных и важности данных. Эти методики помогают устранить ненужные резервные копии и сократить затраты на хранение.
Оптимизация форматов файлов
Форматы файлов влияют на оптимизацию затрат, оптимизируя шаблоны ввода-вывода и шаблоны запросов данных. Некоторые форматы файлов удовлетворяют определенным сценариям. Выравнивание формата файла с требованиями рабочей нагрузки может повысить производительность рабочей нагрузки.
Ниже приведены рекомендации по общим форматам:
Avro: формат файла Avro является хорошим выбором, если вы работаете с шаблонами ввода-вывода с высокой нагрузкой на запись или когда шаблоны запросов требуют получения нескольких строк записей в целом. Сериализация и десериализация avro эффективны, поэтому она совместима с автобусами сообщений, такими как Kafka, которые создают ряд событий и сообщений в быстром последовательности.
Parquet and Optimized Row Columnar (ORC) — форматы файлов Parquet и ORC в сценариях шаблонов операций ввода-вывода с большим объемом чтения или при фокусе шаблонов запросов на определенные столбцы записей.
Оба формата являются хранилищем столбцов, что означает, что данные хранятся по столбцам, а не по строкам. Хранилище columnar позволяет улучшить сжатие и эффективные операции чтения. Необходимо получить только необходимые столбцы, чтобы избежать ненужных операций ввода-вывода для неуместных данных.
Оптимизация решений хранилища
Оцените и выберите наиболее подходящие методы хранения и системы для данных. Это может быть переключение баз данных, использование различных типов хранилища или добавление механизмов кэширования. Простота управления — это еще один фактор, который следует учитывать при выборе решения для хранения.
Благодаря настройке решений хранилища с учетом конкретных потребностей и характеристик данных вы можете добиться лучшей экономичности при выполнении требований к производительности и масштабируемости. Существуют затраты, связанные с переключением баз данных или переключением служб, но хранение данных в неправильном решении хранилища может стоить вам дополнительные деньги.
Ниже приведены несколько вариантов использования.
Переключение баз данных. Вы можете рассмотреть возможность переключения в систему баз данных, которая лучше подходит для ваших потребностей. Например, если вы используете реляционную базу данных, вы можете изучить вариант перехода в базу данных NoSQL, если данные более ориентированы на документ или требуют гибких схем.
Переход от реляционной базы данных к неструктурированному хранилищу файлов: в некоторых случаях хранение данных в неструктурированных файлах вместо традиционной реляционной базы данных может обеспечить такие преимущества, как простота и экономичность. Неструктурированные файлы хорошо подходят для определенных типов данных, таких как файлы журнала или данные, которые не требуют сложного запроса. Например, двоичные образы можно хранить в базе данных SQL, но это более экономично для хранения их в службе хранилища, которая специально предназначена для обработки двоичных данных.
Оптимизируйте затраты на данные журнала с помощью суммирования. Для потоков данных журнала больших объемов рекомендуется использовать методы суммирования для снижения затрат на хранение при сохранении аналитических возможностей.
Переход от инфраструктуры как службы (IaaS) к платформе как услуга (PaaS) — решения базы данных IaaS могут быть трудоемкими и ресурсоемкими свойствами, которые отвлекают внимание технической команды от основных задач. Рост объема данных и проблемы ручного масштабирования, резервного копирования и обслуживания инфраструктуры могут сделать решение PaaS более экономичным и эффективным.
Добавление кэша. Чтобы уменьшить использование ресурсов на главном сервере базы данных, рекомендуется использовать решение кэша для кэширования сложных результатов запроса. Управление правами на сервер базы данных может помочь в оптимизации затрат. В применимых вариантах использования рекомендуется использовать время для жизни (TTL) с кэшируемыми данными, чтобы сократить потребности в хранилище и сократить затраты.
Оптимизированные для запросов хранилища и хранилища данных: оптимизированные для запросов хранилища предназначены для быстрого извлечения и анализа данных. Они сосредоточены на быстром приеме и чтении данных, но не частых обновлениях. Они отлично подходят для данных временных рядов и быстрого доступа к последним данным, но не для тяжелых транзакционных задач.
Хранилища данных обрабатывают большие объемы гибких данных, особенно неструктурированные или полуструктурированные данные. Хотя хранилища данных могут поддерживать аналитику, сложные задачи могут потребовать специализированных баз данных. Они лучше всего использовать для хранения большого количества данных переменных, таких как журналы или содержимое, созданное пользователем, в таких сценариях, как использование NoSQL.
Упрощение функций Azure
Создание инвентаризации данных: Microsoft Purview — это семейство решений по управлению данными, рискам и соответствию требованиям, которые помогут вашей организации управлять, защищать и управлять всеми ресурсами данных. Решения Microsoft Purview обеспечивают интегрированное покрытие и помогают решить проблему недавнего увеличения возможностей подключения удаленных пользователей, фрагментации данных в организациях и размытия традиционных ролей управления ИТ.
Оптимизация управления данными: служба хранилища Azure и Azure Data Lake Storage имеют разные уровни доступа к данным. Они также предлагают политики управления жизненным циклом данных , которые автоматизируют многоуровневую обработку и хранение данных.
Политику на основе правил можно использовать для перехода данных BLOB-объектов на соответствующие уровни доступа или истечения срока действия данных в конце жизненного цикла. Эта политика позволяет перенести большие двоичные объекты из холодного (или холодного) в горячий момент при доступе к ним, чтобы оптимизировать производительность.
Оптимизация резервных копий. Служба архивации Azure предоставляет несколько возможностей для оптимизации резервных копий. Она предлагает такие функции, как резервное копирование баз данных и резервное копирование хранилища с помощью моментальных снимков дисков. Она поддерживает резервное копирование виртуальных машин, долгосрочное хранение и управление резервными копиями.
Ниже приведены некоторые функции службы:
Мониторинг. Центр резервного копирования можно использовать в качестве одной панели стекла для мониторинга заданий и инвентаризации резервных копий на ежедневной основе. Центр резервного копирования предоставляет интерфейс для отчетов резервного копирования, использующих журналы Azure Monitor и книги Azure.
Отчеты: отчеты резервного копирования предоставляют следующие возможности:
- Выделение и прогнозирование используемого облачного хранилища.
- Аудит резервных копий и восстановления.
- Определите ключевые тенденции на различных уровнях детализации.
- Получите представление и аналитические сведения о возможностях оптимизации затрат для резервных копий.
Зарезервированная емкость: зарезервированная емкость хранилища Azure Backup предоставляет скидку на емкость резервных данных, хранящихся для уровня хранилища уровня "Стандартный" при фиксации резервирования в течение одного года или трех лет. Резервирование предоставляет фиксированный объем емкости хранилища резервных копий для срока резервирования.
Уровень архива. Вы можете использовать Azure Backup для хранения данных резервного копирования, включая данные резервного копирования длительного хранения (LTR), в соответствии с требованиями хранения, которые определяют правила соответствия вашей организации. В большинстве случаев старые данные резервного копирования редко обращаются и хранятся только для обеспечения соответствия требованиям. Azure Backup поддерживает резервное копирование точек LTR на уровне архива, а также моментальных снимков и уровня "Стандартный".
Оптимизация решений для хранения: Azure имеет множество решений для хранения. Они предлагают различные функции и возможности для оптимизации затрат на основе конкретных требований. В Azure есть рекомендации по выбору подходящего хранилища данных.
Чтобы выбрать наиболее подходящее решение и конфигурацию хранилища, важно оценить шаблоны доступа к данным, потребности хранения и требования к производительности. Регулярно отслеживайте и оптимизируйте использование хранилища с помощью таких средств, как Помощник по Azure, можно оптимизировать затраты.
Оптимизация запросов к правилам сводки Log Analytics Azure Monitor позволяет автоматически суммировать потоки данных высокой скорости приема на разных уровнях служб. Этот подход обеспечивает экономичное долгосрочное хранение данных путем создания многоуровневых архитектур, где подробные необработанные данные агрегируются в обобщенные наборы данных для анализа и отчетности, что значительно снижает затраты на хранение при сохранении аналитических аналитических сведений.
Связанные ссылки
- Рекомендации по консолидации
- Майкрософт Purview
- Уровни доступа к данным
- Политики управления жизненным циклом данных
- Хранилище Azure Backup
- Архивный уровень
- Выбор правильного хранилища данных
Контрольный список оптимизации затрат
Ознакомьтесь с полным набором рекомендаций.