Проектирование архитектуры искусственного интеллекта (ИИ)
Искусственный интеллект (ИИ) — это технология, которая позволяет машинам имитировать интеллектуальное поведение человека. С помощью ИИ компьютеры могут:
- Анализ данных для создания изображений и видео.
- Анализ и синтез речи.
- Словесно взаимодействуют естественным образом.
- Создание прогнозов и создание новых данных.
Архитекторы разрабатывают рабочие нагрузки, использующие искусственный интеллект для выполнения функций или принятия решений, где традиционная логика или обработка будет запрещена или даже почти невозможно реализовать. В качестве архитектора разработки решения важно понимать ландшафт искусственного интеллекта и машинного обучения и как Azure предлагает решения для интеграции с проектом рабочей нагрузки.
Основные понятия ИИ
Алгоритмы
Алгоритмы или алгоритмы машинного обучения — это фрагменты кода, которые помогают людям изучать, анализировать и находить смысл в сложных наборах данных. Каждый алгоритм — это конечный набор однозначных пошаговых инструкций, которые компьютер может выполнять для достижения определенной цели. В модели машинного обучения цель заключается в создании или обнаружении шаблонов, которые люди могут использовать для прогнозирования или классификации информации. Алгоритм может описывать то, как определить, относится ли домашнее животное к категории кошек, собак, рыб, птиц или пресмыкающихся. Еще один гораздо более сложный алгоритм может описывать то, как различить письменную или устную речь, проанализировать текст, перевести его на другой язык, а затем проверить правильность перевода.
При разработке рабочей нагрузки необходимо выбрать семейство алгоритмов, подходящее для вашей задачи, и оценить различные доступные алгоритмы для поиска соответствующего соответствия.
Машинное обучение
Машинное обучение — это метод ИИ, использующий алгоритмы для создания прогнозных моделей. Алгоритм используется для анализа полей данных и "обучения" из данных с помощью шаблонов, найденных в нем для создания моделей. Затем модели применяются для создания прогнозов или принятия обоснованных решений, исходя из новых данных.
Модели прогнозирования проверяются на известных данных, оцениваются с помощью метрик эффективности, выбранных для определенного бизнес-сценария, а затем по мере необходимости корректируются. Этот процесс называется обучением. Благодаря периодическому повторному обучению модели машинного обучения с течением времени улучшаются.
Когда речь идет о проектировании рабочей нагрузки, рекомендуется использовать машинное обучение, если у вас есть ситуация, когда прошлые наблюдения могут быть надежно использованы для прогнозирования будущих ситуаций. Эти наблюдения могут быть универсальными истинами, такими как компьютерное зрение, которое обнаруживает одну форму животного из другого, или эти наблюдения могут быть характерными для вашей ситуации, например компьютерное зрение, которое обнаруживает потенциальную ошибку сборки на ваших линиях сборки на основе прошлых данных о утверждении гарантии.
Глубокое обучение
Глубокое обучение — это тип машинного обучения , который может учиться с помощью собственной обработки данных. Как и машинное обучение, он также использует алгоритмы для анализа данных, но это делает с помощью искусственных нейронных сетей, содержащих много входных данных, выходных данных и слоев обработки. Каждый слой может обрабатывать данные по-другому, а выходные данные одного слоя становятся входными данными для следующего. Это позволяет глубокому обучению создавать более сложные модели, чем традиционные машинные обучения.
В качестве конструктора рабочих нагрузок этот вариант требует больших инвестиций в создание высоконастройных или исследовательских моделей. Как правило, вы рассмотрите другие решения, представленные в этой статье, прежде чем добавлять глубокое обучение в рабочую нагрузку.
Генеративный ИИ
Генерирующий ИИ — это форма искусственного интеллекта, в которой модели обучены создавать новое исходное содержимое на основе многих форм содержимого, таких как естественный язык, компьютерное зрение, звук или входные данные изображения. С помощью генерированного искусственного интеллекта можно описать требуемые выходные данные на обычном повседневном языке, а модель может реагировать, создавая соответствующий текст, изображение, код и многое другое. Ниже приведены некоторые примеры создания приложений искусственного интеллекта:
Microsoft Copilot — это в первую очередь пользовательский интерфейс, который может помочь пользователям писать код, документы и другое текстовое содержимое. Он основан на популярных моделях OpenAI и интегрирован в широкий спектр приложений Майкрософт и пользовательских возможностей.
Azure OpenAI — это платформа разработки как услуга, которая предоставляет доступ к мощным языковым моделям OpenAI , таким как o1-preview, o1-mini, GPT-4o, GPT-4o mini, GPT-4 Turbo с Vision, GPT-4, GPT-3.5-Turbo и серии моделей Внедрения. Эти модели можно адаптировать к конкретной задаче, например:
- Создание содержимого
- Сводка содержимого
- Анализ изображений
- Семантический поиск
- Естественный язык для перевода кода.
Языковые модели
Языковые модели — это подмножество генерированного искусственного интеллекта, которое фокусируется на задачах обработки естественного языка (NLP), таких как создание текста и анализ тональности. Эти модели представляют естественный язык на основе вероятности слов или последовательностей слов, происходящих в определенном контексте.
Обычные языковые модели используются в защищенных параметрах для исследований, где модели обучаются на хорошо помеченных текстовых наборах данных для конкретных задач. Предварительно обученные языковые модели предлагают доступный способ начать работу с ИИ и стали более широко использоваться в последние годы. Эти модели обучены в крупномасштабном текстовом корпусе из Интернета с помощью нейронных сетей глубокого обучения и могут быть точно настроены на небольших наборах данных для конкретных задач.
Размер языковой модели определяется его количеством параметров или весов, которые определяют, как модель обрабатывает входные данные и создает выходные данные. Параметры изучаются во время обучения путем корректировки весов в слоях модели, чтобы свести к минимуму разницу между прогнозами модели и фактическими данными. Чем больше параметров у модели, тем более сложной и экспрессивной, но и тем более вычислительным затратам является обучение и использование.
В целом небольшие языковые модели имеют менее 10 миллиардов параметров, а большие языковые модели имеют более 10 миллиардов параметров. Например, семейство моделей Microsoft Phi-3 имеет три версии с различными размерами: мини (3,8 млрд параметров), малый (7 млрд параметров) и средний (14 млрд параметров).
Копилоты
Доступность языковых моделей привела к возникновению новых способов взаимодействия с приложениями и системами через цифровые копилоты и подключенные, относящиеся к домену, агенты. Копилоты — это помощники на основе генеративного ИИ, которые зачастую интегрируются в приложения в формате интерфейса чата. В таких приложениях они обеспечивают контекстуальную поддержку при выполнении задач общей направленности.
Microsoft Copilot интегрирован в широкий спектр приложений Майкрософт и пользовательских возможностей. Она основана на открытой архитектуре, которая позволяет сторонним разработчикам создавать собственные подключаемые модули для расширения или настройки пользовательского интерфейса с помощью Microsoft Copilot. Кроме того, сторонние разработчики могут создавать собственные копилоты с помощью той же открытой архитектуры.
Получение дополненного поколения (RAG)
Извлечение дополненного поколения (RAG) — это шаблон архитектуры, который расширяет возможности крупной языковой модели (LLM), например ChatGPT, которая была обучена только на общедоступных данных. Этот шаблон позволяет добавить систему извлечения, которая предоставляет соответствующие данные о заземления в контексте с запросом пользователя. Добавление системы получения информации позволяет контролировать заземление данных, используемых языковой моделью при создании ответа. Архитектура RAG помогает определить область создания искусственного интеллекта для содержимого, исходного из векторных документов, изображений и других форматов данных. Однако RAG не ограничивается хранилищем векторного поиска, шаблон применим в сочетании с любой технологией хранения данных.
Автоматизированное машинное обучение (AutoML)
Автоматизированное машинное обучение, также называемое автоматизированным машинным обучением или AutoML, — это процесс автоматизации итеративных задач разработки модели машинного обучения. Это позволяет специалистам по обработке и анализу данных создавать модели машинного обучения с высокими уровнями масштаба, эффективности и производительности без ущерба для качества моделей.
- What is automated machine learning? (Что такое автоматическое машинное обучение?)
Службы искусственного интеллекта
С помощью разработчиков и организаций служб ИИ Azure можно создавать интеллектуальные, готовые к рынкам и ответственные приложения с готовыми, предварительно созданными и настраиваемыми API и моделями. Использование включает обработку естественного языка для бесед, поиска, мониторинга, перевода, речи, зрения и принятия решений.
MLflow — это платформа с открытым исходным кодом, предназначенная для управления полным жизненным циклом машинного обучения.
Модели языка ИИ
Крупные языковые модели (LLMs), такие как модели GPT OpenAI, являются мощными средствами, которые могут создавать естественный язык в различных доменах и задачах. При использовании этих моделей учитывайте такие факторы, как конфиденциальность данных, этические использование, точность и предвзятость.
Открытые модели Phi — это небольшие, менее вычислительные модели для создания решений искусственного интеллекта. Небольшая языковая модель (SLM) может быть более эффективной, интерпретируемой и объяснимой, чем большая языковая модель.
При проектировании рабочей нагрузки можно использовать языковые модели как размещенное решение, за лимитным API, так и для многих небольших языковых моделей, которые можно разместить в процессе или по крайней мере на том же вычислении, что и потребитель. При использовании языковых моделей в решении рассмотрите выбор языковой модели и доступные варианты размещения, чтобы обеспечить использование оптимизированного решения для вашего варианта использования.
Платформы и средства разработки ИИ
Служба машинного обучения Azure
Машинное обучение Azure — это служба машинного обучения для создания и развертывания моделей. Машинное обучение Azure предлагает веб-интерфейсы и пакеты SDK, чтобы можно было обучать и развертывать модели машинного обучения и конвейеры в большом масштабе. Использовать эти возможности можно с помощью платформ Python с открытым кодом, например PyTorch, TensorFlow и scikit-learn.
Что такое продукты машинного обучения в Корпорации Майкрософт?
Что такое служба "Машинное обучение Microsoft Azure"? Общая информация со ссылками на множество учебных материалов, пакетов SDK, документов и т. д.
Эталонные архитектуры машинного обучения для Azure
Базовая эталонная архитектура чата OpenAI — это эталонная архитектура , которая показывает, как создать сквозную архитектуру чата с использованием моделей GPT OpenAI.
Базовая архитектура чата Azure OpenAI в целевой зоне Azure показывает, как создать базовую архитектуру Azure OpenAI для решения изменений и ожиданий при развертывании в целевой зоне Azure.
Пакетная оценка моделей машинного обучения Spark в Azure Databricks
Автоматизированное машинное обучение (AutoML)
Создание моделей машинного обучения в масштабе с помощью функции AutoML в Машинное обучение Azure для автоматизации задач.
Домашняя страница автоматизированного машинного обучения Azure
Инфографика, посвященная автоматизированному машинному обучению Azure (PDF)
Configure automated ML experiments in Python (Настройка экспериментов автоматизированного машинного обучения на Python)
Автоматизация процессов машинного обучения с помощью CLI Машинного обучения Azure
MLflow
Машинное обучение Azure рабочие области совместимы с MLflow, что означает, что вы можете использовать Машинное обучение Azure рабочую область так же, как и сервер MLflow. Эта совместимость имеет следующие преимущества:
- Машинное обучение Azure не размещает экземпляры сервера MLflow, но может напрямую использовать API MLflow.
- Вы можете использовать рабочую область Машинное обучение Azure в качестве сервера отслеживания для любого кода MLflow, независимо от того, выполняется ли он в Машинное обучение Azure. Необходимо настроить MLflow только для указания рабочей области, в которой должно выполняться отслеживание.
- Вы можете выполнять любую подпрограмму обучения, использующую MLflow в Машинное обучение Azure без внесения изменений.
Дополнительные сведения см. в разделе MLflow и Машинное обучение Azure
Средства создания искусственного интеллекта
Поток запросов — это набор средств разработки, предназначенных для упрощения комплексного цикла разработки создаваемых приложений ИИ, от идеи, прототипирования, тестирования, оценки до развертывания и мониторинга рабочей среды. Она поддерживает проектирование запросов через выражение действий в модульном оркестрации и подсистеме потоков.
Azure AI Studio помогает экспериментировать, разрабатывать и развертывать созданные приложения ИИ и API ответственно с помощью комплексной платформы. С помощью Azure AI Studio у вас есть доступ к службам ИИ Azure, базовым моделям, игровым площадкам и ресурсам, которые помогут вам создавать, обучать, настраивать и развертывать модели ИИ. Кроме того, можно оценить ответы модели и оркестрировать компоненты приложения запроса с помощью потока запросов для повышения производительности.
Azure Copilot Studio используется для расширения Microsoft Copilot в Microsoft 365 и создания пользовательских копилот для внутренних и внешних сценариев. С помощью Copilot Studio пользователи могут создавать, тестировать и публиковать копилоты с помощью комплексного холста разработки. Пользователи могут легко создавать беседы с поддержкой искусственного интеллекта, обеспечивать больший контроль реагирования на существующие копилоты и ускорить производительность с помощью определенных автоматизированных рабочих процессов.
Платформы данных для искусственного интеллекта
Microsoft Fabric
Microsoft Fabric — это сквозная аналитика и платформа данных, предназначенная для предприятий, требующих единого решения. Команды рабочей нагрузки могут предоставлять доступ к данным в этих системах. Он включает перемещение данных, обработку, прием, преобразование, маршрутизацию событий в режиме реального времени и сборку отчетов. Он предлагает полный набор служб, включая Инжиниринг данных, фабрику данных, Обработка и анализ данных, аналитику в режиме реального времени, хранилище данных и базы данных.
Microsoft Fabric интегрирует отдельные компоненты в сплоченный стек. Вместо того чтобы полагаться на разные базы данных или хранилища данных, вы можете централизованно использовать хранилище данных с помощью OneLake. Возможности искусственного интеллекта внедрены в Fabric, устраняя необходимость интеграции вручную.
Копилоты в Fabric
Copilot и другие функции искусственного интеллекта позволяют преобразовывать и анализировать данные, создавать аналитические сведения и создавать визуализации и отчеты в Microsoft Fabric и Power BI. Вы можете создать собственный copilot или выбрать один из следующих предварительно созданных копилот:
Навыки искусственного интеллекта в Fabric
С помощью навыка ИИ Microsoft Fabric можно настроить систему создания искусственного интеллекта для создания запросов, которые отвечают на вопросы о данных. После настройки навыка ИИ вы можете поделиться им своими коллегами, которые затем могут задавать свои вопросы на простом английском языке. На основе их вопросов ИИ создает запросы по вашим данным, которые отвечают на эти вопросы.
- Что такое навык искусственного интеллекта в Fabric? (предварительная версия)
- Создание навыка искусственного интеллекта
- Пример навыка ИИ
- Разница между навыком ИИ и copilot
Платформы данных на основе Apache Spark для искусственного интеллекта
Apache Spark — это платформа параллельной обработки, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных. Spark предоставляет примитивы для кластерных вычислений в памяти. Задание Spark может загружать и кэшировать данные в память и запрашивать их многократно, что быстрее, чем приложения на основе дисков, например Hadoop.
Apache Spark в Azure Fabric
Среда выполнения Microsoft Fabric — это интегрированная с Azure платформа на основе Apache Spark, которая обеспечивает выполнение и управление проектированием и обработкой и анализом данных. Он объединяет ключевые компоненты как из внутренних, так и из источников с открытым кодом, предоставляя клиентам комплексное решение.
Основные компоненты среды выполнения Fabric:
Apache Spark — мощная распределенная библиотека распределенных вычислений с открытым кодом, которая позволяет выполнять крупномасштабные задачи обработки и анализа данных. Apache Spark предоставляет универсальную и высокопроизводительную платформу для разработки и обработки и анализа данных.
Delta Lake — слой хранения с открытым исходным кодом, который предоставляет транзакции ACID и другие функции надежности данных в Apache Spark. Интегрированная в среду выполнения Fabric Delta Lake улучшает возможности обработки данных и обеспечивает согласованность данных в нескольких параллельных операциях.
Пакеты уровня по умолчанию для Java/Scala, Python и R — пакеты, поддерживающие различные языки программирования и среды. Эти пакеты устанавливаются и настраиваются автоматически, позволяя разработчикам применять предпочитаемые языки программирования для задач обработки данных.
Среда выполнения Microsoft Fabric основана на надежной операционной системе с открытым исходным кодом, обеспечивая совместимость с различными конфигурациями оборудования и требованиями к системе.
Azure Databricks Runtime для машинного обучения
Azure Databricks — это платформа для аналитики на базе Apache Spark. Платформа настраивается одним щелчком, упрощает рабочие процессы и предоставляет интерактивную рабочую область для совместной работы инженеров, бизнес-аналитиков, а также специалистов по обработке и анализу данных.
Databricks Runtime для машинного обучения (Databricks Runtime ML) позволяет запускать кластер Databricks со всеми библиотеками, необходимыми для распределенного обучения. Она предоставляет среду для машинного обучения и обработки и анализа данных. Кроме того, она содержит много популярных библиотек, включая TensorFlow, PyTorch, Keras и XGBoost. Оно также поддерживает распределенное обучение с использованием Horovod.
Apache Spark в Azure HDInsight
Apache Spark в Azure HDInsight — это реализация Apache Spark в облаке, предоставляемая корпорацией Майкрософт. Кластеры Spark в HDInsight совместимы со службой хранилища Azure и с Azure Data Lake Storage. Поэтому имеющиеся данные, хранящиеся в Azure, можно обрабатывать с помощью кластеров Spark HDInsight.
Библиотека машинного обучения Майкрософт для Apache Spark — SynapseML (прежнее название — MMLSpark). Эта библиотека с открытым кодом добавляет множество средств глубокого обучения и обработки и анализа данных, сетевых возможностей и производительности рабочей среды в экосистему Spark. Дополнительные сведения о функциях и возможностях SynapseML.
Обзор Azure HDInsight. Основные сведения о функциях, архитектуре кластера и вариантах использования со ссылками на краткие руководства и учебники.
Руководство. Создание приложения машинного обучения Apache Spark в Azure HDInsight
Репозиторий GitHub для SynapseML: библиотека машинного обучения Майкрософт для Apache Spark
Создание конвейера машинного обучения Apache Spark в HDInsight
Хранилище данных для искусственного интеллекта
Microsoft Fabric OneLake
OneLake в Fabric — это единое и логическое озеро данных, адаптированное для всей организации. Он служит центральным центром для всех аналитических данных и включается в каждый клиент Microsoft Fabric. OneLake в Fabric построен на основе Data Lake Storage 2-го поколения.
OneLake в Fabric:
- Поддерживает структурированные и неструктурированные типы файлов.
- Хранит все табличные данные в формате Delta Parquet.
- Предоставляет одно озеро данных в границах клиента, которое регулируется по умолчанию.
- Поддерживает создание рабочих областей в клиенте, чтобы организация может распространять политики владения и доступа.
- Поддерживает создание различных элементов данных, таких как lakehouses и хранилища, из которых можно получить доступ к данным.
Дополнительные сведения см . в разделе OneLake, OneDrive для данных.
Azure Data Lake Storage 2-го поколения
Azure Data Lake Storage — это единый централизованный репозиторий, в котором можно хранить все данные, структурированные и неструктурированные. Озеро данных позволяет организации быстро и легко сохранять, использовать и анализировать разнообразные данные в одном месте. При использовании озера данных вам не нужно выполнять согласование данных в соответствии с существующей структурой. Вместо этого можно хранить данные в необработанном или собственном формате, обычно в виде файлов или больших двоичных объектов (BLOB-объектов).
Data Lake Storage 2-го поколения обеспечивает семантику файловой системы, безопасность на уровне файлов и масштабирование. Так как эти возможности основаны на хранилище BLOB-объектов, вы также получаете низкое затратное, многоуровневые хранилища с высоким уровнем доступности и аварийного восстановления.
Data Lake Storage 2-го поколения использует службу хранилища Azure в качестве основы для создания корпоративных хранилищ данных в Azure. Разработанное с целью обработки нескольких петабайт информации и с поддержкой сотен гигабит пропускной способности хранилище Data Lake Storage 2-го поколения позволяет с легкостью управлять огромным количеством данных.
- Общие сведения о хранилище Azure Data Lake Storage Gen2 (предварительная версия)
- Руководство по Azure Data Lake Storage, Azure Databricks и Spark
Обработка данных для искусственного интеллекта
Фабрика данных Microsoft Fabric
С помощью фабрики данных можно получать, подготавливать и преобразовывать данные из нескольких источников данных (например, базы данных, хранилище данных, Lakehouse, данные в режиме реального времени и многое другое). При разработке рабочих нагрузок это средство, которое может быть важно для удовлетворения требований DataOps.
Фабрика данных поддерживает как код, так и решения для кода без/низкого уровня:
Конвейеры данных позволяют создавать возможности рабочего процесса в масштабе облака. С помощью конвейеров данных можно использовать интерфейс перетаскивания для создания рабочих процессов, которые могут обновлять поток данных, перемещать данные по размеру петабайтов и определять конвейеры потока управления.
Потоки данных предоставляют интерфейс с низким кодом для приема данных из сотен источников данных, преобразуя данные с помощью преобразования данных 300+ .
См. также:
Azure Databricks
С помощью Databricks Data Intelligence Platform можно написать код для создания рабочего процесса машинного обучения с помощью проектирования функций:
- Конвейеры данных прием необработанных данных, создание таблиц компонентов, обучение моделей и выполнение пакетного вывода. При обучении и регистрации модели с помощью проектирования компонентов в каталоге Unity модель упаковается с метаданными компонентов. При использовании модели для пакетной оценки или вывода через Интернет он автоматически получает значения признаков. Вызывающий объект не должен знать о них или включать логику для поиска или присоединения функций для оценки новых данных.
- Конечные точки обслуживания моделей и компонентов доступны с одним щелчком мыши и предоставляют миллисекунд задержки.
- Мониторинг данных и моделей.
Вы также можете использовать векторный поиск вектора Мозаики, оптимизированный для хранения и извлечения внедренных операций. Внедрение имеет решающее значение для приложений, требующих поиска сходства, таких как RAG (получение дополненного поколения), систем рекомендаций и распознавания изображений.
- Azure Databricks — обслуживание данных для машинного обучения и искусственного интеллекта
- Поиск вектора вектора мозаики
Соединители данных для искусственного интеллекта
конвейеры Фабрика данных Azure и Azure Synapse Analytics поддерживают множество хранилищ данных и форматов с помощью копирования, Поток данных, поиска, получения метаданных и удаления. Сведения о доступных соединителях хранилища данных, поддерживаемых возможностях и соответствующих конфигурациях и универсальных параметрах подключения ODBC см. в разделе Фабрика данных Azure и соединителя Azure Synapse Analytics.
Настраиваемый ИИ
Машинное обучение Azure
Машинное обучение Azure — это облачная служба для ускорения жизненного цикла проекта машинного обучения и управления ими. Специалисты по машинному обучению, специалисты по обработке и анализу данных и инженеры могут использовать его в своих повседневных рабочих процессах для обучения и развертывания моделей и управления операциями машинного обучения (MLOps).
Машинное обучение Azure предлагают следующие возможности:
Выбор алгоритма Некоторые алгоритмы делают определенные предположения о структуре данных или требуемых результатах. Если вы сможете найти тот алгоритм, который соответствует вашим потребностям, с ним вы сможете получить более точные результаты, более точные прогнозы и сократить время обучения.
Настройка или оптимизация гиперпараметров — это процесс поиска конфигурации гиперпараметров, которые приводят к оптимальной производительности. Процесс вычисляется очень дорого и вручную. Гиперпараметры — это настраиваемые параметры, позволяющие управлять процессом обучения модели. Например, в нейронных сетях вы определяете количество скрытых слоев и количество узлов в каждом слое. Производительность модели в значительной степени зависит от гиперпараметров.
Машинное обучение Azure позволяет автоматизировать настройку гиперпараметров и запускать эксперименты в параллельном режиме для эффективной оптимизации гиперпараметров.
Обучение модели. С помощью Машинное обучение Azure можно итеративно использовать алгоритм для создания или обучения моделей. После обучения эти модели можно использовать для анализа данных, из которых можно сделать прогнозы. На этапе обучения качественный набор известных данных помечается так, чтобы можно было идентифицировать отдельные поля. Помеченные данные подаются на вход алгоритма, настроенного для создания определенного прогноза. По завершении алгоритм выдает модель, которая описывает найденные закономерности в виде набора параметров. Во время проверки новые данные помечаются и используются для тестирования модели. Алгоритм корректируется требуемым образом и может быть дополнительно обучен. Наконец, на этапе тестирования используются реальные данные без меток или предварительно выбранных мишеней. Предполагая, что результаты модели точны, она считается готовой для использования и может быть развернута.
Автоматизированное машинное обучение (AutoML) — это процесс автоматизации трудоемких итеративных задач разработки модели машинного обучения. Оно может значительно сократить время, затрачиваемое на получение готовых к работе моделей машинного обучения. Автоматизированное машинное обучение может помочь в выборе модели, настройке гиперпараметров, обучении моделей и выполнении других задач, не требуя глубоких познаний в программировании или предметной области.
Вы можете использовать автоматизированное машинное обучение, если требуется Машинное обучение Azure для обучения и настройки модели с помощью указанной целевой метрики. Автоматизированное машинное обучение можно использовать независимо от опыта обработки и анализа данных для определения сквозного конвейера машинного обучения для любой проблемы.
Специалисты по машинному обучению и разработчики в разных отраслях могут использовать автоматизированное ML для следующего:
Реализация решений машинного обучения без обширных знаний по программированию или машинному обучению
Экономии времени и ресурсов.
Применение рекомендаций по обработке и анализу данных
Обеспечения гибкого подхода к решению проблем.
What is automated machine learning? (Что такое автоматическое машинное обучение?)
Оценка также называется прогнозированием и представляет собой процесс создания значений на основе обученной модели машинного обучения с учетом новых входных данных. Создаваемые значения или показатели могут представлять прогнозы будущих значений, но они также могут представлять вероятную категорию или результат.
Проектирование признаков и признаки. Данные для обучения состоят из строк и столбцов. Каждая строка представляет собой наблюдение или запись, а столбцы каждой строки — это признаки, описывающие каждую запись. Как правило, для создания прогнозных моделей выбираются признаки, которые лучше всего характеризуют закономерности в данных.
Хотя многие необработанные поля данных можно использовать непосредственно для обучения модели, часто необходимо создавать другие (инженерные) функции, предоставляющие информацию, которая лучше отличает шаблоны в данных. Этот процесс называется проектированием признаков, где использование знаний о домене данных используется для создания функций, которые, в свою очередь, помогают алгоритмам машинного обучения лучше учиться.
В машинном обучении Azure методики масштабирования и нормализации данных применяются для упрощения проектирования признаков. В совокупности эти методы и эта инженерия функций называются признаками в экспериментах автоматизированного машинного обучения (ML).
Azure OpenAI
Служба Azure OpenAI позволяет адаптировать модели OpenAI к личным наборам данных с помощью процесса, известного как тонкой настройки. Этот шаг настройки позволяет эффективнее использовать службе и предоставляет следующие возможности:
- Более качественные результаты, чем то, что вы можете получить только из запроса инженерии
- Возможность обучать больше примеров, чем может соответствовать максимальному ограничению контекста запроса модели.
- Экономия маркеров из-за более коротких запросов
- Запросы с низкой задержкой, особенно при использовании небольших моделей.
Дополнительные сведения см. в разделе:
- Настройка модели с помощью тонкой настройки
- Руководство по настройке Azure OpenAI GPT-4o-mini
- Базовая эталонная архитектура чата OpenAI
Службы ИИ Azure для пользовательского ИИ
Службы ИИ Azure предлагают функции, позволяющие создавать пользовательские модели и приложения ИИ. В этом разделе представлен обзор некоторых из этих ключевых функций.
Пользовательское распознавание речи
Настраиваемая речь — это функция службы "Речь ИИ Azure". С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.
Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.
Пользовательскую модель можно использовать для расширения базовой модели, чтобы улучшить распознавание предметно-ориентированной лексики, характерной для приложения, путем предоставления текстовых данных для обучения модели. Ее также можно использовать для улучшения распознавания на основе определенных условий звука приложения, предоставляя звуковые данные с референтными транскрибированиями.
Модель также можно обучить структурированным текстом, если данные соответствуют шаблону, чтобы указать пользовательские произношения, а также настроить форматирование текста с помощью настраиваемой нормализации текста, настраиваемой перезаписи и настраиваемой фильтрации ненормативной лексики.
Пользовательский переводчик
Custom Translator — это функция службы Azure AI Translator . С помощью Пользовательского переводчика, предприятий, разработчиков приложений и поставщиков языковых служб можно создавать настраиваемые системы нейронного машинного перевода (NMT). Настраиваемые системы перевода легко интегрируются с существующими приложениями, рабочими процессами и веб-сайтами.
Платформа позволяет пользователям создавать и публиковать пользовательские системы перевода на английском языке. Пользовательский переводчик поддерживает более трех десятков языков и напрямую сопоставляется с языками, доступными для NMT. Полный список см. в разделе "Поддержка языка переводчика".
Пользовательский переводчик предлагает следующие функции:
Возможность | Description |
---|---|
Применение технологии нейронного машинного перевода | Оптимизируйте перевод путем применения нейронного машинного перевода (NMT), предоставляемого Пользовательским переводчиком. |
Создание систем, которые знают терминологию вашей бизнес-отрасли | Настройте и создайте системы перевода с помощью параллельных документов, которые понимают терминологию, используемую в собственном бизнесе и отрасли. |
Использование словаря для создания моделей | Если у вас нет набора данных для обучения, вы можете обучить модель только с использованием данных из словаря. |
Совместная работа с другими пользователями | Взаимодействие с другими участниками команды путем совместного использования результатов работы. |
Доступ к вашей пользовательской модели перевода | Вы можете получить доступ к пользовательской модели перевода в любое время с помощью существующих приложений и программ с помощью ПЕРЕВОДЧИК МАЙКРОСОФТ API текста версии 3. |
Пользовательские модели аналитики документов
Azure AI Document Intelligence использует расширенную технологию машинного обучения для идентификации документов, обнаружения и извлечения информации из форм и документов и возврата извлеченных данных в структурированных выходных данных JSON. С помощью аналитики документов можно использовать модели анализа документов, предварительно созданные или предварительно обученные или обученные автономные пользовательские модели.
Пользовательские модели аналитики документов теперь включают пользовательские модели классификации для сценариев, где необходимо определить тип документа перед вызовом модели извлечения. Модель классификации может быть связана с пользовательской моделью извлечения для анализа и извлечения полей из форм и документов, относящихся к вашему бизнесу. Автономные пользовательские модели извлечения можно объединить для создания составных моделей.
Пользовательские средства искусственного интеллекта
Хотя предварительно созданные модели искусственного интеллекта полезны и все более гибки, лучший способ получить необходимые возможности от ИИ заключается в создании модели, адаптированной для ваших конкретных потребностей. Существует два основных средства для создания пользовательских моделей искусственного интеллекта: Создание искусственного интеллекта и традиционное машинное обучение:
Студия машинного обучения Azure
Студия машинного обучения Azure — это облачная служба для ускорения жизненного цикла проекта машинного обучения (ML). Специалисты по машинному обучению, специалисты по обработке и анализу данных и инженеры могут использовать его в своих повседневных рабочих процессах для обучения и развертывания моделей и управления операциями машинного обучения (MLOps).:
- Создание и обучение модели Машинное обучение Azure с любым типом вычислений, включая Spark и GPU для крупномасштабных рабочих нагрузок искусственного интеллекта в облаке.
- Запустите автоматизированную Машинное обучение Azure (AutoML) и пользовательский интерфейс перетаскивания для Машинное обучение Azure с низким кодом.
- Реализуйте сквозные Машинное обучение Azure Ops и повторяемые конвейеры Машинное обучение Azure.
- Использование ответственной панели мониторинга ИИ для обнаружения предвзятости и анализа ошибок.
- Оркестрация и управление потоками запросов и LLM.
- Развертывание моделей с помощью конечных точек REST API, реального времени и пакетного вывода.
- Используйте Центры (предварительная версия) для совместного использования вычислительных ресурсов, квоты, безопасности и подключения к ресурсам организации с группой рабочих областей, а также централизованного управления ит-отделами. Настройте концентратор один раз, а затем создайте безопасные рабочие области непосредственно из Студии для каждого проекта. Используйте центры для управления работой вашей команды как в Студии машинного обучения, так и в Студии ИИ.
Azure AI Studio
Azure AI Studio предназначена для эффективного создания и развертывания пользовательских приложений сгенерированных ИИ с помощью широких предложений ИИ Azure:
- Создайте вместе как одну команду. Центр AI Studio обеспечивает безопасность корпоративного уровня и совместную среду с общими ресурсами и подключениями к предварительно обученным моделям, данным и вычислениям.
- Упорядочение работы. Проект AI Studio помогает сохранить состояние, позволяя выполнять итерацию от первой идеи до первого прототипа, а затем первого рабочего развертывания. Кроме того, легко пригласить других, чтобы сотрудничать вместе с этим путешествием.
- Используйте предпочитаемую платформу разработки и платформы, включая GitHub, Visual Studio Code, LangChain, семантический ядро, AutoGen и многое другое.
- Обнаружение и тестирование из более чем 1600 моделей.
- Подготовка моделей как услуга (MaaS) с помощью бессерверных API и размещения точной настройки.
- Включение нескольких моделей, источников данных и модальности.
- Сборка получения дополненного поколения (RAG) с помощью защищенных корпоративных данных без необходимости точной настройки.
- Оркестрация и управление потоками разработки и крупной языковой модели (LLM).
- Разработка и защита приложений и API с помощью настраиваемых фильтров и элементов управления.
- Оцените ответы модели со встроенными и пользовательскими потоками оценки.
- Развертывание инноваций ИИ в управляемой инфраструктуре Azure с непрерывным мониторингом и управлением в разных средах.
- Непрерывно отслеживайте развернутые приложения для обеспечения безопасности, качества и потребления маркеров в рабочей среде.|
Подробное сравнение между Машинное обучение Azure и Azure AI Studio см. в статье Машинное обучение Azure и Azure AI Studio.
Поток запросов в Azure AI Studio
Поток запросов в Azure AI Studio — это средство разработки, предназначенное для оптимизации всего цикла разработки приложений ИИ на основе крупных языковых моделей (LLM). Поток запросов предоставляет комплексное решение, которое упрощает процесс создания прототипов, экспериментов, итераций и развертывания приложений ИИ.
- Поток запросов — это функция, которую можно использовать для создания, настройки или запуска потока.
- Поток — это исполняемый набор инструкций, который может реализовать логику ИИ. Потоки можно создавать или запускать с помощью нескольких инструментов, таких как предварительно созданная холст, LangChain, etcetera. Итерации потока можно сохранить в виде ресурсов; После развертывания потока становится API. Не все потоки являются потоками запросов; Скорее, поток запроса — один из способов создания потока.
- Запрос — это пакет входных данных, отправляемый в модель, состоящий из входных данных пользователя, системного сообщения и любых примеров. Входные данные пользователя — это текст, отправленный в окне чата. Системное сообщение — это набор инструкций для модели, который определяет его поведение и функциональные возможности.
- Пример потока — это простой предварительно созданный поток оркестрации, который показывает, как работают потоки и можно настроить.
- Пример запроса — это определенный запрос для определенного сценария, который можно скопировать из библиотеки и использовать как есть или изменить в конструкторе запросов.
Пользовательские языки кода ИИ
В основе ИИ лежит использование алгоритмов для анализа данных и создания моделей для соответствующего их описания (или оценки). Алгоритмы пишутся разработчиками и специалистами по обработке и анализу данных (а иногда другими алгоритмами) с использованием программного кода. В настоящее время два самых популярных языка программирования для разработки ИИ — это Python и R.
Python — это высокоуровневый язык программирования общего назначения. Он имеет простой, удобочитаемый синтаксис и прост в изучении. Этап компиляции отсутствует. Python имеет обширную стандартную библиотеку, но также поддерживает добавление модулей и пакетов. Это способствует модульности и позволяет при необходимости расширять возможности. Экосистема библиотек ИИ и машинного обучения для Python постоянно растет и включает в себя множество библиотек, доступных в Azure.
Azure for Python developers (Azure для разработчиков Python).
Общие сведения об машинном обучении с помощью Python и записных книжек Azure
scikit-learn
. Библиотека машинного обучения с открытым кодом для Python.PyTorch. Библиотека Python с открытым кодом, которая имеет обширную экосистему. Может использоваться для глубокого обучения, компьютерного зрения, обработки естественного языка и т. д.
TensorFlow. Символьная математическая библиотека с открытым кодом, также используемая для приложений машинного обучения и нейронных сетей.
Руководство. Применение моделей машинного обучения в Функции Azure с помощью Python и TensorFlow
R — это язык и среда для статистических вычислений и графики. Ее можно использовать в самых разных целях: от отслеживания широкого круга социальных и рыночных тенденций в Интернете до разработки финансовых и метеорологических моделей.
Корпорация Майкрософт полностью поддерживает язык программирования R и предоставляет разработчикам на нем различные средства для выполнения кода в Azure.
Используйте R в интерактивном режиме Машинное обучение Azure.
Учебник. Создание модели логистической регрессии в R с помощью службы "Машинное обучение Azure"
Общие сведения о пользовательском ИИ в Azure
Решения ИИ корпорации Майкрософт на GitHub: примеры, эталонные архитектуры и рекомендации
Машинное обучение Azure записные книжки пакета SDK для Python. Репозиторий GitHub примеров записных книжек, демонстрирующих пакет SDK для Python Машинное обучение Azure.
Обучение моделей R с помощью интерфейса командной строки Машинное обучение Azure (версия 2)
Истории клиентов
Искусственный интеллект находит все новые способы применения в различных отраслях. Ниже приведены некоторые примеры использования клиентов и истории успеха.
- Volkswagen: машинный перевод на 40 языков
- Здравоохранение для всех с помощью Azure Open AI
- PIMCO повышает клиентская служба с помощью платформы поиска с поддержкой искусственного интеллекта, созданной на основе ИИ Azure.
- Legrand и Azure OpenAI Service: управление интеллектуальными решениями с помощью средств на основе искусственного интеллекта
- C.H. Робинсон преодолевает десятилетиями старых барьеров для автоматизации логистической отрасли с помощью ИИ Azure
Дополнительные истории успешного использования ИИ клиентами
Общие сведения о решениях ИИ корпорации Майкрософт
Узнайте больше о решениях ИИ корпорации Майкрософт и следите за новостями:
Центр обучения ИИ.
Решения ИИ корпорации Майкрософт на GitHub: примеры, эталонные архитектуры и рекомендации
Следующие шаги
Чтобы узнать о продуктах разработки искусственного интеллекта, доступных от Корпорации Майкрософт, перейдите в Microsoft AI.
Для обучения по разработке решений ИИ перейдите в центр обучения ИИ.
Решения ИИ корпорации Майкрософт на GitHub: примеры, эталонные архитектуры и рекомендации. Это упорядоченный каталог репозиториев решений Майкрософт на основе ИИ с открытым кодом, включая учебники и учебные материалы.
Найдите схемы архитектуры и описания технологий для эталонных архитектур решений ИИ.