Condividi tramite


Creare cluster HDInsight con Azure Data Lake Storage Gen1 tramite il portale di Azure

Informazioni su come usare il portale di Azure per creare un cluster HDInsight con Azure Data Lake Storage Gen1 come risorsa di archiviazione predefinita o come risorsa di archiviazione aggiuntiva. Anche se l'archiviazione aggiuntiva è facoltativa per un cluster HDInsight, è consigliabile archiviare i dati aziendali negli account di archiviazione aggiuntivi.

Prerequisiti

Prima di iniziare, assicurarsi di aver soddisfatto i requisiti seguenti:

  • Un abbonamento di Azure. Vai a Prova gratuita di Azure.
  • Un account di Azure Data Lake Storage Gen1. Seguire le istruzioni fornite in Introduzione all'uso di Azure Data Lake Storage Gen1 tramite il portale di Azure. È anche necessario creare una cartella radice nell'account. In questo articolo viene usata una cartella radice denominata /clusters .
  • un'entità servizio principale di Microsoft Entra. Questa guida pratica fornisce istruzioni su come creare un'entità servizio in Microsoft Entra ID. Tuttavia, per creare un principale del servizio, è necessario essere un amministratore di Microsoft Entra. Gli amministratori possono ignorare questo prerequisito e continuare.

Annotazioni

È possibile creare il principale del servizio solo se si è un amministratore di Microsoft Entra. L'amministratore di Microsoft Entra deve creare un principale del servizio prima che si possa creare un cluster HDInsight con Data Lake Storage Gen1. Inoltre, l'entità servizio deve essere creata usando un certificato, come descritto in Creare un'entità servizio con certificato.

Creazione di un cluster HDInsight

In questa sezione viene creato un cluster HDInsight con Data Lake Storage Gen1 come risorsa di archiviazione predefinita o aggiuntiva. Questo articolo è incentrato solo sulla configurazione di Data Lake Storage Gen1. Per informazioni generali sulla creazione di cluster e le relative procedure, vedere Creare cluster Hadoop basati su Linux in HDInsight.

Creare un cluster con Data Lake Storage Gen1 come risorsa di archiviazione predefinita

Per creare un cluster HDInsight con Data Lake Storage Gen1 come account di archiviazione predefinito:

  1. Accedere al portale di Azure.

  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.

  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Azure Data Lake Storage Gen1 e quindi immettere le informazioni seguenti:

    Impostazioni dell'account di archiviazione HDInsight

    • Seleziona account Data Lake Store: seleziona un account esistente di Data Lake Storage Gen1. È necessario un account Azure Data Lake Storage Gen1 esistente. Vedere Prerequisiti.
    • Percorso radice: immettere un percorso in cui archiviare i file specifici del cluster. Nello screenshot è /clusters/myhdiadlcluster/, in cui la cartella /clusters deve esistere e il portale crea la cartella myhdicluster. myhdicluster è il nome del cluster.
    • Accesso a Data Lake Store: configurare l'accesso tra l'account Data Lake Storage Gen1 e il cluster HDInsight. Per istruzioni, vedere Configurare l'accesso a Data Lake Storage Gen1.
    • Account di archiviazione aggiuntivi: Aggiungi gli account di archiviazione di Azure come ulteriori account di archiviazione per il cluster. Per aggiungere altri account Data Lake Storage Gen1, assegnare al cluster le autorizzazioni per i dati in più account Data Lake Storage Gen1 durante la configurazione di un account Data Lake Storage Gen1 come tipo di archiviazione primario. Vedere Configurare l'accesso a Data Lake Storage Gen1.
  4. In Accesso a Data Lake Store fare clic su Seleziona e continuare con la creazione del cluster come descritto in Creare cluster Hadoop in HDInsight.

Creare un cluster con Data Lake Storage Gen1 come risorsa di archiviazione aggiuntiva

Le istruzioni seguenti creano un cluster HDInsight con un account di archiviazione BLOB di Azure come risorsa di archiviazione predefinita e un account di archiviazione con Data Lake Storage Gen1 come risorsa di archiviazione aggiuntiva.

Per creare un cluster HDInsight con Data Lake Storage Gen1 come account di archiviazione aggiuntivo:

  1. Accedere al portale di Azure.

  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.

  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Archiviazione di Azure e quindi immettere le informazioni seguenti:

    Impostazioni dell'account di archiviazione HDInsight - archiviazione aggiuntiva

    • Metodo di selezione: per specificare un account di archiviazione che fa parte della sottoscrizione di Azure, selezionare Sottoscrizioni personali e quindi selezionare l'account di archiviazione. Per specificare un account di archiviazione esterno alla sottoscrizione di Azure, selezionare Chiave di accesso, quindi immettere le informazioni per l'account di archiviazione esterno.

    • Contenitore predefinito: usare il valore predefinito o specificare il proprio nome.

    • Account di archiviazione aggiuntivi : aggiungere altri account di archiviazione di Azure come risorsa di archiviazione aggiuntiva.

    • Accesso a Data Lake Store - configurare l'accesso tra l'account Data Lake Storage Gen1 e il cluster HDInsight. Per istruzioni, vedere Configurare l'accesso a Data Lake Storage Gen1.

Configurare l'accesso a Data Lake Storage Gen1

In questa sezione, si configura l'accesso a Data Lake Storage Gen1 dai cluster HDInsight utilizzando un principale del servizio Microsoft Entra.

Specificare un principale servizio

Dal portale di Azure è possibile usare un'entità servizio esistente o crearne una nuova.

Per creare un service principal dal portale di Azure:

  1. Vedere Create Service Principal and Certificates using Microsoft Entra ID (Creare un'entità servizio e certificati con Microsoft Entra ID).

Per usare un'entità servizio esistente dal portale di Azure:

  1. Il principale del servizio deve disporre dei permessi da proprietario per l'account di archiviazione. Consulta Configura le autorizzazioni affinché l'entità servizio sia proprietaria dell'account di archiviazione.

  2. Selezionare l'accesso al Data Lake Store.

  3. Nel pannello Accesso a Data Lake Storage Gen1 selezionare Usa esistente.

  4. Selezionare principale del servizio e quindi selezionare un principale del servizio.

  5. Caricare il certificato (file PFX) associato all'entità servizio selezionata e quindi immettere la password del certificato.

    Aggiungere entità servizio a cluster HDInsight

  6. Selezionare Accesso per configurare l'accesso alla cartella. Vedere Configurare le autorizzazioni dei file.

Configurare le autorizzazioni per il principale del servizio per essere proprietario dell'account di archiviazione

  1. Nel pannello Controllo di accesso (IAM) dell'account di archiviazione cliccare su Aggiungi un'assegnazione di ruolo.
  2. Nel pannello Aggiungi un'assegnazione di ruolo, seleziona il ruolo come "proprietario", seleziona l'SPN e fai clic su salva.

Configurare i permessi dei file

La configurazione è diversa a seconda che l'account venga usato come risorsa di archiviazione predefinita o come account di archiviazione aggiuntivo:

  • Uso come risorsa di archiviazione predefinita

    • Autorizzazione a livello di radice dell'account Data Lake Storage Gen1
    • Autorizzazione a livello principale dell'archiviazione del cluster HDInsight. Ad esempio, la cartella /clusters usata prima nell'esercitazione.
  • Uso come risorsa di archiviazione aggiuntiva

    • Autorizzazione a livello delle cartelle in cui è necessario l'accesso ai file.

Per assegnare l'autorizzazione all'account di archiviazione con Data Lake Storage Gen1 a livello radice:

  1. Nel blocco Accesso a Data Lake Storage Gen1, selezionare Accesso. Si apre il pannello per la selezione delle autorizzazioni dei file. Elenca tutti gli account di archiviazione nella sottoscrizione.

  2. Passare il puntatore del mouse (non fare clic) sul nome dell'account con Data Lake Storage Gen1 per rendere visibile la casella di controllo, quindi selezionare la casella di controllo.

    Selezionare le autorizzazioni per i file

    Per impostazione predefinita, LETTURA, SCRITTURA ed ESECUZIONE sono selezionati.

  3. Fare clic su Seleziona nella parte inferiore della pagina.

  4. Selezionare Esegui per assegnare l'autorizzazione.

  5. Selezionare Fine.

Per assegnare l'autorizzazione a livello radice del cluster HDInsight:

  1. Nel blocco Accesso a Data Lake Storage Gen1, selezionare Accesso. Si apre il pannello per la selezione delle autorizzazioni dei file. Elenca tutti gli account di archiviazione con Data Lake Storage Gen1 nella sottoscrizione.
  2. Nel pannello Seleziona autorizzazioni file selezionare l'account di archiviazione con il nome Data Lake Storage Gen1 per visualizzarne il contenuto.
  3. Selezionare la radice di archiviazione cluster HDInsight selezionando la casella di controllo a sinistra della cartella. In base allo screenshot precedente, la radice di archiviazione del cluster è la cartella /clusters specificata durante la selezione di Data Lake Storage Gen1 come risorsa di archiviazione predefinita.
  4. Impostare le autorizzazioni per la cartella. Per impostazione predefinita, sono selezionate lettura, scrittura ed esecuzione.
  5. Fare clic su Seleziona nella parte inferiore della pagina.
  6. Selezionare Esegui.
  7. Selezionare Fine.

Se si usa Data Lake Storage Gen1 come risorsa di archiviazione aggiuntiva, è necessario assegnare autorizzazioni solo per le cartella a cui si vuole accedere dal cluster HDInsight. Ad esempio, nello screenshot seguente si fornisce l'accesso solo alla cartella mynewfolder in un account di archiviazione con Data Lake Storage Gen1.

Assegnare le autorizzazioni del principale del servizio al cluster HDInsight

Verificare la configurazione del cluster

Al termine della configurazione del cluster, nel pannello del cluster verificare i risultati eseguendo uno o entrambi i passaggi seguenti:

  • Per verificare che l'archiviazione associata per il cluster sia l'account con Data Lake Storage Gen1 specificato, selezionare Account di archiviazione nel riquadro sinistro.

    Verificare l'archiviazione associata

  • Per verificare che l'entità servizio sia associata correttamente al cluster HDInsight, selezionare Accesso a Data Lake Storage Gen1 nel riquadro sinistro.

    Verificare il principale del servizio

Esempi

Dopo aver configurato il cluster con Data Lake Storage Gen1 come risorsa di archiviazione, vedere questi esempi di come usare il cluster HDInsight per analizzare i dati archiviati in Data Lake Storage Gen1.

Eseguire una query Hive sui dati in data Lake Storage Gen1 (come risorsa di archiviazione primaria)

Per eseguire una query Hive, usare l'interfaccia delle visualizzazioni Hive disponibile nel portale di Ambari. Per istruzioni su come usare le visualizzazioni Hive di Ambari, vedere Usare la visualizzazione Hive con Hadoop in HDInsight.

Quando si lavora con i dati in Un Data Lake Storage Gen1, sono presenti alcune stringhe da modificare.

Se ad esempio si usa il cluster creato con Data Lake Storage Gen1 come risorsa di archiviazione primaria, il percorso dei dati è adl:// <data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Una query Hive per creare una tabella da dati di esempio archiviati in Data Lake Storage Gen1 è simile all'istruzione seguente:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Descrizioni:

  • adl://hdiadlsg1storage.azuredatalakestore.net/ è la radice dell'account con Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster è la radice dei dati del cluster specificata durante la creazione del cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ è il percorso del file di esempio usato nella query.

Eseguire una query Hive sui dati in data Lake Storage Gen1 (come risorsa di archiviazione aggiuntiva)

Se il cluster creato usa l'archiviazione BLOB come risorsa di archiviazione predefinita, i dati di esempio non sono contenuti nell'account di archiviazione con Data Lake Storage Gen1 usato come risorsa di archiviazione aggiuntiva. In questo caso, trasferire prima i dati dall'archivio BLOB all'account di archiviazione con Data Lake Storage Gen1 e quindi eseguire le query come illustrato nell'esempio precedente.

Per informazioni su come copiare dati dall'archiviazione BLOB a un account di archiviazione con Data Lake Storage Gen1, vedere gli articoli seguenti:

Usare Data Lake Storage Gen1 con un cluster Spark

È possibile usare un cluster Spark per eseguire processi Spark sui dati archiviati in Data Lake Storage Gen1. Per altre informazioni, vedere Usare il cluster Spark di HDInsight per analizzare i dati in Data Lake Storage Gen1.

Utilizzare Data Lake Storage Gen1 all'interno di una topologia Storm

Vedere anche