Hemos estado escuchando de fuentes oficiales de Microsoft la inminente expiración de las versiones HDInsight 3.2 y 3.3 en favor de la versión de HDInsight 3.4
https://azure.microsoft.com/en-us/documentation/articles/hdinsight-component-versioning/
Sin embargo, existe un pequeño detalle, la versión de HDInsight 3.4 únicamente está disponible sobre ambiente Linux
En ese sentido, decidimos realizar una pequeña prueba de concepto para observar cómo crear nuestro primer HDInsight sobre Linux.
Ingresamos al Portal de Azure
Vamos a la sección «Clústeres de HDInsight»
Pulsamos el botón [ + Agregar ]
Definimos el «Nombre del Clúster» y pulsamos en «Select Cluster Tpe» para configurar los valores obligatorios
Seleccionamos el «Tipo de clúster», por ejemplo «Hadoop», el Sistema operativo «Linux» y la versión a utilizar «Hadoop 2.7.1 (HDI 3.4)
NOTA: En Linux únicamente disponemos de las versiones HDI 3.2, 3.3 y 3.4
Pulsamos el botón [Seleccionar]
Luego definimos las «Credenciales» tanto para acceso al clúster como para el acceso SSH
Pulsamos el botón [Seleccionar]
El siguiente paso sería configurar el «Origen de Datos»
Podemos hacer uso de alguna ya existente
o crear uno nuevo
Podemos definir el nombre del contenedor predeterminado, la ubicación e incluso la identidad del Azure Active Directory del clúster
En nuestro caso dejaremos los valores predeterminados y pulsamos el botón [Seleccionar]
Definimos un grupo de recursos
y establecemos la configuración de precios para definir el tamaño del clúster
NOTA: El valor predeterminado de las VM es D3 v2 tanto para los «head node» como los «worker nodes»
Elegimos cambiar el tamaño de los nodos trabajadores
Pulsamos «Ver todo», seleccionamos el tamaño que requiramos (en nuestro caso A3) y pulsamos el botón [Seleccionar]
Y repetimos el procedimiento para los nodos encabezados
NOTA: Los clústeres con más de 32 nodos Trabajador necesitan un tamaño de nodo de Encabezado con un mínimo de 8 núcleos y 14 GB de RAM.
Elegimos el número de nodos trabajador y pulsamos el botón [Seleccionar]
Si pulsamos el link «Opciones de automatización» podemos descargar el template ARM (Azure Resource Manager)
o guardarlo
pulsamos el botón [Crear] y esperamos a que se realice la creación
Si pulsamos en la URL del Clúster podemos ingresar al Panel (de Ambari) con las credenciales previamente definidas.
Si pulsamos en [Admin] podemos visualizar el Stack de servicios que están incluidos en el HDInsight y los servicios que pudiéramos estar agregando, p.Ej: «Credential Service» o «Kerberos»
Una nota interesante es que el clúster es creado con la Metastore administrada con Oozie haciendo uso de una base de datos SQL Azure embebida. Sin embargo, podemos elegir utilizar alguna otra nueva o existente.
Por otra parte, a pesar de ser una base de datos SQL Azure la misma no es listada en nuestros recursos.
Espero te haya sido útil este post.
………….
Quiero man.tener.me informado: Seguir en Twitter @eldavid_oficial https://twitter.com/eldavid_oficial
Regálame un ME GUSTA. Y si eres solidario, COMPARTE para que otros puedan aprovecharlo.