Tavakoli
Quiero crear un lago de datos para mí mismo sin usar ningún servicio en la nube. Ahora tengo un servidor Debian y quiero crear este lago de datos con la solución Databricks, Delta Lake.
Mientras busco todas las muestras para establecer Delta Lake en el servicio podría.
¿Cómo puedo hacer esto en mi propio servidor?
Tal vez quiera crear un clúster para almacenar datos y hacer aprendizaje automático. Y quiero usar solo python para crear Delta Lake.
Es una pregunta amplia. El Delta Lake en sí mismo es solo una biblioteca que le permite trabajar con datos en un formato específico. Para usarlo necesitas algunas cosas:
-
Capa de cálculo que leerá y guardará los datos de Delta Lake. Puede ejecutar Apache Spark en la máquina local o en la
Hadoop or Kubernetes cluster
o trabaje con archivos Delta utilizando las bibliotecas Python o Rust (aunque es posible que no obtenga todas las funciones disponibles). La lista completa de integraciones está disponible aquí. -
Capa de almacenamiento para mantener sus tablas de Delta Lake: si usa un servidor, entonces puede usar el sistema de archivos local, pero a medida que crece el tamaño de los datos, debe pensar en el sistema de archivos distribuido, como HDFS, E/S mínimaetc.
-
Capa de acceso a datos: cómo accederá a esos datos. Podría ser código Spark, o algo así, pero es posible que también deba exponer datos a través de JDBC/ODBC; en este caso, es posible que deba configurar Servidor de ahorro de Spark o algo así.
-
Tanques. Quiero leer un archivo que está en otro servidor. cada día nuevo archivo guardado en ese servidor. ¿Puedo hacer esto solo con chispa o necesito algo como flujo de aire?
– Tavakoli
3 de febrero a las 7:34
-
depende de cómo se exponga ese archivo en ese servidor: samba/nfs, etc. el flujo de aire podría ser excesivo para tal tarea si es suficiente usar scp o algo así
– Alex Ott
3 de febrero a las 8:20
-
es solo un archivo csv. ¿Qué quieres decir con scp? )
– Tavakoli
3 de febrero a las 8:40
-
scp – herramienta de copia segura, parte del paquete ssh
– Alex Ott
3 de febrero a las 8:42