Loading AI tools
plataforma moderna de datos en la nube De Wikipedia, la enciclopedia libre
Databricks es una empresa estadounidense de software empresarial fundada por los creadores de Apache Spark.[1] Databricks desarrolla una plataforma basada en web para trabajar con Spark, que proporciona gestión automatizada de clústeres y cuadernos de estilo IPython. La empresa desarrolla Delta Lake, un proyecto de código abierto para aportar fiabilidad a los lagos de datos para el aprendizaje automático y otros casos de uso de la ciencia de datos.[2]
Databricks | ||
---|---|---|
Tipo | negocio | |
Industria | industria del software | |
Forma legal | empresa privada | |
Fundación | 2013 | |
Fundador |
Ali Ghodsi Ion Stoica Reynold Xin Matei Zaharia | |
Sede central | San Francisco (Estados Unidos) | |
Presidente | Ion Stoica | |
Director ejecutivo | Ali Ghodsi | |
Ingresos | 1 000 000 000 dólares estadounidenses | |
Empleados | 4000 | |
Miembro de | BSA | The Software Alliance, Inc. | |
Sitio web | databricks.com | |
Databricks surgió del proyecto AMPLab de la Universidad de California en Berkeley, que participó en la creación de Apache Spark, un marco de computación distribuida de código abierto construido sobre Scala. La empresa fue fundada por Ali Ghodsi, Andy Konwinski, Arsalan Tavakoli-Shiraji, Ion Stoica, Matei Zaharia,[3] Patrick Wendell y Reynold Xin.
En noviembre de 2017, la empresa fue anunciada como un servicio de primera parte en Microsoft Azure a través de la integración Azure Databricks.[4]
En junio de 2020, Databricks adquirió Redash, una herramienta de código abierto diseñada para ayudar a los científicos y analistas de datos a visualizar y construir cuadros de mando interactivos de sus datos.[5]
En febrero de 2021, junto con Google Cloud, Databricks proporcionó integración con el motor Kubernetes de Google y la plataforma BigQuery de Google.[6] Fortune clasificó a Databricks como uno de los mejores grandes "Lugares de trabajo para millennials" en 2021.[7] En ese momento, la compañía dijo que más de 5000 organizaciones utilizaban sus productos.[8]
En agosto de 2021, Databricks finalizó su octava ronda de financiación recaudando US$1 600 000 000 ($1 600 000 000 en 2024) y valorando la empresa en US$38 000 000 000 ($38 000 000 000 en 2024).[9]
En octubre de 2021, Databricks realizó su segunda adquisición de la empresa alemana no-code 8080 Labs, la cual fabrica bamboolib, una herramienta de exploración de datos que no requiere codificación para su uso.[10]
En respuesta a la popularidad de ChatGPT de OpenAI, en marzo de 2023, la empresa presentó un modelo de lenguaje de código abierto, llamado Dolly en honor a la oveja Dolly, que los desarrolladores podían utilizar para crear sus propios chatbots. Su modelo utiliza menos parámetros para producir resultados similares a los de ChatGPT, pero Databricks no había publicado pruebas comparativas formales para demostrar si su bot igualaba realmente el rendimiento de ChatGPT.[11][12][13]
Databricks adquirió la empresa emergente de seguridad de datos Okera en mayo de 2023 para ampliar sus capacidades de gobernanza de datos[14]. Al mes siguiente, adquirió la startup de inteligencia artificial generativa de código abierto MosaicML por US$1 400 000 000 ($1 400 000 000 en 2024).[15][16]
En septiembre de 2013, Databricks anunció que recaudó US$13 900 000 ($16 169 671 en 2024) de Andreessen Horowitz y dijo que su objetivo era ofrecer una alternativa al sistema MapReduce de Google.[17][18] Microsoft fue un inversor destacado de Databricks en 2019, participando en la Serie E de la empresa con una cantidad no especificada.[19][20] La empresa ha recaudado US$1 900 000 000 ($2 013 757 647 en 2024) en financiación, incluida una Serie G de US$1 000 000 000 ($1 059 872 446 en 2024) liderada por Franklin Templeton con una valoración posterior al dinero de US$28 000 000 000 ($28 000 000 000 en 2024) en febrero de 2021. Otros inversores son Amazon Web Services, CapitalG, una empresa de capital de crecimiento dependiente de Alphabet Inc. y Salesforce Ventures.[8]
Serie | Fecha | Importe (millones de $) | Inversores principales |
---|---|---|---|
A | 2013 | 13.9[17] | Andreessen Horowitz |
B | 2014 | 33[21] | New Enterprise Associates |
C | 2016 | 60[22] | |
D | 2017 | 140[23] | Andreessen Horowitz |
E | Feb. 2019 | 250[24] | |
F | Oct. 2019 | 400[25] | |
G | Ene. 2021 | 1,000[26] | Franklin Templeton Investments |
H | Ago. 2021 | 1,600[27] | Morgan Stanley |
Databricks desarrolla y vende una plataforma de datos en la nube utilizando el término de mercadotecnia "Lakehouse", un Portmanteau basado en los términos "data warehouse" y "data lake".[28] Lakehouse de Databricks se basa en el framework de código abierto Apache Spark, que permite realizar consultas analíticas contra datos semiestructurados sin un esquema de base de datos tradicional.[29] En octubre de 2022, Lakehouse recibió la autorización FedRAMP para su uso con el gobierno federal y los contratistas estadounidenses.[30]
Delta Engine de Databricks se lanzó en junio de 2020 como un nuevo motor de consulta que se superpone a Delta Lake para aumentar el rendimiento de las consultas.[31] Es compatible con Apache Spark y MLflow, que también son proyectos de código abierto de Databricks.[32]
En noviembre de 2020, se presentó Databricks SQL, antes conocido como SQL Analytics, para ejecutar informes de inteligencia empresarial y analítica sobre lagos de datos. Los analistas pueden consultar conjuntos de datos directamente con SQL estándar o utilizar conectores de productos para integrarlos directamente con herramientas de inteligencia empresarial como Tableau, Qlik, SigmaComputing, Looker y ThoughtSpot.[33]
Databricks ofrece una plataforma para otras cargas de trabajo, incluido el aprendizaje automático, el almacenamiento y procesamiento de datos, la analítica de streaming y la inteligencia empresarial.[34]
La empresa también ha creado Delta Lake, MLflow y Koalas, proyectos de código abierto que abarcan la ingeniería de datos, la ciencia de datos y el aprendizaje automático.[35] Además de construir la plataforma Databricks, la empresa ha coorganizado cursos online masivos y abiertos sobre Spark[36] y una conferencia para la comunidad Spark llamada Data + AI Summit,[37] antes conocida como Spark Summit.
Databricks tiene su sede en San Francisco (California),[38] estando presente en Canadá, Costa Rica, Brasil, Reino Unido, Países Bajos, Alemania, Francia, Israel, Suiza, Suecia, Serbia, Singapur, Japón, China, Australia, India y Corea del Sur.[39]
Se ha reportado un desempeño y rendimiento muy lento en general con el aplicativo, en comparación con otras plataformas como Oracle, ODBC o Impala, ya que, por ejemplo, un usuario cuestiona si no está pensado principalmente para importar tablas grandes, sino más bien para trabajar a través de Direct Query.[40]
Otro usuario ha reportado que estaba usando un pequeño y simple dataframe de Spark al definir una función, el cual ha tardado en ejecutarse 6 minutos, por lo que se cuestiona si necesita incrementar la memoria, o bien, los nodos con un clúster de mayor capacidad.[41]
En otro caso, un usuario ha reportado que para ejecutar una consulta con dataframe pandas en bases de datos de Azure SQL, ha tardado 30 minutos al arrojar un resultado de solamente 6000 filas.[42]
Para resolver la ralentización en los procesos del aplicativo, se han recomendado las posibles soluciones siguientes:
Previamente se requiere configurar el clúster para enviar telemetría a un área de trabajo de Log Analytics mediante la biblioteca de supervisión de Azure, así como implementar Grafana en una máquina virtual.
Las tareas rezagadas se ejecutan lentamente debido a la alta latencia de tareas, fases o trabajos y bajo rendimiento del clúster. La suma de latencias de las tareas por host no se distribuye de manera uniforme, tomando en cuenta que el consumo de recursos se distribuye de manera uniforme entre los ejecutores.
Si las particiones tienen un tamaño distinto, una partición más grande puede producir una ejecución de tarea desequilibrada, debido al consumo de recursos del ejecutor es alto en comparación con otros ejecutables que se ejecutan en el clúster, causando que todas las tareas que se ejecutan serán lentamente, así como la fase en la canalización. Estas son barreras de la fase.
Otra causa puede ser por el recuento de particiones aleatorias que no es el óptimo, debido a que la asignación de una tarea a un ejecutor es una operación que consume muchos recursos en el clúster.[43]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.