Monitoring Apache Spark oraz Hadoop
Technologie Apache Spark wraz z Apache Hadoop wykorzystywane są powszechnie to przetwarzań na poziomie Big Data. Jednocześnie, trudno jest właściwie monitorować przetwarzanie, zwłaszcza na środowiskach rozproszonych, gdy pojedyncza aplikacja wykonuje się na wielu worker node’ach.
Jesteśmy autorami rozszerzania, które kolekcjonuje najważniejsze metryki udostępniane przez API Apache Spark, pozwalając na należytą ich korelację z pomiarami wykonanymi przez narzędzia APM pracujące na hoste’ach. Pozwala nam to mieć podgląd na żywo, która aplikacja oraz executor pracowały na danym workerze. Wiemy, ile zasobów zaalokowało, czy stage lub job zakończył się błędem. Mając komplet informacji możemy łatwo stwierdzić, z którymi przetwarzaniami nasze środowisko nie radzi sobie dobrze, a co za tym idzie, gdzie powinniśmy rozpocząć optymalizację.