Analytic powerhouse parallel data warehouse und r

40 %
60 %
Information about Analytic powerhouse parallel data warehouse und r

Published on March 11, 2014

Author: marcelfranke

Source: slideshare.net

Analytic Powerhouse: Parallel Data Warehouse und R Marcel Franke

Über mich – Marcel Franke Practice Lead Advanced Analytics & Data Science pmOne AG – Deutschland, Österreich, Schweiz P-TSP für Microsoft, Schwerpunkt PDW & Big Data >10 Jahre Erfahrung mit großen Data Warehouse- und BI-Lösungen Blog: dwjunkie.wordpress.com E-Mail: marcel.franke@pmOne.com

Agenda Data Analytics bei einem Energieversorger Einsatzmöglichkeiten von PDW Umgang mit R und großen Datenmengen Projektergebnisse

Data Analytics bei einem Energieversorger

Projektschwerpunkte Modellierung wettbewerbsfähiger Tarifmodelle Navigationsanalysen der Webportale Netz- und Last-Prognosen Andere Prognosen und Simulationsverfahren Skalierbare, massive parallele Big Data Infrastruktur

Dateien Data Analytics Architektur Quellsysteme WebServer-Logs Sensordaten Datenbanken Massive Parallel Processing Integration Services R in der Datenbank Analysis Services Reporting Services Excel Power BI Verarbeitung & Datenhaltung Frontends

Ein paar Worte zu R R ist eine Sprache und Umgebung für statistische Analysen http://www.R-project.org/ Gestartet 1994 als Alternative zu SAS, SPSS & und anderen statistischen Umgebungen R ist Open Source unter der GNU general public license Am meisten verbreitete Statistiksoftware, vor allem im universitärem Bereich & Forschung

Die Gladiatoren

Der Herausforderer…

Präsentiert die Waffen SQL Server 2012 Parallel Data Warehouse Half Rack HP DL 385 40 Cores 2 TB RAM Fusion-IO Card Infiniband Analytische ModelleRelationale Daten Daten Ergebnisse

Wer ist Revolution Analytics? Gegründet 2007, Hautsitz Seattle Ziel: Evolution von R für High- Performance Bieten R pakete für schnellere Performance Enterprise & Community Produkte Stand-alone, Scale-out (HPC), Hadoop, In-Database

Vorteile einer PDW Appliance

Eine Typische Data Warehouse Lösung DB Datenmodell CPU Hauptspeicher Cache Festplatte

SQL Server PDW Appliance PlugandPlay Eingebaute BestPractices Zeitsparen Vorgefertigte Hardware + Software Appliance • Zusammen mit HP und Dell entwickelt • Vorgefertigte Hardware • Vorinstallierte Software

Ultra Shared Nothing Architektur Große Fakten- oder Dimensionstabellen werden über alle Knoten verteilt TD SD PD MD SF 01-08 Time Dim Date Dim ID Calendar Year Calendar Qtr Calendar Mo Calendar Day Store Dim Store Dim ID Store Name Store Mgr Store Size Product Dim Prod Dim ID Prod Category Prod Sub Cat Prod Desc Sales Facts Date Dim ID Store Dim ID Prod Dim ID Mktg Camp ID Qty Sold Dollars Sold Mktg Campaign Dim Mktg Camp ID Camp Name Camp Mgr Camp Start Camp End TD SD PD MD SF 09-16 TD SD PD MD SF 17-24 TD SD PD MD SF 25-32 TD SD PD MD SF 33-n

Kann nach Bedarf einfach erweitert werden 0TB 7 PB Add Capacity Add Capacity Largest Warehouse PB StartSmall AndGrow NoDowntime

Projektergebnisse

And the winner is… Schnellste Ladeperformance Schnellste Query Performance Beste Frontend Integration Realtime Olap im Sekundenbereich Preissimulationsverfahren Web Analytics DataWarehouse-SzenarienAnalytics

Wie erfolgt die Datenanalyse? • Ergebnis: 7.500 Kunden in 5 Minuten (ohne Datenvorbereitung) • Benchmark: 1 Minute • Revolution Analytics ODBC Treiber funktionieren nicht mit PDW • Lösung wurde als sehr aufwändig erachtet Datenvorbereitung Analytische Modelle R-ODBC: 10 MB/s Datentransfer Flat file export: 80 MB/s

Zusammenspiel von R und SQL Server

Testlabor Laptop • 4 Cores, 2,9 GHz • 16 GB RAM • SSD Karte SQL Server 2014, CTP2 • TPCH • 1 Mio. Zeilen, ~150 MB R (64 Bit), RStudio

Was schauen wir uns an? • Baseline Tests • Parallele Scans • Data Frame vs. List vs. Data Table

Vergleichswerte 400 MB/s 45 MB/s 19 MB/s

Demo

Lesen von Daten mit sqlQuery 1,7 MB/s

Paralleles Lesen der Daten mit sqlQuery

Lesen von Daten mit odbcQuery 1,9* MB/s • *Reines Lesen der Daten: 19 MB/s • *90% der Zeit wird benötigt für die Konvertierung in einen DataFrame

DataFrame vs. DataTable

Zusammenfassung • Datenaustausch zwischen R und SQL Server nicht sonderlich schnell ~20 MB/s • odbcQuery ist schneller als sqlQuery • Aufbauen des DataFrame bei großen Datenmengen dauert sehr lange • Parallelisierungsstrategien beim Lesen steigern die Performance • DataTable als Alternative zum DataFrame nutzen

Welche Trends sehen wir Markt?

Move data to compute or compute to data? move data to compute Datenbanken OLAP compute to data Daten

• R in der Datenbank • R auf Hadoop • RHadoop • Revolution Analytics RHadoop Lösungen am Markt

Lösungen am Markt • Services & Cloud

Vielen Dank! Marcel Franke

Add a comment

Related presentations

Related pages

Analytic Powerhouse–Parallel Data Warehouse and R | Data ...

It’s already some weeks ago since I presented this session about PDW and R at the SQL Server Conference in Darmstadt. The conference itself was very nice ...
Read more

Marcel Franke | LinkedIn

Analytic Powerhouse Parallel Data Warehouse und R ... R; Azure ML; Hadoop; ... Parallel Data Warehouse; NewSkies;
Read more

Parallel Data Warehouse | Data Analytics Junkie

... analytic-powerhouse-parallel-data-warehouse-und-r. ... Analytic Powerhouse: Parallel Data Warehouse ... parallel architecture for ...
Read more

SQL Server Konferenz 2016

Analytic Powerhouse: Parallel Datawarehouse und R Marcel ... Analytic Powerhouse: Parallel Datawarehouse ... Wie lassen sich Parallel Data Warehouse, ...
Read more

Oracle Business Analytics und Data Warehouse Konferenz ...

Oracle Business Analytics und Data Warehouse ... Praxiseinsatz von R und ganzheitliche Gestaltung von Analyseumgebungen. Parallel dazu gibt es ...
Read more

Microsoft Analytics Platform System-Übersicht | Microsoft

Das Microsoft Analytics Platform System ist eine sofort einsatzfähige Analyseanwendung für hohe Leistung und nahtlose Integration für all Ihre Daten.
Read more

Microsoft Analytics Platform System overview | Microsoft

The Microsoft Analytics Platform System is your turnkey big data analytics appliance for high performance and seamless integration of all your data.
Read more

Parallel R: Quick Ways Model More (The Data Warehouse Insider)

... The Data Warehouse Insider ... Parallel R: Quick Ways Model More ... Regardless of the method you choose to send HDFS data to an R process, ...
Read more

IBM dashDB

... in-database analytics, massively parallel ... open source R. By running the analytics natively ... data warehouse service ideal for analytics, ...
Read more