Willkommen in der Data University

Die Data University ist ein interaktives Workshop- und Trainings-Event mit dem Fokus auf alle wichtigen Themen rund um Daten. An 2 Tagen haben die Teilnehmer die Möglichkeit, sich aus 16 Kursmodulen aus den Bereichen Data Strategy, Data Engineering und Data Science das für sie passende Programm auszuwählen.

WO

Goethe-Universität
Frankfurt am Main
Seminarhaus

WANN

Mittwoch / Donnerstag
09. – 10. Oktober 2019
09:00 – 18:00 Uhr


Was erwartet dich?
Die Data University bietet an 2 Tagen 16 Workshops in 4 parallelen Sessions: Data Strategy, Data Engineering und Data Science. Als Teilnehmer kannst du pro Tag 2 Sessions belegen – jeweils eine Session am Vormittag sowie am Nachmittag. Du stellst dir dein persönliches Programm zusammen!

Wer sollte teilnehmen?
Die Data University vernetzt Einsteiger und Professionals der Bereiche Data Strategy, Data Engineering, und Data Science. Einsteiger und Fortgeschrittene sind willkommen!

Warum sollte ich teilnehmen?
Die Data University bietet dir ein umfangreiches Angebot an interaktiven Kursen aus verschiedenen Bereichen. Du hast die Möglichkeit, dir dein eigenes Kursprogramm über zwei Tage zusammenzustellen. Das breitgefächerte Themenspektrum bietet Insights, Inspirationen und Learnings sowohl für Anfänger als auch Fortgeschrittene.

Get your Data Degree

Schau dir an, was dich in der Data University erwartet.

Bestelle jetzt dein Ticket für die Data University 2019

Get Tickets!

Curriculum

Wähle aus 16 Sessions dein persönliches Programm.
Expand All +
  • Tag 1

    09. Oktober 2019

  • Apache Spark hat sich in den letzten Jahren von einem Forschungsprojekt hin zu einer Kerntechnologie im Big Data Umfeld entwickelt. Spark ist, ähnlich wie Hadoop, eine verteilte Cluster-Computing-Technologie, mit der sehr große Datenmengen verteilt verarbeitet werden können. Im Gegensatz zu Hadoop werden im Spark-Cluster Daten in-Memory, also im Arbeitsspeicher verarbeitet, was in vielen Fällen einen deutlichen Performancezuwachs mit sich bringt. Auch im Data Science Bereich findet Spark heute an vielen Stellen Anwendung. Im Workshop „Apache Spark für Data Science“ lernst du die theoretischen sowie technischen Grundlagen von Apache Spark und wendest diese auf konkrete Datenverarbeitungsprobleme in R oder Python an. Somit erhältst du einen anwendungsorientierten Einblick in die Technologie und kannst im Anschluss erste Spark Jobs erstellen und auf deine eigenen Datenbestände anwenden.


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Engineering

  • Vor der Gewinnung von Informationen aus Daten (z.B. durch Visualisierung, statistische Analysen oder Machine Learning) müssen diese in der Regel erst aufwändig aufbereitet werden. R und Python bieten hierfür mit den Packages dplyr und pandas über den Basisumfang hinaus hilfreiche Funktionen an, die dich in die Lage versetzen, auch sehr komplexe Datenaufbereitungen durchzuführen. Hierbei können auch größere Datenmengen schnell und komfortabel verarbeitet werden. In diesem Workshop lernst du, wie sich komplexe Data Preparation Schritte mit Hilfe der Pakete dplyr und pandas elegant durchführen lassen. Dazu werden zentrale Datenaufbereitungsoperationen, wie filtern, aggregieren und reshapen, anhand von Beispielen erläutert und im Rahmen von Übungen vertieft. Weiterhin werden die Verkettung und Gruppierung von Operationen in Pipelines besprochen. Nach dem Workshop bist du in der Lage, verschiedene Schritte zur Datenaufbereitung in R und Python zu entwickeln.


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Science

  • Immer mehr Business Intelligence Werkzeuge bieten fortgeschrittene Methoden der Datenanalyse sowie Funktionalitäten der Datenaufbereitung. Hinzu kommt, dass Fachanwender zunehmend in einen Dialog mit Data Scientists treten müssen um Use Cases zu identifizieren und die Ergebnisse mathematischer Analysen zu verstehen. Dies erfordert von Anwendern ein grundlegendes Verständnis der Vorgehensweise der wichtigsten Analysekonzepte sowie die Fähigkeit den Output fortgeschrittener Analysemethoden richtig interpretieren zu können. Der Kurs führt Business Analysten in die Vorgehensweise und die Methoden der Data Science ein. Fokus ist das Formulieren analytischer Fragestellungen sowie die visuelle Analyse. Die erarbeiteten Methoden können im Modul „Interaktive Datenvisualisierung“ praktisch anhand von R Übungen vertieft werden.


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Science

  • Im Kurs Data Strategy bauen wir ein besseres Verständnis einer Data Strategy auf und diskutieren Ansätze, diese auf das Unternehmen zu projizieren. Ansätze zur Umsetzung der Strategie sowie einer unterstützenden Data Governance werden vorgestellt und mit Ihnen diskutiert. Strategische und organisatorische Aspekte wie unternehmerischer Nutzen, Rollen, Fähigkeiten und interdisziplinäres Arbeiten werden angesprochen. Auch wird beleuchtet, welche Rolle Technologien für Trendthemen wie beispielsweise Datenqualität, Data Cataloging und Data Discovery spielen. Im Kurs widmen wir uns u.a. folgenden Fragestellungen: Digitalisierung und Datenlandschaften im Unternehmen, Aufbrechen von Datensilos, Datenlebenszyklus – worin liegen die Herausforderungen? Worum dreht sich eine Data Strategy und warum ist sie wichtig? Welche Rolle spielt eine Data Strategy aus Sicht von BI und Data Warehousing, aus Sicht der Advanced Analytics, aber auch aus Sicht vom Smart Processes? Was bedeutet Data Governance und welche Treiber gibt es dafür? Wie sichert man einen effizienten und agilen Umgang mit Daten? Welche Bedeutung hat Technologie für die Umsetzung einer Data Strategy und welcher Nutzen ist damit verbunden?


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Strategy

  • Cloud Computing gewinnt für viele Unternehmen immer weiter an Relevanz. Auch im Bereich Data Science und AI ist die Cloud ein zentraler Treiber für den Erfolg von Forschung, Entwicklung und Deployment. Im Workshop „Cloud Computing für Data Science“ erfährst du, wie du schnell und unkompliziert Compute-Aufgaben im Rahmen Ihrer Data Science Projekte in die Cloud auslagern kannst. Dabei fokussieren wir uns auf die Vorstellung relevanter Cloud-Komponenten entlang des Data Science Workflows und setzen diesen Schritt für Schritt mit dir um. Nach dem Workshop bist du in der Lage, eigene Data Science Workflows in der Cloud zu erstellen und die dafür notwendigen Komponenten selbständig zu deployen.


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Engineering

  • Software, die Machine Learning automatisiert, findet in den letzten Jahren immer mehr Verbreitung. Kommerzielle Advanced Analytics Plattformen integrieren diese Funktionen in ihr Portfolio, spezifische Applikationen werden angeboten und es existieren mittlerweile verschiedene Open Source Bibliotheken dazu. Aber was genau wird bei diesen Ansätzen automatisiert und in welchen Szenarien wird die Software genutzt? Können diese Ansätze in Zukunft sogar den Data Scientist automatisieren? Der Workshop hat das Ziel Automatisierte ML Lösungen einzuordnen, Einsatzszenarien sowie Möglichkeiten und Grenzen aufzuzeigen. Dabei geben wir einen Überblick über die folgenden Themen: (1) Übersicht Analytischer Prozess – was lässt sich automatisieren, (2) Marktübersicht AutoML Lösungen, (3) Deep Dive Technologie, (4) Grenzen der Automatisierung, (5) Rolle des Data Scientist/Business Analyst – Human in the loop.


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Strategy

  • Die klassischen Business Intelleigence sieht mit dem Data Warehouse meist eine geordnete Datenarchitektur mit festen Regeln vor. Das Erforschen von Daten bis hin zur Operationalisierung von Advanced Analytics Lösungen benötigt wesentlich mehr Flexibilität. Das wirkt sich auf Datenarchitektur, Designprinzipien und Technologien aus. Dabei entstehen recht heterogene Lösungsansätze, die Anforderungsgerecht zu gestalten sind. Wir greifen die Grundprinzipien vom Vormittag auf und diskutieren exemplarische Zielbilder aus der Praxis projiziert. (1) Wie sichert man Data (Re-)Usability – für Business Analysts, BI Experten und Data Scientists? Welche Rolle spielen operative Systeme und Schnittstellen, Master & Reference Data Mananagement sowie Data Quality Management? (2) Was ist zu berücksichtigen, wenn man aus einem prototypischen Data Pipeline eine operationale und skalierfähige Anwendung machen möchte? (3) Was sind die Herausforderungen einer verteilten Datenarchitektur? Wie werden unterschiedliche Designprinzipien angewandt? Welche Technoligen eigenen sich für welches Anforderungsprofil? (4 )Praxisbeispiele – Problemstellungen und Lösungsansätze


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Engineering

  • Datenvisualisierung nimmt im Data Science Workflow einen immer wichtigeren Teil ein. Sowohl im Bereich der Datenexploration als auch bei der Aufbereitung und Visualisierung von Ergebnissen spielt sie eine wichtige Rolle. Neben statistischen Libraries für Datenvisualisierung wie matplotlib für Python oder ggplot2 für R hat sich insbesondere Plotly für interaktive Plots und Abbildungen als wichtige Technologie etabliert. Mit Plotly können eine Vielzahl von Plots mit interaktiven Komponenten ausgestattet werden, die bspw. ein interaktives Drilldown oder Filtering ermöglichen. Dieser Workshop vermittelt die Grundlagen interaktiver Datenvisualisierung mit Plotly sowohl mit R als auch Python. Dabei werden wir den Workflow zur Erstellung und Anpassung von Plotly Charts behandeln sowie einen Ausblick auf das Dashboarding Tool Dash geben. Im Anschluss an den Workshop bist du in der Lage eigenständig Plotly Abbildungen in R oder Python zu erzeugen, um deine Visualisierungen noch ansprechender zu gestalten.


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Science

  • Tag 2

    10. Oktober 2019

  • Shiny ist ein R Paket von RStudio, das es ermöglicht, interaktive Web-Applikationen direkt mit R zu entwickeln. Hierbei werden die umfangreichen Funktionalitäten von R mit einer interaktiven Benutzeroberfläche verbunden. R Shiny verwandelt statische Analysen in interaktive Nutzeranwendungen, deren Umfang weit über einfache Visualisierungen deutlich hinausgehen können. Dabei können R Entwickler vertraute Konzepte der R Programmierung anwenden und nach Belieben mit weiteren Webtechnologien wie z.B. HTML5, CSS oder JavaScript kombinieren und erweitern. Der Workshop „R Shiny Applikationen entwickeln” vermittelt dir grundlegende Kenntnisse über die Funktionalitäten von Shiny, die benötigt werden, um interaktive Visualisierungsoberflächen zu erstellen. Dabei werden die theoretisch erworbenen Konzepte anhand von Übungen praktisch vertieft. Am Schluss geben wir dir zudem einen Ausblick über fortgeschrittene Möglichkeiten, Shiny mithilfe von HTML und JavaScript eigenständig und beliebig zu erweitern. Nach dem Workshop bist du in der Lage, selbständig erste Shiny Applikationen in R zu entwickeln.


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Engineering

  • Die gemeinsame Arbeit an Data Science Projekten gehört heute zum Projektalltag. Git ermöglicht es Data Science Entwicklern, kollaborativ an Code-Projekten zu arbeiten, um diese von der Idee bis hin zur Produktion zu führen. Dabei stehen dem Entwickler diverse Funktionen zur Verfügung, die die gemeinsame Arbeit an dem Code vereinfachen sollen. Git lässt sich dabei sowohl auf Kommandozeilenebene als auch durch eine GUI bzw. 3rd Party Software verwalten. Im Workshop „Git für Data Science” erhältst du eine praxisorientierte Einführung in die Welt der Versionskontrolle mit Git. Dabei behandeln wir sowohl grundlegende Themen wie pushen, pullen, branchen und commiten als auch fortgeschrittenere Konzepte wie mergen oder rebasen. Nach dem Kurs bist du in der Lage, eigene Git Repositories anzulegen, zu verwalten und mit deinen Kollegen gemeinsam an einem Projekt zu arbeiten.


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Engineering

  • Mit TensorFlow hat Google eines der wichtigsten Machine Learning Frameworks der letzten Jahre für Python veröffentlicht. Mit TensorFlow lassen sich graphenbasierte Modelle programmieren, die sich insbesondere für die Entwicklung von neuronalen Netzen und Deep Learning Modellen eigenen. Zudem bietet TensorFlow die Möglichkeit, die entwickelten Modelle auf verteilten Systemen zu skalieren, um auch mit großen Datenmengen effizient umgehen zu können. Kürzlich wurde TensorFlow in der Version 2.0 veröffentlicht, die viele Änderungen wie bspw. die nahtlose Integration der TensorFlow API Keras mit sich brachte. Der Workshop „Deep Learning mit TensorFlow 2.0“ vermittelt dir grundlegende Kenntnisse der Theorie und Entwicklung von neuronalen Netzen und Deep Learning Modellen in TensorFlow 2.0. Dabei werden sowohl wichtige theoretische Aspekte behandelt als auch viele praktische Übungen in TensorFlow und Python durchgeführt. Im Anschluss an den Workshop bist du in der Lage, selbständig erste Deep Learning Modelle in TensorFlow und Python zu entwickeln.


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Science

  • Um Daten für Business Intelligence, Advanced Analytics oder die Entwicklungen von Anwendungen in komplexen Datenlandschaften überhaupt finden und recherchieren zu können, werden zusätzliche Informationen über sie benötigt. Wissen über die eigenen Daten aufzubauen, entwickelt sich zur Kernaufgabe, die 3 von 4 Unternehmen nicht beherrschen. Das zeigt die BARC-Studie „How to Rule Your Data World“. Die befragten Nutzer konstatieren, dass mangelnde Ressourcen und Skills eine große Herausforderung darstellen. Eine These besteht darin, Daten in den heterogenen Systemlandschaften durch Datenkataloge einfacher, schneller und gezielter auffindbar zu machen. Data-Cataloging-Werkzeuge bieten eine technologische Plattform für den Aufbau solcher Kataloge. Sie versprechen den Aufwand für die Ordnung und Anreicherung von Daten niedrig zu halten sowie die Effizienz in der Nutzung von Daten zu steigern. Wir behandeln unter anderem folgende Fragestellungen im Data-Cataloging-Kurs: Datenkataloge: Was ist das überhaupt und welche Anwendungsfälle werden unterstützt? Wer arbeitet mit einem Datenkatalog und welcher Nutzen kann erreicht werden? Was sind typische Anforderungen an einen Datenkatalog? Best Practices: Was sind typische Ansätze für die Einführung und Betrieb eines Datenkataloges? Technologie: Welche Rolle spielt Technologie und welcher Nutzen kann durch den Einsatz erreicht werden/oder auch nicht? Wie ist der Softwaremarkt strukturiert, welche Ansätze gibt es und wie unterscheiden sich diese?


    Kursablauf:
    9:00 - 10:30: Workshop Teil 1
    10:30 - 10:45: Kaffeepause
    10:45 - 12:00: Workshop Teil 2

    Data Strategy

  • Nach der Entwicklung von R Shiny Applikationen sollen diese in der Regel innerhalb der Unternehmensinfrastruktur für eine größere Anzahl an Benutzern bereitgestellt werden. Hierfür kommen, neben dem kommerziellen Produkt R Shiny Server Pro, auch andere Deployment Szenarien in Betracht. Hierzu zählt insbesondere der Shiny Proxy, der grundlegende Enterprise-Funktionalitäten wie Authentifizierung und Skalierung auf Basis von Open Source Technologien bereitstellt. Im Workshop „R Shiny Applikationen skalieren“ lernst du, wie du deine Shiny Applikation über Shiny Proxy deployen kannst. Hierzu spielen wir praxisorientiert die gesamte End-2-End Strecke, von der Installation über Konfiguration bis hin zum Serving der Shiny App, durch. Hierbei gehen wir auch auf die Themen Authentifizierung, Sicherheit sowie horizontale Skalierung ein. Nach dem Workshop bist du in der Lage, eigenständig Shiny Proxy Server zu installieren und für den Einsatz mit deinen Shiny Apps zu konfigurieren.


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Engineering

  • Docker ist eine Technologie, um Applikationen in Form von sog. Containern auszuliefern. Der Container enthält dabei alle Bestandteile, die zur Ausführung der Applikation benötigt werden. Dies erlaubt ein simplifiziertes Deployment sowie eine einfache horizontale Skalierung. Auch für Data Science Anwendungen liefert Docker einen großen Mehrwert. Modelle lassen sich in Containern für die Produktion verpacken und unkompliziert in die Infrastruktur einbetten. In diesem Kurs lernst du die technischen Grundlagen von Docker und erstellst eigenständig einen Docker-Container, der über eine Web-Schnittstelle ein Machine Learning Modell ausliefert. Dabei fokussiert sich der Kurs auf die grundsätzliche Funktionsweise von Docker Containern sowie deren praktische Erstellung. Nach dem Abschluss des Workshops kannst du eigenständig einfache Docker Container erstellen und auf deiner Infrastruktur deployen.


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Engineering

  • Reinforcement Learning bildet neben Supervised- und Unsupervised Learning die dritte große Gruppe von Machine Learning Verfahren und wird von AI Wissenschaftlern zur Lösung von KI Fragestellungen eingesetzt. Dabei zeichnet sich Reinforcement Learning insbesondere dadurch aus, dass das Modell kontinuierlich durch die Beobachtung der Auswirkungen seiner Handlungen auf die es umgebende Umwelt lernt. Somit lassen sich Methoden des Reinforcement Learning insbesondere in stochastischen bzw. dynamischen Umgebungen einsetzen, die sich auf Basis bestimmter Aktionen verändern. Im Kontext von Reinforcement Learning werden sehr häufig neuronale Netze bzw. Deep Learning Modelle verwendet, die die nötige Kapazität zur Modellierung der dynamischen Problemstruktur bereitstellen. Im Workshop „Einführung in Deep Reinforcement Learning” erlernst du die grundlegenden Konzepte und Mechanismen von Reinforcement Learning wie Q-Learning bzw. Deep Q-Learning. Dabei liegt der Fokus sowohl auf der Vermittlung theoretischer Konzepte als auch auf der praktischen Implementierung in Python und Open AI-Gym. Nach dem Abschluss des Workshops kannst du eigenständig erste, kleinere Reinforcement Learning Probleme modellieren und in Python umsetzen.


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Science

  • Data Science Projekte starten üblicherweise mit der Prototypisierung, einem sogenannten Proof of Concept. Hier werden Ideen anhand von konkreter Daten erprobt und ein mathematischer Ansatz identifiziert. Die Prototypisierung ist geprägt von einer interaktiven Suche nach Lösungsansätzen für Datenaufbereitung, Modellierung und Ergebnisdarstellung. Wie aber kann kreatives, exploratives Arbeiten strukturiert werden? In welchen Schritten geht man vor und welche Ergebnisse sind zu erwarten? Warum muss das Scheitern des Proof of Concepts mit einkalkuliert werden und in welchen Zeiträumen sollte hier gedacht werden? Alle diese Fragen werden in diesem Modul beantwortet.


    Kursablauf:
    13:00 - 14:30: Workshop Teil 1
    14:30 - 14:45: Kaffeepause
    14:45 - 16:00: Workshop Teil 2

    Data Strategy

Hier bekommst du weitere Infos zu Location & Anreise.

Mehr erfahren!

Location

Die Data University 2019 findet an der Goethe-Universität in Frankfurt am Main statt.

Anfahrt

Goethe-Universität
Seminarhaus
Max-Horkheimer-Straße 4
60323 Frankfurt am Main

PDF-Download

Partner der Data University