Info
Lehrplan des Trainingskurses „Big Data Analytics: Architektur, Prozesse, Algorithmen und Werkzeuge – Kompaktkurs”
Trainingsangebot der FH Aachen Akademie für Weiterbildung
Trainer: Prof. Dr.-Ing. Ingo Elsen
Fakultät für Elektrotechnik und Informationstechnik
Big Data FH Aachen
Eupener Str. 70 (Raum H 217)
52066 Aachen | Deutschland
T +49. 241. 6009 52207
www.fh-aachen.de/en/people/elsen
bigdata.fh-aachen.de
Kursziele und Voraussetzungen:
Teilnehmende lernen die Prinzipien von Big Data kennen, wie Big‑Data‑Architekturen aufgebaut sind und wie sie zur Durchführung von Datenanalysen im industriellen Kontext eingesetzt werden. Teil davon ist die Ende-zu-Ende Betrachtung des Analyseprozesses, also von der Datenerfassung über die Gewinnung von Erkenntnissen bis hin zum Aufbau und Einsatz von Modellen des maschinellen Lernens. In den praktischen Einheiten verwenden die Teilnehmenden die Werkzeuge und Algorithmen, die in Data‑Science‑Projekten gebräuchlich sind. Die praktischen Einheiten orientieren sich am De‑facto‑Standardprozess für Datenanalyseprojekte in der Industrie.
Der Kurs kann in zwei Teile gegliedert werden: Die ersten drei Tage konzentrieren sich auf die Prinzipien von Big Data, Data‑Analytics‑Architekturen, deren industrielle Anwendung sowie auf den Data‑Engineering‑ und Datenverarbeitungsanteil von Big Data Analytics. Dazu gehören praktische Übungen, wie mit großen Datensätzen auf einem lokalen Rechner effizient gearbeitet werden kann. Voraussetzung sind grundlegende Kenntnisse zu Computern und Netzwerken sowie Basiskenntnisse in Python und SQL. Der zweite Teil (ebenfalls drei Tage) fokussiert auf die späteren Phasen im Data‑Analytics‑Prozess, insbesondere Datenaufbereitung und Modellbildung. Die Schulungseinheiten vermitteln, wie eine Lösung von der Datenerzeugung bis zur Generierung von Erkenntnissen in Form von Visualisierungen, Klassifikationen oder Vorhersagen unter Verwendung von Algorithmen des maschinellen Lernens entworfen wird.
Teilnehmende sollten ein grundlegendes Verständnis von Algorithmen und Programmierung mitbringen. Die praktischen Einheiten nutzen das Python‑Ökosystem, insbesondere die gängigen Bibliotheken zur Datenmanipulation und Modellbildung. Der zweite Teil setzt außerdem Kenntnisse aus Teil I voraus. Für die praktischen Übungen, die circa 50 % der Kurszeit ausmachen, können Teilnehmende eigene Datensätze bereitstellen. In einer Vor‑Kurs‑Planungssitzung sollte dieser Datensatz kurz auf seine Eignung zur Unterstützung der Kursziele geprüft werden. Um effizient arbeiten zu können, sollten Teilnehmende eine funktionsfähige Python‑Installation auf ihren Rechnern haben. Über die erforderlichen Python‑Pakete werden Teilnehmende rechtzeitig informiert.
Flexible Modulkonfiguration:
Für firmeninterne Schulungen können die Module individueller konfiguriert werden, z. B. mit Fokus auf die Arbeit mit Datensätzen auf lokalen Rechnern oder kleineren Servern und ohne den Teil zur Big‑Data‑Architektur, wodurch Umfang, Dauer und Kosten der Schulung reduziert werden können.
Teil I – Einführung in Big Data Analytics und Data Engineering
Modul 1: Definition von Big Data
• Das Zeitalter der Daten
• Definition von „Big Data“
• Ihre Daten sind gar nicht so groß: Wie großer RAM lokale Maschinen gegenüber klassischen Big‑Data‑Lösungen überlegen macht
• Wie sich Big‑Data‑Systeme von anderen Computersystemen unterscheiden
• Wie sich Big‑Data‑Lösungen von anderen IT‑Lösungen unterscheiden
• Anforderungen an eine Big‑Data‑Architektur
Modul 2: Standardarchitektur für Big‑Data‑Systeme
• Die Entstehung einer Datenverarbeitungsarchitektur – Grundgedanken und Geschichte von Hadoop
• Die Lambda‑Architektur, ihre Schwächen und Nachfolger
• Datentypen aus Big‑Data‑Perspektive
• Arten der Datenverarbeitung und Werkzeuge
• Großes industrielles Beispiel einer produktiven Big‑Data‑Lösung
Modul 3: Prozess der Datenanalyse
• Die Kompetenztriade in Datenanalyseprojekten
• Der Unterschied zwischen Data Science und Business Intelligence
• Ein Prozess zur Entwicklung datengetriebener Lösungen
• Bestimmung der domänenspezifischen Ziele einer Lösung
• Unterprozess Datenerfassung
• Fallstricke in industriellen Projekten bei der Datenerfassung
• Frameworks und Werkzeuge für Data Analytics, Data Science und Machine Learning
• Arbeiten mit großen Datensätzen auf einem lokalen Rechner
Modul 4: Erkenntnisse aus Daten gewinnen
• Wie man zum Projekt passende Werkzeuge auswählt
• Datenexploration
• Statistische Eigenschaften von Daten
• Grenzen gängiger statistischer Kennwerte
• Einfache Visualisierungen zur schnellen Gewinnung von Erkenntnissen
• Bewertung und Verbesserung der Datenqualität
Modul 5: Daten für die Weiterverarbeitung vorbereiten
• Auswahl von Daten
• Bestimmung, welche Daten weggelassen werden können
• Datenbereinigung
• Erzeugung neuer Daten zur Gewinnung zusätzlicher Informationen
• Transformation von Daten entsprechend den Anforderungen des maschinellen Lernens und der Visualisierung
Teil II – Analyse großer und kleiner Daten
Modul 6: Verarbeitung von Zeitreihen‑ und Textdaten
• Häufige Fallstricke beim Umgang mit Zeitattributen
• Zeitreihen
• Arbeiten mit zeitbasierten Mustern variabler Länge
• Verschiedene Arten von Text als neuer Zweig in der Datentyp‑Taxonomie
• Aufbereitung von Text für die weitere Verarbeitung
Modul 7: Datenvisualisierung
• Prinzipien der Visualisierung
• Fallstricke bei Visualisierung und Datenpräsentation
• Beeinflussung der wahrgenommenen Information durch verschiedene Visualisierungstypen
• Visualisierungsframeworks und Werkzeuge
Modul 8: Maschinelles Lernen für Data Analytics – Einführung und Clustering
• Was ist Maschinelles Lernen?
• Lernstrategien im Maschinellen Lernen
• Herausforderungen bei Lösungen mit Maschinellem Lernen
• Bewertung der Qualität von ML‑Lösungen
• Häufig verwendete Clustering‑Algorithmen und ihre Anwendungen
Modul 9: Maschinelles Lernen für Data Analytics – Klassifikation & Regression
• Leistungsbewertung von ML‑Algorithmen für Klassifikation
• Häufig verwendete Klassifikationsalgorithmen, ihre Vor‑ und Nachteile
• Leistungsbewertung von ML‑Algorithmen für Regression
• Häufig verwendete Regressionsalgorithmen, ihre Vor‑ und Nachteile
Organisatorische Details:
Gesamter Zeitaufwand - Typischerweise: 6 Tage, 8 Unterrichtsstunden pro Tag. Die Schulungseinheiten sind in halbtägige Sitzungen aufgeteilt (12 aufeinanderfolgende Vormittage).
Teilnehmerzahl: 6 bis 12, Gruppenarbeiten in Gruppen von 2 bis 4 Personen
Ort: Der Kurs kann vollständig virtuell durchgeführt werden. Für firmeninterne Schulungen (6 Teilnehmende oder mehr) können Präsenztrainings angeboten werden, die dann ganztägig durchgeführt werden.
Dies ist ein Vorschlag zur organisatorischen Ausgestaltung und kann entsprechend den Kundenwünschen angepasst werden.
Rücktritts-/Stornobedingungen:
Die Buchung ist bis 29 Tage vor Schulungsbeginn geöffnet.
Sie haben das Recht, binnen 14 Tagen ohne Angabe von Gründen diesen Vertrag zu widerrufen, die Widerrufsfrist beginnt mit Vertragsschluss (Buchung), zur Ausübung genügt eine eindeutige Erklärung (z.B. per Mail).
In Abhängigkeit vom Zeitpunkt der Absage der Teilnahme an der Bildungsveranstaltung, fallen Stornogebühren an, obige Widerrufsfrist bleibt hiervon unberührt.
- Stornierung bis zu 4 Wochen vor Kursbeginn: 25% der Kursgebühr
- Stornierung weniger als 4 Wochen vor Kursbeginn: 50% der Kursgebühr
Bei einer Kündigung während der Kurslaufzeit ist die volle Kursgebühr zu entrichten. Dies gilt auch bei einer kurzfristigen Abmeldung wegen Krankheit.
Bei Nichterscheinen eines oder mehrerer Teilnehmender zu einer angemeldeten Bildungsveranstaltung, ist dennoch die volle Teilnahmegebühr zu entrichten.
Es besteht kein Anspruch auf die die teilweise oder vollständige Rückerstattung von bereits gezahlten Kursgebühren im Falle eines krankheitsbedingten Ausfalls oder des vorzeitigen Verlassens der Bildungsveranstaltung durch einen oder mehrere Teilnehmende.
Die Kündigung eines oder mehrerer Teilnehmender hat gegenüber dem Organisationsbereich des Veranstalters zu erfolgen, der die Anmeldung des Teilnehmers bestätigt hat. Bedienstete des Veranstalters, insbesondere externe Referenten, sind zur Entgegennahme von Kündigungen nicht befugt.
Bei Stornierungen kann anstelle einer Rückerstattung oder eines Ausfalls bei voller Zahlung ein Ersatzteilnehmer benannt oder entsandt werden, sonst gelten die obigen Stornobedingungen.
Absage durch den Veranstalter / Veranstaltungsänderung:
Die FH Aachen behält sich vor, die Schulung bei Unterschreitung der erforderlichen Mindestteilnehmerzahl abzusagen; in diesem Fall findet die Veranstaltung nicht statt und bereits gezahlte Teilnahmegebühren werden erstattet oder ein Ersatztermin angeboten.
Die FH Aachen behält sich Änderungen in der Organisation, der personellen oder räumlichen Besetzung oder dem Ablauf der Schulung vor, die keinen wesentlichen Einfluss auf den Gesamtcharakter der Bildungsveranstaltung haben. Die FH Aachen behält sich zudem vor, wegen Erkrankung von Dozenten sowie sonstigen Störungen im Geschäftsbetrieb, die von ihm nicht zu vertreten sind, angekündigte oder begonnene Seminare abzusagen. Bereits bezahlte Teilnahmegebühren werden in diesem Falle erstattet.
Leistungsnachweise:
Die Teilnehmenden erhalten nach Beendigung eines vollständigen Kurses eine Teilnahmebestätigung als PDF.
Urheberrechte:
Alle Veranstaltungsunterlagen (sowohl in physischer als auch digitaler Form wie z.B. Video- und Audiomaterialien) sind urheberrechtlich geschützt. Die Vervielfältigung, Weitergabe oder anderweitige Nutzung der Unterlagen sowie jeglicher durch die FH Aachen oder ihre Beauftragten zur Verfügung gestellter Dokumente, Grafiken, Bild- und Tonmaterialien sowie anderer Informationsträger ist nur mit ausdrücklicher schriftlicher Zustimmung der FH Aachen gestattet.