In diesem zweitägigen Kurs lernen Sie, Daten aus verschiedenen Quellen zusammenzuführen und maschinenlesbar aufzubereiten. Der Kurs kombiniert traditionelle Programmiertechniken mit der Nutzung von Chatbots (ChatGPT).
Im Unterschied zu traditionellen Programmierkursen integriert dieser Kurs KI-Methoden. Sie lernen praxisorientiert sowohl die Grundlagen der Programmierung kennen als auch, wie Sie effizient mit Code-Snippets arbeiten und die Möglichkeiten von Chatbots am Beispiel von ChatGPT lösungsorientiert nutzen.
Der Kurs zielt darauf ab, Ihnen zu zeigen, wie Sie Daten aus verschiedenen Quellen datenschutzkonform zusammenführen und aufbereiten können, um diese für eine spätere Datenauswertung vorzubereiten. Sie konzentrieren sich dabei auf den Einsatz von Python, MS-Excel-PowerQuery (Windows) und einfache Regular Expressions. Zusätzlich wird die Integration von ChatGPT als optionales Tool vorgestellt.
ZielgruppeInteressierte, die viel mit Daten aus unterschiedlichen Quellen arbeiten und bereits über erste Erfahrungen in Python verfügen.
Voraussetzungen
- Python-Basiskenntnisse etwa im Umfang unseres Python 101 KI-Kurses
- Installation von Webex Meetings.
- ein lokal installiertes GIMP (Bildbearbeitung)
- einen (kostenfreien) Account bei GitHub oder alternativ Python und VS-Code auf Ihrem Rechner
- ein zum Kurszeitpunkt aktuelles MS-Windows-Excel (Mac Excel ist nicht ausreichend)
- Headset (Mikrofon und Kopfhörer)
- Administratorenrechte und eine stabile Internetverbindung auf dem Computer
- Englischkenntnisse zum Lesen von Hilfetexten
- optional: Einen kostenpflichtigen ChatGPT-Account
Ziele
- Auffrischung und Vertiefung der Python-Kenntnisse im Bereich der Datenverarbeitung und -aufbereitung
- Fähigkeit, Dateien in verschiedenen Formaten zu lesen und zu schreiben (u.a. .csv, .sav, .docx, .wav)
- Kompetenzen in der Datenbereinigung: Umgang mit fehlenden Werten, Duplikaten und Anwendung von Regular Expressions
- Erlernen der datenschutzkonformen Zusammenführung und Transformation von Daten aus unterschiedlichen Quellen
- sicherer Umgang mit Tools wie Python, MS-Excel PowerQuery und SQLite zur effizienten Datenverarbeitung
- Fähigkeit, Daten durch Techniken wie Sortieren, Filtern, Pivotieren und Verbinden zu transformieren
- Datenoperationen wie Tabellenanhängen, Schnittmengenbildung, Vereinigungen und Differenzen umsetzen
- Daten effizient aggregieren und normalisieren, um sie für Analysen vorzubereiten
Inhalte
- Grundlagen der Datenverarbeitung und -aufbereitung: Auffrischung der Python-Kenntnisse für die Datenverarbeitung
- Dateiformate lesen und schreiben:
- Text- und Datenformate: .csv, .tsv, .json, .txt, .md, .html, .xlsx, .db, .sqlite
- Statistik- und wissenschaftliche Formate: .sav, .dta, .RData, .Rds, .mat, .bson, .yaml
- Dokument- und Bildformate: .docx, .pdf, .png, .tiff, .jpeg
- Audioformate: .wav, .mp3, .flac, .ogg
- Datenbereinigung: Umgang mit fehlenden Werten und Duplikaten
- Textverarbeitung mit Regular Expressions
- Datenzusammenführung und -transformation: Datenschutzkonforme Zusammenführung von Daten aus unterschiedlichen Quellen
- Verwendung von Tools: Python, MS-Excel PowerQuery (Windows), SQLite
- Datenbearbeitungstechniken: Sortieren, Filtern, Verbinden, Pivotieren, Entpivotieren von Daten
- Datenoperationen: Anhängen von Tabellen, Erstellen von Schnittmengen, Vereinigungen und Differenzen
- Datenaggregation und Normalisierung: Zusammenführung und Anpassung komplexer Tabellenstrukturen
Praktischer Nutzen
Sie vertiefen Ihr Wissen in der fortgeschrittenen Datenaufbereitung mit Python (z.B. Pandas) und erstellen komplexe Datenabfragen mit SQL. Darüber hinaus integrieren wir die Nutzung der ChatGPT-API, um die Datenaufbereitung und -verarbeitung zu unterstützen, sodass Sie in der Lage sind, erweiterte Datenverarbeitungsaufgaben effizient zu bewältigen. Diese praktischen Anwendungen bereiten Sie darauf vor, die erlernten Methoden und Techniken in realen Projekten anzuwenden.
Beispiele für mögliche Projekte:
- Erstellung und Pflege von Stundenplänen: Zusammenführung von Einzeldaten zu übersichtlichen Stundenplänen
- Einlesen von Excel-Dateien: Automatische Auswertung von Excel-Dateien, deren Struktur für das menschliche Auge verständlich, aber maschinell schwer verarbeitbar sind
- Datenkombination: Mergen von Tabellen, Anhängen von Tabellen und Entfernen von Duplikaten aus verschiedenen Quellen
- Prüfungsunterlagen verwalten: Vorbereitung und Verwaltung von Prüfungsunterlagen
- datenschutzkonforme Bearbeitung von Bewerbungen: Aufbereitung und Verwaltung von Bewerbungen für Studiengänge unter Berücksichtigung des Datenschutzes
- Bilddatenverarbeitung: Einlesen von Informationen aus Bildern, einschließlich Inhalte, Keywords und Metadaten
- Audio- und Videodatenverarbeitung: Einlesen und Aufbereitung des gesprochenen Wortes aus Video-Dateien, Zusammenfassung und Übersetzung der Inhalte
Diese Projekte sind Beispiele und nicht alle werden notwendigerweise im Kurs bearbeitet. Für jeden Projektvorschlag stehen jedoch fertige Lösungen im Kursprojektordner zur Verfügung, die Sie verwenden, anpassen und weiterentwickeln können. Der Schwerpunkt der Projekte liegt darauf, bestehende Code-Snippets zu verstehen, an die eigenen Bedürfnisse anzupassen und die zum Kurszeitpunkt aktuellen KI-Möglichkeiten geschickt zu nutzen.
Vortrag, F&A, Demonstrationen, Übungen
Hinweise
Der Kurs findet hybrid statt – Sie können online oder in Präsenz teilnehmen.
Bitte stellen Sie sicher, dass Python korrekt installiert ist (wichtig: Setzen Sie das Häkchen bei "Add Python to PATH"). Der Kurs verwendet die aktuellsten Versionen von Python und Visual Studio Code.