Ob Verwaltungslisten, Bibliotheksdaten oder Forschungsimporte – CSV-Dateien gelten als unkompliziertes Austauschformat, führen in der Praxis jedoch häufig zu Problemen: zerstörte Umlaute, fehlerhafte Trennzeichen, falsch interpretierte Datumsformate oder unvollständige Inhalte.
In diesem Workshop lernen Sie, wie sich solche Probleme systematisch analysieren und beheben lassen. Der Fokus liegt auf der professionellen Verarbeitung von CSV-Daten mit Python (pandas) und SQLite:
- Python mit pandas läuft primär in der Academic Cloud (datenschutzkonform) und ermöglicht die automatisierte Verarbeitung großer CSV-Dateien – ideal für wiederkehrende Aufgaben mit vielen Zeilen und komplexen Strukturen. Skripte können gespeichert und wiederverwendet werden. Um auch bei temporären Verbindungsproblemen arbeitsfähig zu bleiben, wird bei Bedarf ein Backup-System verwendet, das auch nach Kursabschluss ausschließlich mit Übungsdaten genutzt werden sollte.
- SQLite ist eine leichtgewichtige Datenbanklösung, die ohne Server auskommt und Daten in einer lokalen Datei speichert. Ideal für die strukturierte Speicherung, Filterung und zuverlässige Weiterverarbeitung von CSV-Dateien ohne zusätzliche IT-Infrastruktur.
Zielgruppe
Beschäftigte wissenschaftsunterstützender Bereiche, wie Verwaltung, Bibliothek, IT sowie Wissenschaftsmanagement und Forschung, die regelmäßig mit strukturierten CSV-Dateien arbeiten und mehr Sicherheit im Umgang mit Datenformaten und -tools gewinnen möchten. Voraussetzungen - Grundlagen in Python, etwa aus unserem Basisworkshop: Python für Verwaltungsaufgaben: Daten effizient bearbeiten und Prozesse automatisieren oder vergleichbare Vorkenntnisse
- Grundkenntnisse in Excel, etwa aus unserem Kurs Basiswissen: MS Excel – Crashkurs oder vergleichbare Vorkenntnisse
- Primärsystem (eine der beiden Optionen ist Pflicht):
- Academic Cloud (CoCalc inkl. VS Code, Chat AI, API-Zugang) ODER
- Python und Visual Studio Code (lokal installiert) für maximalen Datenschutz
- Backup-System (Pflicht - nur für Übungsdaten): GitHub-Account (Codespaces) + Google-Account (Gemini, Gemini API), Hinweis: ausschließlich für technische Ausweichszenarien, keine sensiblen Daten
- optional:
- Claude.ai oder ChatGPT Account
- Python und Visual Studio Code (lokal installiert) für maximalen Datenschutz
- Hugging Face Account (KI API-Zugang)
Ziele
Nach dem Workshop sind die Teilnehmenden in der Lage,
- typische CSV-Probleme bei Codierung, Trennzeichen und Datumsformaten sicher zu erkennen und zu beheben,
- pandas gezielt für stabile Datenimporte und -verarbeitung zu nutzen,
- mit SQLite einfache Datenabfragen und -korrekturen durchzuführen,
- eigene Best Practices für strukturiertes CSV-Datenhandling zu entwickeln.
Inhalte
- Zeichencodierungen verstehen und korrigieren: UTF-8, Latin-1, Windows-1252; automatische Erkennung mit der chardet-Bibliothek
- Trennzeichenfehler vermeiden: Umgang mit Komma, Semikolon, Quotes und Escape-Zeichen
- pandas für den CSV-Import: read_csv() sicher konfigurieren, Datumsformate korrekt einlesen, große Dateien effizient verarbeiten
- SQLite als sichere Zwischenlösung: CSV in Datenbank umwandeln, Daten abfragen, strukturieren und exportieren
- Best Practices im CSV-Management: Datenstruktur dokumentieren, Testdateien zur Validierung nutzen, Fehlerprotokolle führen
Methoden
Live-Demonstrationen, praktische Übungen mit Beispieldateien, Austausch zu Anwendungsfällen aus Verwaltung und Bibliothek Hinweise
Die Teilnehmenden erhalten vorab Beispielmaterialien. Es können optional eigene problematische CSV-Dateien eingebracht werden. Bitte bei mitgebrachten Dateien an den Datenschutz denken, da diese allen anderen Teilnehmenden im Workshopverlauf zum gemeinsamen Reflektieren und Üben zur Verfügung gestellt werden. Der Workshop orientiert sich an häufigen Fällen aus Hochschulverwaltung und -bibliothek.