Forschungsgruppe als Anwender von Machine Learning
Automatische Klassifikation von Pinguinarten
Vermittlung eines ML-Projekts von der Problemdefinition über Modellierung bis zur Evaluation
Palmer Penguins Datensatz zur praktischen Veranschaulichung
ML-Modell mit Baumstruktur für Vorhersagen
Ensemble-Verfahren aus vielen Entscheidungsbäumen
Problemstellung und Ziele definieren
Daten explorieren und verstehen
Datenaufbereitung und Feature Engineering
Modelle wählen und trainieren
Modelle bewerten mit Metriken
Modell in Anwendung überführen
💡 Wichtig: CRISP-DM ist ein iterativer Prozess - Phasen werden oft wiederholt und verfeinert
Quelle: Palmer Station LTER, Antarctica
Missing Values entfernt
One-Hot-Encoding für kategoriale Variablen
Von 6 Features zu 10 Spalten nach Encoding
Aufteilung für valide Evaluation
mit preprocess_penguin_data()
X, y = preprocess_penguin_data(df)
Aufteilung in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(...)
Random Forest & Decision Tree
rf_model.fit(X_train, y_train)
dt_model.fit(X_train, y_train)
Vorhersagen auf Testdaten
y_pred = model.predict(X_test)
Accuracy, Precision, Recall, F1-Score
accuracy_score(y_test, y_pred)
Confusion Matrix
confusion_matrix(y_test, y_pred)
Sehr hohe Klassifikationsgenauigkeit durch Ensemble-Methode
Einfachere Interpretierbarkeit bei leicht reduzierter Genauigkeit
| Predicted Adelie | Predicted Chinstrap | Predicted Gentoo | |
| Actual Adelie | 25 | 0 | 1 |
| Actual Chinstrap | 0 | 15 | 0 |
| Actual Gentoo | 0 | 0 | 26 |
💡 Fazit: Praxisbeispiel zeigt die Leistungsfähigkeit von ML-Algorithmen bei Klassifikationsaufgaben
Eingabe von Pinguinmaßen für Live-Klassifikation
Scatter Plots und Verteilungen der Features
Live-Training und Vergleich verschiedener Modelle
Detaillierte Darstellung der Klassifikationsergebnisse
Aspekt: Bedeutung von sauberer Vorverarbeitung
Aspekt: Notwendigkeit der Interpretation der Modellleistung
Aspekt: Generalisierbarkeit, Overfitting, Datenabhängigkeit
Aspekt: Reproduzierbarkeit, Dokumentation, transparente Methodik
ML ist leistungsfähig für komplexe Klassifikationsprobleme
Decision Trees und Random Forests bieten unterschiedliche Stärken
Strukturierte Methodik (CRISP-DM) essentiell für erfolgreiche Projekte
Open-Source-Tools erleichtern Zugang zu ML-Technologien
Biologie und Ökologie: Artenerkennung, Biodiversitätsmonitoring, Habitatanalyse
Hyperparameter-Tuning, Neural Networks, Deep Learning für Bilderkennung
Cloud-basierte APIs, Echtzeit-Klassifikation, mobile Anwendungen
Fragen und Diskussion sind herzlich willkommen