| Inhalt | 5 |
---|
| Vorwort | 9 |
---|
| Kapitel 1: Einführung | 15 |
---|
| Warum Machine Learning? | 15 |
| Welche Probleme kann Machine Learning lösen? | 16 |
| Ihre Aufgabe und Ihre Daten kennen | 19 |
| Warum Python? | 19 |
| scikit-learn | 20 |
| Installieren von scikit-learn | 20 |
| Grundlegende Bibliotheken und Werkzeuge | 21 |
| Jupyter Notebook | 22 |
| NumPy | 22 |
| SciPy | 22 |
| matplotlib | 24 |
| pandas | 24 |
| mglearn | 25 |
| Python 2 versus Python 3 | 26 |
| In diesem Buch verwendete Versionen | 27 |
| Eine erste Anwendung: Klassifizieren von Iris-Spezies | 28 |
| Die Daten kennenlernen | 29 |
| Erfolg nachweisen: Trainings- und Testdaten | 31 |
| Das Wichtigste zuerst: Sichten Sie Ihre Daten | 33 |
| Ihr erstes Modell konstruieren: k-nächste-Nachbarn | 35 |
| Vorhersagen treffen | 36 |
| Evaluieren des Modells | 37 |
| Zusammenfassung und Ausblick | 37 |
| Kapitel 2: Überwachtes Lernen | 41 |
---|
| Klassifikation und Regression | 41 |
| Verallgemeinerung, Overfitting und Underfitting | 42 |
| Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes | 45 |
| Algorithmen zum überwachten Lernen | 46 |
| Einige Beispieldatensätze | 46 |
| k-nächste-Nachbarn | 50 |
| Lineare Modelle | 59 |
| Naive Bayes-Klassifikatoren | 80 |
| Entscheidungsbäume | 82 |
| Ensembles von Entscheidungsbäumen | 94 |
| Support Vector Machines mit Kernel | 102 |
| Neuronale Netze (Deep Learning) | 113 |
| Schätzungen der Unsicherheit von Klassifikatoren | 126 |
| Die Entscheidungsfunktion | 127 |
| Vorhersagen von Wahrscheinlichkeiten | 130 |
| Unsicherheit bei der Klassifikation mehrerer Kategorien | 132 |
| Zusammenfassung und Ausblick | 134 |
| Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung | 137 |
---|
| Arten von unüberwachtem Lernen | 137 |
| Herausforderungen beim unüberwachten Lernen | 138 |
| Vorverarbeiten und Skalieren | 138 |
| Unterschiedliche Möglichkeiten der Vorverarbeitung | 139 |
| Anwenden von Datentransformationen | 140 |
| Trainings- und Testdaten in gleicher Weise skalieren | 142 |
| Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen | 144 |
| Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning | 146 |
| Hauptkomponentenzerlegung (PCA) | 146 |
| Nicht-negative-Matrix-Faktorisierung (NMF) | 161 |
| Manifold Learning mit t-SNE | 168 |
| Clusteranalyse | 172 |
| k-Means-Clustering | 172 |
| Agglomeratives Clustering | 183 |
| DBSCAN | 188 |
| Vergleichen und Auswerten von Clusteralgorithmen | 192 |
| Zusammenfassung der Clustering-Methoden | 206 |
| Zusammenfassung und Ausblick | 207 |
| Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung | 209 |
---|
| Kategorische Variablen | 210 |
| One-Hot-Kodierung (Dummy-Variablen) | 211 |
| Zahlen können kategorische Daten kodieren | 216 |
| Binning, Diskretisierung, lineare Modelle und Bäume | 218 |
| Interaktionen und Polynome | 222 |
| Univariate nichtlineare Transformation | 228 |
| Automatische Auswahl von Merkmalen | 232 |
| Univariate Statistiken | 232 |
| Modellbasierte Auswahl von Merkmalen | 235 |
| Iterative Auswahl von Merkmalen | 236 |
| Berücksichtigen von Expertenwissen | 238 |
| Zusammenfassung und Ausblick | 247 |
| Kapitel 5: Evaluierung und Verbesserung von Modellen | 249 |
---|
| Kreuzvalidierung | 250 |
| Kreuzvalidierung in scikit-learn | 251 |
| Vorteile der Kreuzvalidierung | 252 |
| Stratifizierte k-fache Kreuzvalidierung und andere Strategien | 252 |