: Andreas C. Müller, Sarah Guido
: Einführung in Machine Learning mit Python Praxiswissen Data Science
: O'Reilly Verlag
: 9783960101116
: Animals
: 1
: CHF 33.70
:
: Programmiersprachen
: German
: 378
: Wasserzeichen/DRM
: PC/MAC/eReader/Tablet
: PDF
Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine-Learning-Anwendungen zu entwickeln, braucht es keine großen Expertenteams: Wenn Sie Python-Grundkenntnisse mitbringen, zeigt Ihnen dieses Praxisbuch, wie Sie Ihre eigenen Machine-Learning-Lösungen erstellen. Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine-Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine-Learning-Algorithmen auf die praktischen Aspekte statt auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Tutorial herauszuholen. Das Buch zeigt Ihnen: - grundlegende Konzepte und Anwendungen von Machine Learning - Vor- und Nachteile weit verbreiteter maschineller Lernalgorithmen - wie sich die von Machine Learning verarbeiteten Daten repräsentieren lassen und auf welche Aspekte der Daten Sie sich konzentrieren sollten - fortgeschrittene Methoden zur Auswertung von Modellen und zum Optimieren von Parametern - das Konzept von Pipelines, mit denen Modelle verkettet und Arbeitsabläufe gekapselt werden - Arbeitsmethoden für Textdaten, insbesondere textspezifische Verarbeitungstechniken - Möglichkeiten zur Verbesserung Ihrer Fähigkeiten in den Bereichen Machine Learning und Data Science Dieses Buch ist eine fantastische, super praktische Informationsquelle für jeden, der mit Machine Learning in Python starten möchte - ich wünschte nur, es hätte schon existiert, als ich mit scikit-learn anfing! Hanna Wallach, Senior Researcher, Microsoft Research

Andreas C. Müller hat an der Universität Bonn in Machine Learning promoviert. Bei Amazon hat er an Anwendungen für rechnergestütztes Sehen gearbeitet, heute ist er am Center for Data Science an der New York University tätig. Er ist als Core Contributor an der Entwicklung und Wartung von scikit-learn beteiligt. Sarah Guido ist als Data Scientist tätig und hat viel für Start-ups gearbeitet, zuletzt als Lead Data Scientist bei Bitly. Sie ist eine erfahrene Konferenzrednerin und hat einen Master-Abschluss im Fach Information an der University of Michigan erworben.
Inhalt5
Vorwort9
Kapitel 1: Einführung15
Warum Machine Learning?15
Welche Probleme kann Machine Learning lösen?16
Ihre Aufgabe und Ihre Daten kennen19
Warum Python?19
scikit-learn20
Installieren von scikit-learn20
Grundlegende Bibliotheken und Werkzeuge21
Jupyter Notebook22
NumPy22
SciPy22
matplotlib24
pandas24
mglearn25
Python 2 versus Python 326
In diesem Buch verwendete Versionen27
Eine erste Anwendung: Klassifizieren von Iris-Spezies28
Die Daten kennenlernen29
Erfolg nachweisen: Trainings- und Testdaten31
Das Wichtigste zuerst: Sichten Sie Ihre Daten33
Ihr erstes Modell konstruieren: k-nächste-Nachbarn35
Vorhersagen treffen36
Evaluieren des Modells37
Zusammenfassung und Ausblick37
Kapitel 2: Überwachtes Lernen41
Klassifikation und Regression41
Verallgemeinerung, Overfitting und Underfitting42
Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes45
Algorithmen zum überwachten Lernen46
Einige Beispieldatensätze46
k-nächste-Nachbarn50
Lineare Modelle59
Naive Bayes-Klassifikatoren80
Entscheidungsbäume82
Ensembles von Entscheidungsbäumen94
Support Vector Machines mit Kernel102
Neuronale Netze (Deep Learning)113
Schätzungen der Unsicherheit von Klassifikatoren126
Die Entscheidungsfunktion127
Vorhersagen von Wahrscheinlichkeiten130
Unsicherheit bei der Klassifikation mehrerer Kategorien132
Zusammenfassung und Ausblick134
Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung137
Arten von unüberwachtem Lernen137
Herausforderungen beim unüberwachten Lernen138
Vorverarbeiten und Skalieren138
Unterschiedliche Möglichkeiten der Vorverarbeitung139
Anwenden von Datentransformationen140
Trainings- und Testdaten in gleicher Weise skalieren142
Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen144
Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning146
Hauptkomponentenzerlegung (PCA)146
Nicht-negative-Matrix-Faktorisierung (NMF)161
Manifold Learning mit t-SNE168
Clusteranalyse172
k-Means-Clustering172
Agglomeratives Clustering183
DBSCAN188
Vergleichen und Auswerten von Clusteralgorithmen192
Zusammenfassung der Clustering-Methoden206
Zusammenfassung und Ausblick207
Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung209
Kategorische Variablen210
One-Hot-Kodierung (Dummy-Variablen)211
Zahlen können kategorische Daten kodieren216
Binning, Diskretisierung, lineare Modelle und Bäume218
Interaktionen und Polynome222
Univariate nichtlineare Transformation228
Automatische Auswahl von Merkmalen232
Univariate Statistiken232
Modellbasierte Auswahl von Merkmalen235
Iterative Auswahl von Merkmalen236
Berücksichtigen von Expertenwissen238
Zusammenfassung und Ausblick247
Kapitel 5: Evaluierung und Verbesserung von Modellen249
Kreuzvalidierung250
Kreuzvalidierung in scikit-learn251
Vorteile der Kreuzvalidierung252
Stratifizierte k-fache Kreuzvalidierung und andere Strategien252