Machine Learning Models and Algorithms for Big Data Classification

Thinking with Examples for Effective Learning

Author: Shan Suthaharan

Publisher: Springer

ISBN: 1489976418

Category: Business & Economics

Page: 359

View: 5518

This book presents machine learning models and algorithms to address big data classification problems. Existing machine learning techniques like the decision tree (a hierarchical approach), random forest (an ensemble hierarchical approach), and deep learning (a layered approach) are highly suitable for the system that can handle such problems. This book helps readers, especially students and newcomers to the field of big data and machine learning, to gain a quick understanding of the techniques and technologies; therefore, the theory, examples, and programs (Matlab and R) presented in this book have been simplified, hardcoded, repeated, or spaced for improvements. They provide vehicles to test and understand the complicated concepts of various topics in the field. It is expected that the readers adopt these programs to experiment with the examples, and then modify or write their own programs toward advancing their knowledge for solving more complex and challenging problems. The presentation format of this book focuses on simplicity, readability, and dependability so that both undergraduate and graduate students as well as new researchers, developers, and practitioners in this field can easily trust and grasp the concepts, and learn them effectively. It has been written to reduce the mathematical complexity and help the vast majority of readers to understand the topics and get interested in the field. This book consists of four parts, with the total of 14 chapters. The first part mainly focuses on the topics that are needed to help analyze and understand data and big data. The second part covers the topics that can explain the systems required for processing big data. The third part presents the topics required to understand and select machine learning techniques to classify big data. Finally, the fourth part concentrates on the topics that explain the scaling-up machine learning, an important solution for modern big data problems.

Data mining

praktische Werkzeuge und Techniken für das maschinelle Lernen

Author: Ian H. Witten,Eibe Frank

Publisher: N.A

ISBN: 9783446215337

Category:

Page: 386

View: 7709

big data @ work

Chancen erkennen, Risiken verstehen

Author: Thomas H. Davenport

Publisher: Vahlen

ISBN: 3800648156

Category: Fiction

Page: 214

View: 8838

Big Data in Unternehmen. Dieses neue Buch gibt Managern ein umfassendes Verständnis dafür, welche Bedeutung Big Data für Unternehmen zukünftig haben wird und wie Big Data tatsächlich genutzt werden kann. Am Ende jedes Kapitels aktivieren Fragen, selbst nach Lösungen für eine erfolgreiche Implementierung und Nutzung von Big Data im eigenen Unternehmen zu suchen. Die Schwerpunkte - Warum Big Data für Sie und Ihr Unternehmen wichtig ist - Wie Big Data Ihre Arbeit, Ihr Unternehmen und Ihre Branche verändern - - wird - Entwicklung einer Big Data-Strategie - Der menschliche Aspekt von Big Data - Technologien für Big Data - Wie Sie erfolgreich mit Big Data arbeiten - Was Sie von Start-ups und Online-Unternehmen lernen können - Was Sie von großen Unternehmen lernen können: Big Data und Analytics 3.0 Der Experte Thomas H. Davenport ist Professor für Informationstechnologie und -management am Babson College und Forschungswissenschaftler am MIT Center for Digital Business. Zudem ist er Mitbegründer und Forschungsdirektor am International Institute for Analytics und Senior Berater von Deloitte Analytics.

Handbuch Projektmanagement

Author: Jürg Kuster,Eugen Huber,Robert Lippmann,Alphons Schmid,Emil Schneider,Urs Witschi,Roger Wüst

Publisher: Springer-Verlag

ISBN: 3642212433

Category: Business & Economics

Page: 454

View: 2587

Das Nachschlagewerk bietet alles Wissenswerte für das prozessorientierte Projektmanagement: Anleitung für effiziente Projektabwicklung, systematische Übersicht über Projektphasen und -prozesse, ausführliche Handlungsempfehlungen sowie eine Sammlung der wichtigsten Methoden und Instrumente. Erfolgsfaktoren werden im Detail beschrieben und schließen auch komplexe Aspekte wie Führung, Teamarbeit und Konfliktlösung ein. Ein Projektkompass, wertvolle Tipps sowie zahlreiche Vorlagen, Checklisten und Tabellen unterstützen die Umsetzung in die Praxis.

Maschinelles Lernen

Author: Ethem Alpaydin

Publisher: De Gruyter Oldenbourg

ISBN: 9783486581140

Category: Machine learning

Page: 440

View: 5037

Maschinelles Lernen heißt, Computer so zu programmieren, dass ein bestimmtes Leistungskriterium anhand von Beispieldaten und Erfahrungswerten aus der Vergangenheit optimiert wird. Das vorliegende Buch diskutiert diverse Methoden, die ihre Grundlagen in verschiedenen Themenfeldern haben: Statistik, Mustererkennung, neuronale Netze, Künstliche Intelligenz, Signalverarbeitung, Steuerung und Data Mining. In der Vergangenheit verfolgten Forscher verschiedene Wege mit unterschiedlichen Schwerpunkten. Das Anliegen dieses Buches ist es, all diese unterschiedlichen Ansätze zu kombinieren, um eine allumfassende Behandlung der Probleme und ihrer vorgeschlagenen Lösungen zu geben.

Statistik-Workshop für Programmierer

Author: Allen B. Downey

Publisher: O'Reilly Germany

ISBN: 3868993436

Category: Computers

Page: 160

View: 1138

Wenn Sie programmieren können, beherrschen Sie bereits Techniken, um aus Daten Wissen zu extrahieren. Diese kompakte Einführung in die Statistik zeigt Ihnen, wie Sie rechnergestützt, anstatt auf mathematischem Weg Datenanalysen mit Python durchführen können. Praktischer Programmier-Workshop statt grauer Theorie: Das Buch führt Sie anhand eines durchgängigen Fallbeispiels durch eine vollständige Datenanalyse -- von der Datensammlung über die Berechnung statistischer Kennwerte und Identifikation von Mustern bis hin zum Testen statistischer Hypothesen. Gleichzeitig werden Sie mit statistischen Verteilungen, den Regeln der Wahrscheinlichkeitsrechnung, Visualisierungsmöglichkeiten und vielen anderen Arbeitstechniken und Konzepten vertraut gemacht. Statistik-Konzepte zum Ausprobieren: Entwickeln Sie über das Schreiben und Testen von Code ein Verständnis für die Grundlagen von Wahrscheinlichkeitsrechnung und Statistik: Überprüfen Sie das Verhalten statistischer Merkmale durch Zufallsexperimente, zum Beispiel indem Sie Stichproben aus unterschiedlichen Verteilungen ziehen. Nutzen Sie Simulationen, um Konzepte zu verstehen, die auf mathematischem Weg nur schwer zugänglich sind. Lernen Sie etwas über Themen, die in Einführungen üblicherweise nicht vermittelt werden, beispielsweise über die Bayessche Schätzung. Nutzen Sie Python zur Bereinigung und Aufbereitung von Rohdaten aus nahezu beliebigen Quellen. Beantworten Sie mit den Mitteln der Inferenzstatistik Fragestellungen zu realen Daten.

Metaheuristics for Big Data

Author: Clarisse Dhaenens,Laetitia Jourdan

Publisher: John Wiley & Sons

ISBN: 1119347580

Category: Computers

Page: 212

View: 6967

Big Data is a new field, with many technological challenges to be understood in order to use it to its full potential. These challenges arise at all stages of working with Big Data, beginning with data generation and acquisition. The storage and management phase presents two critical challenges: infrastructure, for storage and transportation, and conceptual models. Finally, to extract meaning from Big Data requires complex analysis. Here the authors propose using metaheuristics as a solution to these challenges; they are first able to deal with large size problems and secondly flexible and therefore easily adaptable to different types of data and different contexts. The use of metaheuristics to overcome some of these data mining challenges is introduced and justified in the first part of the book, alongside a specific protocol for the performance evaluation of algorithms. An introduction to metaheuristics follows. The second part of the book details a number of data mining tasks, including clustering, association rules, supervised classification and feature selection, before explaining how metaheuristics can be used to deal with them. This book is designed to be self-contained, so that readers can understand all of the concepts discussed within it, and to provide an overview of recent applications of metaheuristics to knowledge discovery problems in the context of Big Data.

Proaktives ereignisgesteuertes Geschäftsprozessmanagement

Referenzmodell, prototypische Implementierung und exemplarische Anwendung

Author: Julian Krumeich

Publisher: Logos Verlag Berlin GmbH

ISBN: 3832546480

Category: Business & Economics

Page: 363

View: 3018

Die Digitalisierung ermöglicht feingranulare Datenströme in betrieblichen Abläufen zu erfassen. Mittels moderner Analyseverfahren, wie dem Complex Event Processing (CEP), können relevante Ereignismuster hieraus identifiziert und korrespondierende Maßnahmen unverzüglich initiiert werden. Vielversprechend erweist sich, zukünftige Geschäftsereignisse zu prognostizierten und hierdurch eine proaktive Steuerung von Unternehmensabläufen zu realisieren. Hierzu muss eine Kombination aus CEP und prädiktiven Analysen in die operativen Entscheidungs- und Steuerungsprozesse verankert werden. Dies bedingt einen Veränderungsprozess in Unternehmen und somit die Integration in das Geschäftsprozessmanagement. Das von Julian Krumeich konstruierte Referenzmodell dient als Gestaltungsvorlage für die Realisierung eines proaktiven ereignisgesteuerten Geschäftsprozessmanagements. Das Modell umfasst Komponenten zur Modellierung von komplexen Ereignismustern sowie deren automatisierten Transformation in EPL-Spezifikationen. Zudem ermöglicht ein methodisches Vorgehen, Prognosepotenziale in Geschäftsprozessen zu identifizieren, um auf dieser Grundlage reaktive Prozesse durch die Einbettung proaktiver Bestandteile in proaktive Prozesse zu transformieren. Die Praxistauglichkeit des Referenzmodells wird anhand eines Anwendungsbeispiels aus der Stahlproduktion validiert und die Umsetzbarkeit durch Prototypen unterstrichen. Dieses Buch erweist sich nicht nur für Wissenschaftler von Interesse, sondern dient auch Lesern aus der Unternehmenspraxis als Impulsgeber zur Bewältigung der notwendigen Transformation ihrer Geschäftsprozesse.

Algorithmen für Dummies

Author: John Paul Mueller,Luca Massaron

Publisher: John Wiley & Sons

ISBN: 3527809775

Category: Computers

Page: 320

View: 5097

Wir leben in einer algorithmenbestimmten Welt. Deshalb lohnt es sich zu verstehen, wie Algorithmen arbeiten. Das Buch präsentiert die wichtigsten Anwendungsgebiete für Algorithmen: Optimierung, Sortiervorgänge, Graphentheorie, Textanalyse, Hashfunktionen. Zu jedem Algorithmus werden jeweils Hintergrundwissen und praktische Grundlagen vermittelt sowie Beispiele für aktuelle Anwendungen gegeben. Für interessierte Leser gibt es Umsetzungen in Python, sodass die Algorithmen auch verändert und die Auswirkungen der Veränderungen beobachtet werden können. Dieses Buch richtet sich an Menschen, die an Algorithmen interessiert sind, ohne eine Doktorarbeit zu dem Thema schreiben zu wollen. Wer es gelesen hat, versteht, wie wichtige Algorithmen arbeiten und wie man von dieser Arbeit beispielsweise bei der Entwicklung von Unternehmensstrategien profitieren kann.

Routineaufgaben mit Python automatisieren

Praktische Programmierlösungen für Einsteiger

Author: Al Sweigart

Publisher: dpunkt.verlag

ISBN: 3864919932

Category: Computers

Page: 576

View: 8806

Wenn Sie jemals Stunden damit verbracht haben, Dateien umzubenennen oder Hunderte von Tabelleneinträgen zu aktualisieren, dann wissen Sie, wie stumpfsinnig manche Tätigkeiten sein können. Wie wäre es, den Computer dazu zu bringen, diese Arbeiten zu übernehmen? In diesem Buch lernen Sie, wie Sie mit Python Aufgaben in Sekundenschnelle erledigen können, die sonst viel Zeit in Anspruch nehmen würden. Programmiererfahrung brauchen Sie dazu nicht: Wenn Sie einmal die Grundlagen gemeistert haben, werden Sie Python-Programme schreiben, die automatisch alle möglichen praktischen Aufgaben für Sie abarbeiten: • eine oder eine Vielzahl von Dateien nach Texten durchsuchen • Dateien und Ordner erzeugen, aktualisieren, verschieben und umbenennen • das Web durchsuchen und Inhalte herunterladen • Excel-Dateien aktualisieren und formatieren • PDF-Dateien teilen, zusammenfügen, mit Wasserzeichen versehen und verschlüsseln • Erinnerungsmails und Textnachrichten verschicken • Online-Formulare ausfüllen Schritt-für-Schritt-Anleitungen führen Sie durch jedes Programm und Übungsaufgaben am Ende jedes Kapitels fordern Sie dazu auf, die Programme zu verbessern und Ihre Fähigkeiten auf ähnliche Problemstellungen zu richten. Verschwenden Sie nicht Ihre Zeit mit Aufgaben, die auch ein gut dressierter Affe erledigen könnte. Bringen Sie Ihren Computer dazu, die langweilige Arbeit zu machen!

Scala for Machine Learning

Data processing, ML algorithms, smart analytics, and more

Author: Patrick R. Nicolas

Publisher: Packt Publishing Ltd

ISBN: 178712620X

Category: Computers

Page: 740

View: 1508

Leverage Scala and Machine Learning to study and construct systems that can learn from data About This Book Explore a broad variety of data processing, machine learning, and genetic algorithms through diagrams, mathematical formulation, and updated source code in Scala Take your expertise in Scala programming to the next level by creating and customizing AI applications Experiment with different techniques and evaluate their benefits and limitations using real-world applications in a tutorial style Who This Book Is For If you're a data scientist or a data analyst with a fundamental knowledge of Scala who wants to learn and implement various Machine learning techniques, this book is for you. All you need is a good understanding of the Scala programming language, a basic knowledge of statistics, a keen interest in Big Data processing, and this book! What You Will Learn Build dynamic workflows for scientific computing Leverage open source libraries to extract patterns from time series Write your own classification, clustering, or evolutionary algorithm Perform relative performance tuning and evaluation of Spark Master probabilistic models for sequential data Experiment with advanced techniques such as regularization and kernelization Dive into neural networks and some deep learning architecture Apply some basic multiarm-bandit algorithms Solve big data problems with Scala parallel collections, Akka actors, and Apache Spark clusters Apply key learning strategies to a technical analysis of financial markets In Detail The discovery of information through data clustering and classification is becoming a key differentiator for competitive organizations. Machine learning applications are everywhere, from self-driving cars, engineering design, logistics, manufacturing, and trading strategies, to detection of genetic anomalies. The book is your one stop guide that introduces you to the functional capabilities of the Scala programming language that are critical to the creation of machine learning algorithms such as dependency injection and implicits. You start by learning data preprocessing and filtering techniques. Following this, you'll move on to unsupervised learning techniques such as clustering and dimension reduction, followed by probabilistic graphical models such as Naive Bayes, hidden Markov models and Monte Carlo inference. Further, it covers the discriminative algorithms such as linear, logistic regression with regularization, kernelization, support vector machines, neural networks, and deep learning. You'll move on to evolutionary computing, multibandit algorithms, and reinforcement learning. Finally, the book includes a comprehensive overview of parallel computing in Scala and Akka followed by a description of Apache Spark and its ML library. With updated codes based on the latest version of Scala and comprehensive examples, this book will ensure that you have more than just a solid fundamental knowledge in machine learning with Scala. Style and approach This book is designed as a tutorial with hands-on exercises using technical analysis of financial markets and corporate data. The approach of each chapter is such that it allows you to understand key concepts easily.

Big Data

Die Revolution, die unser Leben verändern wird

Author: Viktor Mayer-Schönberger,Viktor; Cukier Mayer-Schönberger

Publisher: Redline Wirtschaft

ISBN: 3864144590

Category: Political Science

Page: 288

View: 9706

Ob Kaufverhalten, Grippewellen oder welche Farbe am ehesten verrät, ob ein Gebrauchtwagen in einem guten Zustand ist – noch nie gab es eine solche Menge an Daten und noch nie bot sich die Chance, durch Recherche und Kombination in der Daten¬flut blitzschnell Zusammenhänge zu entschlüsseln. Big Data bedeutet nichts weniger als eine Revolution für Gesellschaft, Wirtschaft und Politik. Es wird die Weise, wie wir über Gesundheit, Erziehung, Innovation und vieles mehr denken, völlig umkrempeln. Und Vorhersagen möglich machen, die bisher undenkbar waren. Die Experten Viktor Mayer-Schönberger und Kenneth Cukier beschreiben in ihrem Buch, was Big Data ist, welche Möglichkeiten sich eröffnen, vor welchen Umwälzungen wir alle stehen – und verschweigen auch die dunkle Seite wie das Ausspähen von persönlichen Daten und den drohenden Verlust der Privatsphäre nicht.

Neuronale Netze selbst programmieren

Ein verständlicher Einstieg mit Python

Author: Tariq Rashid

Publisher: O'Reilly

ISBN: 3960101031

Category: Computers

Page: 232

View: 9949

Neuronale Netze sind Schlüsselelemente des Deep Learning und der Künstlichen Intelligenz, die heute zu Erstaunlichem in der Lage sind. Sie sind Grundlage vieler Anwendungen im Alltag wie beispielsweise Spracherkennung, Gesichtserkennung auf Fotos oder die Umwandlung von Sprache in Text. Dennoch verstehen nur wenige, wie neuronale Netze tatsächlich funktionieren. Dieses Buch nimmt Sie mit auf eine unterhaltsame Reise, die mit ganz einfachen Ideen beginnt und Ihnen Schritt für Schritt zeigt, wie neuronale Netze arbeiten: - Zunächst lernen Sie die mathematischen Konzepte kennen, die den neuronalen Netzen zugrunde liegen. Dafür brauchen Sie keine tieferen Mathematikkenntnisse, denn alle mathematischen Ideen werden behutsam und mit vielen Illustrationen und Beispielen erläutert. Eine Kurzeinführung in die Analysis unterstützt Sie dabei. - Dann geht es in die Praxis: Nach einer Einführung in die populäre und leicht zu lernende Programmiersprache Python bauen Sie allmählich Ihr eigenes neuronales Netz mit Python auf. Sie bringen ihm bei, handgeschriebene Zahlen zu erkennen, bis es eine Performance wie ein professionell entwickeltes Netz erreicht. - Im nächsten Schritt tunen Sie die Leistung Ihres neuronalen Netzes so weit, dass es eine Zahlenerkennung von 98 % erreicht – nur mit einfachen Ideen und simplem Code. Sie testen das Netz mit Ihrer eigenen Handschrift und werfen noch einen Blick in das mysteriöse Innere eines neuronalen Netzes. - Zum Schluss lassen Sie das neuronale Netz auf einem Raspberry Pi Zero laufen. Tariq Rashid erklärt diese schwierige Materie außergewöhnlich klar und verständlich, dadurch werden neuronale Netze für jeden Interessierten zugänglich und praktisch nachvollziehbar.

Large Scale Machine Learning with Python

Author: Bastiaan Sjardin,Luca Massaron,Alberto Boschetti

Publisher: Packt Publishing Ltd

ISBN: 1785888021

Category: Computers

Page: 420

View: 8019

Learn to build powerful machine learning models quickly and deploy large-scale predictive applications About This Book Design, engineer and deploy scalable machine learning solutions with the power of Python Take command of Hadoop and Spark with Python for effective machine learning on a map reduce framework Build state-of-the-art models and develop personalized recommendations to perform machine learning at scale Who This Book Is For This book is for anyone who intends to work with large and complex data sets. Familiarity with basic Python and machine learning concepts is recommended. Working knowledge in statistics and computational mathematics would also be helpful. What You Will Learn Apply the most scalable machine learning algorithms Work with modern state-of-the-art large-scale machine learning techniques Increase predictive accuracy with deep learning and scalable data-handling techniques Improve your work by combining the MapReduce framework with Spark Build powerful ensembles at scale Use data streams to train linear and non-linear predictive models from extremely large datasets using a single machine In Detail Large Python machine learning projects involve new problems associated with specialized machine learning architectures and designs that many data scientists have yet to tackle. But finding algorithms and designing and building platforms that deal with large sets of data is a growing need. Data scientists have to manage and maintain increasingly complex data projects, and with the rise of big data comes an increasing demand for computational and algorithmic efficiency. Large Scale Machine Learning with Python uncovers a new wave of machine learning algorithms that meet scalability demands together with a high predictive accuracy. Dive into scalable machine learning and the three forms of scalability. Speed up algorithms that can be used on a desktop computer with tips on parallelization and memory allocation. Get to grips with new algorithms that are specifically designed for large projects and can handle bigger files, and learn about machine learning in big data environments. We will also cover the most effective machine learning techniques on a map reduce framework in Hadoop and Spark in Python. Style and Approach This efficient and practical title is stuffed full of the techniques, tips and tools you need to ensure your large scale Python machine learning runs swiftly and seamlessly. Large-scale machine learning tackles a different issue to what is currently on the market. Those working with Hadoop clusters and in data intensive environments can now learn effective ways of building powerful machine learning models from prototype to production. This book is written in a style that programmers from other languages (R, Julia, Java, Matlab) can follow.

Die Berechnung der Zukunft

Warum die meisten Prognosen falsch sind und manche trotzdem zutreffen - Der New York Times Bestseller

Author: Nate Silver

Publisher: Heyne Verlag

ISBN: 3641112702

Category: Business & Economics

Page: 656

View: 8403

Zuverlässige Vorhersagen sind doch möglich! Nate Silver ist der heimliche Gewinner der amerikanischen Präsidentschaftswahlen 2012: ein begnadeter Statistiker, als »Prognose-Popstar« und »Wundernerd« weltberühmt geworden. Er hat die Wahlergebnisse aller 50 amerikanischen Bundesstaaten absolut exakt vorausgesagt – doch damit nicht genug: Jetzt zeigt Nate Silver, wie seine Prognosen in Zukunft Terroranschläge, Umweltkatastrophen und Finanzkrisen verhindern sollen. Gelingt ihm die Abschaffung des Zufalls? Warum werden Wettervorhersagen immer besser, während die Terrorattacken vom 11.09.2001 niemand kommen sah? Warum erkennen Ökonomen eine globale Finanzkrise nicht einmal dann, wenn diese bereits begonnen hat? Das Problem ist nicht der Mangel an Informationen, sondern dass wir die verfügbaren Daten nicht richtig deuten. Zuverlässige Prognosen aber würden uns helfen, Zufälle und Ungewissheiten abzuwehren und unser Schicksal selbst zu bestimmen. Nate Silver zeigt, dass und wie das geht. Erstmals wendet er seine Wahrscheinlichkeitsrechnung nicht nur auf Wahlprognosen an, sondern auf die großen Probleme unserer Zeit: die Finanzmärkte, Ratingagenturen, Epidemien, Erdbeben, den Klimawandel, den Terrorismus. In all diesen Fällen gibt es zahlreiche Prognosen von Experten, die er überprüft – und erklärt, warum sie meist falsch sind. Gleichzeitig schildert er, wie es gelingen kann, im Rauschen der Daten die wesentlichen Informationen herauszufiltern. Ein unterhaltsamer und spannender Augenöffner!

Menschheit 2.0

Die Singularität naht

Author: Ray Kurzweil

Publisher: Lola Books

ISBN: 3944203135

Category: Technology & Engineering

Page: 672

View: 7048

Das Jahr 2045 markiert einen historischen Meilenstein: Es ist das Jahr, in dem der Mensch seine biologischen Begrenzungen mithilfe der Technik überwinden wird. Diese als technologische Singularität bekannt gewordene Revolution wird die Menschheit für immer verändern. Googles Chefingenieur Ray Kurzweil, dessen wahnwitzigen Visionen in den vergangenen Jahrzehnten immer wieder genau ins Schwarze trafen, zeichnet in diesem Klassiker des Transhumanismus mit beispielloser Detailwut eine bunt schillernde Momentaufnahme der technischen Evolution und legt dar, weshalb diese so bald kein Ende finden, sondern im Gegenteil immer weiter an Dynamik gewinnen wird. Daraus ergibt sich eine ebenso faszinierende wie schockierende Vision für die Zukunft der Menschheit.

Large Scale Machine Learning with Spark

Author: Md. Rezaul Karim,Md. Mahedi Kaysar

Publisher: Packt Publishing Ltd

ISBN: 1785883712

Category: Computers

Page: 476

View: 6018

Discover everything you need to build robust machine learning applications with Spark 2.0 About This Book Get the most up-to-date book on the market that focuses on design, engineering, and scalable solutions in machine learning with Spark 2.0.0 Use Spark's machine learning library in a big data environment You will learn how to develop high-value applications at scale with ease and a develop a personalized design Who This Book Is For This book is for data science engineers and scientists who work with large and complex data sets. You should be familiar with the basics of machine learning concepts, statistics, and computational mathematics. Knowledge of Scala and Java is advisable. What You Will Learn Get solid theoretical understandings of ML algorithms Configure Spark on cluster and cloud infrastructure to develop applications using Scala, Java, Python, and R Scale up ML applications on large cluster or cloud infrastructures Use Spark ML and MLlib to develop ML pipelines with recommendation system, classification, regression, clustering, sentiment analysis, and dimensionality reduction Handle large texts for developing ML applications with strong focus on feature engineering Use Spark Streaming to develop ML applications for real-time streaming Tune ML models with cross-validation, hyperparameters tuning and train split Enhance ML models to make them adaptable for new data in dynamic and incremental environments In Detail Data processing, implementing related algorithms, tuning, scaling up and finally deploying are some crucial steps in the process of optimising any application. Spark is capable of handling large-scale batch and streaming data to figure out when to cache data in memory and processing them up to 100 times faster than Hadoop-based MapReduce. This means predictive analytics can be applied to streaming and batch to develop complete machine learning (ML) applications a lot quicker, making Spark an ideal candidate for large data-intensive applications. This book focuses on design engineering and scalable solutions using ML with Spark. First, you will learn how to install Spark with all new features from the latest Spark 2.0 release. Moving on, you'll explore important concepts such as advanced feature engineering with RDD and Datasets. After studying developing and deploying applications, you will see how to use external libraries with Spark. In summary, you will be able to develop complete and personalised ML applications from data collections,model building, tuning, and scaling up to deploying on a cluster or the cloud. Style and approach This book takes a practical approach where all the topics explained are demonstrated with the help of real-world use cases.

Machine Learning, Optimization, and Big Data

Third International Conference, MOD 2017, Volterra, Italy, September 14–17, 2017, Revised Selected Papers

Author: Giuseppe Nicosia,Panos Pardalos,Giovanni Giuffrida,Renato Umeton

Publisher: Springer

ISBN: 3319729268

Category: Computers

Page: 600

View: 2403

This book constitutes the post-conference proceedings of the Third International Workshop on Machine Learning, Optimization, and Big Data, MOD 2017, held in Volterra, Italy, in September 2017. The 50 full papers presented were carefully reviewed and selected from 126 submissions. The papers cover topics in the field of machine learning, artificial intelligence, computational optimization and data science presenting a substantial array of ideas, technologies, algorithms, methods and applications.