learning di industri digital pengenalan machine

Post on 12-Nov-2021

32 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Pengenalan Machine Learning di Industri DigitalAlim Hanif

Outline

1. Penjelasan tentang Machine Learninga. Overviewb. Pendahuluanc. Modelling

2. Penerapan dalam Industri Digital3. Tips & Triks Mendalami Machine Learning4. Q&A

ML-Overview

Gambaran Khusus dari Machine Learning

sumber gambar: Davinson

Pengertian DasarAI: Sebuah teknik rekayasa komputer untuk meniru pekerjaan manusia

ML: Merupakan bagian dari AI dimana kita menggunakan statistik untuk meningkatkan performa AI itu sendiri

DL: Bagian dari ML, dimana sudah menggunakan statistik yang lebih dalam, yaitu neural network.

sumber: Xaltius [link]

Tipe task/pekerjaan yang dapat dilakukan oleh Machine Learning

Sumber: Shankar

ML- Pendahuluan

Pendahuluan

Metode standard menurut CRISP-DM:

1. Business Understanding2. Data Understanding3. Data Preparation4. Modeling5. Evaluation6. Deployment

sumber : datasciencecentral.com

Business Understanding

Transformasi dari business knowledge menjadi machine learning problem

Poin penting:

1. Identifikasi masalah (business)2. Menentukan machine learning problem (i.e. supervise/unsupervised)

a. Memilih metode yang cocok dengan masalah tersebut [research/reading research paper]b. Tentukan parameter keberhasilan (online metrics/offline metrics)c. Kebutuhan data

Data Understanding

Menentukan dan memahami data yang diperlukan untuk menyelesaikan masalah

Poin penting:

1. Mengambil data dari sumbernya2. Mencari insight dari data (Exploratory Data Analysis)

a. Tipe datab. Central Tendency (mean, median, mode)c. Skewnessd. dll.

Data Preparation

Semua aktivitas untuk mempersiapkan data sehingga data siap dikonsumsi oleh model

Poin penting:

1. Data Gathering (Mengambil data dari sumbernya)2. Data Cleansing (handle outlier dan null value)3. Feature Engineering (transform, encode, etc)4. Feature Selection (uji korelasi)5. [optional] Normalisasi data6. Split Train Test data (Prinsip Pareto: 80/20)

ML-Modelling

Unsupervised Learning: Clustering

Algoritma yang sering dipakai:

1. Hierarchical Clustering2. K-Means (selain itu bisa juga K-Modes dan K-Median)3. DBscan4. dll.

Unsupervised Learning

Hierarchical Clustering

Bagian penting:

1. Dendogram2. Teknik:

a. Agglomerativeb. Divisive

Sumber gambar: University of Cincinnati

Unsupervised Learning

K-Means

Bagian penting:

1. Centroid2. Jumlah K

Evaluasi: Silhouette score

Sumber gambar: Google Developer

Supervised Learning: Clustering

Algoritma dalam regresi (estimasi nilai):

1. Regresi Linear2. Tree-based Model

Algoritma dalam klasifikasi:

1. Regresi Logistik2. Tree-based model

Supervised Learning

Regresi Linier

Asumsi:

1. Linieritas2. Normalitas Residual3. Non Outlier4. Homoskedastisitas5. Non Multikolinearitas6. Non Autokorelasi

Sumber gambar: Tran, H

sumber: statistikian.com

Supervised Learning

Regresi Logistic

Asumsi:

1. Target (variable dependen) harus dikotom (tinggi vs rendah, berat vs ringan, dst)

Sumber gambar: javapoint.com

sumber: statistikian.com

Supervised Learning

Decision Tree (Tree-based model)

Sumber gambar: synergy37AI

Supervised Learning

Random Forest (decision Tree)

Catatan:

- Urutan node decision berbeda untuk tiap `tree` nya

Sumber gambar: mygreatlearning.com

Evaluasi Model

Evaluasi

Evaluasi dalam masalah klasifikasi (supervised learning)

Sumber gambar: chemicalstatistician

Penerapan ML dalam industri digital

Beberapa contoh task dalam industri digital

1. Fraud Detection: Mendeteksi kecurangan. [5 Top Startup yang menyediakan jasa ini]

2. Chatbot: klasifikasi masalah pada user. kata.ai menyediakan service ini3. Cluster Lokasi Driver Go-Jek: [sumber]

Tips & Tricks belajar MLHarus belajar dari mana ya? kemana? dan dengan siapa?

Skill yang perlu dipelajari

1. Pemahaman statistik dasara. Metode kuantitatif (regresi linear, logistic)b. Clustering (K-means, DBscan), Classification (K-NN)c. [Better to learn] Tree Algorithm: decision tree, random forest dst

2. Programming Skill a. Python atau Rb. Jupyter Notebook [Better to learn]

3. Problem Solving

Belajar dimana?

1. Pemahaman statistik dasar -> perkuliahan, platform online (misal udemy, coursera, web/artikel, dll)

2. Programming Skill (Python atau R) -> perkuliahan, platform online (misalnya udemy, coursera, web/artikel, code-academy, dll)

3. Problem Solving -> perkuliahan (skripsi/ penelitian lain), platform online (misalnya Kaggle). contoh: Klasifikasi Pendapatan [Kaggle]

Sekian Terimakasihask me on: alimlinux@gmail.com

top related