# Gaussian Naive Bayes
Gaussian Naive Bayes (Gaussian NB) adalah sebuah metode klasifikasi yang termasuk dalam keluarga Naive Bayes. Metode ini didasarkan pada Teorema Bayes dengan asumsi bahwa fitur-fitur yang ada dalam dataset adalah independen secara kondisional terhadap kelasnya. Dalam Gaussian NB, diasumsikan bahwa distribusi fitur-fitur numerik atau kontinu mengikuti distribusi Gaussian (distribusi normal).

Gaussian NB cocok digunakan ketika data numerik atau kontinu yang ada dalam dataset mengikuti distribusi Gaussian atau mendekati distribusi Gaussian. Metode ini sering digunakan dalam kasus klasifikasi yang melibatkan data seperti pengenalan pola, klasifikasi teks, atau analisis sentimen.

Dalam proses pelatihan, Gaussian NB mengestimasi parameter-parameter distribusi Gaussian untuk setiap kelas dan menggunakan informasi ini untuk menghitung probabilitas posterior pada tahap prediksi. Dalam klasifikasi biner, Gaussian NB menggunakan aturan probabilitas Bayes untuk memprediksi kelas yang paling mungkin berdasarkan distribusi fitur-fitur.

Meskipun memiliki asumsi yang sederhana tentang independensi fitur, Gaussian NB dapat memberikan performa yang baik dalam banyak kasus, terutama ketika asumsi distribusi Gaussian memenuhi kondisi data.

# GaussianNB dari Data IRIS

mengimpor pustaka NumPy, Matplotlib, dan Pandas. NumPy digunakan untuk komputasi numerik, Matplotlib untuk visualisasi data, dan Pandas untuk manipulasi dan analisis data.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

membaca dataset Iris dari URL yang diberikan dan menyimpannya dalam variabel dataset. Kemudian, atribut-atribut bunga Iris disimpan dalam variabel X, dan label klasifikasinya disimpan dalam variabel y. Akhirnya, lima baris pertama dari dataset dicetak untuk inspeksi awal.

In [2]:
dataset = pd.read_csv('https://raw.githubusercontent.com/mk-gurucharan/Classification/master/IrisDataset.csv')
X = dataset.iloc[:,:4].values
y = dataset['species'].values
dataset.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


menggunakan pustaka scikit-learn (sklearn) untuk membagi dataset menjadi subset data pelatihan dan pengujian, serta melakukan penskalaan fitur

In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [4]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

menggunakan pustaka scikit-learn (sklearn) untuk melatih model klasifikasi Naive Bayes Gaussian pada subset data pelatihan yang telah dipisahkan sebelumnya

In [5]:
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

In [6]:
y_pred = classifier.predict(X_test) 
y_pred

array(['virginica', 'setosa', 'versicolor', 'virginica', 'virginica',
       'virginica', 'versicolor', 'setosa', 'virginica', 'setosa',
       'virginica', 'virginica', 'setosa', 'versicolor', 'virginica',
       'virginica', 'versicolor', 'versicolor', 'versicolor', 'setosa',
       'setosa', 'setosa', 'versicolor', 'setosa', 'virginica', 'setosa',
       'versicolor', 'virginica', 'versicolor', 'versicolor'],
      dtype='<U10')

menggunakan pustaka scikit-learn (sklearn) untuk menghitung matriks kebingungan (confusion matrix) dan akurasi dari model klasifikasi yang telah dilatih

In [7]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
from sklearn.metrics import accuracy_score 
print ("Accuracy : ", accuracy_score(y_test, y_pred))
cm

Accuracy :  0.8666666666666667


array([[9, 0, 0],
       [0, 8, 2],
       [0, 2, 9]], dtype=int64)

In [8]:
df = pd.DataFrame({'Real Values':y_test, 'Predicted Values':y_pred})
df

Unnamed: 0,Real Values,Predicted Values
0,virginica,virginica
1,setosa,setosa
2,versicolor,versicolor
3,virginica,virginica
4,virginica,virginica
5,virginica,virginica
6,versicolor,versicolor
7,setosa,setosa
8,versicolor,virginica
9,setosa,setosa
