3. Bố cục luận văn
2.2. Phương pháp Nạve Bayes
Bộ phân lớp quan điểm Nạve Bayes [7] được xây dựng dựa trên lý thuyết Bayes về xác suất cĩ điều kiện để phân lớp quan điểm:
(2.1) Mục tiêu là tìm được phân lớp c sao cho P(c|d) là lớn nhất hay xác suất của tài liệu d thuộc lớp c là lớn nhất.
Ta cĩ thể nhận thấy từ cơng thức trên P(d) khơng đĩng vai trị gì trong việc quyết định phân lớp c P(c|d) lớn nhất ⟺ P(c).P(d|c) lớn nhất.
Để cĩ thể xấp xỉ giá trị của P(d|c), thuật tốn Nạve Bayes giả sử rằng: các vector đặc trưng fi của một tài liệu khi đã biết phân lớp là độc lập với nhau. Từ đĩ ta cĩ cơng thức:
(2.2) Trong đĩ f là các vector đặc trưng cho tài liệu d.
Khi tiến hành huấn luyện, thuật tốn sử dụng phương pháp xấp xỉ hợp lý cực đại MLE (Maximum Likelihood Estimation) để xấp xỉ P(c) và P(fi|c) cùng thuật tốn làm mịn add-one (add-one smoothing). Ta cĩ:
(2.3) Trong đĩ Nc là số văn bản được phân loại vào lớp c; N là tổng số văn bản trong tập huấn luyện.
(2.4) Trong đĩ Ncfi là số lần xuất hiện của vector đặc trưng i trong tài liệu thuộc phân lớp c.
Đánh giá bộ phân lớp sử dụng thuật tốn Naive Bayes, ta nhận thấy:
Ưu điểm: Đơn giản, dễ cài đặt, bộ phân lớp chạy nhanh và cần ít bộ nhớ
Nhược điểm: Các đặc trưng đầu vào phải độc lập, điều này khĩ xảy ra trong thực tế làm giảm chất lượng của mơ hình.
Trong nhiều bài tốn cịn phụ thuộc vào dữ liệu để lựa chọn các mơ hình Naive Bayes. Bao gồm 3 mơ hình được đưa ra dưới đây:
o Gaussian : Mơ hình Gaussian giả định rằng các đối tượng địa lý tuân theo
phân phối chuẩn. Điều này cĩ nghĩa là nếu các bộ dự đốn nhận các giá trị liên tục thay vì rời rạc, thì mơ hình giả định rằng các giá trị này được lấy mẫu từ phân phối Gaussian.
o Multiomial : Bộ phân lớp Nạve Bayes đa lớp được sử dụng khi dữ liệu
được phân phối đa lớp. Nĩ chủ yếu được sử dụng cho các vấn đề phân lớp tài liệu, nĩ cĩ nghĩa là một tài liệu cụ thể thuộc về danh mục nào như tích cực, tiêu cực, rất tích cực, tiêu cực hoặc trung tính. Trình phân lớp sử dụng tần suất từ cho các yếu tố dự đốn.
o Bernoulli : Bộ phân lớp Bernoulli hoạt động tương tự như bộ phân lớp Đa
thức, nhưng các biến dự báo là các biến Booleans độc lập. Chẳng hạn như nếu một từ cụ thể cĩ trong tài liệu hay khơng. Mơ hình này cũng nổi tiếng với các nhiệm vụ phân lớp tài liệu.