Các thuật tốn học cĩ giám sát khác

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm (Trang 26 - 27)

2.2. Các thuật tốn học cĩ giám sát

2.2.4. Các thuật tốn học cĩ giám sát khác

Bên cạnh SVM, cịn một số phƣơng pháp khác nhƣ: a. Thuật tốn Nạve Bayes (NB)

Là một thuật tốn phổ biến trong học máy dựa trên lý thuyết xác suất thống kê. Tƣ tƣởng chủ đạo của thuật tốn Nạve Bayes là ƣớc lƣợng các thơng số của đa thức sinh cho của thể hiện (văn bản, câu …). Sau đĩ lựa chọn lớp thích hợp nhất cho từng thể hiện dựa vào các luật Bayes và giả thiết Bayes.

b. Thuật tốn cây quyết định (Decision Tree –DT)

Là phƣơng pháp xấp xỉ giá trị các hàm mục tiêu rời rạc. Trong đĩ, hàm học của phƣơng pháp này là một cây cĩ bậc tùy ý. Cây quyết định bao gồm các lá và nhánh, mỗi lá là đại diện cho một lớp và các nhánh là các điều kiện, đặc trƣng dẫn đến lớp ở đỉnh lá.

c. Bộ phân lớp dựa trên thuật tốn K ngƣời láng giềng gần nhất (k-NN) Là một bộ phân lớp dựa trên bộ nhớ, đơn giản vì nĩ đƣợc xây dựng bằng cách lƣu trữ tất cả các đối tƣợng trong tập huấn luyện. Để phân lớp cho một điểm dữ liệu mới x, trƣớc hết bộ phân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấn luyện. Qua đĩ tìm đƣợc tập N(x, D, k) gồm k

điểm dữ liệu mẫu cĩ khoảng cách đến x là gần nhất. Ví dụ nếu các dữ liệu mẫu đƣợc biểu diễn bởi khơng gian vector thì chúng ta cĩ thể sử dụng khoảng cách

Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau. Sau khi xác định đƣợc tập N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong tập N(x, D, k).

Mặc dù rất đơn giản, nhƣng thuật tốn K ngƣời láng giềng gần nhất đã cho kết quả tốt trong nhiều ứng dụng thực tế. Để áp dụng thuật tốn k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng số cho mỗi lớp theo biểu thức:

( | ) ∑ ( )

( )

Trong đĩ ( ) là tập con chỉ chứa chứa các đối tƣợng thuộc lớp c của tập.

Khi đĩ tài liệu x sẽ đƣợc phân vào lớp c0 nếu:

( | )

( | )

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm (Trang 26 - 27)