Một số phương pháp khác

Một phần của tài liệu phân lớp câu hỏi tìm kiếm ngữ nghĩa tiếng Việt trong lĩnh vực y tế (Trang 35 - 36)

Ngồi SVM và K láng giềng gần nhất, trong bài tốn phân lớp câu hỏi một số phương pháp khác được giới thiệu ở [42] như:

•Thuật tốn Nạve Bayes (NB) [32]là một thuật tốn phổ biến trong học máy. Được McCallum [22] và Yang [41] đánh giá là một trong những phương pháp cĩ hiệu năng cao nhất khi thực hiện phân lớp văn bản. Tư tưởng chủ đạo của thuật tốn Nạve Bayes là ước lượng các thơng số của đa thức sinh cho của thể hiện (văn bản, câu …). Sau đĩ lựa chọn lớp thích hợp nhất cho từng thể hiện dựa vào các luật Bayes và giả thiết Bayes (giả thiết độc lập - sự xuất hiện của đặc trưng này là tự nhiên, khơng phụ thuộc vào sự xuất hiện các đặc trưng khác)

•Thuật tốn cây quyết định (Decision Tree –DT) [32] là phương pháp xấp xỉ giá trị các hàm mục tiêu rời rạc. Trong đĩ, hàm học của phương pháp này là một cây cĩ bậc tùy ý. Cây quyết định bao gồm các lá và nhánh, mỗi là là đại diện cho một lớp và các nhánh là các điều kiện, đặc trưng dẫn đến lớp ở đỉnh lá.

•Thuật tốn Mạng lọc thưa (Sparse Network of Winnows -SNoW) [6] được thiết kế

để học trên những tập dữ liệu cĩ số lượng đặc trưng lớn. Được sử dụng rộng rãi

trong các bài tốn phân lớp đa lớp. SNoW là một mạng thưa dùng các hàm tuyến tính là các bộ lọc để cập nhật tập luật. Phương pháp này thích hợp cho học trong miền khi các đặc trưng tiềm năng tạo các quyết định sai khác nhau mà khơng biết mức độ ưu tiên.

•Bộ phân lớp dựa trên thuật tốn K người láng giềng gần nhất là một bộ phân lớp dựa trên bộ nhớ, đơn giản vì nĩ được xây dựng bằng cách lưu trữ tất cả các đối tượng trong tập huấn luyện. Để phân lớp cho một điểm dữ liệu mới x, trước hết bộ phân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấn luyện. Qua đĩ tìm được tập N(x, D, k) gồm k điểm dữ liệu mẫu cĩ khoảng cách đến

x là gần nhất. Ví dụ nếu các dữ liệu mẫu được biểu diễn bởi khơng gian vector thì chúng ta cĩ thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau. Sau khi xác định được tập N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong tập N(x, D, k). Mặc dù rất đơn giản, nhưng thuật tốn K người láng giềng gần nhất đã cho kết quả tốt trong nhiều ứng dụng thực tế.

Để áp dụng thuật tốn k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng

số cho mỗi lớp theo biểu thức (1.1) (Trong cơng thức, Nc(x,D,k) là tập con chỉ chứa các đối tượng thuộc lớp c của tập):

( ) ( ) ∑ ∈ = k D, x, Nc x' ) x' cos(x, x | c Score (1.1)

Khi đĩ tài liệu x sẽ được phân vào lớp c0 nếu:

(c |x) Max{score( )c|x ,c C}

Một phần của tài liệu phân lớp câu hỏi tìm kiếm ngữ nghĩa tiếng Việt trong lĩnh vực y tế (Trang 35 - 36)