Chương 2: B i toán phân lớp v phân tích quan điểm
2.4. Khái quát một số phương pháp phân lớp văn bản
2.4.2. Phân lớp s dụng các phương pháp học máy có giám sát
2.4.2.2. Phân lớp sử dụng Nạve Bayes
Bộ phân lớp Nạve Baye NB l phương pháp phân loại d a v o xác uất được ử dụng rộng rãi trong lĩnh v c máy học [Mitchell, 1996] [Joachim , 1997] [Ja on, 001], được ử dụng lần đầu tiên trong lĩnh v c phân loại bởi Maron v o năm 1961 au đó trở nên phổ biến dùng trong nhiều lĩnh v c như trong các công cụ tìm kiếm [Rij bergen et al, 1970], các bộ lọc email [ ahami et al, 1998]…
Ý tưởng:
Bộ phân lớp Naive Bayes còn được gọi là phân lớp xác suất đơn giản dựa trên định lý Bayes với giả định các đặc trưng là độc lập với nhau.
Bộ phân lớp Naive Bayes phù hợp với b i toán khi ố chiều của các yếu tố đầu v o l cao. Mặc dù tính đơn giản của nó, nhưng Naive Baye thường có thể đem lại hiệu quả tốt hơn o với các phương pháp phân loại phức tạp hơn [20].
nh 2.4: Mô h nh phân lớp sử dụng bộ phân lớp Naive Bayes
Bộ phân lớp Naive Baye được đơn giản hóa bằng việc giả định rằng các đặc trưng l độc lập. Mặc dù việc giả định n y l không đúng ho n to n, trong th c tế bộ phân lớp Naive Baye hoạt động khá tốt o với các bộ phân lớp phức tạp khác.
Thuật toán:
Nạve Baye d a trên định l Baye được phát biểu như au:
Áp dụng trong bài toán phân lớp, các dữ kiện gồm có:
D: tập dữ liệu huấn luyện đã được vector hóa dưới dạng xk là giá trị của đặc trưng, n là số lượng đặc trưng.
Ci: phân lớp i, với i = {1, 2…, m}.
Các thuộc tính độc lập điều kiện đôi một với nhau.
Theo định l Baye :
Theo tính chất xác suất độc lập có điều kiện:
Trong đó:
là xác suất thuộc phân lớp i khi biết trước mẫu X.
xác suất là phân lớp i.
xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp i.
Áp dụng hai công thức trên ta uy ra:
Ta cần xác định ao cho xác uất n y lớn nhất nghĩa l :
Các bước thực hiện:
Bước 1: Huấn luyện Nạve Bayes d a vào tập dữ liệu huấn luyện, tính các xác suất và
Bước 2: Phân lớp ∈ T (tập dữ liệu Test), ta cần tính xác suất thuộc từng phân lớp khi đã biết trước Xnew. Xnew được gán vào lớp có xác suất lớn nhất theo công thức:
∈
Áp dụng cho bài toán phân lớp văn bản chủ quan và khách quan
Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện của các từ để dự đoán xác suất lớp văn bản chủ quan hoặc khách quan của một bình luận cần phân loại.
Điểm quan trọng của phương pháp n y chính l ở chỗ giả định rằng xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau. Giả định đó l m cho việc tính toán NB hiệu quả v nhanh chóng hơn các phương pháp khác vì không ử dụng việc kết hợp các từ để đưa ra phán đoán lớp. Kết quả d đoán ẽ bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượng của không gian đặc trưng…
Cài đặt thuật toán:
Mô tả vector đặc trưng của bình luận: L vector có ố chiều l ố đặc trưng trong to n tập dữ liệu, các đặc trưng n y đôi một khác nhau. Nếu văn bản có chứa đặc trưng đó ẽ có giá trị 1, ngược lại l 0.
Thuật toán gồm giai đoạn huấn luyện v phân lớp:
Bước 1: Huấn luyện: tính và Đầu v o:
Các vector đặc trưng của văn bản trong tập huấn luyện Ma trận MxN, với M l ố vector đặc trưng trong tập huấn luyện, N l ố đặc trưng của vector .
Tập nhãn/lớp cho từng vector đặc trưng của tập huấn luyện.
Đầu ra:
Các giá trị xác uất và . Công thức tính đã l m trơn Laplace
Trong đó:
|doc i|: ố văn bản của tập huấn luyện thuộc phân lớp i.
|total doc |: ố văn bản trong tập huấn luyện.
m ố phân lớp Các bước c i đặt:
Khởi tạo mảng A, B có kích thước m.
Duyệt qua các văn bản trong tập dữ liệu, đếm ố văn bản trong mỗi phân lớp lưu v o A.
Tính xác uất cho từng phân lớp theo công thức trên v lưu v o mảng B.
Công thức tính đã l m trơn Laplace:
Trong đó:
: ố văn bản trong trong phân lớp i có đặc trưng thứ k mang giá trị xk.
hay ố văn bản trong lớp i, có xuất hiện/không xuất hiện đặc trưng k
: ố văn bản của tập huấn luyện thuộc phân lớp i.
ố giá trị có thể có của đặc trưng thứ k
Với vector đặc trưng như mô tả bên trên, dk ở đây mang giá trị l , tương ứng với xuất hiện v không xuất hiện. Do chỉ có giá trị, ta có thể tính nhanh xác uất không xuất hiện theo công thức
Khởi tạo mảng 3 chiều C, chiều 1 có kích thước l m ố phân lớp , chiều có kích thước l N ố đặc trưng , chiều 3 có kích l dk để lưu các giá trị .
Duyệt qua các văn bản trong tập dữ liệu, tiến h nh thống kê các chỉ ố cần thiết để tính xác uất theo công thức trên v lưu v o mảng C.
Bước : Phân lớp Đầu v o:
Vector đặc trưng của văn bản cần phân lớp.
Các giá trị xác uất và . Đầu ra:
Nhãn/lớp của văn bản cần phân loại.
Công thức tính xác uất thuộc phân lớp i khi biết trước mẫu X
D a v o vector đặc trưng của văn bản cần phân lớp, áp dụng công thức trên tính xác uất thuộc từng phân lớp cho văn bản, v chọn ra lớp có xác uất cao nhất.
Áp dụng:
Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp ử dụng bộ phân lớp Nạve Baye với một tập hợp các đặc trưng nhị phân (ví dụ như, xuất hiện trong câu của một danh từ, tính từ, một ố từ chỉ ố lượng,...)
Năm 003, Yu atziva iloglou th c hiện phân lớp chủ quan ử dụng câu tương t v một bộ phân lớp Baye . Phương pháp câu tương t d a trên giả định rằng câu chủ quan hay quan điểm l tương t với câu chứa quan điểm hơn l câu khách quan, câu th c tế. ọ ử dụng hệ thống IM INDER để đo độ tương t của câu d a trên những từ, cụm từ dùng chung, v yn et WordNet. Đối với bộ phân lớp Baye , họ ử dụng các đặc trưng như, từ unigram , bigram , trigram , phân loại từ v ng, hiện diện của những từ tình cảm, các chỉ ố phân c c hay định hướng của tần uất các từ tình cảm ví dụ, "++" cho hai từ định hướng tích c c liên tiếp , v ố lượng của các từ loại kết hợp với các thông tin tình cảm ví dụ, "JJ +" cho tính từ tích c c , cùng với các đặc trưng mã hóa tình cảm nếu có của động từ đầu tiên, các chủ đề chính. Công việc n y áp dụng cho cả việc phân lớp một câu chủ quan l tích c c hay tiêu c c.