.4 Khái quát mộ tố phương pháp phân lớp văn bản
.4.1 Phân lớp da trên luật
Ý tưởng: Mỗi luật phân lớp ẽ được định nghĩa như au:
r: (điều kiện) → y
Tập các luật R = {r1, r2, r3… rn} V dụ:
Cho luật: r : (Age < 35) ∧ tatu = Married → Cheat=No Cho các thể hiện của đối tượng dưới đây:
x1 : (Age=29, Status=Married, Refund=No) x2 : (Age=28, Status=Single, Refund=Yes) x3 : (Age=38, Status=Divorced, Refund=No) => Ta thấy chỉ x1 l phù hợp với luật đưa ra
Đặc điểm:
Một ố trường hợp lưu khi ử dụng luật
- Luật cĩ thể khơng loại trừ lẫn nhau (nghĩa l nhiều hơn một luật cho ta cùng kết quả).
- Tránh tạo ra các luật trồng chéo nhau - Đưa ra luật cĩ thứ t ưu tiên để th c hiện
Ưu nhược điểm:
ướng tiếp cận d a trên luật yêu cầu phải cĩ các chuyên gia ngơn ngữ cung cấp các luật, các biểu thức chính quy regural expre ion , các từ khĩa, đặc trưng….cho từng lớp. Các hạn chế của hướng tiếp cận n y là:
Xây d ng mơ hình cho phương pháp n y rất tốn thời gian v cơng ức, cần cĩ cộng tác của nhiều chuyên gia trong lĩnh v c ngơn ngữ học khi xây d ng các mẫu câu v văn phạm cho từng loại câu đĩ.
Các luật ngữ pháp viết tay v văn phạm của từng loại câu rất cứng nhắc, khơng linh động. Khi một dạng câu mới xuất hiện, mơ hình theo hướng n y khơng thể xử l được. Muốn xử l được mơ hình cần phải được cung cấp những luật mới. Vấn đề nhập nhằng của các văn phạm ngữ pháp rất khĩ xử l , kiểm ốt v phụ thuộc v o đặc điểm của từng ngơn ngữ.
Áp dụng:
Năm 005, Wiebe v Riloff ử dụng các mẫu đã được phát hiện v ử dụng một phương pháp d a trên luật để tạo dữ liệu huấn luyện cho phân lớp chủ quan.
Bộ phân lớp chủ quan d a trên luật phân lớp một câu l chủ quan nếu nĩ cĩ chứa hai hoặc nhiều hơn các đầu mối chủ quan nếu khơng, nĩ khơng ghi nhãn câu . Ngược lại, việc phân lớp cho câu khách quan d a trên nguyên tắc nếu câu khơng cĩ đầu mối chủ quan mạnh trong câu, v một ố điều kiện khác.
Pang, Lee, và Vaithyanathan đã áp dụng các phương pháp học máy để phân lớp quan điểm cho một t i liệu. Các phương pháp họ đã ử dụng như: Nạve Baye , Maximum Entropy, v VM, v thường ử dụng khung túi đặc trưng chuẩn tandard bag-of-features framework để th c hiện các thuật tốn học máy liên quan đến các b i tốn về phân lớp quan điểm. Qua một ố những th c nghiệm về phân lớp quan điểm, Pang v Lee đã cải tiến bằng cách loại bỏ những câu khách quan. ọ đã phát triển một bộ phát hiện chủ quan cĩ thể xác định xem câu l chủ quan hay khơng. au đĩ, họ loại bỏ những câu khách quan trước khi tiếp tục việc th c hiện phân lớp quan điểm [20].
2.4.2.Phân lớp s dụng các phương pháp học máy cĩ giám sát
ầu hết các phương pháp hiện cĩ để phân lớp chủ quan d a trên học máy cĩ giám sát.
Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp chủ quan ử dụng bộ phân lớp Bayes với một tập các đặc trưng nhị phân, như: hiện diện của một đại danh từ, tính từ,…trong câu.
Một trong những khĩ khăn của việc áp dụng học máy cĩ giám sát là xây dựng bộ dữ liệu huấn luyện với số lượng lớn.
Năm 003, để tiết kiệm cơng ức gán nhãn bằng tay một cách hiệu quả, Riloff và Wiebe đã đề xuất một thuật tốn boot trapping để gán nhãn dữ liệu huấn luyện t động.
Thuật tốn hoạt động bằng cách: đầu tiên ử dụng hai phân lớp cĩ độ chính xác cao (HP-SUBJ và HP-Obj để t động xác định một ố câu l chủ quan v khách quan. Bộ phân lớp cĩ độ chính xác cao ử dụng danh ách các từ ngữ các từ đơn hay n-gram) là đầu mối tốt nhất.
- HP- UBJ phân loại một câu l chủ quan nếu nĩ chứa hai hoặc nhiều hơn những đầu mối chủ quan mạnh.
- HP-Obj phân loại một câu l khách quan nếu khơng chứa bất kỳ đầu mối chủ quan mạnh n o.
Các bộ phân lớp ẽ cho độ chính xác rất cao v độ hồi tưởng thấp. Các câu trích chọn au đĩ được thêm v o tập dữ liệu huấn luyện để học mẫu. Các mẫu nhận được ử dụng để t động xác định câu chủ quan v khách quan, au đĩ được thêm v o tập huấn luyện, v lặp lại cho các bước tiếp theo của thuật tốn.
Đối với việc học mẫu, một tập hợp các mẫu cú pháp được cung cấp để hạn chế các loại mẫu được học. Một ố ví dụ mẫu cú pháp v mẫu ví dụ trong tiếng Anh được trình b y trong bảng dưới đây.
Mẫu cú pháp Mẫu ví dụ
<subj> passive-verb <subj> was satisfied <subj> active-verb <subj> complained active-verb <dobj> endorsed <dobj> noun aux <dobj> fact is <dobj>
passive-verb prep <np> was worried about <np>
Bảng 2.1: Các mẫu cú pháp v ví dụ trong tiếng Anh
2.4.2.1.Phân lớp d a trên cây quyết định
Cây quyết định được coi l cơng cụ mạnh, phổ biến v thích hợp với các ứng dụng khai phá dữ liệu. ai thuật tốn d a trên cây quyết định điển hình áp dụng cho hai phạm vi ứng dụng khác nhau l C4.5 v PRINT. Với các chiến lược riêng về l a chọn thuộc tính phát triển, cách thức lưu trữ phân chia dữ liệu, v một ố đặc điểm khác, C4.5 l thuật tốn phổ biến nhất khi phân lớp tập dữ liệu vừa v nhỏ, PRINT l thuật tốn tiêu biểu áp dụng cho những tập dữ liệu cĩ kích thước c c lớn [5].
Cây quyết định là cấu trúc biểu diễn dưới dạng cây. Trong đĩ, mỗi nút trong (internal node) biểu diễn một thuộc t nh, nhánh (branch) biểu diễn giá trị cĩ thể cĩ của thuộc t nh, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc.
Cây quyết định cĩ thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây v di chuyển theo nhánh cho đến khi gặp nút lá. Trên cơ ở phân lớp n y chúng ta cĩ thể chuyển đổi về các luật quyết định.
V dụ:
Thời tiết Nhiệt độ Độ ẩm Giĩ Chơi Nắng Nĩng Cao Nhẹ Khơng Nắng Nĩng Cao Mạnh Khơng Âm u Nĩng Cao Nhẹ Cĩ Mưa Ấm áp Cao Mạnh Cĩ Mưa Mát Trung bình Nhẹ Cĩ Mưa Mát Trung bình Nhẹ Khơng Âm u Mát Trung bình Mạnh Cĩ
Bảng 2.2: Dữ liệu huấn luyện sử dụng cho cây quyết định
Các thuật tốn xây d ng một cây ẽ d đốn giá trị của một cột d a trên các cột cịn lại trong tập huấn luyện. Do đĩ, mỗi nút trong cây đại diện cho một trường hợp cụ thể cho một cột. Quyết định về nơi đặt nút n y được th c hiện bởi các thuật tốn, v một nút ở độ âu khác nhau hơn o với anh chị em của nĩ cĩ thể đại diện cho các trường hợp khác nhau của mỗi cột. Cây quyết định l biểu đồ phát triển cĩ cấu trúc dạng cây, như mơ tả trong hình vẽ au:
nh 2.3: Ví dụ về cây quyết định
Trong cây quyết định:
• Gốc: l node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn hình chữ nhật • Nhánh: biểu diễn các kết quả của kiểm tra trên node trong mũi tên
• Node lá: biểu diễn lớp hay phân phối lớp hình trịn
Ưu nhược điểm:
o ánh với một ố phương pháp khác, cây quyết định cĩ một ố ưu điểm:
- Cây quyết định dễ hiểu, người ta cĩ thể hiểu mơ hình cây quyết định au khi được giải thích ngắn gọn.
- Việc chuẩn bị dữ liệu cho cây quyết định l cơ bản v khơng cần thiết. Trong khi các kỹ thuật khác thường địi hỏi phải chuẩn hĩa dữ liệu, tạo các biến phụ hoặc loại bỏ các giá trị rỗng.
- Cây quyết định cĩ thể xử l được giá trị bằng ố hoặc tên thể loại.
ạn chế của cây quyết định khơng thích hợp cho những b i tốn với mục tiêu l d đốn giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi xuất ngân h ng… Cây quyết định cũng khĩ giải quyết với những dữ liệu thời gian liên tục nếu khơng bỏ ra nhiều cơng ức cho việc đặt ra biểu diễn dữ liệu theo các mẫu liên tục [5].
2.4.2.2.Phân lớp sử dụng Nạve Bayes
Bộ phân lớp Nạve Baye NB l phương pháp phân loại d a v o xác uất được ử dụng rộng rãi trong lĩnh v c máy học [Mitchell, 1996] [Joachim , 1997] [Ja on, 001], được ử dụng lần đầu tiên trong lĩnh v c phân loại bởi Maron v o năm 1961 au đĩ trở nên phổ biến dùng trong nhiều lĩnh v c như trong các cơng cụ tìm kiếm [Rij bergen et al, 1970], các bộ lọc email [ ahami et al, 1998]…
Ý tưởng:
Bộ phân lớp Naive Bayes cịn được gọi là phân lớp xác suất đơn giản dựa trên định lý Bayes với giả định các đặc trưng là độc lập với nhau.
Bộ phân lớp Naive Bayes phù hợp với b i tốn khi ố chiều của các yếu tố đầu v o l cao. Mặc dù tính đơn giản của nĩ, nhưng Naive Baye thường cĩ thể đem lại hiệu quả tốt hơn o với các phương pháp phân loại phức tạp hơn [20].
nh 2.4: Mơ h nh phân lớp sử dụng bộ phân lớp Naive Bayes
Bộ phân lớp Naive Baye được đơn giản hĩa bằng việc giả định rằng các đặc trưng l độc lập. Mặc dù việc giả định n y l khơng đúng ho n to n, trong th c tế bộ phân lớp Naive Baye hoạt động khá tốt o với các bộ phân lớp phức tạp khác.
Thuật tốn:
Nạve Baye d a trên định l Baye được phát biểu như au:
Áp dụng trong bài tốn phân lớp, các dữ kiện gồm cĩ:
D: tập dữ liệu huấn luyện đã được vector hĩa dưới dạng
xk là giá trị của đặc trưng, n là số lượng đặc trưng. Ci: phân lớp i, với i = {1, 2…, m}.
Các thuộc tính độc lập điều kiện đơi một với nhau.
Theo định l Baye :
Theo tính chất xác suất độc lập cĩ điều kiện:
Trong đĩ:
là xác suất thuộc phân lớp i khi biết trước mẫu X.
xác suất là phân lớp i.
xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp
i.
Áp dụng hai cơng thức trên ta uy ra:
Ta cần xác định ao cho xác uất n y lớn nhất nghĩa l :
Các bước thực hiện:
Bước 1: Huấn luyện Nạve Bayes d a vào tập dữ liệu huấn luyện, tính các xác suất
và
Bước 2: Phân lớp ∈ T (tập dữ liệu Test), ta cần tính xác suất thuộc từng phân lớp khi đã biết trước Xnew. Xnew được gán vào lớp cĩ xác suất lớn nhất theo cơng thức:
∈
Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện của các từ để dự đốn xác suất lớp văn bản chủ quan hoặc khách quan của một bình luận cần phân loại.
Điểm quan trọng của phương pháp n y chính l ở chỗ giả định rằng xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau. Giả định đĩ l m cho việc tính tốn NB hiệu quả v nhanh chĩng hơn các phương pháp khác vì khơng ử dụng việc kết hợp các từ để đưa ra phán đốn lớp. Kết quả d đốn ẽ bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượng của khơng gian đặc trưng…
Cài đặt thuật tốn:
Mơ tả vector đặc trưng của bình luận: L vector cĩ ố chiều l ố đặc trưng trong to n tập dữ liệu, các đặc trưng n y đơi một khác nhau. Nếu văn bản cĩ chứa đặc trưng đĩ ẽ cĩ giá trị 1, ngược lại l 0.
Thuật tốn gồm giai đoạn huấn luyện v phân lớp:
Bước 1: Huấn luyện: tính và
Đầu v o:
Các vector đặc trưng của văn bản trong tập huấn luyện Ma trận MxN, với M l ố vector đặc trưng trong tập huấn luyện, N l ố đặc trưng của vector .
Tập nhãn/lớp cho từng vector đặc trưng của tập huấn luyện. Đầu ra:
Các giá trị xác uất và . Cơng thức tính đã l m trơn Laplace
Trong đĩ:
|doc i|: ố văn bản của tập huấn luyện thuộc phân lớp i.
|total doc |: ố văn bản trong tập huấn luyện.
m ố phân lớp Các bước c i đặt:
Khởi tạo mảng A, B cĩ kích thước m.
Duyệt qua các văn bản trong tập dữ liệu, đếm ố văn bản trong mỗi phân lớp lưu v o A.
Tính xác uất cho từng phân lớp theo cơng thức trên v lưu v o mảng B. Cơng thức tính đã l m trơn Laplace:
Trong đĩ:
: ố văn bản trong trong phân lớp i cĩ đặc trưng thứ k mang giá trị xk. hay ố văn bản trong lớp i, cĩ xuất hiện/khơng xuất hiện đặc trưng k
: ố văn bản của tập huấn luyện thuộc phân lớp i.
ố giá trị cĩ thể cĩ của đặc trưng thứ k
Với vector đặc trưng như mơ tả bên trên, dk ở đây mang giá trị l , tương ứng với xuất hiện v khơng xuất hiện. Do chỉ cĩ giá trị, ta cĩ thể tính nhanh xác uất khơng xuất hiện theo cơng thức
Khởi tạo mảng 3 chiều C, chiều 1 cĩ kích thước l m ố phân lớp , chiều cĩ kích thước l N ố đặc trưng , chiều 3 cĩ kích l dk để lưu các giá trị
.
Duyệt qua các văn bản trong tập dữ liệu, tiến h nh thống kê các chỉ ố cần thiết để tính xác uất theo cơng thức trên v lưu v o mảng C.
Bước : Phân lớp Đầu v o:
Vector đặc trưng của văn bản cần phân lớp.
Các giá trị xác uất và . Đầu ra:
Nhãn/lớp của văn bản cần phân loại.
Cơng thức tính xác uất thuộc phân lớp i khi biết trước mẫu X
D a v o vector đặc trưng của văn bản cần phân lớp, áp dụng cơng thức trên tính xác uất thuộc từng phân lớp cho văn bản, v chọn ra lớp cĩ xác uất cao nhất.
Áp dụng:
Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp ử dụng bộ phân lớp Nạve Baye với một tập hợp các đặc trưng nhị phân (ví dụ như, xuất hiện trong câu của một danh từ, tính từ, một ố từ chỉ ố lượng,...)
Năm 003, Yu atziva iloglou th c hiện phân lớp chủ quan ử dụng câu tương t v một bộ phân lớp Baye . Phương pháp câu tương t d a trên giả định rằng câu chủ quan hay quan điểm l tương t với câu chứa quan điểm hơn l câu khách quan, câu th c tế. ọ ử dụng hệ thống IM INDER để đo độ tương t của câu d a trên những từ, cụm từ dùng chung, v yn et WordNet. Đối với bộ phân lớp Baye , họ ử dụng các đặc trưng như, từ unigram , bigram , trigram , phân loại từ v ng, hiện diện của những từ tình cảm, các chỉ ố phân c c hay định hướng của tần uất các từ tình cảm ví dụ, "++" cho hai từ định hướng tích c c liên tiếp , v ố lượng của các từ loại kết hợp với các thơng tin tình cảm ví dụ, "JJ +" cho tính từ tích c c , cùng với các đặc trưng mã hĩa tình cảm nếu cĩ của động từ đầu tiên, các chủ đề chính. Cơng việc n y áp dụng cho cả việc phân lớp một câu chủ quan l tích c c hay tiêu c c.
2.4.2.3.Phân lớp sử dụng MEM
Đối với b i tốn phân lớp dữ liệu, Entropy c c đại l một kỹ thuật dùng để ước lượng xác uất các phân phối từ dữ liệu.
Ý tưởng:
Tư tưởng chủ đạo của nguyên l Entropy c c đại l :
“mơ hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt được độ cân bằng đều nhất cĩ thể ” – cĩ Entropy c c đại .
Tập dữ liệu huấn luyện được ử dụng để tìm ra các r ng buộc cho mơ hình - l cơ ở để ước lượng phân phối cho từng lớp cụ thể. Những r ng buộc n y được thể hiện bởi các giá trị ước lượng được của các đặc trưng. Từ các r ng buộc inh ra bởi tập dữ liệu n y,