Phân lớp l một quá trình đưa một đối tượng dữ liệu v o một hay nhiều lớp cho trước d a trên một mơ hình hoặc thuật tốn phân lớp cùng với một tập dữ liệu đã được gán nhãn từ trước cịn gọi l tập huấn luyện . Quá trình n y cịn được gọi l quá trình gán nhãn dữ liệu.
Nhiệm vụ của bài tốn phân lớp là xây dựng mơ hình, thuật tốn phân lớp sao cho khi cĩ một đối tượng dữ liệu mới vào thì ta biết được đối tượng đĩ thuộc lớp nào.
Phân lớp cĩ thể đưa về các dạng b i tốn như: phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị…
nh 2.1: Ví dụ về bộ phân lớp nhị phân VM
Phân lớp nhị phân
Là bài tốn phân lớp một đối tượng dữ liệu v o một trong hai lớp d a v o việc kiểm tra đối tượng cĩ hay khơng cĩ một ố đặc trưng thỏa mãn điệu kiện phân lớp.
Tương t như b i tốn phân lớp nhị phân ở trên với ố lượng lớp lớn hơn hai. Phân lớp nhị phân được coi là một trường hợp riêng của phân lớp đa lớp. Một cách giải quyết đơn giản l chúng ta cố gắng quy b i tốn phân lớp đa lớp về b i tốn phân lớp nhị phân. Về bản chất, b i tốn phân lớp nhị phân l một trường hợp riêng của phân lớp đa lớp.
Phân lớp đa trị
Mỗi đối tượng dữ liệu trong tập huấn luyện v các đối tượng dữ liệu mới cĩ thể thuộc về một, hai, hay nhiều lớp.
Phân lớp phân cấp
Lớp được phân cĩ thể l cha/con của lớp khác.[2]
2.2.Phân lớp quan điểm
Theo tác giả Bing Liu cĩ ba phương pháp chính để phân lớp quan điểm [20]:
- Phân lớp dựa vào cụm từ thể hiện quan điểm - Phân lớp dựa vào phương pháp phân lớp văn bản - Phân lớp dựa hàm t nh điểm số
Trong luận văn n y ẽ tập trung v o phương pháp phân lớp quan điểm d a v o phương pháp phân lớp văn bản v ẽ trình b y chi tiết ở phần tiếp theo.
2.3.Quá tr nh phân lớp
Quá trình phân lớp dữ liệu thường gồm hai bước:
Bước 1: Xây d ng mơ hình tạo bộ phân lớp . Trong bước n y, mơ hình ẽ được xây d ng d a trên việc phân tích các đối tượng dữ liệu đã được gán nhãn từ trước. Tập các mẫu dữ liệu n y cịn được gọi l tập dữ liệu huấn luyện training data et . Các nhãn lớp của tập dữ liệu huấn luyện được xác định bởi con người trước khi xây d ng mơ hình. Vì vậy, phương pháp n y cịn được gọi l học máy cĩ giám át upervi ed learning .
Bước 2: ử dụng mơ hình đã xây d ng để tiến h nh phân lớp dữ liệu. Chúng ta ử dụng tập dữ liệu kiểm tra te t data et để kiểm tra độ chính xác cũng như hiệu quả của mơ hình. Nếu độ chính xác l chấp nhận được, mơ hình ẽ được áp dụng để xác định nhãn lớp cho các dữ liệu mới trong tương lai.
Về cơ bản, thuật tốn phân lớp l một ánh xạ từ miền dữ liệu cụ thể ang miền giá trị của thuộc tính lớp, d a v o giá trị của các thuộc tính của dữ liệu.
nh 2.2: Ví dụ mơ h nh phân lớp sử dụng học máy cĩ giám sát
2.4.Khái quát một số phương pháp phân lớp văn bản
2.4.1.Phân lớp d a trên luật
Ý tưởng: Mỗi luật phân lớp ẽ được định nghĩa như au:
r: (điều kiện) → y
Tập các luật R = {r1, r2, r3… rn} V dụ:
Cho luật: r : (Age < 35) ∧ tatu = Married → Cheat=No Cho các thể hiện của đối tượng dưới đây:
x1 : (Age=29, Status=Married, Refund=No) x2 : (Age=28, Status=Single, Refund=Yes) x3 : (Age=38, Status=Divorced, Refund=No) => Ta thấy chỉ x1 l phù hợp với luật đưa ra
Đặc điểm:
Một ố trường hợp lưu khi ử dụng luật
- Luật cĩ thể khơng loại trừ lẫn nhau (nghĩa l nhiều hơn một luật cho ta cùng kết quả).
- Tránh tạo ra các luật trồng chéo nhau - Đưa ra luật cĩ thứ t ưu tiên để th c hiện
Ưu nhược điểm:
ướng tiếp cận d a trên luật yêu cầu phải cĩ các chuyên gia ngơn ngữ cung cấp các luật, các biểu thức chính quy regural expre ion , các từ khĩa, đặc trưng….cho từng lớp. Các hạn chế của hướng tiếp cận n y là:
Xây d ng mơ hình cho phương pháp n y rất tốn thời gian v cơng ức, cần cĩ cộng tác của nhiều chuyên gia trong lĩnh v c ngơn ngữ học khi xây d ng các mẫu câu v văn phạm cho từng loại câu đĩ.
Các luật ngữ pháp viết tay v văn phạm của từng loại câu rất cứng nhắc, khơng linh động. Khi một dạng câu mới xuất hiện, mơ hình theo hướng n y khơng thể xử l được. Muốn xử l được mơ hình cần phải được cung cấp những luật mới. Vấn đề nhập nhằng của các văn phạm ngữ pháp rất khĩ xử l , kiểm ốt v phụ thuộc v o đặc điểm của từng ngơn ngữ.
Áp dụng:
Năm 005, Wiebe v Riloff ử dụng các mẫu đã được phát hiện v ử dụng một phương pháp d a trên luật để tạo dữ liệu huấn luyện cho phân lớp chủ quan.
Bộ phân lớp chủ quan d a trên luật phân lớp một câu l chủ quan nếu nĩ cĩ chứa hai hoặc nhiều hơn các đầu mối chủ quan nếu khơng, nĩ khơng ghi nhãn câu . Ngược lại, việc phân lớp cho câu khách quan d a trên nguyên tắc nếu câu khơng cĩ đầu mối chủ quan mạnh trong câu, v một ố điều kiện khác.
Pang, Lee, và Vaithyanathan đã áp dụng các phương pháp học máy để phân lớp quan điểm cho một t i liệu. Các phương pháp họ đã ử dụng như: Nạve Baye , Maximum Entropy, v VM, v thường ử dụng khung túi đặc trưng chuẩn tandard bag-of-features framework để th c hiện các thuật tốn học máy liên quan đến các b i tốn về phân lớp quan điểm. Qua một ố những th c nghiệm về phân lớp quan điểm, Pang v Lee đã cải tiến bằng cách loại bỏ những câu khách quan. ọ đã phát triển một bộ phát hiện chủ quan cĩ thể xác định xem câu l chủ quan hay khơng. au đĩ, họ loại bỏ những câu khách quan trước khi tiếp tục việc th c hiện phân lớp quan điểm [20].
2.4.2.Phân lớp s dụng các phương pháp học máy cĩ giám sát
ầu hết các phương pháp hiện cĩ để phân lớp chủ quan d a trên học máy cĩ giám sát.
Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp chủ quan ử dụng bộ phân lớp Bayes với một tập các đặc trưng nhị phân, như: hiện diện của một đại danh từ, tính từ,…trong câu.
Một trong những khĩ khăn của việc áp dụng học máy cĩ giám sát là xây dựng bộ dữ liệu huấn luyện với số lượng lớn.
Năm 003, để tiết kiệm cơng ức gán nhãn bằng tay một cách hiệu quả, Riloff và Wiebe đã đề xuất một thuật tốn boot trapping để gán nhãn dữ liệu huấn luyện t động.
Thuật tốn hoạt động bằng cách: đầu tiên ử dụng hai phân lớp cĩ độ chính xác cao (HP-SUBJ và HP-Obj để t động xác định một ố câu l chủ quan v khách quan. Bộ phân lớp cĩ độ chính xác cao ử dụng danh ách các từ ngữ các từ đơn hay n-gram) là đầu mối tốt nhất.
- HP- UBJ phân loại một câu l chủ quan nếu nĩ chứa hai hoặc nhiều hơn những đầu mối chủ quan mạnh.
- HP-Obj phân loại một câu l khách quan nếu khơng chứa bất kỳ đầu mối chủ quan mạnh n o.
Các bộ phân lớp ẽ cho độ chính xác rất cao v độ hồi tưởng thấp. Các câu trích chọn au đĩ được thêm v o tập dữ liệu huấn luyện để học mẫu. Các mẫu nhận được ử dụng để t động xác định câu chủ quan v khách quan, au đĩ được thêm v o tập huấn luyện, v lặp lại cho các bước tiếp theo của thuật tốn.
Đối với việc học mẫu, một tập hợp các mẫu cú pháp được cung cấp để hạn chế các loại mẫu được học. Một ố ví dụ mẫu cú pháp v mẫu ví dụ trong tiếng Anh được trình b y trong bảng dưới đây.
Mẫu cú pháp Mẫu ví dụ
<subj> passive-verb <subj> was satisfied <subj> active-verb <subj> complained active-verb <dobj> endorsed <dobj> noun aux <dobj> fact is <dobj>
passive-verb prep <np> was worried about <np>
Bảng 2.1: Các mẫu cú pháp v ví dụ trong tiếng Anh
2.4.2.1.Phân lớp d a trên cây quyết định
Cây quyết định được coi l cơng cụ mạnh, phổ biến v thích hợp với các ứng dụng khai phá dữ liệu. ai thuật tốn d a trên cây quyết định điển hình áp dụng cho hai phạm vi ứng dụng khác nhau l C4.5 v PRINT. Với các chiến lược riêng về l a chọn thuộc tính phát triển, cách thức lưu trữ phân chia dữ liệu, v một ố đặc điểm khác, C4.5 l thuật tốn phổ biến nhất khi phân lớp tập dữ liệu vừa v nhỏ, PRINT l thuật tốn tiêu biểu áp dụng cho những tập dữ liệu cĩ kích thước c c lớn [5].
Cây quyết định là cấu trúc biểu diễn dưới dạng cây. Trong đĩ, mỗi nút trong (internal node) biểu diễn một thuộc t nh, nhánh (branch) biểu diễn giá trị cĩ thể cĩ của thuộc t nh, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc.
Cây quyết định cĩ thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây v di chuyển theo nhánh cho đến khi gặp nút lá. Trên cơ ở phân lớp n y chúng ta cĩ thể chuyển đổi về các luật quyết định.
V dụ:
Thời tiết Nhiệt độ Độ ẩm Giĩ Chơi Nắng Nĩng Cao Nhẹ Khơng Nắng Nĩng Cao Mạnh Khơng Âm u Nĩng Cao Nhẹ Cĩ Mưa Ấm áp Cao Mạnh Cĩ Mưa Mát Trung bình Nhẹ Cĩ Mưa Mát Trung bình Nhẹ Khơng Âm u Mát Trung bình Mạnh Cĩ
Bảng 2.2: Dữ liệu huấn luyện sử dụng cho cây quyết định
Các thuật tốn xây d ng một cây ẽ d đốn giá trị của một cột d a trên các cột cịn lại trong tập huấn luyện. Do đĩ, mỗi nút trong cây đại diện cho một trường hợp cụ thể cho một cột. Quyết định về nơi đặt nút n y được th c hiện bởi các thuật tốn, v một nút ở độ âu khác nhau hơn o với anh chị em của nĩ cĩ thể đại diện cho các trường hợp khác nhau của mỗi cột. Cây quyết định l biểu đồ phát triển cĩ cấu trúc dạng cây, như mơ tả trong hình vẽ au:
nh 2.3: Ví dụ về cây quyết định
Trong cây quyết định:
• Gốc: l node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn hình chữ nhật • Nhánh: biểu diễn các kết quả của kiểm tra trên node trong mũi tên
• Node lá: biểu diễn lớp hay phân phối lớp hình trịn
Ưu nhược điểm:
o ánh với một ố phương pháp khác, cây quyết định cĩ một ố ưu điểm:
- Cây quyết định dễ hiểu, người ta cĩ thể hiểu mơ hình cây quyết định au khi được giải thích ngắn gọn.
- Việc chuẩn bị dữ liệu cho cây quyết định l cơ bản v khơng cần thiết. Trong khi các kỹ thuật khác thường địi hỏi phải chuẩn hĩa dữ liệu, tạo các biến phụ hoặc loại bỏ các giá trị rỗng.
- Cây quyết định cĩ thể xử l được giá trị bằng ố hoặc tên thể loại.
ạn chế của cây quyết định khơng thích hợp cho những b i tốn với mục tiêu l d đốn giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi xuất ngân h ng… Cây quyết định cũng khĩ giải quyết với những dữ liệu thời gian liên tục nếu khơng bỏ ra nhiều cơng ức cho việc đặt ra biểu diễn dữ liệu theo các mẫu liên tục [5].
2.4.2.2.Phân lớp sử dụng Nạve Bayes
Bộ phân lớp Nạve Baye NB l phương pháp phân loại d a v o xác uất được ử dụng rộng rãi trong lĩnh v c máy học [Mitchell, 1996] [Joachim , 1997] [Ja on, 001], được ử dụng lần đầu tiên trong lĩnh v c phân loại bởi Maron v o năm 1961 au đĩ trở nên phổ biến dùng trong nhiều lĩnh v c như trong các cơng cụ tìm kiếm [Rij bergen et al, 1970], các bộ lọc email [ ahami et al, 1998]…
Ý tưởng:
Bộ phân lớp Naive Bayes cịn được gọi là phân lớp xác suất đơn giản dựa trên định lý Bayes với giả định các đặc trưng là độc lập với nhau.
Bộ phân lớp Naive Bayes phù hợp với b i tốn khi ố chiều của các yếu tố đầu v o l cao. Mặc dù tính đơn giản của nĩ, nhưng Naive Baye thường cĩ thể đem lại hiệu quả tốt hơn o với các phương pháp phân loại phức tạp hơn [20].
nh 2.4: Mơ h nh phân lớp sử dụng bộ phân lớp Naive Bayes
Bộ phân lớp Naive Baye được đơn giản hĩa bằng việc giả định rằng các đặc trưng l độc lập. Mặc dù việc giả định n y l khơng đúng ho n to n, trong th c tế bộ phân lớp Naive Baye hoạt động khá tốt o với các bộ phân lớp phức tạp khác.
Thuật tốn:
Nạve Baye d a trên định l Baye được phát biểu như au:
Áp dụng trong bài tốn phân lớp, các dữ kiện gồm cĩ:
D: tập dữ liệu huấn luyện đã được vector hĩa dưới dạng
xk là giá trị của đặc trưng, n là số lượng đặc trưng. Ci: phân lớp i, với i = {1, 2…, m}.
Các thuộc tính độc lập điều kiện đơi một với nhau.
Theo định l Baye :
Theo tính chất xác suất độc lập cĩ điều kiện:
Trong đĩ:
là xác suất thuộc phân lớp i khi biết trước mẫu X.
xác suất là phân lớp i.
xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp
i.
Áp dụng hai cơng thức trên ta uy ra:
Ta cần xác định ao cho xác uất n y lớn nhất nghĩa l :
Các bước thực hiện:
Bước 1: Huấn luyện Nạve Bayes d a vào tập dữ liệu huấn luyện, tính các xác suất
và
Bước 2: Phân lớp ∈ T (tập dữ liệu Test), ta cần tính xác suất thuộc từng phân lớp khi đã biết trước Xnew. Xnew được gán vào lớp cĩ xác suất lớn nhất theo cơng thức:
∈
Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện của các từ để dự đốn xác suất lớp văn bản chủ quan hoặc khách quan của một bình luận cần phân loại.
Điểm quan trọng của phương pháp n y chính l ở chỗ giả định rằng xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau. Giả định đĩ l m cho việc tính tốn NB hiệu quả v nhanh chĩng hơn các phương pháp khác vì khơng ử dụng việc kết hợp các từ để đưa ra phán đốn lớp. Kết quả d đốn ẽ bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượng của khơng gian đặc trưng…
Cài đặt thuật tốn:
Mơ tả vector đặc trưng của bình luận: L vector cĩ ố chiều l ố đặc trưng trong to n tập dữ liệu, các đặc trưng n y đơi một khác nhau. Nếu văn bản cĩ chứa đặc trưng đĩ ẽ cĩ giá trị 1, ngược lại l 0.
Thuật tốn gồm giai đoạn huấn luyện v phân lớp:
Bước 1: Huấn luyện: tính và
Đầu v o:
Các vector đặc trưng của văn bản trong tập huấn luyện Ma trận MxN, với M l ố vector đặc trưng trong tập huấn luyện, N l ố đặc trưng của vector .
Tập nhãn/lớp cho từng vector đặc trưng của tập huấn luyện. Đầu ra:
Các giá trị xác uất và . Cơng thức tính đã l m trơn Laplace
Trong đĩ:
|doc i|: ố văn bản của tập huấn luyện thuộc phân lớp i.
|total doc |: ố văn bản trong tập huấn luyện.
m ố phân lớp Các bước c i đặt:
Khởi tạo mảng A, B cĩ kích thước m.
Duyệt qua các văn bản trong tập dữ liệu, đếm ố văn bản trong mỗi phân lớp lưu v o A.
Tính xác uất cho từng phân lớp theo cơng thức trên v lưu v o mảng B. Cơng thức tính đã l m trơn Laplace:
Trong đĩ:
: ố văn bản trong trong phân lớp i cĩ đặc trưng thứ k mang giá trị xk.