ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Huyền Trang GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huyền Trang
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CỤM HAC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin
HÀ NỘI - 2011
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huyền Trang
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
Trang 3i
Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo, PGS-TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động viên, giúp đỡ em trong suốt quá trình thực hiện đề tài
Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quí báu cho em trong những năm học vừa qua
Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận
Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động viên, khích lệ con trên mỗi bước đường học vấn của con
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, đặc biệt là các thành viên lớp K52CA và K52CHTTT đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 20 tháng 05 năm 2011
Phạm Huyền Trang
Trang 4ii
Tóm tắt nội dung
Khai phá quan điểm dựa trên đặc trưng (FOM) là một trong những bài toán khai phá quan điểm quan trọng [5, 18, 23] Đối với một sản phẩm, bài toán này tìm đến mức câu đánh giá để phát hiện các đặc trưng của sản phẩm, và tạo ra một bản tổng kết quan điểm đánh giá theo từng đặc trưng đó Tuy nhiên, trong văn bản đánh giá sản phẩm, khách hàng thường dùng các từ hoặc cụm từ rất khác nhau để nói đến cùng một đặc trưng sản phẩm Vì vậy, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ được coi
là đồng nghĩa trên một miền sản phẩm cần được nhóm vào cùng một nhóm đặc trưng [27]
Dựa trên phương pháp phân lớp bán giám sát gom nhóm đặc trưng sản phẩm của Zhongwu Zhai và cộng sự, 2010 [27], khóa luận đề xuất một giải pháp gom nhóm các đặc trưng đồng nghĩa trong các đánh giá tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN [17] và phân cụm HAC
Thực nghiệm trên miền sản phẩm điện thoại di động trên website bán hàng trực
tuyến Thế giới di động (http://thegioididong.com) cho thấy giải pháp gom nhóm đặc trưng sản phẩm đồng nghĩa tiếng Việt do khóa luận đề xuất có độ đo Purity là 0.68 và độ đo Accuracy là 0.65 Kết quả trên cho thấy phương pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt được khóa luận đề xuất và triển khai là có tính hiệu quả
Trang 5iii
Lời cam đoan
Tôi xin cam đoan giải pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt trong các đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS TS Hà Quang Thụy và ThS Trần Mai Vũ
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Phạm Huyền Trang
Trang 6iv
Mục lục
Lời cảm ơn i
Tóm tắt nội dung ii
Lời cam đoan iii
Danh sách hình vẽ vii
Danh sách bảng biểu viii
Danh sách các từ viết tắt ix
Mở đầu 1
Chương 1 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng 3
1.1 Khái quát về khai phá quan điểm khách hàng 3
1.1.1 Khái niệm về khai phá quan điểm 3
1.1.2 Ứng dụng của khai phá quan điểm 3
1.1.3 Khai phá quan điểm khách hàng trên đặc trưng sản phẩm 4
1.2 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa trên đặc trưng sản phẩm 7
1.2.1 Bài toán gom nhóm đặc trưng đồng nghĩa 7
1.2.2 Một số nghiên cứu liên quan trên thế giới 9
1.2.3 Giải pháp hiện thời 10
Tóm tắt chương một 11
Chương 2 Phân lớp bán giám sát SVM-kNN 13
2.1 Một số nội dung cơ bản về phân lớp bán giám sát 13
2.1.1.Khái niệm 13
2.1.2 Các phương pháp phân lớp bán giám sát điển hình 14
2.2 Phương pháp luận SVM-kNN dựa trên học bán giám sát 15
Trang 7v
2.2.1 Thuật toán máy vector hỗ trợ (SVM) 15
2.2.2 Thuật toán K người láng giềng gần nhất (kNN) 18
2.2.3 Phương pháp phân lớp bán giám sát SVM-kNN 19
Tóm tắt chương hai: 24
Chương 3.Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt tự động 25
3.1 Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC 25
3.2 Pha 1: Biểu diễn vector thể hiện đặc trưng 27
3.2.1 Xác định ngữ nghĩa của các thể hiện đặc trưng 28
3.2.2 Xác định ngữ cảnh của thể hiện đặc trưng 29
3.2.3 Biểu diễn thể hiện đặc trưng dưới dạng vector 29
3.3 Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN 30
3.3.1 Quá trình phân cụm 32
3.3.2 Gán nhãn cho các cụm 34
3.3.Pha 2: Phân lớp bán giám sát SVM-kNN 34
Tóm tắt chương 3: 37
Chương 4 Thực nghiệm và đánh giá 38
4.1 Môi trường và các công cụ sử dụng thực nghiệm 38
4.2 Xây dựng tập dữ liệu 39
4.3 Thực nghiệm 40
4.3.1 Quá trình biểu diễn vector thể hiện đặc trưng 40
4.3.2 Thực nghiệm tạo tập huấn luyện cho SVM-kNN 40
4.3.3 Thực nghiệm phân lớp bán giám sát SVM-kNN: 42
Tóm tắt chương 4 47
Trang 8vi
Kết luận 48
Tài liệu tham khảo 49
Trang 9vii
Danh sách hình vẽ
Hình 1: Ví dụ biểu diễn cây đối tượng 5
Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và Đặc trưng trong 1 nhận xét của khách hàng trên forum http://tinhte.com 6
Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72 7
Hình 4: Ví dụ về đặc trưng đồng nghĩa 8
Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm 16
Hình 6: Ví dụ về thuật toán kNN 19
Hình 7: Minh họa vector hỗ trợ và vector biên 21
Hình 8: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo vàMing Jin[17] 22
Hình 9: Mô hình đề xuất gom nhóm đặc trưng đồng nghĩa 27
Hình 10: Sơ đồ các phần tử trước khi phân cụm 31
Hình 11: Sơ đồ các phần tử sau khi phân cụm phân cấp tích tụ từ dưới lên – HAC 31
Hình 12: Sơ đồ so sánh kết quả của mô hình đề xuất với phương pháp của K.Li và cộng sự [17] 44
Trang 10viii
Danh sách bảng biểu
Bảng 1 Cấu hình hệ thống thử nghiệm 38
Bảng 2 Công cụ phần mềm sử dụng 39
Bảng 3: Bảng số lượng dữ liệu đầu vào 40
Bảng 4 Kết quả thực nghiệm thuật toán HAC với 5 giá trị ngưỡng α 41
Bảng 5 Các thể hiện đặc trưng cùng các cụm không đơn tương ứng 42
Bảng 6 Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn chiếm 30% tổng số dữ liệu 44
Bảng 7: Kết quả thực nghiệm khi s = 4, t= 0.8, k = 5 46
Bảng 8 Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn chiếm 40% tổng số dữ liệu 46
Trang 11ix
Danh sách các từ viết tắt
LDA Latent Dirichlet Allocation
HAC Hierarchical Agglomerative Clustering
SVM Support Vector Machine
kNN K Nearest Neighbors
SSSVM Semi-Supervisered Support Vector Machine
S3VM-kNN Semi-Supervisered Support Vector Machine-k Nearest Neighbors TFIDF Term Frequency Inverse Document Frequency
Trang 121
Mở đầu
Khai phá và tổng hợp quan điểm khách hàng dựa trên đặc trưng sản phẩm (FOM) đang là một trong những lĩnh vực nhận thu hút nhiều sự quan tâm trên thế giới [5, 18, 20, 23] Mục tiêu của bài toán này là tạo ra một bản tổng hợp các quan điểm của khách hàng trên từng đặc trưng sản phẩm Bản tổng hợp như vậy cung cấp cho khách hàng một cái nhìn trực quan về ý kiến của những khách hàng đã dùng sản phẩm trước đó, đồng thời, giúp nhà sản xuất phát hiện ra những hạn chế còn mắc phải của sản phẩm và nhờ vậy có thể khắc phục những nhược điểm đang tồn tại
Gom nhóm đặc trưng đồng nghĩa được người dùng đề cập đến trong các đánh giá
là một bài toán con của bài toán FOM thực hiện việc nhóm các từ cùng chỉ đến một đặc trưng nào đó vào một nhóm Các đặc trưng được xác định là đồng nghĩa tùy thuộc từng miền sản phẩm khác nhau
Trong những năm gần đây, một số giải pháp gom nhóm đặc trưng sản phẩm đã được đưa ra [7, 11, 27] Tuy nhiên, đối với tiếng Việt, chưa có một nghiên cứu nào đi sâu nghiên cứu vấn đề này Giải pháp hiện thời của chúng tôi trong [21] là xây dựng bằng tay
bộ từ điển đồng nghĩa tiếng Việt trên miền sản phẩm điện thoại
Trong khóa luận này, chúng tôi sử dụng kỹ thuật học bán giám sát để gom nhóm đặc trưng sản phẩm trên miền sản phẩm điện thoại di động dựa trên hướng tiếp cận của Zhongwu Zhai và cộng sự, 2010 [27] Chúng tôi đề xuất một mô hình tự động gom nhóm đặc trưng đồng nghĩa, theo đó, đối với một miền sản phẩm mới, việc tạo tập dữ liệu huấn luyện được thi hành bằng thuật toán phân cụm HAC theo ngưỡng α Sau đó, thuật toán phân lớp bán giám sát SVM-kNN dựa trên ngữ nghĩa và ngữ cảnh của từng đặc trưng được áp dụng Chúng tôi lựa chọn phân lớp bán giám sát SVM-kNN vì phương pháp này cho kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh như kết quả nghiên cứu của Kunlun Li và cộng sự năm 2010 [17] Khóa luận tiến hành thực nghiệm
mô hình gom nhóm đặc trưng dựa trên HAC và SVM-kNN với kết quả đạt mức phù hợp với kết quả trong các công bố khoa học liên quan trên thế giới (Purity là 0.68 và Accuracy
là 0.65)
Nội dung của khóa luận được chia thành các chương như sau:
Trang 132
Chương 1: Khóa luận giới thiệu khái quát về khai phá quan điểm khách hàng cũng
như một số khái niệm liên quan trong khai phá quan điểm khách hàng dựa trên đặc trưng Ngoài ra, bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt cùng một số nghiên cứu liên quan và giải pháp hiện thời của chúng tôi cũng được trình bày tại chương này
Chương 2: Khóa luận giới thiệu về thuật toán phân lớp SVM, kNN Từ đó, khóa
luận trình bày chi tiết phương pháp phân lớp bán giám sát SVM-kNN là phương pháp phân lớp được sử dụng để giải quyết bài toán gom nhóm đặc trưng sản phẩm
Chương 3: Khóa luận đề xuất một mô hình giải pháp gom nhóm đặc trưng đồng
nghĩa dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC trên miền dữ liệu tiếng Việt Đồng thời, khóa luận cũng trình bày chi tiết các pha cũng những các bước trong mô hình
Chương 4: Khóa luận trình bày một số thực nghiệm việc gom nhóm đặc trưng sản
phẩm đồng nghĩa tiếng Việt trong các đánh giá của khách hàng trên miền sản phẩm điện thoại di động Kết quả thực nghiệm được đánh giá theo các độ đo tương ứng phù hợp với bài toán gom nhóm đặc trưng
Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai
Trang 143
Chương 1 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng
1.1 Khái quát về khai phá quan điểm khách hàng
1.1.1 Khái niệm về khai phá quan điểm
Theo Bing Liu, 2010 [5], thông tin văn bản có thể được chia ra thành hai loại
chính, là sự kiện và quan điểm.Thông tin sự kiện thể hiện khách quan về những thực thể,
sự kiện hay các thuộc tính của chúng Thông tin quan điểm thể hiện chủ quan của con
người, miêu tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính Khai phá quan điểm đang là một lĩnh vực nghiên cứu gần đây thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng Quá trình khai phá quan điểm đóng một vai trò quan trọng trong thế giới ngày nay, không chỉ trong lĩnh vực kinh tế (đặc biệt trong thương mại điện tử) mà còn trong lĩnh vực xã hội (đặc biệt trong mạng xã hội trực tuyến)
Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, đề cập đến việc áp dụng các giải pháp của xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [20] Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện theo nhiều mức độ khác nhau
1.1.2 Ứng dụng của khai phá quan điểm
Khai phá quan điểm đang trở thành một lĩnh vực quan trọng trong những năm gần đây do phạm vi ứng dụng rộng của nó Bo Pang and Lillian Lee, 2008 [6] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm
Miền ứng dụng đầu tiên là các website đánh giá Các website này tự động tổng hợp
quan điểm và đánh giá của người sử dụng (chẳng hạn, trang Epinion: http://www1.epinions.com/) Các website có tính năng mời gọi đánh giá (review-solicitation) cũng được xếp vào loại này, trong đó tổng hợp đánh giá người dùng (Summarizing user reviews) là một chứcc năng quan trọng
Miền ứng dụng thứ hai là khai phá quan điểm đóng vai trò công nghệ thành phần
con (Sub-Component Technology) trong các hệ thống khác, chẳng hạn như các hệ thống
Trang 154
tư vấn (recommendation systems), hệ thống hỏi-đáp (Question answer systems), thành phần tương tác người-máy (human–computer interaction) của các hệ thống
Miền ứng dụng thứ ba là các ứng dụng trong thông minh doanh nghiệp (Business
Intelligence) và thông minh chính quyền (Government Intelligence) Khai phá quan điểm được dùng trong nhận biết quan điểm khách hàng, tình báo công nghiệp (thông minh doanh nghiệp) hoặc xu hướng truyền thông thù địch… (thông minh chính quyền)
Cuối cùng, khai phá quan điểm áp dụng trong liên miền ứng dụng khác nhau
1.1.3 Khai phá quan điểm khách hàng trên đặc trưng sản phẩm
Khai phá và tổng hợp quan điểm dựa trên đặc trưng là một trong ba bài toán điểm hình thuộc lĩnh vực khai phá quan điểm Ba bài toán điển hình đó là: Phân lớp quan điểm, khai phá quan hệ so sánh và khai phá quan điểm dựa trên đặc trưng Trong ba bài toán trên, khai phá quan điểm dựa trên đặc trưng là một bài toán đang rất được chú ý trong lĩnh vực khai phá quan điểm Trong mục này, khóa luận sẽ trình bày một số khái niệm liên quan đến bài toán khai phá quan điểm dựa trên đặc trưng và mô hình hóa cho bài toán này
a Một số khái niệm liên quan
- Đối tượng (object): Một đối tượng O là một một sản phẩm [5]
Ví dụ: Điện thoại Nokia N72, bộ phim “Cuốn theo chiều gió”, …
- Đặc trưng (feature):
Bài toán gom nhóm đặc trưng đồng nghĩa liên quan trực tiếp đến khái niệm đặc trưng Do vậy, chúng tôi xin trình bày chi tiết về khái niệm này như dưới đây
Mỗi đối tượng O được liên hệ với một cặp O (T,A) với T là một sự phân cấp của
các thành phần, thành phần con, … và A là một tập các thuộc tính của O [5] Mỗi thành
phần lại có tập các thành phần con và thuộc tính riêng của nó Để làm rõ hai khái niệm thành phần và thuộc tính ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện
thoại Nokia N72 Đối tượng này có một tập các thành phần, như: pin, màn hình, … và một tập các thuộc tính như chất lượng âm thanh, kích cỡ, cảm ứng, … Thành phần pin cũng có một tập các thuộc tính như: chất lượng pin, kích cỡ pin,…
Trang 165
Một đối tượng được thể hiện bởi một cây Gốc cây là đối tượng đó, mỗi một node không phải là gốc là một thành phần của đối tượng Mỗi cung thể hiện quan hệ giữa các thành phần Mỗi node cũng được liên kết với các thuộc tính
Hình 1 Ví dụ biểu diễn cây đối tượng
Tuy nhiên, việc xử lý ngôn ngữ tự nhiên liên quan là một nhiệm vụ rất khó; hơn nữa, để tránh sự phân cấp, có thể coi thành phần và thuộc tính là đặc trưng quan điểm (hay đặc trưng)
- Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f của
đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích cực, tiêu cực hay trung lập về đặc trưng f [5]
-Từ quan điểm (opinion word): Quan điểm trên một đặc trưng bất kỳ là hướng nhìn, thái độ của khách hàng đối với mỗi đặc trưng [5] Thái độ đó có thể theo hướng tích cực, tiêu cực hay trung lập Từ thể hiện được quan điểm của khách hàng được gọi là từ quan điểm
Ví dụ:
Câu = “Nội dung phim hay”
Quan điểm của người dùng trên đặc trưng “nội dung” (phim) là một quan điểm hướng tích cực, vì sử dụng từ quan điểm “hay”
-Người đánh giá (opinion holder):
Là người hay tổ chức cụ thể đưa ra lời đánh giá Với các đánh giá về sản phẩm trên diễn đàn, blogs: người đánh giá chính là các tác giả của đánh giá hay bài viết [5]
Trang 176
Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và
b Mô hình hóa bài toán
Bing Liu [5] định nghĩa một mô hình của một đối tượng và một tập các quan điểm
về đối tượng Một đối tượng được thể hiện với một tập xác định của đặc trưng, F = {f1,f2,…,fn} Mỗi đặc trưng fi trong F có thể được diễn tả bởi một tập các từ hoặc cụm từ
Wi là các đặc trưng đồng nghĩa Mỗi người đánh giá j bình luận trên một tập con các
đặc tính Sj thuộc F Với mỗi fk thuộc Sj, người đánh giá j diễn đạt quan điểm về đặc trưng bằng một từ hoặc cụm từ trong Wk với một thái độ tích cực (positive) hay tiêu cực (negative)
Mô hình này đòi hỏi ba tình huống bài toán trong thực tế Giả sử có một tập các văn bản đánh giá D là đầu vào, ba tình huống bài toán được phát biểu như sau:
Tình huống 1: Cả F và W đều không biết Bài toán cần thực hiện ba nhiệm vụ:
- Nhiệm vụ 1: Xác định và trích chọn các đặc trưng được đề cập tới trong D
- Nhiệm vụ 2: Xác định hướng quan điểm trên các đặc trưng
- Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các đặc trưng, vì những người khác
nhau có thể sử dụng các từ hoặc cụm từ khác nhau để diễn đạt cùng một đặc trưng Đây chính là bài toán gom nhóm đặc trưng đồng nghĩa mà khóa luận hướng tới giải quyết Nhiệm vụ này sẽ được chúng tôi trình bày trong mục 1.2
Trang 187
Tình huống 2: F đã biết, nhưng W lại không Tất cả ba nhiệm vụ của bài toán 1
cần được thực hiện, nhưng nhiệm vụ 3 trở thành bài toán ghép các đặc trưng phát hiện được với tập đặc trưng F đã cho
Tình huống 3: W và F cùng đã biết Thực hiện nhiệm vụ 2 ở trên, tức là xác định
xem quan điểm trên thuộc tính là thái độ tích cực hay tiêu cực, hay trung lập sau khi tất cả các câu chứa chúng được trích chọn
Đầu ra của một tập văn bản D là một tập các cặp, mỗi cặp được kí hiệu bởi (f, SO), trong đó f là một đặc trưng và SO là hướng ngữ nghĩa hay hướng quan điểm được diễn đạt trong D trên đặc trưng f Cuối cùng, từ kết quả này, đưa ra một bản tổng hợp các quan điểm về một đối tượng dựa trên các đặc trưng
Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72 [21]
1.2 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa trên đặc trưng sản phẩm
1.2.1 Bài toán gom nhóm đặc trưng đồng nghĩa
Trong các đánh giá của người dùng trên mạng thường chứa các yếu tố không chuẩn [22] Nói riêng, trong các văn bản đánh giá sản phẩm, khách hàng thường sử dụng những từ hoặc cụm từ rất khác nhau để nhắc đến cùng một đặc trưng sản phẩm
Ví dụ: Trong hình 4, với miền sản phẩm điện thoại Nokia E63, chúng tôi khảo sát trên website bán hàng trực tuyến http://www.thegioididong.com thì khách hàng sử dụng
Trang 198
từ “tính năng” và “chức năng” cùng nhắc đến đặc trưng “tính năng”, nên chúng được coi
là các từ đặc trưng đồng nghĩa
Hình 4: Ví dụ về đặc trưng đồng nghĩa
Do đó, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ đồng nghĩa
cần được nhóm vào cùng một nhóm đặc trưng Theo Bing Liu [5] việc xác định và gom
nhóm các đặc trưng đồng nghĩa là rất cần thiết cho các ứng dụng thực tế
Từ mô hình hóa bài toán, có thể thấy bài toán gom nhóm đặc trưng đồng nghĩa
chính là một trong ba nhiệm vụ của tình huống bài toán 1 trong khai phá quan điểm cần
phải giải quyết
Zhongwu Zhai và cộng sự [27] nêu ra hai khái niệm trong bài toán gom nhóm đặc
trưng đồng nghĩa là “thể hiện đặc trưng” và “nhóm đặc trưng” Nhóm đặc trưng là tên của
một đặc trưng của sản phẩm mà người dùng muốn nói đến, trong khi thể hiện đặc trưng là
một từ hoặc cụm từ xuất hiện thực sự trong các đánh giá sản phẩm để chỉ đặc trưng đó
Những khái niệm này được sử dụng trong phương pháp đề xuất của chúng tôi
Ví dụ:
Một nhóm đặc trưng tên là “Hình thức”, có thể có nhiều thể hiện đặc trưng như:
“Thiết kế”, “Kiểu cách”, “Mẫu mã”, hoặc thậm chí có thể là “Hình thức”
Mục tiêu của bài toán là xác định được các đặc trưng đồng nghĩa và đưa chúng vào
cùng một nhóm đặc trưng Bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá
liên quan nhiều đến bài toán xác định từ đồng nghĩa [27] Đây là một thách thức trong xử
lý ngôn ngữ tự nhiên
Trang 209
1.2.2 Một số nghiên cứu liên quan trên thế giới
Bài toán gom nhóm đặc trưng đồng nghĩa đã và đang nhận được nhiều sự quan tâm trên thế giới Có khá nhiều công trình đã nghiên cứu nhằm tìm ra các phương án tối ưu để giải quyết bài toán, chẳng hạn [7, 11, 27]
Theo Bing Liu [5], một trong số các phương pháp nhằm giải quyết bài toán này là
sử dụng từ điển Wordnet và các từ điển đồng nghĩa khác Một một số phương pháp hướng
sử dụng từ đồng nghĩa song kết hợp một số cải tiến đã được đề xuất
Carenini và cộng sự, 2005 [8] đề xuất một phương pháp tinh vi dựa trên các số liệu tương tự như một số yêu cầu phân lớp các đặc trưng được đưa ra Hệ thống này kết hợp đặc trưng phát hiện mỗi một nút đặc trưng trong phân lớp này Các số liệu tương tự được xác định dựa trên các chuỗi tương tự, từ đồng nghĩa và khoảng cách đo khác bằng cách sử dụng WordNet
Zhongwu Zhai và cộng sự, 2010 [27] nêu ra ba hạn chế khi dùng từ điển đồng nghĩa trong gom nhóm từ đặc trưng
Thứ nhất, có nhiều từ không phải là đồng nghĩa trong từ điển nhưng lại có thể là
đồng nghĩa trong một miền ứng dụng nào đó Ví dụ, hai từ “design” và “appearance”
không là từ đồng nghĩa nếu xét trong từ điển nhưng được coi là hai từ đồng nghĩa trong
miền “mobile”
Thứ hai, từ đồng nghĩa có tính phụ thuộc miền ứng dụng Ví dụ, hai từ “movie” và
“picture” là đồng nghĩa trong miền “movie” nhưng trong miền “video” thì hai từ này lại
chỉ đến hai đặc trưng hoàn toàn khác nhau
Thứ ba, việc xác định các từ đồng nghĩa có thể phụ thuộc vào yêu cầu mức độ trừu
tượng hóa của miền ứng dụng Ví dụ, trong miền “car” thì “internal design” và “external
design” là thuộc hai nhóm đặc trưng khác nhau theo mức chi tiết nào đó song lại được coi
là thuộc cùng một nhóm đặc trưng theo một mức trừu tượng cao hơn
Dựa theo hướng tiếp cận không giám sát, Guo và cộng sự, 2009 [12] đề xuất một
kỹ thuật việc kết hợp ngữ nghĩa ẩn đa mức để góm nhóm các thể hiện đặc trưng Kỹ thuật này chạy LDA hai lần Kỹ thuật này tránh được việc phụ thuộc vào từ điển đồng nghĩa Tuy nhiên phương pháp này còn phụ thuộc vào miền và ngôn ngữ
Trang 2110
Gần đây, Zhongwu Zhai và cộng sự, 2010 [27] đề xuất một phương pháp nhĩm đặc trưng đồng nghĩa dựa trên hướng tiếp cận học bán giám sát, đồng thời kết hợp ràng buộc mềm để áp dụng cho bài tốn này nhằm khắc phục những hạn chế cịn gặp phải khi
sử dụng từ điển đồng nghĩa Phương pháp học bán giám sát được sử dụng là Bayesian Expectation-Maximization, bộ phân lớp Bayesian được chạy lặp lại trên dữ liệu
Nạve-đã gán nhãn và dữ liệu chưa gán nhãn cho đến khi các xác suất cho dữ liệu chưa gán nhãn hội tụ Việc gán nhãn dữ liệu được tạo bằng tay Để cĩ kết quả tốt hơn, các tác giả đã tạo
ra 2 ràng buộc mềm nhằm làm giàu tập dữ liệu đã gán nhãn Hai ràng buộc mềm này là: (1) – Những thể hiện đặc trưng cĩ chung một số từ nào đĩ thì thuộc về cùng một nhĩm; (2) – Những thể hiện đặc trưng đồng nghĩa trong từ điển đồng nghĩa thì thuộc về cùng một nhĩm
Việc tạo ra những ràng buộc mềm cĩ hai ưu điểm:
Một là, hai ràng buộc này tạo ra các mẫu nhãn mềm (soft-labeled examples) và
chúng được đưa vào tập huấn luyện nhằm làm giàu tập huấn luyện đĩ
Hai là, trong trường hợp ràng buộc mềm gán sai nhãn do những hạn chế của bộ từ
điển đồng nghĩa mang lại thì bộ phân lớp bán giám sát vẫn được phép thay đổi nhãn
Các tác giả tiến hành thực nghiệm trên các đánh giá từ 5 miền khác nhau, kết quả cho thấy phương pháp gom nhĩm đặc trưng sử dụng học bán giám sát là khá hiệu quả
Thực nghiệm trên 5 bộ dữ liệu, độ đo purity thuộc khoảng 0.66-0.70 và độ đo accuracy
thuộc khoảng 0.67-0.71
1.2.3 Giải pháp hiện thời
Hiện nay, tại Việt Nam, chưa cĩ một cơng trình nghiên cứu nào đi sâu giải quyết bài tốn gom nhĩm đặc trưng sản phẩm trong các đánh giá tiếng Việt
Trong [21], chúng tơi đề xuất một mơ hình khai phá quan điểm dựa trên đặc trưng đối với các đánh giá sản phẩm điện thoại bằng tiếng Việt Khĩ khăn lớn nhất của chúng tơi khi giải quyết bài tốn này trong miền dữ liệu tiếng Việt là tại Việt Nam, chưa cĩ bộ từ điển đồng nghĩa kiểu Wordnet; trong khi các cơng trình nghiên cứu nêu trên (mục 1.2.2) đều sử dụng bộ từ điển đồng nghĩa Ngồi ra, trong miền dữ liệu đánh giá tiếng Việt của khách hàng về sản phẩm, chất lượng cũng như số lượng của các đánh giá là khá thấp
Trang 2211
Trong công trình nói trên [21], chúng tôi sử dụng một giải pháp rất đơn giản để nhóm các đặc trưng “đồng nghĩa” – đó là sử dụng một bộ từ điển đặc trưng đồng nghĩa xây dựng bằng tay Từ điển này chứa các đặc trưng đồng nghĩa trên miền sản phẩm “điện thoại” Khi trong câu đánh giá xuất hiện một thể hiện đặc trưng có trong từ điển thì tên thể hiện đặc trưng sẽ được suy ra tên nhóm đặc trưng
Tuy nhiên, ngoài những hạn chế đã nêu ở mục 1.2.2 khi sử dụng từ điển đồng
nghĩa, giải pháp này còn gặp một số điểm hạn chế Thứ nhất, việc nhóm các thể hiện đặc
trưng vào nhóm đặc trưng phù hợp là một công việc tốn rất nhiều thời gian, vì người dùng thường sử dụng rất nhiều những từ ngữ khác nhau để thể hiện cùng một đặc trưng, có
những nhóm đặc trưng có thể có đến hàng chục thể hiện đặc trưng Thứ hai, trong trường
hợp xuất hiện những thể hiện đặc trưng mới trong đánh giá của người dùng, và đặc trưng này không có trong từ điển thì mô hình vẫn chưa phát hiện được nhóm đặc trưng của nó
Bởi lẽ, việc xác định đặc trưng đồng nghĩa phụ thuộc hoàn toàn vào bộ từ điển Thứ ba,
việc xây dựng từ điển đồng nghĩa trong [21] chỉ áp dụng được trong miền sản phẩm điện thoại, khi chuyển sang miền dữ liệu khác thì phải xây dựng một bộ từ điển khác
Khóa luận này đề xuất một giải pháp gom nhóm đặc trưng đồng nghĩa cũng dựa trên phân lớp bán giám sát Tuy nhiên, so với [26], mô hình của chúng tôi có các điểm
khác biệt: Thứ nhất, chúng tôi không tạo một tập huấn luyện bằng tay để tạo ra một bộ
phân lớp như [26], mà thay vào đó, tập huấn luyện này được tạo một cách tự động nhờ áp
dụng thuật toán phân cụm HAC Thứ hai, chúng tôi không sử dụng từ điển đồng nghĩa,
mà thay vào đó là một từ điển Việt-Việt cùng các đánh giá của khách hàng để tạo tập
huấn luyện Thứ ba, phương pháp phân lớp bán giám sát mà chúng tôi sử dụng là
SVM-kNN, trong khi phương pháp được sử dụng trong [26] là EM
Tóm tắt chương một
Trong chương này, khóa luận giới thiệu khái quát về bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng theo đặc trưng Khóa luận cũng trình bày một số hướng giải quyết của bài toán trên thế giới cũng như giải pháp hiện thời của chúng tôi
Từ những phân tích về khó khăn khi giải quyết bài toán trên miền tiếng Việt cùng với các điểm hạn chế về giải pháp hiện thời cũng như hạn chế về việc sử dụng từ điển
Trang 2413
Chương 2 Phân lớp bán giám sát SVM-kNN
2.1 Một số nội dung cơ bản về phân lớp bán giám sát
nhãn ban đầu (thuờng gọi là seed set) để xây dựng một bộ phân lớp thậm chí là tốt hơn
Trong quá trình học như thế, phương pháp sẽ tận dụng được những thông tin phong phú
của dữ liệu chưa gán nhãn (unlabeled data), mà chỉ yêu cầu một số luợng nhỏ các dữ liệu
đã gán nhãn (labeled data ) [25, 26, 1] Như tổng hợp của X.J Zhu, 2008 [25], học bán
giám sát nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu về học máy
Theo X.J Zhu, 2008 [25], X Zhu và A B Goldberg, 2009 [26], học bán giám sát
Việc học bán giám sát sẽ là hữu ích khi có nhiều dữ liệu không gán nhãn hơn là dữ liệu gãn nhãn Trong thực tế, tồn tại nhiều dữ liệu không gán nhãn hơn là dữ liệu gán nhãn; bởi vì dữ liệu không gãn nhãn có thể dễ dàng được thu thập với chi phí thấp, nhưng công việc gãn nhãn cho các dữ liệu lại tốn rất nhiều thời gian, công sức và tiền bạc [4, 7,
Trang 2514
25, 26] Chính vì khả năng tận dụng cả dữ liệu đã gán nhãn để đạt được kết quả cao hơn học giám sát nên học bán giám sát mang giá trị thực tiễn cao [5]
b Phân lớp bán giám sát
Phân lớp bán giám sát đang là một lĩnh vực nhận được nhiều sự quan tâm trong cả
lý thuyết và thực tiễn [25] Phân lớp bán giám sát là một dạng đặc biệt trong bài toán phân lớp [26] Nó sử dụng cả dữ liệu chưa gán nhãn, và dữ liệu đã gán nhãn – điều này chính là một sự mở rộng so với bài toán phân lớp giám sát
Giả sử tập dữ liệu huấn luyện bao gồm l ví dụ đã gán nhãn {(x ,y )}l1
là u >> l Mục tiêu của phân lớp bán giám sát là huấn luyện một bộ phân lớp f từ l và u;
trong khi đó, phân lớp giám sát lại tạo ra một bộ phân lớp chỉ từ những dữ liệu đã gãn nhãn Trong quá trình học, việc phân lớp bán giám sát sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gãn nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gãn nhãn
2.1.2 Các phương pháp phân lớp bán giám sát điển hình
Các thuật toán bán giám sát đã và đang được phát triển một cách nhanh chóng trong những năm gần đây Hiện nay, có rất nhiều phương pháp học bán giám sát như: self-learning và self-labeling – là hai trong số những phương pháp phân lớp bán giám sát sớm nhất, chúng vẫn được sử dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên; hoặc phương pháp SSSVM (SVM bán giám sát) với ý tưởng tìm một biên quyết định trong các vùng mật độ thấp; hay phương pháp dựa trên đồ thị - phương pháp này xây dựng một đồ thị có trọng số trên những ví dụ đã gán nhãn và ví dụ chưa gán nhãn và giả thiết rằng giữa hai ví dụ có một kết nối mạnh thì có khuynh hướng có cùng nhãn và giải quyết bài toán tối ưu hóa; một phương pháp phân lớp bán giám sát khác là sử dụng mô hình sinh, hỗn hợp phân bố Gaussian trong thuật toán EM (K Li và cộng sự, 2010 [167)
Vì vậy, trước khi quyết định lựa chọn phương pháp học cho một bài toán cụ thể cần phải xem xét các giả thiết của mô hình Theo [25], nên sử dụng phương pháp học mà giả thiết của nó phù hợp với cấu trúc của bài toán Việc lựa chọn này có thể là khó khăn trong thực tế, tuy nhiên có thể thử các gợi ý sau: Nếu các lớp tạo ra dữ liệu có tính phân
Trang 2615
cụm cao thì EM với mô hình trộn sinh có thể là một sự lựa chọn tốt; nếu các thuộc tính
có sự phân chia tự nhiên thành hai tập thì co-training có thể phù hợp; nếu hai mẫu dữ liệu với các thuộc tính tương tự nhau hướng tới thuộc về cùng một lớp thì có thể sử dụng các phương pháp dựa trên đồ thị; nếu các bộ phân lớp giám sát được xây dựng từ trước là phức tạp và khó sửa đổi thì self-training sẽ là một lựa chọn ưu tiên
Hiệu quả của những thuật toán phân lớp bán giám sát phụ thuộc vào chất lượng của các ví dụ gán nhãn được thêm vào ở mỗi vòng lặp và được đánh giá dựa trên hai tiêu chí [4, 25]:
- Các ví dụ được thêm vào phải được gán nhãn một cách chính xác
- Các ví dụ được thêm vào phải mang lại thông tin hữu ích cho bộ phân lớp (hoặc
dữ liệu huấn luyện)
2.2 Phương pháp luận SVM-kNN dựa trên học bán giám sát
Khóa luận này tập trung nghiên cứu việc nhóm các đặc trưng đồng nghĩa trong khai phá quan điểm dựa trên phân lớp bán giám sát SVM-kNN Phương pháp phân lớp bán giám sát SVM-kNN tỏ ra rất hiệu quả trong bài toán phân lớp nếu chọn các tham số phù hợp Phương pháp này có độ chính xác cao hơn so với thuật toán phân lớp SVM bởi
vì nó thực hiện việc cải tiến độ chính xác của mỗi bộ phân lớp SVM qua nhiều lần lặp [16] Trước hết, chúng tôi xin giới thiệu về thuật toán SVM, kNN và sau đó trình bày các bước trong SVM-kNN
2.2.1 Thuật toán máy vector hỗ trợ (SVM)
Giải thuật Máy vector hỗ trợ (SVM) dựa trên nguyên lý tối thiểu hóa rủi ro cấu trúc (Structural Risk Minimization) trong lý thuyết thống kê (T Joachims, 1997, [16]) Xét bài toán phân lớp văn bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn
luyện các cặp (x i , y i ), i = 1, …, l; trong đó x i∈ R n là không gian vector đặc trưng n chiều;
y i∈ {-1, 1}, các mẫu dương là các mẫu x i thuộc lĩnh vực quan tâm và được gán nhãn y i = 1
và các mẫu âm là các mẫu x i không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1 Bài toán đặt ra là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả
năng lỗi xảy ra là tối thiểu
Trang 2716
a.Trường hợp khả tách tuyến tính
Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng lề tối ưu nhất (hình 5) Các mặt siêu phẳng
trong không gian đối tượng có phương trình là w T x + b = 0, trong đó w là vector pháp
tuyến, b là tham số mô hình phân lớp Khi thay đổi w và b, hướng và khoảng cách từ gốc
tọa độ đến mặt siêu phẳng thay đổi
Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm
Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(w T x + b)(1.1), trong đó:
sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0
Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x thuộc
về lớp âm
Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các
lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm
Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:
Hai mặt siêu phẳng có phương trình là w T x + b = ±1 được gọi là các mặt siêu
phẳng hỗ trợ (các đường nét đứt trên hình 5)
Trang 28b Trường hợp không khả tách tuyến tính
Với dữ liệu huấn luyện không khả tách tuyến tính thì ta có thể giải quyết theo hai cách
Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số mẫu
huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương có thêm một cận trên C dương - tham số do người sử dụng lựa chọn Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai
Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu vào
sang một không gian mới có số chiều cao hơn
Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu Một mặt quyết định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu
Với k là một hàm nhân thoản mãn:
Trang 29trong đó gamma, coef0 và degree là các tham số nhân
2.2.2 Thuật toán K người láng giềng gần nhất (kNN)
Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phânlớp dựa trên bộ nhớ, đơn giản vì nó không phải thực hiện quá trình học mô hình, thay thế điều
đó, phương pháp cần sử dụng tất cả các đốitượng trong tập huấn luyện khi phân lớp cho một đối tượng dữ liệu mới
Để phân lớp cho một điểm dữ liệu mới x, trước hết bộphân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấnluyện Qua đó tìm được tập
N(x, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x là gần nhất Ví dụ nếu các dữ
liệu mẫu được biểu diễn bởi không gian vector thì chúng ta có thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau Sau khi xác định được tập
N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong
tập N(x, D, k) Mặc dù rất đơn giản, nhưng thuật toán K người láng giềng gần nhất đã cho
kết quả tốt trong nhiều ứng dụng thực tế Cũng như SVM, k-NN được xếp vào 10 thuật toán khai phá dữ liệu điển hình nhất [24]
Để áp dụng thuật toán k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng
số cho mỗi lớp theo biểu thức (2.1) Trong đó N C (x, D, k)là tập con chỉ chứa các đối tượng
thuộc lớp c của tập N(x, D, k)
'
' ( , , )
Trang 3019
Khi đó tài liệu x sẽ được phân vào lớp c 0nếu:
0( | ) ax{ ( | ), }
Hình 6: Ví dụ về thuật toán kNN
Một ví dụ đơn giản về thuật toán kNN được minh họa trong hình 6 Trong đó, các nút tròn màu đỏ thể hiện lớp A, các nút tam giác màu xanh nước biển thể hiện lớp B và nút tròn màu xanh lá cây là nút chưa được gán nhãn Với tham số k = 4, thuật toán sẽ tính khoảng cách từ nút xanh lá cây đến 4 nút gần nó nhất Nút xanh lá cây có khoảng cách gần nhất đến 3 nút màu đỏ và 1 nút màu xanh biển.Từ hình có thể dễ dàng nhận thấy, nút xanh lá cây sẽ thuộc vào lớp A
Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và sai sót càng thấp
2.2.3 Phương pháp phân lớp bán giám sát SVM-kNN
Thuật toán SVM đã cho thấy được rất nhiều những ưu điểm vượt trội như SVM có khả năng học độc lập với số chiều trong không gian đặc trưng, kết quả phân lớp khi sử dụng thuật toán SVM là khá tốt kể cả trong không gian đặc trưng nhiều chiều Tuy nhiên, SVM có một nhược điểm là không cung cấp một ước lượng chính xác các biên quyết định đúng nếu có ít dữ liệu đã được gán nhãn
Trang 31Từ những ưu và nhược điểm của hai thuật toán SVM và kNN, Hao Zhang, Alexander C Berg, Michael Maire và Jitendra Malik, 2006 [13] đã đề xuất một phương pháp kết hợp hai thuật toán trên Công trình là một trong những công trình điển hình sớm nhất về phương pháp SVM-kNN Ý tưởng cơ bản của phương pháp này là tìm các hàng xóm gần với mẫu truy vấn và huấn luyện một máy vector hỗ trợ cục bộ Máy vector hỗ trợ cục bộ này duy trì hàm khoảng cách trên tập các hàng xóm H Zhang và cộng sự đã chứng minh được rằng phương pháp này có thể áp dụng với tập dữ liệu lớn và đa lớp với kết quả tốt hơn so với khi chỉ áp dụng thuật toán SVM hay kNN
Sau đó, Kunlun Li và cộng sự, 2010 [17] đã đề xuất một phương pháp phân lớp SVM-KNN dựa trên học bán giám sát nhằm cải tiến thuật toán SVM bằng cách tận dụng những ưu điểm của thuật toán kNN đã nêu ra ở trên Phương pháp này kết hợp thuật toán SVM và kNN, trong đó có sử dụng những thông tin từ dữ liệu chưa gán nhãn – những thông tin này có thể giúp khôi phục các biên quyết định đúng cho việc phân lớp Trong thuật toán SVM, các vector hỗ trợ quyết định các biên quyết định một cách trực tiếp, trong khi các vector biên có thể là một ứng viên tốt cho vị trí vector hỗ trợ (hình 7), do đó, phương pháp này sử dụng các vector biên để khắc phục các biên quyết định trong mỗi lần lặp Thuật toán kNN được dùng để gán nhãn các vector biên Những vector biên cuối cùng được trộn với các ví dụ huấn luyện khởi tạo để cải tiến độ chính xác của phân lớp Phương pháp này hiệu quả hơn so với phương pháp của H.Zhang và cộng sự [13] Do đó, trong khóa luận này, chúng tôi tập trung nghiên cứu phương pháp phân lớp bán giám sát SVM-kNN do K.Li và cộng sự đề xuất năm 2010