Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Huyền Trang GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Huyền Trang

GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA

TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ

PHÂN CỤM HAC

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

HÀ NỘI - 2011

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Huyền Trang

GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA

TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ

Trang 3

i

Lời cảm ơn

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo, PGS-TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động viên, giúp đỡ em trong suốt quá trình thực hiện đề tài

Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quí báu cho em trong những năm học vừa qua

Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận

Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động viên, khích lệ con trên mỗi bước đường học vấn của con

Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, đặc biệt là các thành viên lớp K52CA và K52CHTTT đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài

Tôi xin chân thành cảm ơn !

Hà Nội, ngày 20 tháng 05 năm 2011

Phạm Huyền Trang

Trang 4

ii

Tóm tắt nội dung

Khai phá quan điểm dựa trên đặc trưng (FOM) là một trong những bài toán khai phá quan điểm quan trọng [5, 18, 23] Đối với một sản phẩm, bài toán này tìm đến mức câu đánh giá để phát hiện các đặc trưng của sản phẩm, và tạo ra một bản tổng kết quan điểm đánh giá theo từng đặc trưng đó Tuy nhiên, trong văn bản đánh giá sản phẩm, khách hàng thường dùng các từ hoặc cụm từ rất khác nhau để nói đến cùng một đặc trưng sản phẩm Vì vậy, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ được coi

là đồng nghĩa trên một miền sản phẩm cần được nhóm vào cùng một nhóm đặc trưng [27]

Dựa trên phương pháp phân lớp bán giám sát gom nhóm đặc trưng sản phẩm của Zhongwu Zhai và cộng sự, 2010 [27], khóa luận đề xuất một giải pháp gom nhóm các đặc trưng đồng nghĩa trong các đánh giá tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN [17] và phân cụm HAC

Thực nghiệm trên miền sản phẩm điện thoại di động trên website bán hàng trực

tuyến Thế giới di động (http://thegioididong.com) cho thấy giải pháp gom nhóm đặc trưng sản phẩm đồng nghĩa tiếng Việt do khóa luận đề xuất có độ đo Purity là 0.68 và độ đo Accuracy là 0.65 Kết quả trên cho thấy phương pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt được khóa luận đề xuất và triển khai là có tính hiệu quả

Trang 5

iii

Lời cam đoan

Tôi xin cam đoan giải pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt trong các đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS TS Hà Quang Thụy và ThS Trần Mai Vũ

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Phạm Huyền Trang

Trang 6

iv

Mục lục

Lời cảm ơn i

Tóm tắt nội dung ii

Lời cam đoan iii

Danh sách hình vẽ vii

Danh sách bảng biểu viii

Danh sách các từ viết tắt ix

Mở đầu 1

Chương 1 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng 3

1.1 Khái quát về khai phá quan điểm khách hàng 3

1.1.1 Khái niệm về khai phá quan điểm 3

1.1.2 Ứng dụng của khai phá quan điểm 3

1.1.3 Khai phá quan điểm khách hàng trên đặc trưng sản phẩm 4

1.2 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa trên đặc trưng sản phẩm 7

1.2.1 Bài toán gom nhóm đặc trưng đồng nghĩa 7

1.2.2 Một số nghiên cứu liên quan trên thế giới 9

1.2.3 Giải pháp hiện thời 10

Tóm tắt chương một 11

Chương 2 Phân lớp bán giám sát SVM-kNN 13

2.1 Một số nội dung cơ bản về phân lớp bán giám sát 13

2.1.1.Khái niệm 13

2.1.2 Các phương pháp phân lớp bán giám sát điển hình 14

2.2 Phương pháp luận SVM-kNN dựa trên học bán giám sát 15

Trang 7

v

2.2.1 Thuật toán máy vector hỗ trợ (SVM) 15

2.2.2 Thuật toán K người láng giềng gần nhất (kNN) 18

2.2.3 Phương pháp phân lớp bán giám sát SVM-kNN 19

Tóm tắt chương hai: 24

Chương 3.Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt tự động 25

3.1 Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC 25

3.2 Pha 1: Biểu diễn vector thể hiện đặc trưng 27

3.2.1 Xác định ngữ nghĩa của các thể hiện đặc trưng 28

3.2.2 Xác định ngữ cảnh của thể hiện đặc trưng 29

3.2.3 Biểu diễn thể hiện đặc trưng dưới dạng vector 29

3.3 Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN 30

3.3.1 Quá trình phân cụm 32

3.3.2 Gán nhãn cho các cụm 34

3.3.Pha 2: Phân lớp bán giám sát SVM-kNN 34

Tóm tắt chương 3: 37

Chương 4 Thực nghiệm và đánh giá 38

4.1 Môi trường và các công cụ sử dụng thực nghiệm 38

4.2 Xây dựng tập dữ liệu 39

4.3 Thực nghiệm 40

4.3.1 Quá trình biểu diễn vector thể hiện đặc trưng 40

4.3.2 Thực nghiệm tạo tập huấn luyện cho SVM-kNN 40

4.3.3 Thực nghiệm phân lớp bán giám sát SVM-kNN: 42

Tóm tắt chương 4 47

Trang 8

vi

Kết luận 48

Tài liệu tham khảo 49

Trang 9

vii

Danh sách hình vẽ

Hình 1: Ví dụ biểu diễn cây đối tượng 5

Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và Đặc trưng trong 1 nhận xét của khách hàng trên forum http://tinhte.com 6

Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72 7

Hình 4: Ví dụ về đặc trưng đồng nghĩa 8

Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm 16

Hình 6: Ví dụ về thuật toán kNN 19

Hình 7: Minh họa vector hỗ trợ và vector biên 21

Hình 8: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo vàMing Jin[17] 22

Hình 9: Mô hình đề xuất gom nhóm đặc trưng đồng nghĩa 27

Hình 10: Sơ đồ các phần tử trước khi phân cụm 31

Hình 11: Sơ đồ các phần tử sau khi phân cụm phân cấp tích tụ từ dưới lên – HAC 31

Hình 12: Sơ đồ so sánh kết quả của mô hình đề xuất với phương pháp của K.Li và cộng sự [17] 44

Trang 10

viii

Danh sách bảng biểu

Bảng 1 Cấu hình hệ thống thử nghiệm 38

Bảng 2 Công cụ phần mềm sử dụng 39

Bảng 3: Bảng số lượng dữ liệu đầu vào 40

Bảng 4 Kết quả thực nghiệm thuật toán HAC với 5 giá trị ngưỡng α 41

Bảng 5 Các thể hiện đặc trưng cùng các cụm không đơn tương ứng 42

Bảng 6 Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn chiếm 30% tổng số dữ liệu 44

Bảng 7: Kết quả thực nghiệm khi s = 4, t= 0.8, k = 5 46

Bảng 8 Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn chiếm 40% tổng số dữ liệu 46

Trang 11

ix

Danh sách các từ viết tắt

LDA Latent Dirichlet Allocation

HAC Hierarchical Agglomerative Clustering

SVM Support Vector Machine

kNN K Nearest Neighbors

SSSVM Semi-Supervisered Support Vector Machine

S3VM-kNN Semi-Supervisered Support Vector Machine-k Nearest Neighbors TFIDF Term Frequency Inverse Document Frequency

Trang 12

1

Mở đầu

Khai phá và tổng hợp quan điểm khách hàng dựa trên đặc trưng sản phẩm (FOM) đang là một trong những lĩnh vực nhận thu hút nhiều sự quan tâm trên thế giới [5, 18, 20, 23] Mục tiêu của bài toán này là tạo ra một bản tổng hợp các quan điểm của khách hàng trên từng đặc trưng sản phẩm Bản tổng hợp như vậy cung cấp cho khách hàng một cái nhìn trực quan về ý kiến của những khách hàng đã dùng sản phẩm trước đó, đồng thời, giúp nhà sản xuất phát hiện ra những hạn chế còn mắc phải của sản phẩm và nhờ vậy có thể khắc phục những nhược điểm đang tồn tại

Gom nhóm đặc trưng đồng nghĩa được người dùng đề cập đến trong các đánh giá

là một bài toán con của bài toán FOM thực hiện việc nhóm các từ cùng chỉ đến một đặc trưng nào đó vào một nhóm Các đặc trưng được xác định là đồng nghĩa tùy thuộc từng miền sản phẩm khác nhau

Trong những năm gần đây, một số giải pháp gom nhóm đặc trưng sản phẩm đã được đưa ra [7, 11, 27] Tuy nhiên, đối với tiếng Việt, chưa có một nghiên cứu nào đi sâu nghiên cứu vấn đề này Giải pháp hiện thời của chúng tôi trong [21] là xây dựng bằng tay

bộ từ điển đồng nghĩa tiếng Việt trên miền sản phẩm điện thoại

Trong khóa luận này, chúng tôi sử dụng kỹ thuật học bán giám sát để gom nhóm đặc trưng sản phẩm trên miền sản phẩm điện thoại di động dựa trên hướng tiếp cận của Zhongwu Zhai và cộng sự, 2010 [27] Chúng tôi đề xuất một mô hình tự động gom nhóm đặc trưng đồng nghĩa, theo đó, đối với một miền sản phẩm mới, việc tạo tập dữ liệu huấn luyện được thi hành bằng thuật toán phân cụm HAC theo ngưỡng α Sau đó, thuật toán phân lớp bán giám sát SVM-kNN dựa trên ngữ nghĩa và ngữ cảnh của từng đặc trưng được áp dụng Chúng tôi lựa chọn phân lớp bán giám sát SVM-kNN vì phương pháp này cho kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh như kết quả nghiên cứu của Kunlun Li và cộng sự năm 2010 [17] Khóa luận tiến hành thực nghiệm

mô hình gom nhóm đặc trưng dựa trên HAC và SVM-kNN với kết quả đạt mức phù hợp với kết quả trong các công bố khoa học liên quan trên thế giới (Purity là 0.68 và Accuracy

là 0.65)

Nội dung của khóa luận được chia thành các chương như sau:

Trang 13

2

Chương 1: Khóa luận giới thiệu khái quát về khai phá quan điểm khách hàng cũng

như một số khái niệm liên quan trong khai phá quan điểm khách hàng dựa trên đặc trưng Ngoài ra, bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt cùng một số nghiên cứu liên quan và giải pháp hiện thời của chúng tôi cũng được trình bày tại chương này

Chương 2: Khóa luận giới thiệu về thuật toán phân lớp SVM, kNN Từ đó, khóa

luận trình bày chi tiết phương pháp phân lớp bán giám sát SVM-kNN là phương pháp phân lớp được sử dụng để giải quyết bài toán gom nhóm đặc trưng sản phẩm

Chương 3: Khóa luận đề xuất một mô hình giải pháp gom nhóm đặc trưng đồng

nghĩa dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC trên miền dữ liệu tiếng Việt Đồng thời, khóa luận cũng trình bày chi tiết các pha cũng những các bước trong mô hình

Chương 4: Khóa luận trình bày một số thực nghiệm việc gom nhóm đặc trưng sản

phẩm đồng nghĩa tiếng Việt trong các đánh giá của khách hàng trên miền sản phẩm điện thoại di động Kết quả thực nghiệm được đánh giá theo các độ đo tương ứng phù hợp với bài toán gom nhóm đặc trưng

Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai

Trang 14

3

Chương 1 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng

1.1 Khái quát về khai phá quan điểm khách hàng

1.1.1 Khái niệm về khai phá quan điểm

Theo Bing Liu, 2010 [5], thông tin văn bản có thể được chia ra thành hai loại

chính, là sự kiện và quan điểm.Thông tin sự kiện thể hiện khách quan về những thực thể,

sự kiện hay các thuộc tính của chúng Thông tin quan điểm thể hiện chủ quan của con

người, miêu tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính Khai phá quan điểm đang là một lĩnh vực nghiên cứu gần đây thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng Quá trình khai phá quan điểm đóng một vai trò quan trọng trong thế giới ngày nay, không chỉ trong lĩnh vực kinh tế (đặc biệt trong thương mại điện tử) mà còn trong lĩnh vực xã hội (đặc biệt trong mạng xã hội trực tuyến)

Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, đề cập đến việc áp dụng các giải pháp của xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [20] Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện theo nhiều mức độ khác nhau

1.1.2 Ứng dụng của khai phá quan điểm

Khai phá quan điểm đang trở thành một lĩnh vực quan trọng trong những năm gần đây do phạm vi ứng dụng rộng của nó Bo Pang and Lillian Lee, 2008 [6] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm

Miền ứng dụng đầu tiên là các website đánh giá Các website này tự động tổng hợp

quan điểm và đánh giá của người sử dụng (chẳng hạn, trang Epinion: http://www1.epinions.com/) Các website có tính năng mời gọi đánh giá (review-solicitation) cũng được xếp vào loại này, trong đó tổng hợp đánh giá người dùng (Summarizing user reviews) là một chứcc năng quan trọng

Miền ứng dụng thứ hai là khai phá quan điểm đóng vai trò công nghệ thành phần

con (Sub-Component Technology) trong các hệ thống khác, chẳng hạn như các hệ thống

Trang 15

4

tư vấn (recommendation systems), hệ thống hỏi-đáp (Question answer systems), thành phần tương tác người-máy (human–computer interaction) của các hệ thống

Miền ứng dụng thứ ba là các ứng dụng trong thông minh doanh nghiệp (Business

Intelligence) và thông minh chính quyền (Government Intelligence) Khai phá quan điểm được dùng trong nhận biết quan điểm khách hàng, tình báo công nghiệp (thông minh doanh nghiệp) hoặc xu hướng truyền thông thù địch… (thông minh chính quyền)

Cuối cùng, khai phá quan điểm áp dụng trong liên miền ứng dụng khác nhau

1.1.3 Khai phá quan điểm khách hàng trên đặc trưng sản phẩm

Khai phá và tổng hợp quan điểm dựa trên đặc trưng là một trong ba bài toán điểm hình thuộc lĩnh vực khai phá quan điểm Ba bài toán điển hình đó là: Phân lớp quan điểm, khai phá quan hệ so sánh và khai phá quan điểm dựa trên đặc trưng Trong ba bài toán trên, khai phá quan điểm dựa trên đặc trưng là một bài toán đang rất được chú ý trong lĩnh vực khai phá quan điểm Trong mục này, khóa luận sẽ trình bày một số khái niệm liên quan đến bài toán khai phá quan điểm dựa trên đặc trưng và mô hình hóa cho bài toán này

a Một số khái niệm liên quan

- Đối tượng (object): Một đối tượng O là một một sản phẩm [5]

Ví dụ: Điện thoại Nokia N72, bộ phim “Cuốn theo chiều gió”, …

- Đặc trưng (feature):

Bài toán gom nhóm đặc trưng đồng nghĩa liên quan trực tiếp đến khái niệm đặc trưng Do vậy, chúng tôi xin trình bày chi tiết về khái niệm này như dưới đây

Mỗi đối tượng O được liên hệ với một cặp O (T,A) với T là một sự phân cấp của

các thành phần, thành phần con, … và A là một tập các thuộc tính của O [5] Mỗi thành

phần lại có tập các thành phần con và thuộc tính riêng của nó Để làm rõ hai khái niệm thành phần và thuộc tính ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện

thoại Nokia N72 Đối tượng này có một tập các thành phần, như: pin, màn hình, … và một tập các thuộc tính như chất lượng âm thanh, kích cỡ, cảm ứng, … Thành phần pin cũng có một tập các thuộc tính như: chất lượng pin, kích cỡ pin,…

Trang 16

5

Một đối tượng được thể hiện bởi một cây Gốc cây là đối tượng đó, mỗi một node không phải là gốc là một thành phần của đối tượng Mỗi cung thể hiện quan hệ giữa các thành phần Mỗi node cũng được liên kết với các thuộc tính

Hình 1 Ví dụ biểu diễn cây đối tượng

Tuy nhiên, việc xử lý ngôn ngữ tự nhiên liên quan là một nhiệm vụ rất khó; hơn nữa, để tránh sự phân cấp, có thể coi thành phần và thuộc tính là đặc trưng quan điểm (hay đặc trưng)

- Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f của

đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích cực, tiêu cực hay trung lập về đặc trưng f [5]

-Từ quan điểm (opinion word): Quan điểm trên một đặc trưng bất kỳ là hướng nhìn, thái độ của khách hàng đối với mỗi đặc trưng [5] Thái độ đó có thể theo hướng tích cực, tiêu cực hay trung lập Từ thể hiện được quan điểm của khách hàng được gọi là từ quan điểm

Ví dụ:

Câu = “Nội dung phim hay”

Quan điểm của người dùng trên đặc trưng “nội dung” (phim) là một quan điểm hướng tích cực, vì sử dụng từ quan điểm “hay”

-Người đánh giá (opinion holder):

Là người hay tổ chức cụ thể đưa ra lời đánh giá Với các đánh giá về sản phẩm trên diễn đàn, blogs: người đánh giá chính là các tác giả của đánh giá hay bài viết [5]

Trang 17

6

Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và

b Mô hình hóa bài toán

Bing Liu [5] định nghĩa một mô hình của một đối tượng và một tập các quan điểm

về đối tượng Một đối tượng được thể hiện với một tập xác định của đặc trưng, F = {f1,f2,…,fn} Mỗi đặc trưng fi trong F có thể được diễn tả bởi một tập các từ hoặc cụm từ

Wi là các đặc trưng đồng nghĩa Mỗi người đánh giá j bình luận trên một tập con các

đặc tính Sj thuộc F Với mỗi fk thuộc Sj, người đánh giá j diễn đạt quan điểm về đặc trưng bằng một từ hoặc cụm từ trong Wk với một thái độ tích cực (positive) hay tiêu cực (negative)

Mô hình này đòi hỏi ba tình huống bài toán trong thực tế Giả sử có một tập các văn bản đánh giá D là đầu vào, ba tình huống bài toán được phát biểu như sau:

Tình huống 1: Cả F và W đều không biết Bài toán cần thực hiện ba nhiệm vụ:

- Nhiệm vụ 1: Xác định và trích chọn các đặc trưng được đề cập tới trong D

- Nhiệm vụ 2: Xác định hướng quan điểm trên các đặc trưng

- Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các đặc trưng, vì những người khác

nhau có thể sử dụng các từ hoặc cụm từ khác nhau để diễn đạt cùng một đặc trưng Đây chính là bài toán gom nhóm đặc trưng đồng nghĩa mà khóa luận hướng tới giải quyết Nhiệm vụ này sẽ được chúng tôi trình bày trong mục 1.2

Trang 18

7

Tình huống 2: F đã biết, nhưng W lại không Tất cả ba nhiệm vụ của bài toán 1

cần được thực hiện, nhưng nhiệm vụ 3 trở thành bài toán ghép các đặc trưng phát hiện được với tập đặc trưng F đã cho

Tình huống 3: W và F cùng đã biết Thực hiện nhiệm vụ 2 ở trên, tức là xác định

xem quan điểm trên thuộc tính là thái độ tích cực hay tiêu cực, hay trung lập sau khi tất cả các câu chứa chúng được trích chọn

Đầu ra của một tập văn bản D là một tập các cặp, mỗi cặp được kí hiệu bởi (f, SO), trong đó f là một đặc trưng và SO là hướng ngữ nghĩa hay hướng quan điểm được diễn đạt trong D trên đặc trưng f Cuối cùng, từ kết quả này, đưa ra một bản tổng hợp các quan điểm về một đối tượng dựa trên các đặc trưng

Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72 [21]

1.2 Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa trên đặc trưng sản phẩm

1.2.1 Bài toán gom nhóm đặc trưng đồng nghĩa

Trong các đánh giá của người dùng trên mạng thường chứa các yếu tố không chuẩn [22] Nói riêng, trong các văn bản đánh giá sản phẩm, khách hàng thường sử dụng những từ hoặc cụm từ rất khác nhau để nhắc đến cùng một đặc trưng sản phẩm

Ví dụ: Trong hình 4, với miền sản phẩm điện thoại Nokia E63, chúng tôi khảo sát trên website bán hàng trực tuyến http://www.thegioididong.com thì khách hàng sử dụng

Trang 19

8

từ “tính năng” và “chức năng” cùng nhắc đến đặc trưng “tính năng”, nên chúng được coi

là các từ đặc trưng đồng nghĩa

Hình 4: Ví dụ về đặc trưng đồng nghĩa

Do đó, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ đồng nghĩa

cần được nhóm vào cùng một nhóm đặc trưng Theo Bing Liu [5] việc xác định và gom

nhóm các đặc trưng đồng nghĩa là rất cần thiết cho các ứng dụng thực tế

Từ mô hình hóa bài toán, có thể thấy bài toán gom nhóm đặc trưng đồng nghĩa

chính là một trong ba nhiệm vụ của tình huống bài toán 1 trong khai phá quan điểm cần

phải giải quyết

Zhongwu Zhai và cộng sự [27] nêu ra hai khái niệm trong bài toán gom nhóm đặc

trưng đồng nghĩa là “thể hiện đặc trưng” và “nhóm đặc trưng” Nhóm đặc trưng là tên của

một đặc trưng của sản phẩm mà người dùng muốn nói đến, trong khi thể hiện đặc trưng là

một từ hoặc cụm từ xuất hiện thực sự trong các đánh giá sản phẩm để chỉ đặc trưng đó

Những khái niệm này được sử dụng trong phương pháp đề xuất của chúng tôi

Ví dụ:

Một nhóm đặc trưng tên là “Hình thức”, có thể có nhiều thể hiện đặc trưng như:

“Thiết kế”, “Kiểu cách”, “Mẫu mã”, hoặc thậm chí có thể là “Hình thức”

Mục tiêu của bài toán là xác định được các đặc trưng đồng nghĩa và đưa chúng vào

cùng một nhóm đặc trưng Bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá

liên quan nhiều đến bài toán xác định từ đồng nghĩa [27] Đây là một thách thức trong xử

lý ngôn ngữ tự nhiên

Trang 20

9

1.2.2 Một số nghiên cứu liên quan trên thế giới

Bài toán gom nhóm đặc trưng đồng nghĩa đã và đang nhận được nhiều sự quan tâm trên thế giới Có khá nhiều công trình đã nghiên cứu nhằm tìm ra các phương án tối ưu để giải quyết bài toán, chẳng hạn [7, 11, 27]

Theo Bing Liu [5], một trong số các phương pháp nhằm giải quyết bài toán này là

sử dụng từ điển Wordnet và các từ điển đồng nghĩa khác Một một số phương pháp hướng

sử dụng từ đồng nghĩa song kết hợp một số cải tiến đã được đề xuất

Carenini và cộng sự, 2005 [8] đề xuất một phương pháp tinh vi dựa trên các số liệu tương tự như một số yêu cầu phân lớp các đặc trưng được đưa ra Hệ thống này kết hợp đặc trưng phát hiện mỗi một nút đặc trưng trong phân lớp này Các số liệu tương tự được xác định dựa trên các chuỗi tương tự, từ đồng nghĩa và khoảng cách đo khác bằng cách sử dụng WordNet

Zhongwu Zhai và cộng sự, 2010 [27] nêu ra ba hạn chế khi dùng từ điển đồng nghĩa trong gom nhóm từ đặc trưng

Thứ nhất, có nhiều từ không phải là đồng nghĩa trong từ điển nhưng lại có thể là

đồng nghĩa trong một miền ứng dụng nào đó Ví dụ, hai từ “design” và “appearance”

không là từ đồng nghĩa nếu xét trong từ điển nhưng được coi là hai từ đồng nghĩa trong

miền “mobile”

Thứ hai, từ đồng nghĩa có tính phụ thuộc miền ứng dụng Ví dụ, hai từ “movie” và

“picture” là đồng nghĩa trong miền “movie” nhưng trong miền “video” thì hai từ này lại

chỉ đến hai đặc trưng hoàn toàn khác nhau

Thứ ba, việc xác định các từ đồng nghĩa có thể phụ thuộc vào yêu cầu mức độ trừu

tượng hóa của miền ứng dụng Ví dụ, trong miền “car” thì “internal design” và “external

design” là thuộc hai nhóm đặc trưng khác nhau theo mức chi tiết nào đó song lại được coi

là thuộc cùng một nhóm đặc trưng theo một mức trừu tượng cao hơn

Dựa theo hướng tiếp cận không giám sát, Guo và cộng sự, 2009 [12] đề xuất một

kỹ thuật việc kết hợp ngữ nghĩa ẩn đa mức để góm nhóm các thể hiện đặc trưng Kỹ thuật này chạy LDA hai lần Kỹ thuật này tránh được việc phụ thuộc vào từ điển đồng nghĩa Tuy nhiên phương pháp này còn phụ thuộc vào miền và ngôn ngữ

Trang 21

10

Gần đây, Zhongwu Zhai và cộng sự, 2010 [27] đề xuất một phương pháp nhĩm đặc trưng đồng nghĩa dựa trên hướng tiếp cận học bán giám sát, đồng thời kết hợp ràng buộc mềm để áp dụng cho bài tốn này nhằm khắc phục những hạn chế cịn gặp phải khi

sử dụng từ điển đồng nghĩa Phương pháp học bán giám sát được sử dụng là Bayesian Expectation-Maximization, bộ phân lớp Bayesian được chạy lặp lại trên dữ liệu

Nạve-đã gán nhãn và dữ liệu chưa gán nhãn cho đến khi các xác suất cho dữ liệu chưa gán nhãn hội tụ Việc gán nhãn dữ liệu được tạo bằng tay Để cĩ kết quả tốt hơn, các tác giả đã tạo

ra 2 ràng buộc mềm nhằm làm giàu tập dữ liệu đã gán nhãn Hai ràng buộc mềm này là: (1) – Những thể hiện đặc trưng cĩ chung một số từ nào đĩ thì thuộc về cùng một nhĩm; (2) – Những thể hiện đặc trưng đồng nghĩa trong từ điển đồng nghĩa thì thuộc về cùng một nhĩm

Việc tạo ra những ràng buộc mềm cĩ hai ưu điểm:

Một là, hai ràng buộc này tạo ra các mẫu nhãn mềm (soft-labeled examples) và

chúng được đưa vào tập huấn luyện nhằm làm giàu tập huấn luyện đĩ

Hai là, trong trường hợp ràng buộc mềm gán sai nhãn do những hạn chế của bộ từ

điển đồng nghĩa mang lại thì bộ phân lớp bán giám sát vẫn được phép thay đổi nhãn

Các tác giả tiến hành thực nghiệm trên các đánh giá từ 5 miền khác nhau, kết quả cho thấy phương pháp gom nhĩm đặc trưng sử dụng học bán giám sát là khá hiệu quả

Thực nghiệm trên 5 bộ dữ liệu, độ đo purity thuộc khoảng 0.66-0.70 và độ đo accuracy

thuộc khoảng 0.67-0.71

1.2.3 Giải pháp hiện thời

Hiện nay, tại Việt Nam, chưa cĩ một cơng trình nghiên cứu nào đi sâu giải quyết bài tốn gom nhĩm đặc trưng sản phẩm trong các đánh giá tiếng Việt

Trong [21], chúng tơi đề xuất một mơ hình khai phá quan điểm dựa trên đặc trưng đối với các đánh giá sản phẩm điện thoại bằng tiếng Việt Khĩ khăn lớn nhất của chúng tơi khi giải quyết bài tốn này trong miền dữ liệu tiếng Việt là tại Việt Nam, chưa cĩ bộ từ điển đồng nghĩa kiểu Wordnet; trong khi các cơng trình nghiên cứu nêu trên (mục 1.2.2) đều sử dụng bộ từ điển đồng nghĩa Ngồi ra, trong miền dữ liệu đánh giá tiếng Việt của khách hàng về sản phẩm, chất lượng cũng như số lượng của các đánh giá là khá thấp

Trang 22

11

Trong công trình nói trên [21], chúng tôi sử dụng một giải pháp rất đơn giản để nhóm các đặc trưng “đồng nghĩa” – đó là sử dụng một bộ từ điển đặc trưng đồng nghĩa xây dựng bằng tay Từ điển này chứa các đặc trưng đồng nghĩa trên miền sản phẩm “điện thoại” Khi trong câu đánh giá xuất hiện một thể hiện đặc trưng có trong từ điển thì tên thể hiện đặc trưng sẽ được suy ra tên nhóm đặc trưng

Tuy nhiên, ngoài những hạn chế đã nêu ở mục 1.2.2 khi sử dụng từ điển đồng

nghĩa, giải pháp này còn gặp một số điểm hạn chế Thứ nhất, việc nhóm các thể hiện đặc

trưng vào nhóm đặc trưng phù hợp là một công việc tốn rất nhiều thời gian, vì người dùng thường sử dụng rất nhiều những từ ngữ khác nhau để thể hiện cùng một đặc trưng, có

những nhóm đặc trưng có thể có đến hàng chục thể hiện đặc trưng Thứ hai, trong trường

hợp xuất hiện những thể hiện đặc trưng mới trong đánh giá của người dùng, và đặc trưng này không có trong từ điển thì mô hình vẫn chưa phát hiện được nhóm đặc trưng của nó

Bởi lẽ, việc xác định đặc trưng đồng nghĩa phụ thuộc hoàn toàn vào bộ từ điển Thứ ba,

việc xây dựng từ điển đồng nghĩa trong [21] chỉ áp dụng được trong miền sản phẩm điện thoại, khi chuyển sang miền dữ liệu khác thì phải xây dựng một bộ từ điển khác

Khóa luận này đề xuất một giải pháp gom nhóm đặc trưng đồng nghĩa cũng dựa trên phân lớp bán giám sát Tuy nhiên, so với [26], mô hình của chúng tôi có các điểm

khác biệt: Thứ nhất, chúng tôi không tạo một tập huấn luyện bằng tay để tạo ra một bộ

phân lớp như [26], mà thay vào đó, tập huấn luyện này được tạo một cách tự động nhờ áp

dụng thuật toán phân cụm HAC Thứ hai, chúng tôi không sử dụng từ điển đồng nghĩa,

mà thay vào đó là một từ điển Việt-Việt cùng các đánh giá của khách hàng để tạo tập

huấn luyện Thứ ba, phương pháp phân lớp bán giám sát mà chúng tôi sử dụng là

SVM-kNN, trong khi phương pháp được sử dụng trong [26] là EM

Tóm tắt chương một

Trong chương này, khóa luận giới thiệu khái quát về bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng theo đặc trưng Khóa luận cũng trình bày một số hướng giải quyết của bài toán trên thế giới cũng như giải pháp hiện thời của chúng tôi

Từ những phân tích về khó khăn khi giải quyết bài toán trên miền tiếng Việt cùng với các điểm hạn chế về giải pháp hiện thời cũng như hạn chế về việc sử dụng từ điển

Trang 24

13

Chương 2 Phân lớp bán giám sát SVM-kNN

2.1 Một số nội dung cơ bản về phân lớp bán giám sát

nhãn ban đầu (thuờng gọi là seed set) để xây dựng một bộ phân lớp thậm chí là tốt hơn

Trong quá trình học như thế, phương pháp sẽ tận dụng được những thông tin phong phú

của dữ liệu chưa gán nhãn (unlabeled data), mà chỉ yêu cầu một số luợng nhỏ các dữ liệu

đã gán nhãn (labeled data ) [25, 26, 1] Như tổng hợp của X.J Zhu, 2008 [25], học bán

giám sát nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu về học máy

Theo X.J Zhu, 2008 [25], X Zhu và A B Goldberg, 2009 [26], học bán giám sát

Việc học bán giám sát sẽ là hữu ích khi có nhiều dữ liệu không gán nhãn hơn là dữ liệu gãn nhãn Trong thực tế, tồn tại nhiều dữ liệu không gán nhãn hơn là dữ liệu gán nhãn; bởi vì dữ liệu không gãn nhãn có thể dễ dàng được thu thập với chi phí thấp, nhưng công việc gãn nhãn cho các dữ liệu lại tốn rất nhiều thời gian, công sức và tiền bạc [4, 7,

Trang 25

14

25, 26] Chính vì khả năng tận dụng cả dữ liệu đã gán nhãn để đạt được kết quả cao hơn học giám sát nên học bán giám sát mang giá trị thực tiễn cao [5]

b Phân lớp bán giám sát

Phân lớp bán giám sát đang là một lĩnh vực nhận được nhiều sự quan tâm trong cả

lý thuyết và thực tiễn [25] Phân lớp bán giám sát là một dạng đặc biệt trong bài toán phân lớp [26] Nó sử dụng cả dữ liệu chưa gán nhãn, và dữ liệu đã gán nhãn – điều này chính là một sự mở rộng so với bài toán phân lớp giám sát

Giả sử tập dữ liệu huấn luyện bao gồm l ví dụ đã gán nhãn {(x ,y )}l1

là u >> l Mục tiêu của phân lớp bán giám sát là huấn luyện một bộ phân lớp f từ l và u;

trong khi đó, phân lớp giám sát lại tạo ra một bộ phân lớp chỉ từ những dữ liệu đã gãn nhãn Trong quá trình học, việc phân lớp bán giám sát sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gãn nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gãn nhãn

2.1.2 Các phương pháp phân lớp bán giám sát điển hình

Các thuật toán bán giám sát đã và đang được phát triển một cách nhanh chóng trong những năm gần đây Hiện nay, có rất nhiều phương pháp học bán giám sát như: self-learning và self-labeling – là hai trong số những phương pháp phân lớp bán giám sát sớm nhất, chúng vẫn được sử dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên; hoặc phương pháp SSSVM (SVM bán giám sát) với ý tưởng tìm một biên quyết định trong các vùng mật độ thấp; hay phương pháp dựa trên đồ thị - phương pháp này xây dựng một đồ thị có trọng số trên những ví dụ đã gán nhãn và ví dụ chưa gán nhãn và giả thiết rằng giữa hai ví dụ có một kết nối mạnh thì có khuynh hướng có cùng nhãn và giải quyết bài toán tối ưu hóa; một phương pháp phân lớp bán giám sát khác là sử dụng mô hình sinh, hỗn hợp phân bố Gaussian trong thuật toán EM (K Li và cộng sự, 2010 [167)

Vì vậy, trước khi quyết định lựa chọn phương pháp học cho một bài toán cụ thể cần phải xem xét các giả thiết của mô hình Theo [25], nên sử dụng phương pháp học mà giả thiết của nó phù hợp với cấu trúc của bài toán Việc lựa chọn này có thể là khó khăn trong thực tế, tuy nhiên có thể thử các gợi ý sau: Nếu các lớp tạo ra dữ liệu có tính phân

Trang 26

15

cụm cao thì EM với mô hình trộn sinh có thể là một sự lựa chọn tốt; nếu các thuộc tính

có sự phân chia tự nhiên thành hai tập thì co-training có thể phù hợp; nếu hai mẫu dữ liệu với các thuộc tính tương tự nhau hướng tới thuộc về cùng một lớp thì có thể sử dụng các phương pháp dựa trên đồ thị; nếu các bộ phân lớp giám sát được xây dựng từ trước là phức tạp và khó sửa đổi thì self-training sẽ là một lựa chọn ưu tiên

Hiệu quả của những thuật toán phân lớp bán giám sát phụ thuộc vào chất lượng của các ví dụ gán nhãn được thêm vào ở mỗi vòng lặp và được đánh giá dựa trên hai tiêu chí [4, 25]:

- Các ví dụ được thêm vào phải được gán nhãn một cách chính xác

- Các ví dụ được thêm vào phải mang lại thông tin hữu ích cho bộ phân lớp (hoặc

dữ liệu huấn luyện)

2.2 Phương pháp luận SVM-kNN dựa trên học bán giám sát

Khóa luận này tập trung nghiên cứu việc nhóm các đặc trưng đồng nghĩa trong khai phá quan điểm dựa trên phân lớp bán giám sát SVM-kNN Phương pháp phân lớp bán giám sát SVM-kNN tỏ ra rất hiệu quả trong bài toán phân lớp nếu chọn các tham số phù hợp Phương pháp này có độ chính xác cao hơn so với thuật toán phân lớp SVM bởi

vì nó thực hiện việc cải tiến độ chính xác của mỗi bộ phân lớp SVM qua nhiều lần lặp [16] Trước hết, chúng tôi xin giới thiệu về thuật toán SVM, kNN và sau đó trình bày các bước trong SVM-kNN

2.2.1 Thuật toán máy vector hỗ trợ (SVM)

Giải thuật Máy vector hỗ trợ (SVM) dựa trên nguyên lý tối thiểu hóa rủi ro cấu trúc (Structural Risk Minimization) trong lý thuyết thống kê (T Joachims, 1997, [16]) Xét bài toán phân lớp văn bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn

luyện các cặp (x i , y i ), i = 1, …, l; trong đó x i∈ R n là không gian vector đặc trưng n chiều;

y i∈ {-1, 1}, các mẫu dương là các mẫu x i thuộc lĩnh vực quan tâm và được gán nhãn y i = 1

và các mẫu âm là các mẫu x i không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1 Bài toán đặt ra là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả

năng lỗi xảy ra là tối thiểu

Trang 27

16

a.Trường hợp khả tách tuyến tính

Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng lề tối ưu nhất (hình 5) Các mặt siêu phẳng

trong không gian đối tượng có phương trình là w T x + b = 0, trong đó w là vector pháp

tuyến, b là tham số mô hình phân lớp Khi thay đổi w và b, hướng và khoảng cách từ gốc

tọa độ đến mặt siêu phẳng thay đổi

Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm

Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(w T x + b)(1.1), trong đó:

sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0

Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x thuộc

về lớp âm

Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các

lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm

Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:

Hai mặt siêu phẳng có phương trình là w T x + b = ±1 được gọi là các mặt siêu

phẳng hỗ trợ (các đường nét đứt trên hình 5)

Trang 28

b Trường hợp không khả tách tuyến tính

Với dữ liệu huấn luyện không khả tách tuyến tính thì ta có thể giải quyết theo hai cách

Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số mẫu

huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương có thêm một cận trên C dương - tham số do người sử dụng lựa chọn Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai

Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu vào

sang một không gian mới có số chiều cao hơn

Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu Một mặt quyết định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu

Với k là một hàm nhân thoản mãn:

Trang 29

trong đó gamma, coef0 và degree là các tham số nhân

2.2.2 Thuật toán K người láng giềng gần nhất (kNN)

Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phânlớp dựa trên bộ nhớ, đơn giản vì nó không phải thực hiện quá trình học mô hình, thay thế điều

đó, phương pháp cần sử dụng tất cả các đốitượng trong tập huấn luyện khi phân lớp cho một đối tượng dữ liệu mới

Để phân lớp cho một điểm dữ liệu mới x, trước hết bộphân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấnluyện Qua đó tìm được tập

N(x, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x là gần nhất Ví dụ nếu các dữ

liệu mẫu được biểu diễn bởi không gian vector thì chúng ta có thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau Sau khi xác định được tập

N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong

tập N(x, D, k) Mặc dù rất đơn giản, nhưng thuật toán K người láng giềng gần nhất đã cho

kết quả tốt trong nhiều ứng dụng thực tế Cũng như SVM, k-NN được xếp vào 10 thuật toán khai phá dữ liệu điển hình nhất [24]

Để áp dụng thuật toán k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng

số cho mỗi lớp theo biểu thức (2.1) Trong đó N C (x, D, k)là tập con chỉ chứa các đối tượng

thuộc lớp c của tập N(x, D, k)

'

' ( , , )

Trang 30

19

Khi đó tài liệu x sẽ được phân vào lớp c 0nếu:

0( | ) ax{ ( | ), }

Hình 6: Ví dụ về thuật toán kNN

Một ví dụ đơn giản về thuật toán kNN được minh họa trong hình 6 Trong đó, các nút tròn màu đỏ thể hiện lớp A, các nút tam giác màu xanh nước biển thể hiện lớp B và nút tròn màu xanh lá cây là nút chưa được gán nhãn Với tham số k = 4, thuật toán sẽ tính khoảng cách từ nút xanh lá cây đến 4 nút gần nó nhất Nút xanh lá cây có khoảng cách gần nhất đến 3 nút màu đỏ và 1 nút màu xanh biển.Từ hình có thể dễ dàng nhận thấy, nút xanh lá cây sẽ thuộc vào lớp A

Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và sai sót càng thấp

2.2.3 Phương pháp phân lớp bán giám sát SVM-kNN

Thuật toán SVM đã cho thấy được rất nhiều những ưu điểm vượt trội như SVM có khả năng học độc lập với số chiều trong không gian đặc trưng, kết quả phân lớp khi sử dụng thuật toán SVM là khá tốt kể cả trong không gian đặc trưng nhiều chiều Tuy nhiên, SVM có một nhược điểm là không cung cấp một ước lượng chính xác các biên quyết định đúng nếu có ít dữ liệu đã được gán nhãn

Trang 31

Từ những ưu và nhược điểm của hai thuật toán SVM và kNN, Hao Zhang, Alexander C Berg, Michael Maire và Jitendra Malik, 2006 [13] đã đề xuất một phương pháp kết hợp hai thuật toán trên Công trình là một trong những công trình điển hình sớm nhất về phương pháp SVM-kNN Ý tưởng cơ bản của phương pháp này là tìm các hàng xóm gần với mẫu truy vấn và huấn luyện một máy vector hỗ trợ cục bộ Máy vector hỗ trợ cục bộ này duy trì hàm khoảng cách trên tập các hàng xóm H Zhang và cộng sự đã chứng minh được rằng phương pháp này có thể áp dụng với tập dữ liệu lớn và đa lớp với kết quả tốt hơn so với khi chỉ áp dụng thuật toán SVM hay kNN

Sau đó, Kunlun Li và cộng sự, 2010 [17] đã đề xuất một phương pháp phân lớp SVM-KNN dựa trên học bán giám sát nhằm cải tiến thuật toán SVM bằng cách tận dụng những ưu điểm của thuật toán kNN đã nêu ra ở trên Phương pháp này kết hợp thuật toán SVM và kNN, trong đó có sử dụng những thông tin từ dữ liệu chưa gán nhãn – những thông tin này có thể giúp khôi phục các biên quyết định đúng cho việc phân lớp Trong thuật toán SVM, các vector hỗ trợ quyết định các biên quyết định một cách trực tiếp, trong khi các vector biên có thể là một ứng viên tốt cho vị trí vector hỗ trợ (hình 7), do đó, phương pháp này sử dụng các vector biên để khắc phục các biên quyết định trong mỗi lần lặp Thuật toán kNN được dùng để gán nhãn các vector biên Những vector biên cuối cùng được trộn với các ví dụ huấn luyện khởi tạo để cải tiến độ chính xác của phân lớp Phương pháp này hiệu quả hơn so với phương pháp của H.Zhang và cộng sự [13] Do đó, trong khóa luận này, chúng tôi tập trung nghiên cứu phương pháp phân lớp bán giám sát SVM-kNN do K.Li và cộng sự đề xuất năm 2010