Gán nhãn cho các cụm 34

Một phần của tài liệu Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC (Trang 45)

L ời cam đ oan iii

3.3.2. Gán nhãn cho các cụm 34

Việc gãn nhãn cho cụm là một việc đĩng vai trị quan trọng trong giải pháp đề xuất của chúng tơi. Bởi vì, việc quyết định gãn nhãn cho cụm sẽ ảnh hưởng trực tiếp đến tên lớp cho bộ phân lớp sau đĩ. Như vậy, nếu gãn nhãn cho các cụm khơng tốt sẽ gây ra một tên lớp khơng tốt và do đĩ tên của nhĩm đặc trưng cũng sẽ khơng phù hợp. Khĩa luận này sử dụng phương pháp gán nhãn cho các cụm là chọn các từ khĩa cĩ trọng số (tần suất) cao làm nhãn cho cụm. Phương pháp này khơng quan tâm đến nội dung của các cụm khác mà chỉ quan tâm đến bản thân nội dụng của cụm.

Như vậy, sau pha 1, thu được các thể hiện đặc trưng nằm trong cụm đơn và các thể hiện đặc trưng nằm trong cụm khơng đơn.

3.3.Pha 2: Phân lớp bán giám sát SVM-kNN

Tập những thể hiện đặc trưng nằm trong cụm khơng đơn được coi là tập các mẫu huấn luyện đã gán nhãn, và tập những thể hiện đặc trưng nằm trong cụm đơn là tập các mẫuchưa gán nhãn cho bộ phân lớp SVM-kNN. Bộ phân lớp bán giám sát SVM-kNN sẽ học trên cả những mẫu chưa được gán nhãn và mẫu đã được gán nhãn đĩ.

Quá trình phân lớp bán giám sát SVM-kNN trong bài tốn gom nhĩm đặc trưng dựa trên cơ sở phương pháp phân lớp bán giám sát SVM-kNN do Kunlun Li và cộng sự [17] đề xuất đã được trình bày trong khĩa luận ở chương 2. Tuy nhiên, để cĩ được kết quả tốt hơn, thay vì sử dụng những vector biên làm tập kiểm tra cho bộ phân lớp kNN, chúng tơi sử dụng các vector hỗ trợ làm tập kiểm tra, vì các vector hỗ trợ là những mẫu dữ liệu cĩ độ tin cậy cao.Nhờ vậy mà kết quả của bộ phân lớp SVM cuối cùng sẽ cao hơn nhiều.

Quá trình phân lớp bán giám sát SVM-kNN sử dụng thuật tốn học giám sát SVM và học giám sát kNN cơ bản. Nhiệm vụ của thuật tốn SVM trong phương pháp này là tạo ra một bộ phân lớp SVM yếu từ những mẫu đã được gán nhãn.Sử dụng vector hỗ trợ để cải tiến bộ phân lớp SVM yếu này bằng cách áp dụng thuật tốn kNN.Sau đĩ, khi cĩ được tập huấn luyện đã được gán nhãn đã được làm giàu bởi kNN, tiếp tục huấn luyện tập mẫu đã được gán nhãn đĩ sử dụng SVM.Nhiệm vụ của thuật tốn kNN khơng chỉ làm giàu số

35

lượng tập huấn luyện đã được gán nhãn mà cịn cải tiến chất lượng của những mẫu đã được gán nhãn mới. Thuật tốn phân lớp bán giám sát SVM-kNN cho bài tốn gom nhĩm đặc trưng trở thành như sau:

Đầu vào:

L: Tập các mẫu huấn luyện đã gán nhãn

c: Số lượng cụm sau bước 1 (số nhĩm đặc trưng) U: Tập các mẫu chưa gán nhãn SVM: Thuật tốn học giám sát SVM cơ bản kNN: Thuật tốn học kNN cơ bản s: số vector hỗ trợ cần lấy ở mỗi lớp t: kích thước tập mẫu cần đạt Thuật tốn: 1. Dùng thuật tốn SVM với tập ví dụ cĩ nhãn L để tạo bộ phân lớp SVM1. 2. Lặp cho đến khi ||L|| ≥ t * ||L∪U||

Begin

2.1. Cho SVM1 gán nhãn các mẫu trong U.

2.2. Lấy s*c vector hỗ trợ từ U làm tập dữ liệu test cho thuật tốn kNN ở bước 4.

2.3. Dùng thuật tốn kNN với tập ví dụ huấn luyện L gán nhãn lại cho s dữ liệu test. Gọi tập s ví dụ cĩ nhãn này là NEW.

2.4. L ← L ∪ NEW; U ← U \ NEW (Cập nhật lại hai tập L và U theo Chuyển các mẫu đã được gán nhãn lại vào tập huấn luyện L được tập L’.

2.5. Dùng thuật tốn SVM với tập ví dụ cĩ nhãn L để tạo ra bộ phân lớp SVM2

2.6. SVM1 ← SVM2. End

36

Quá trình phân lớp bán giám sát SVM-kNN dừng lại khi số dữ liệu đã được gán nhãn khơng nhỏ thua t (0 < m < 1) phần tổng số dữ liệu. Sau đĩ bộ phân lớp SVM2 tiến hành gán nhãn cho tất cả các dữ liệu chưa gán nhãn cịn lại.

Vì thuật tốn S3VM-kNN gốc trong [16] chỉ làm việc với số nhãn lớp là 2 cho nên thuật tốn SVM cơ sở trong mơ hình của chúng tơi phải làm việc được với số lớp (tương ứng với số nhĩm đặc trưng) lớn hơn. Để giải quyết bài tốn SVM đa lớp, theo Jagath C. Rajapakse, Limsoon Wong và Raj Acharya, 2006 [15], cĩ hai hướng tiếp cận: một là xử lý trực tiếp tất cả các dữ liệu trên một cơng thức tối ưu hĩa; hai là phân tích đa lớp thành một chuỗi các SVM nhị phân. Ở cách tiếp cận thứ hai, cĩ khác nhiều chiến lược phù hợp, tuy nhiên, 3 chiến lược: “one-against-all”, “one-against-one” và DAGSVM được đánh giá là tốt nhất [15]. Theo C.-W. Hsu and C.-J. Lin, 2002 [14], thực nghiệm áp dụng 3 chiến lược trên cho tập dữ liệu lớn thì chiến lược “one-against-one” và DAGSVM là 2 chiến lược cho kết quả cao nhất.

Khĩa luận này sử dụng chiến lược “one-against-one” làm chiến lược cho thuật tốn SVM cơ bản. Gọi k là số lớp cần gán nhãn. Tập L là tập đã gán nhãn hay tập huấn luyện gồm l phần tử: (x1,y1), …,(xl,yl); trong đĩ xiRn, i = 1,…, lyi{1,…, k} là lớp tương ứng của xi. Chiến lược này xây dựng k(k-1)/2 bộ phân lớp, trong đĩ mỗi một bộ phân lớp được huấn luyện trên dữ liệu từ 2 lớp. Với dữ liệu huấn luyện từ các lớp thứ ij, phương pháp sẽ giải quyết phân lớp nhị phân như sau:

ij ij ij ij ij ij ij w , , 1 min (w ) w (w ) 2 T T t b C t ξ + ∑ξ ij ij ij (w )T ( ) 1 t t x b ξ ∅ + ≥ − nếuyt =i ij ij ij (w )T ( ) 1 t t x b ξ ∅ + ≤ − + nếuyt = j ij 0 t ξ ≥ ij 0 t ξ ≥

Hiện nay cĩ khá nhiều mã nguồn để hỗ trợ cho việc thực thi thuật tốn SVM đa lớp, trong đĩ LibSVM [9] là một bộ thư viện được viết bằng ngơn ngữ C++ và Java cho phép phân lớp vector hỗ trợ, hồi qui và ước lượng phân phối. Chính vì vậy, chúng tơi chọn LibSVM làm cơng cụ cho việc thực thi thuật tốn SVM trong bài tốn của chúng tơi. Bộ phần mềm mã nguồn mở này cài đặt thuật tốn SVM đa lớp sử dụng chiến lược “one- against-one” đã trình bày ở trên.

37

Như vậy, sau quá trình phân lớp bán giám sát SVM-kNN, các dữ liệu chưa được gán nhãn đều đã được gán nhãn lớp. Nĩi cách khác, sau 3 pha, hệ thống thu được nhĩm đặc trưng cùng các thể hiện đặc trưng tương ứng.

Tĩm tắt chương 3

Chương 3 của khĩa luận trình bày về tư tưởng chính của phương pháp đề xuất cho bài tốn gom nhĩm đặc trưng đồng nghĩa dựa trên phân lớp bán giám sát SVM-kNN và thuật tốn phân cụm HAC. Khĩa luận cũng đã giới thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất.

Trong chương tiếp theo, khĩa luận tiến hành thực nghiệm trên phương pháp đã xây dựng và đánh giá kết quảđạt được của phương pháp đề xuất.

38

Chương 4. Thc nghim và đánh giá

Dựa vào mơ hình đề xuất ở chương 3, khĩa luận tiến hành thực nghiệm việc gom nhĩm đặc trưng sản phẩm đồng nghĩa trong các đánh giá tiếng Việt của khách hàng. Để làm rõ mơ hình đề xuất cũng như 3 pha chính trong mơ hình, các thực nghiệm trên miền sản phẩm điện thoại di động được tiến hành. Khĩa luận tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN.

Một phần của tài liệu Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC (Trang 45)

Tải bản đầy đủ (PDF)

(62 trang)