Bảng 3 .2 Bảng mơ tả chi tiết các kí hiệu từ loại
Bảng 3.12 Chọn dữ liệu cho Thực nghiệm 3
Tập huấn luyện cĩ nhãn Tập huấn luyện khơng nhãn Tập đánh giá Học cĩ giám sát Học bán giám sát
10%ULA 70%ULA 20%ULA Cĩ Cĩ
20%ULA 60%ULA 20%ULA Cĩ Cĩ
30%ULA 50%ULA 20%ULA Cĩ Cĩ
40%ULA 40%ULA 20%ULA Cĩ Cĩ
50%ULA 30%ULA 20%ULA Cĩ Cĩ
60%ULA 20%ULA 20%ULA Cĩ Cĩ
Để thực nghiệm cho kết quả khách quan nhất, với mỗi tỉ lệ nhƣ trong Bảng 3.12, sẽ đƣợc tiến hành thực nghiệm 5 lần. Kết quả cuối cùng cho một tỉ lệ là kết quả trung bình của 5 lần chạy đĩ.
3.6. Huấn luyện, đánh giá
Tùy theo thực nghiệm mà việc huấn luyện/đánh giá dựa trên học cĩ giám sát và học bán giám sát đƣợc thực hiện đơn lẻ (chỉ học cĩ giám sát trong Thực nghiệm 1) hoặc song song (cả học cĩ giám sát lẫn học bán giám sát trong Thực nghiệm 2 và 3). Hình 3.6 sẽ cho cài nhìn tổng quan về bƣớc huấn luyện, đánh giá.
Do ƣu thế của thuật tốn phân lớp SVM trong bài tốn khai phá quan điểm nên SVM sẽ đƣợc chọn làm bộ phân lớp cơ sở cho cả 2 hƣớng tiếp cận. Các thực nghiệm trong luận văn đƣợc cài đặt dựa trên thƣ viện LibSVM. Cụ thể, gĩi biên dịch của LibSVM cho Windows sẽ đƣợc gọi từ các kịch bản phân lớp tƣơng ứng các bộ dữ liệu đã đƣợc chuẩn bị.
3.6.1. Thư viện LibSVM
LibSVM là một phần mềm đơn giản, dễ sử dụng, và rất hiệu quả để giải quyết bài tốn phân lớp và hồi quy SVM. Nĩ giải quyết bài tốn phân lớp C- SVM, phân lớp nu-SVM. Trong luận văn này, phiên bản đƣợc sử dụng là LibSVM3.1. Để giảm thiểu số lƣợng tham số phân lớp SVM liên quan, các thực nghiệm chỉ đƣợc tiến hành với kiểu phân lớp C-SVM.
Để huấn luyện, ta dùng cú pháp svm-train [options] training_set_file [model_file]. Trong đĩ, những tham số options sau liên quan đến phân lớp:
-s svm_type : kiểu SVM (mặc định bằng 0) 0 -- C-SVC
1 -- nu-SVC
-t kernel_type : kiểu hàm kernel (mặc định bằng 2) 0 – hàm tuyến tính: u'*v
1 – hàm đa thức: (gamma*u'*v + coef0)^degree 2 – hàm radial cơ bản: exp(-gamma*|u-v|^2) 3 -- sigmoid: tanh(gamma*u'*v + coef0)
-b probability_estimates : cĩ ước lượng xác suất hay khơng, thiết lập bằng 0 hoặc 1 (mặc định bằng 0)
File huấn luyện training_set_file theo cấu trúc nhƣ sau:
<label> <index1>:<value1> <index2>:<value2> ...
Mỗi dịng là một mẫu huấn luyện và kết thúc bởi kí tự xuống dịng.
<label> là một số nguyên chỉ lớp. <index*> là chỉ số của các giá trị trong vector (<value*>) và bắt đầu từ 1 và tăng dần lên 1 đơn vị đến hết.
Cú pháp dùng cho đánh giá là svm-predict [options] test_file model_file output_file. Trong đĩ, những tham số options sau liên quan đến phân lớp:
-b probability_estimates : cĩ ước lượng xác suất hay khơng, thiết lập bằng 0 hoặc 1 (mặc định bằng 0)
model_file : là file mơ hình sinh rởi svm-train.
test_file : là file đánh giá cần dự đốn, cĩ cấu trúc giống như file huấn luyện.
output_file : file kết quả dự đốn bởi svm-predict.
3.6.2. Học cĩ giám sát
Hai bài tốn phân lớp con trong bài tốn khai phá quan điểm sẽ đƣợc thực thi dựa trên thƣ viện LibSVM. Trong đĩ, phân lớp tính chủ quan là phân lớp nhị phân và phân lớp tính phân cực cảm nghĩ là phân lớp đa lớp (cụ thể là 3 lớp).
Ở Thực nghiệm 1, tất cả các đặc trƣng sẽ đƣợc đánh giá để tìm ra 2 đặc trƣng tốt nhất cho mỗi nhãn phân lớp. Các Thực nghiệm 2 và 3 sẽ chỉ đƣợc tiến hành trên các đặc trƣng tốt nhất trong số các đặc trƣng ở Thực nghiệm 1. Các tham số SVM cũng đƣợc chọn từ Thực nghiệm 1 và dùng cho các Thực nghiệm 2 và 3 theo cách tƣơng tự nhƣ vậy.
3.6.3. Học bán giám sát Co-training
Khơng phụ thuộc vào bài tốn phân lớp con (hay nhãn phân lớp), thuật tốn Co-training đƣợc cài đặc với 2 đặc trƣng tốt nhất (khung nhìn) và các tham số phân lớp SVM tối ƣu tìm đƣợc từ Thực nghiêm 1. Theo cách phân loại Co- training nhƣ trong mục 2.3.1, thì thuật tốn Co-training đƣợc cài đặt trong luận văn là Co-training dựa trên việc phân chia khung nhìn.
3.7. Kết luận
Chƣơng 3 đã trình bày từ mơ hình tổng quát giải quyết bài tốn. Trong đĩ, mỗi bƣớc cĩ mục tiêu riêng, nên cũng cần các thực nghiệm riêng. Các mục từ 3.2 đến 3.6 trình bày chi tiết các bƣớc khai phá dữ liệu đối với mỗi mục tiêu (thực nghiệm) cùng với đĩ là cách trích chọn đặc trƣng, cách xác định nhãn từ sơ đồ đánh dấu (annotation scheme) của kho dữ liệu MPQA2.0. Ngồi ra, thƣ viện LibSVM đƣợc dùng nhƣ là bộ phân lớp cơ sở cho hai cách tiếp cận dựa trên học cĩ giám sát và học bán giám sát. Các hƣớng dẫn liên quan đến thƣ viện LibSVM cũng đƣợc trích dẫn từ tài liệu hƣớng dẫn của nĩ.
CHƢƠNG 4 – THỰC NGHIỆM
Chƣơng 4 trình bày kết quả của các thực nghiệm.
4.1. Thực nghiệm 1
Theo cách chọn dữ liệu cho Thực nghiệm 1 (Bảng 3.10), sau khi tiến hành huấn luyện và dự đốn, ta cĩ các kết quả về độ chính xác cho phân lớp tính chủ quan và phân lớp tính phân cực cảm nghĩ lần lƣợt nhƣ trong Bảng 4.1 và Bảng 4.2.