Chương 4 Thực nghiệm và kết quả
4.4. Xây dựng bộ phân loại và kết quả phân loại
Chương này chính là thực hiện các bước 5,6,7,8 trong sơ đồ tổng quan hệ thống hình 8.
Từ 41861 cặp trang web thí sinh, chúng tơi lấy ngẫu nhiên 5000 cặp huấn luyện và 1000 cặp test khơng giống với bất kỳ cặp huấn luyện nào. Sau đĩ chúng tơi gán nhãn bằng tay cho tất cả cặp huấn luyện và cặp test. Sau khi gán nhãn, thống kê cho thấy: trong tập huấn luyện cĩ 687 cặp cĩ nhãn true, trong tập test cĩ 128 cặp nhãn true. Dữ liệu huấn luyện: teaching/teaching và teaching/teaching-labeled Dữ liệu kiểm tra: teaching/testing và teaching/testing-labeled
Mỗi cặp thí sinh đều cĩ thơng số cho tất cả thuộc tính, theo đúng thứ tự sau:
Bảng 4: Thuộc tính (đặc trưng) và thứ hạng theo sự xắp sếp sẵn
0 1 2 3 4 dp n ration r sizeratio 5 6 7 8 9 10 datedistanc e filenamesi m dirnumdi ff dirnamesi m wordrati o chunkrati o
Từ đây số được thay thế cho tên thuộc tính ví dụ thuộc tính 0 chính là dp, thuộc tính 6 chính là filenamesim,...
Mơ hình cây quyết định
Từ các dữ liệu huấn luyện, chúng tơi xây dựng mơ hình bằng tool jaDTi-0.5.1 của Jean-Marc Francois để tạo mơ hình. Chúng tơi xây dựng hai mơ hình, mơ hình thứ nhất chỉ gồm ba thuộc tính, mơ
trong hai file là teaching/teaching-labeled3.dot và teaching/teaching- labeled11.dot tương ứng, sau đĩ chúng tơi dùng tool Graphviz 2.22 để từ mơ hình tạo mơ phỏng cây quyết định trong hai file ảnh: teaching/teaching-labeled3.jpg và teaching/eaching-labeled3.jpg. Kết quả trực quan thấy rằng cây quyết định dùng tất cả thuộc tính nhỏ hơn gọn hơn cây quyết định dùng ba thuộc tính dp, n, r.
Kết quả thống kê trong bảng sau:
Bảng 5: Độ chính xác và recall của decision tree số lượng thuộc tính sử dụng precision recall số lượng cặp song ngữ 3 0.55932203 0.515625 5221 11 0.92741935 0.898438 5404
Tồn bộ cặp song ngữ lấy từ dữ liệu ban đầu nằm trong hai file tương ứng với hai bộ thuộc tính:
./data3.paired, ./data11.paired
Mơ hình Naive Bayes
Trước khi tạo được mơ hình Naive Bayes, chúng ta phải chuẩn hĩa các giá trị của từng thuộc tính. Và việc chuẩn hĩa cần thơng số gap khoảng cách của từng thuộc tính. Giá trị những gap được thiết lập bằng tay, qua nhiều lần kiểm nghiệm. Kiểm nghiệm bằng cách, mỗi lần chỉ cho tạo mơ hình Naive Bayes, và cho chạy trên tập test, tính precison và recall, đối với mỗi thuộc tính, nếu precison và recall vẫn tăng thì gap của thuộc tính đĩ bị chia nhỏ cho đến khi precision và recall khơng tăng., hoặc tăng khơng đáng kể so với tỉ lệ gap bị chia
nhỏ (gap càng nhỏ thì số lượng giá trị của thuộc tính đĩ càng nhiều, dữ liệu càng bị phân mảnh, cây quyết định giảm đi tính khái quát) .
Dữ liệu huấn luyện đã chuẩn hĩa: teaching/teaching-labeled- standarded
Dữ liệu test đã chuẩn hĩa: teaching/testing-labeled-standarded Riêng đối với Naive Bayes, chúng tơi thiết kế hệ thống để với bất kỳ tổ hợp thuộc tính nào cũng đưa ra được precison, recall và tồn bộ cặp song ngữ trong giữa liệu ban đầu.
Chúng tơi đưa ra 2 bộ thuộc tính để tính tốn precison và recall, bộ thứ nhất gồm dp, n, r và bộ ai gồm filenamesim và dirnamesim (6 và 8), bộ cĩ recall và precision cao nhất được liệt kê trong file teaching/combinning-attributes.prerec
Bảng 6: Độ chính xác và recall của Naive Bayes số lượng thuộc tính sử dụng precision recall số lượng cặp song ngữ 3 0.44339622641509435 0.3671875 4718 Tối ưu 2 (6,8) 0.967479674796748 0.9296875 5198
Tồn bộ cặp song ngữ lấy từ dữ liệu ban đầu nằm trong hai file tương ứng với hai bộ thuộc tính:
./ data-nb013.paired, ./ data-nb68.paired