- Xây dựng tuần tự từ tập các mô hình {rMNBi}.
- Mỗi mô hình ngẫu nhiên chỉ sử dụng ngẫu nhiên n=sqrt(N) chiều.
- Mô hình xây dựng sau tập trung vào khắc phục lỗi từ các mô hình xây dựng trước đó.
- Phân lớp: Bình chọn số đông từ {rMNBi}.
- Hiệu quả: Phân lớp rất chính xác với số chiều lớn.
4.7. Chuẩn bị dữ liệu
Tạo dữ liệu
- Thu thập 1921 thư (1143 thư rác và 778 không phải thư rác).
- Tiền xử lý với Bow (McCallum, 1998): Bỏ qua các từ chứa nhiều thông tin để nhận dạng thư rác chứa nhiều thư rác, quy về thư gốc.
- Mô hình túi từ: Bảng dữ liệu, 1921 phần tử (thư), 28719 thuộc tính (từ) và 2 thuộc tính (thư rác hay không phải thư rác).
- Nghi thức kiểm tra chéo 3-fold.
4.8. Tiêu chí đánh giá
Recall, Precision, F1, Accuracy
Recall: Số thư rác được phát hiện đúng là thư rác chia cho tổng số thư rác. Precision: Số thư rác được phát hiện đúng là thư rác chia cho tổng số thư
được dự báo là thư rác.
F1: Trung bình điều hòa giữa Recall và Precision.
TÀI LIỆU THAM KHẢO
1. Bạch Hưng Khang, Hoàng Kiếm (1989), Trí tuệ nhân tạo, các phương pháp và ứng dụng, Nxb Khoa học và Kỹ thuật.
2. Hoàng Văn Kiếm, Bài giảng môn Ứng dụng tri thức và khai mỏ dữ liệu.
3. Đỗ Thanh Nghị - Lê Thanh Vân (2012), Giáo trình các hệ tri thức và khai thác dữ liệu, Nxb Đại học Cần Thơ.
4. Đỗ Phúc (2004), Chuyên đề khai phá dữ liệu và Nhà kho dữ liệu, Tài liệu giảng dạy lớp Cao học CNTTQM, Đại học TP.HCM.
5. Website:
+ http://www.sims.berkeley.edu.research/projects/how-much-info-2003. + http://www.cit.ctu.edu.vn/~dtnghi/dataminingR.