(?.*?)< /P>" Giaothongvantai " com.vn "
(?< 1>.*?)
" (?.*?)" id=\"csaook "( ?.*?)"
" div class=\"fon31 mt1\">(?.*?)" "((?.*?)|(?.*?)
)" Bảng 4: từ khóa xác định tiều đề nội dung 3.2.2 Tiền xử lý liệu Sau thu thập liệu từ web về, tơi tiến hành bóc tách nội dung, tiền xử lý liệu, tách câu, tách từ, loại bỏ từ dừng Quá trình quan trọng bước xử lý cho văn đầu vào Tiếp q trình này, tơi tiến hành loại bỏ từ dừng số từ xuất nhiều khơng mang nhiều ý nghĩa q trình để phân loại văn Loại từ Ví dụ Đại từ, danh từ Hắn, anh ta, chị ta, cô ấy… Từ đếm Một, hai , ba Từ nối Nhưng, tuy, thế… Từ phủ định Không, ngược lại Giới từ Trên, trong, Con số 1, 2,3 … Bảng 5: Một số từ dừng loại bỏ trình xử lý (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 37 Dữ liệu thu sau trình tiền xử lý mô tả chi tiết bảng sau: Dữ liệu sau thu thập: Tổng số file: 3098 (files) khoảng 11MB… Dữ liệu sau tiền xử lý: loại bỏ file trùng lặp, tách từ, loại bỏ từ dừng Tổng số file: 3088(files) khoảng 10MB , tổng số từ 31.490(từ) Chuyên mục thu thập: - Dữ liệu thuộc văn giao thông: www.giaothongvantai.com.vn - Dữ liệu không thuộc văn giao thông: www.dantri.com.vn, www.vnexpress.net Bảng 6: kết sau thu thập liệu 3.2.3 Chọn từ đặc trưng biểu diễn TF x DF Sau trình tiền xử lý, tài liệu thu dùng phương pháp Khi-bình phương (Chi-square mơ tả phần 2.3.3.3) để lấy đặc trưng phù hợp cho lớp (thuộc văn giao thông) cần phân lớp Từ đặc trưng thu sau dùng phương pháp Chi-square, lại tiến hành biểu diễn tài liệu thông qua trọng số tf-idf (được mô tả phần 2.3.4) Đây tài liệu sau biểu diễn dạng vector sau: : … : Trong có giá trị thuộc {+1, -1}, số đặc trưng tập đặc trưng thu được, trọng số tf-idf đặc trưng Sau trình ta thu liệu thuộc văn giao thông không thuộc văn giao thông liệt kê bảng Nhãn lớp Văn +1 2339 -1 749 Bảng 7: văn thuộc văn giao thông không thuộc 3.2.4 Thực nghiệm phân lớp bán giám sát SVM-kNN Kết thúc trình biểu diễn tập tài liệu ta thu tập vector Ta chia tập liệu thành ba tập thử nghiệm: liệu học mơ hình (training), liệu kiểm tra mơ hình (test), tập liệu chưa gán nhãn (unlabel) (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 38 Trong luận văn này, tiến hành cài đặt giải thuật SVM-KNN dựa báo [7], áp dụng mã nguồn mở libsvm [4] để hỗ trợ q trình cài đặt Trong luận văn, tơi áp dụng mơ hình học bán giám sát SVM-KNN, nên để đánh giá độ xác mơ hình, tơi dùng phương pháp đánh giá chéo bậc k Tôi sử dụng k = 10 giá trị phổ biến để có ước lượng xác Hệ thống chia liệu thực nghiệm thành 10 phần cách ngẫu nhiên, trình huấn luyện lặp lặp lại 10 lần, lần huấn luyện thứ i (1