1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN VĂN THẠC SĨ) Học bán giám sát SVM KNN và ứng dụng thử nghiệm phân lớp văn bản giao thông vận tải

44 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 1,13 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HẢI YẾN HỌC BÁN GIÁM SÁT SVM-kNN VÀ ỨNG DỤNG THỬ NGHIỆM PHÂN LỚP VĂN BẢN GIAO THÔNG VẬN TẢI LUẬN VĂN THẠC SĨ Hà Nội - 2012 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ HỒNG HẢI YẾN HỌC BÁN GIÁM SÁT SVM-kNN VÀ ỨNG DỤNG THỬ NGHIỆM PHÂN LỚP VĂN BẢN GIAO THƠNG VẬN TẢI Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÁN BỘ HƯỚNG DẪN: PGS TS HÀ QUANG THỤY Hà Nội - 2012 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC DANH SÁCH CÁC HÌNH DANH SÁCH CÁC BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT MỞ ĐẦU Chương 1: Phương pháp phân lớp SVM kNN 1.1 Phương pháp SVM 1.1.1 Tách tuyến tính 1.1.2 Tách phi tuyến 11 1.1.3 Phân lớp đa lớp với SVM 14 1.2 Phương pháp kNN 159 1.3 So sánh SVM với kNN 18 Chương 2: Phương pháp SVM-kNN phân lớp văn 20 2.1 Giới thiệu 20 2.2 Học bán giám sát SVM-kNN 22 2.2.1 Ý tưởng 22 2.2.2 Thuật toán SVM-kNN 22 2.3 Áp dụng SVM phân lớp văn tiếng Việt 24 2.3.1 Phát biểu toán 24 2.3.2 Tiền xử lý liệu 26 2.3.3 Trích chọn đặc trưng 27 2.3.4 Phương pháp biểu diễn văn 29 2.3.5 Đánh giá phân lớp 31 2.3.5.1 độ đo 32 Chương 3: Thực nghiệm phân lớp văn tiếng việt với thuật toán phân lớp bán giám sát SVM-kNN 33 3.1 Môi trường công cụ sử dụng thực nghiệm 33 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 3.2 Xây dựng tập liệu 34 3.2.1 Phương pháp thu thập liệu 34 3.2.2 Tiền xử lý liệu 36 3.2.3 Chọn từ đặc trưng biểu diễn TF x DF 37 3.2.4 Thực nghiệm phân lớp bán giám sát SVM-kNN 37 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41 (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai DANH SÁCH CÁC HÌNH Hình 1: Minh họa liệu phân tách cách tuyến tính Hình 2: Lề siêu phẳng Hình 3: Siêu phẳng có lề lớn Hình 4: Minh họa vector hỗ trợ 10 Hình 5: Trường hợp liệu khơng thể phân tách siêu phẳng 12 Hình 6: Hàm ánh xạ từ liệu phi tuyến sang liệu tuyến tính 12 Hình 7: Các bước mơ hình học máy có giám sát 15 Hình 8: Minh họa vector hỗ trợ vector biên 22 Hình 9: Mơ hình đề xuất Kunlun Li cộng [7] 23 Hình 10: Các pha q trình phân lớp văn 25 Hình 11: Mơ hình hóa trình tiền xử lý liệu 26 Hình 12: Các nội dung tách từ web 35 Hình 13: độ xác phân lớp 10 lần huấn luyện 39 (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai DANH SÁCH CÁC BẢNG Bảng 1: Một số từ nhiễu cần loại bỏ 27 Bảng 2: Cấu hình hệ thống thử nghiệm 33 Bảng 3: Công cụ phần mềm sử dụng 33 Bảng 4: từ khóa xác định tiều đề nội dung 36 Bảng 5: Một số từ dừng loại bỏ trình xử lý 36 Bảng 6: kết sau thu thập liệu 37 Bảng 7: văn thuộc văn giao thông không thuộc 37 Bảng 8:độ xác 10 lần huấn luyện với k = 5, n = 20 39 (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai DANH SÁCH CÁC TỪ VIẾT TẮT SVM Support Vector Machine kNN K Nearest Neighbors MMH Maximum marginal hyperplane kNN-SVM k Nearest Neighbors- Support Vector Machine GTVT Giao thông vận tải TFIDF Term Frequency Inverse Document Frequency TF Term frequency DF Document Frequency URL Uniform Resource Locator DAGSVM Direted Acyclic Graph Support Vector Machine (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai MỞ ĐẦU Khối lượng khổng lồ văn tiếng Việt mạng Internet đặt thách thức nhằm phân lớp tự động bán tự động văn nhằm cung cấp thông tin tập trung có giá trị cho ngành nghề cụ thể Trong phương pháp phân lớp văn phổ biến phương pháp SVM (Support Vertor Machine) sử dụng với độ tin cậy cao Tuy nhiên SVM khơng tối ưu hóa thời gian tính tốn sai số lớn việc ước lượng khoảng hai vector Tức vector có số chiều lớn tốc độ SVM bị hạn chế Trong luận văn này, nghiên cứu phương pháp lai k-láng giềng gần (kNN) với SVM nhằm thực phân đa lớp văn bản, lý nhằm tăng khả tính tốn q trình huấn luyện thực phân lớp, kết phương pháp đạt kết thực tế thử nghiệm luận văn Nội dung luận văn gồm chương: Chương 1: Giới thiệu khái quát phương pháp phân lớp SVM kNN Chương 2: Giới thiệu giải pháp chi tiết thuật toán lai SVM-kNN theo hai phương pháp [5] [7], quan điểm viễn cảnh cho thuật tốn lai SVM-kNN tương ứng Giới thiệu mơ hình thuật tốn Chương 3: Dựa vào mơ hình chương 2, tiến hành thực nghiệm việc phân lớp văn tiếng Việt theo hai nhóm: nhóm văn liên quan tới ngành Giao thơng vận tải nhóm khơng liên quan Để làm rõ mơ pha mơ hình, thực nghiệm nội dung văn lấy tự động từ internet tiến hành Luận văn tập trung đánh giá kết thực nghiệm từ pha: tạo tập huấn luyện cho SVM-kNN phân lớp SVM-kNN (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai Chương 1: Phương pháp phân lớp SVM kNN 1.1 Phương pháp SVM Phương pháp máy vector hỗ trợ (Support Vector Machine – SVM) phương pháp phân lớp dựa lý thuyết học thống kê Corters Vapnik giới thiệu vào năm 1995 để giải vấn đề nhận dạng mẫu hai lớp Nó có khả xử lý tập liệu khả tách tuyến tính lẫn khơng khả tách tuyến tính Bản chất thuật tốn xây dựng siêu phẳng để phân chia tập liệu khả tách tuyến tích thành nửa Trong trường hợp tập liệu khơng khả tách tuyến tính sử dụng hàm nhân (kernel function) để chuyển đổi tập liệu ban đầu sang không gian có số chiều lớn để xử lý Đây phương pháp tiếp cận phân tách vector hiệu Các thử nghiệm cho thấy, phương pháp SVM có khả phân lớp tốt toán phân lớp văn nhiều ứng dụng khác (như nhận dạng chữ viết tay, nhận dạng khuôn mặt…) 1.1.1 Tách tuyến tính Thuật tốn SVM sở trường hợp tập liệu huấn luyện có lớp phân bố dạng vector ta phân tách chúng cách tuyến tính siêu phẳng Gọi D tập liệu huấn luyện: (X1, y1), (X2, y2), … , (X|D|, y|D|), Xi phần tử liệu yi nhãn tương ứng Giá trị yi nhận giá trị {-1, +1} Để hiển thị liệu ta lấy trường hợp liệu biểu diễn thuộc tính A1 A2, phần tử liệu tập D minh họa hình Từ hình vẽ cho thấy liệu phân tách thành nửa đường thẳng Tuy nhiên số lượng đường thẳng dùng để phân tách tập liệu thành nửa vơ hạn (hình minh họa số đường thằng vẽ đường đứt nét dùng để phân tách liệu thành lớp riêng biệt) Trong trường hợp liệu biểu diễn thuộc tính (3 chiều) đường thẳng thay mặt phẳng (plane), trường hợp tổng quát (n chiều) dùng siêu phẳng (hyperplane) có số chiều n-1 để tách tập liệu khả tách tuyến tính Như vậy, tập liệu hai lớp n-chiều gọi khả tách tuyến tính tồn siêu phẳng tuyến tính (n-1 chiều) tách khơng gian n chiều thành hai phần, phần chứa liệu thuộc lớp phần chứa liệu thuộc lớp lại Vậy vấn đề chủ yếu SVM phải tìm siêu phẳng tốt nhất, thuật tốn SVM cố gắng tìm siêu phẳng có lề lớn (maximum marginal (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai hyperplane - MMH) Khái niệm lề minh họa Hình 2, lề siêu phẳng h tổng khoảng cách từ h đến siêu phẳng tiếp tuyến với miền liệu (ở hai bên siêu phẳng) song song với siêu phẳng h Hay nói cách khác, lề siêu phẳng h tổng khoảng cách phần tử liệu (ở mặt siêu phẳng) tập liệu huấn luyện gần với h Hình minh họa siêu phẳng khác có lề lớn so với lề siêu phẳng hình Lý việc tìm siêu phẳng có lề lớn ta hy vọng phân lớp tốt nhất, cho tỉ lệ lỗi phân lớp thấp Một siêu phẳng phân lớp biểu diễn cơng thức: W X + b = (1.1) Hình 1: Minh họa liệu phân tách cách tuyến tính Hình 2: Lề siêu phẳng (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 28 phương… hai độ đo đánh giá tốt hiệu phân lớp văn độ đo MI Khi-bình phương (X2) [11] 2.3.3.1 Lựa chọn đặc trưng dựa vào tần suất Đây phương pháp đơn giản để thu gọn đặc trưng Tần suất tần suất tài liệu (số tài liệu thuộc lớp c chứa từ khóa t) hay tần suất tồn cục (số lần xuất từ khóa t lớp c) Phương pháp xử lý tốt có hàng nghìn đặc trưng lựa chọn tốc độ tính tốn cao Tuy nhiên phân lớp văn phương pháp lại khơng đem lại hiệu tốt, sử dụng phân lớp văn 2.3.3.2 Lựa chọn đặc trưng dựa vào độ đo thông tin tương hỗ (MI) Một phương pháp lựa chọn đặc trưng phổ biến để tính tốn I(t,c) sử dụng độ đo thơng tin tương hỗ MI từ khóa t với lớp c MI đo mức độ thông tin (xuất hiện/ không xuất hiện) từ khóa t góp phần làm cho trình phân lớp đắn lớp c Cơng thức MI sau: I (t , c)  log Pr (t  c) Pr (t ) xPr (c) Để thuận lợi cho việc tính tốn, ta có ước lượng gần sau: I (t , c)  log AxN ( A  C ) x( A  B) Trong đó:  A số văn chứa t thuộc lớp c  B số văn chứa t không thuộc c  C số văn không chứa t không thuộc lớp c  N tổng số văn (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 29 2.3.3.3 Lựa chọn đặc trưng dựa vào độ đo Khi-bình phương Một phương pháp lựa chọn đặc trưng thông dụng khác dựa vào độ đo Chi-Square (X2) Độ đo tính phương pháp thống kê biểu diễn liên quan từ khóa t lớp c Gọi:  A số văn chứa từ khóa t thuộc lớp c  B số văn chứa từ khóa t không thuộc lớp c  C số văn khơng chứa từ khóa t thuộc lớp c  D số văn khơng chưa từ khóa t không thuộc lớp c  N tổng số văn N = A + B + C +D Khi đó, độ đo Chi-Square tính cơng thức sau: Nx( AD  BC ) X (t , c)  ( A  C ) x( B  D) x( A  B) x(C  D) 2.3.4 Phương pháp biểu diễn văn Trong toán phân lớp văn bản, cách biểu diễn văn đóng vai trò lớn Một tài liệu biểu diễn dạng tập hợp từ, từ xem thuộc tính đặc trưng văn tương ứng với vector thuộc tính Đơi khi, thay từ đơn, thuộc tính biểu diễn cụm từ chuỗi n từ với n >=2 Dễ nhận thấy, nhiều thuộc tính phức tạp giàu thơng tin Ví dụ, cụm từ “word wide web” mang nhiều thông tin từ riêng biệt Tuy nhiên, thực hành sử dụng n-grams dẫn tới việc có q nhiều số lượng thuộc tính làm việc giải tốn khó khăn Theo nghiên cứu phương pháp biểu diễn văn khác nhau, đặc biệt so sánh ảnh hưởng hiệu khơng có cách biểu diễn văn tốt cách biểu diễn tập từ riêng biệt lấy từ văn gốc Sau xác định thuộc tính, cần tính giá trị thuộc tính (hoặc trọng số từ khóa) cho văn Mỗi từ khóa t i tài liệu Dj gán trọng số wij đó, tài liệu biểu diễn vector Trọng số từ khóa tính tốn nhiều cách khác Cách đơn giản gán trọng số giá trị nhị phân từ khóa có mặt hay khơng có mặt văn bản, tức giá trị trọng số w ij từ khóa ti xuất lần tập tài liệu Dj wij trường hợp ngược lại – (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 30 Đây mơ hình Boolean Phương pháp khác tính số lần xuất từ khóa tài liệu gọi tần suất từ khóa Tần suất từ khóa tính theo cơng thức: freq (t k , D j )  occ (t k , D j ) N Trong N tổng số từ khóa tài liệu Dj occ(tk,Dj) số lần xuất từ tk văn Dj Phương pháp gọi phương pháp dựa tần số từ khóa (TF-Term Frequency) Phương pháp trực quan mặt hạn chế phương pháp là: từ xuất nhiều lần tài liệu có tần xuất cao Tuy nhiên từ xuất tất văn khơng mang nhiều thơng tin ngữ nghĩa văn độ quan trọng giảm Ví dụ: văn xuất nhiều từ khóa “máy tính”, điều có nghĩa văn xét chủ yếu liên quan đến lĩnh vực “Tin học” Nhưng suy luận khơng phải lúc Một ví dụ điển hình từ “Chúng tơi” xuất nhiều lần văn bản, thực tế từ lại không mang nhiều ý nghĩa tần suất xuất Thơng thường tần suất từ khóa văn không đồng Một số từ khóa xuất thường xuyên, đó, nửa số từ khóa xuất lần Để giải hạn chế này, phương pháp dựa nghịch đảo tần số văn (IDF – Inverse Document Frequency) với tần suất logarit (tương tự với tần suất từ khóa) tính theo cơng thức: Freg(tk,Dk) = log(1 + freg(tk,Dj)) Hay giá trị từ khóa ti tính theo công thức: Wij = log m  log( m)  log( df i ) df i Trong đó, m số lượng văn dfi số lượng văn hệ thống có chứa từ khóa ti Trọng số wij cơng thức tính dựa độ quan trọng từ khóa ti văn dj Nếu ti xuất văn bản, điều có nghĩa xuất văn dj trọng số văn (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 31 dj lớn hay điểm quan trọng để phân biệt văn dj với văn khác hàm lượng thơng tin lớn Phương pháp dựa nghịch đảo tần số văn bàn IDF sử dụng phổ biến phương pháp dựa tần số IF, phương pháp chưa giải triệt để hạn chế phương pháp tần số từ khóa Theo đó, từ xuất nhiều lần có tần suất cao, từ xuất có tần số thấp Phương pháp chuẩn thường sử dụng IFIDF (Term Frequency Inverse Document Frequency), hàm tính trọng số từ khóa xác định cơng thức: TFIDFl,d = freql,d *log( m ) df l đó, tần suất từ khóa l tài liệu d: freql,d số lần xuất từ khóa l tài liệu d; Tần suất văn dfl số văn tập tài liệu có chứa từ khóa l; m tổng số tài liệu học Trọng số TFIDF từ khóa biểu diễn độ quan trọng từ khóa TFIDF từ khóa tài liệu giảm từ xuất hầu hết văn Vì vậy, từ xuất quá nhiều đánh giá quan trọng so với từ xuất cân Trọng số TFIDF từ khóa tồn tập tài liệu m tính cơng thức: TFIDF = TFIDF l ,d TFIDFl  R 2.3.5 Đánh giá phân lớp Bên cạnh việc xây dựng phân lớp hồnh chỉnh việc đánh giá ước lượng độ xác phân lớp khơng phần quan trọng Trên sở so sánh chất lượng phân lớp khác (trên tập liệu thử nghiệm) Đã có nhiều phương pháp ước lượng độ xác phân lớp, ví dụ như: handout method, ước lượn chéo k tập (k-fold cross vadidation), hay leave-one-out cross vadidation,… Trong luận văn này, sử dụng phương pháp ước lượng chéo k tập Ý nghĩa phương pháp để đo độ xác mơ hình tồn tập liệu, có nghĩa đánh giá mức độ thích ứng sức mạnh phân lớp mơ hình cách xác, tồn diện (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 32 2.3.5.1 Các độ đo Độ đo hồi tưởng, độ đo xác, độ đo F1 độ đo lý thuyết tìm kiếm thông tin Precision = num _ of _ match num _ of _ mod el Recal = num _ of _ match num _ of _ manual F1 = * precision * recall precsion  recal Trong đó, - Num_of_match: số lượng văn mà mơ hình phân loại trùng với kết phân loại ban đầu người vào lớp - Num_of_model: số lượng văn mà mơ hình gán cho lớp - Num_of_manual: số lượng văn người (gán tay) gán vào lớp Độ xác mà sử dụng để đánh giá mơ hình tính số lượng văn phân lớp mơ hình chia cho tổng số lượng văn (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 33 Chương 3: Thực nghiệm phân lớp văn tiếng việt với thuật toán phân lớp bán giám sát SVM-kNN Dựa vào mơ hình chương 2, luận văn tiến hành thực nghiệm việc phân lớp văn tiếng Việt theo hai nhóm: nhóm văn liên quan tới ngành GTVT nhóm khơng liên quan Để làm rõ mơ pha mơ hình, thực nghiệm nội dung văn lấy tự động từ internet tiến hành Luận văn tập trung đánh giá kết thực nghiệm từ pha: tạo tập huấn luyện cho SVM-kNN phân lớp SVM-kNN 3.1 Môi trường công cụ sử dụng thực nghiệm Cấu hình phần cứng Bảng 2: Cấu hình hệ thống thử nghiệm Thành phần Chỉ số CPU 2.2 GHz Core Duo Intel RAM 1GB OS Windows7 Bộ nhớ 160GB Các phần mềm sử dụng Bảng 3: Công cụ phần mềm sử dụng STT Tên phần Tác giả Chức Nguồn mềm EclipseSDK-3.5win32 Visual studio 2008 Môi trường phát http://www.eclipse.org/d triển phần mềm ownloads Microsoft Môi trường phát http://www.microsoft.co triển cho mô đun m/express lấy văn từ web, tác từ, xác định đặc (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 34 trưng chuyển văn thành vector (thực pha 12) SQL server 2005 Microsoft LibSVM C Chang, C.-J Lin Crawler4j Chứa văn gốc http://www.microsoft.co m/express Phân lớp SVM http://www.csie.ntu.edu.t (thực pha 3) w/~cjlin/libsvm/ Cơng cụ thu thập http://code.google.com/p/c rawler4j/ liệu Ngồi công cụ trên, tiến hành cài đặt module xử lý dựa ngôn ngữ Java, tiền xử lý liệu, phân lớp SVM-kNN… 3.2 Xây dựng tập liệu Luận văn thực nghiệm miền liệu web báo trang web sau: www.dantri.com.vn (báo điện tử Dân trí) www.vnexpress.net (báo điện tử Vnexpress) www.giaothongvantai.com.vn (báo quan GTVT) http://baodientu.chinhphu.vn (báo điện thử phủ) 3.2.1 Phương pháp thu thập liệu Hiện rút trích thơng tin web thường thực cách sử dụng wrapper Một wrapper xem thủ tục thiết kế để rút trích nội dung cần quan tâm nguồn thông tin Wrapper xây dựng theo phương pháp có nhược điểm phải cập nhật lại có thay đổi cách thức trình bày trang web Phương pháp rút trích thơng tin cách so trùng hai trang web xây dựng dựa phương pháp nhận dạng mẫu cho phép rút trích xác vùng thơng tin mang nội dung trang web Phương pháp thực cách so trùng trang web cần rút trích với trang web mẫu để (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 35 xác định khung trình bày chung hai trang web, từ khung trình bày chung ta rút trích nội dung trang web cần rút trích Phương pháp khơng địi hỏi người dùng phải biết ngôn ngữ xây dựng wrapper hay phải thay đổi wrapper cách trình bày thay đổi trang web mẫu lấy trực tiếp từ trang chủ có cách trình bày với trang cần rút trích Như ví dụ minh họa đây, phần thơng tin khung đỏ mang nội dung tiêu đề báo web, phần thông tin khung xanh mang nội dung trang web, nội dung ta cần lấy Hình 12: Các nội dung tách từ web (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 36 Tên trang web Regex Tiêu đề Regex Nội dung Vnexpress.net @"(?.*?)" "

(?.*?)< /P>" Giaothongvantai " com.vn "

(?< 1>.*?)

" (?.*?)" id=\"csaook "

( ?.*?)"

" div class=\"fon31 mt1\">(?.*?)" "((?.*?)|

(?.*?)

)" Bảng 4: từ khóa xác định tiều đề nội dung 3.2.2 Tiền xử lý liệu Sau thu thập liệu từ web về, tơi tiến hành bóc tách nội dung, tiền xử lý liệu, tách câu, tách từ, loại bỏ từ dừng Quá trình quan trọng bước xử lý cho văn đầu vào Tiếp q trình này, tơi tiến hành loại bỏ từ dừng số từ xuất nhiều khơng mang nhiều ý nghĩa q trình để phân loại văn Loại từ Ví dụ Đại từ, danh từ Hắn, anh ta, chị ta, cô ấy… Từ đếm Một, hai , ba Từ nối Nhưng, tuy, thế… Từ phủ định Không, ngược lại Giới từ Trên, trong, Con số 1, 2,3 … Bảng 5: Một số từ dừng loại bỏ trình xử lý (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 37 Dữ liệu thu sau trình tiền xử lý mô tả chi tiết bảng sau: Dữ liệu sau thu thập: Tổng số file: 3098 (files) khoảng 11MB… Dữ liệu sau tiền xử lý: loại bỏ file trùng lặp, tách từ, loại bỏ từ dừng Tổng số file: 3088(files) khoảng 10MB , tổng số từ 31.490(từ) Chuyên mục thu thập: - Dữ liệu thuộc văn giao thông: www.giaothongvantai.com.vn - Dữ liệu không thuộc văn giao thông: www.dantri.com.vn, www.vnexpress.net Bảng 6: kết sau thu thập liệu 3.2.3 Chọn từ đặc trưng biểu diễn TF x DF Sau trình tiền xử lý, tài liệu thu dùng phương pháp Khi-bình phương (Chi-square mơ tả phần 2.3.3.3) để lấy đặc trưng phù hợp cho lớp (thuộc văn giao thông) cần phân lớp Từ đặc trưng thu sau dùng phương pháp Chi-square, lại tiến hành biểu diễn tài liệu thông qua trọng số tf-idf (được mô tả phần 2.3.4) Đây tài liệu sau biểu diễn dạng vector sau: : … : Trong có giá trị thuộc {+1, -1}, số đặc trưng tập đặc trưng thu được, trọng số tf-idf đặc trưng Sau trình ta thu liệu thuộc văn giao thông không thuộc văn giao thông liệt kê bảng Nhãn lớp Văn +1 2339 -1 749 Bảng 7: văn thuộc văn giao thông không thuộc 3.2.4 Thực nghiệm phân lớp bán giám sát SVM-kNN Kết thúc trình biểu diễn tập tài liệu ta thu tập vector Ta chia tập liệu thành ba tập thử nghiệm: liệu học mơ hình (training), liệu kiểm tra mơ hình (test), tập liệu chưa gán nhãn (unlabel) (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai(LUAN.VAN.THAC.SI).Hoc.ban.giam.sat.SVM.KNN.va.ung.dung.thu.nghiem.phan.lop.van.ban.giao.thong.van.tai 38 Trong luận văn này, tiến hành cài đặt giải thuật SVM-KNN dựa báo [7], áp dụng mã nguồn mở libsvm [4] để hỗ trợ q trình cài đặt Trong luận văn, tơi áp dụng mơ hình học bán giám sát SVM-KNN, nên để đánh giá độ xác mơ hình, tơi dùng phương pháp đánh giá chéo bậc k Tôi sử dụng k = 10 giá trị phổ biến để có ước lượng xác Hệ thống chia liệu thực nghiệm thành 10 phần cách ngẫu nhiên, trình huấn luyện lặp lặp lại 10 lần, lần huấn luyện thứ i (1

Ngày đăng: 17/12/2023, 01:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN