Kết quả đạt được

Một phần của tài liệu Mô hình maximum entropy và ứng dụng (Trang 53 - 54)

Thơng qua việc tìm hiểu và nghiên cứu một số phương pháp phân loại văn bản như: Nạve Bayes, k-Nearest Neighbor, Linear Least Squares Fit, Support Vector Machine, mơ hình cực đại Entropy giúp hiểu rõ về các phương pháp phân loại văn bản, những ưu nhược điểm của từng phương pháp. Qua việc phân tích ưu nhược điểm này giúp lựa chọn phương pháp phân loại văn bản tốt nhất cho bài tốn phân loại văn bản, phục vụ cho mục đích cuối cùng của luận văn. Với ưu điểm mềm dẻo và linh hoạt của mơ hình cực đại entropy, luận văn sử dụng mơ hình cực đại entropy để giải quyết bài tốn phân loại văn bản. Lý thuyết mơ hình cực đại entropy được trình bày chi tiết tại chương 3 với những khái niệm về dữ liệu huấn luyện, thống kê, đặc trưng và các ràng buộc. Nguyên lý hoạt động của mơ hình cực đại entropy với bài tốn phân loại văn bản. Cách tính các tham số với thuật tốn IIS và cơ sở lựa chọn các đặc trưng.

Dựa trên những cơ sở lý thuyết của mơ hình cực đại entropy để phát triển chương trình phân loại văn bản. Chương trình được viết bằng ngơn ngữ lập trình Java với giao diện tiện dụng và đầy đủ các chức năng (huấn luyện, kiểm thử và gán nhãn). Chương trình chặn nội dung web là một ứng dụng của bài tốn phân loại văn bản. Chương trình dựa trên nội dung của trang web và chương trình phân loại văn bản ở trên để phân loại trang web theo các chủ đề. Bên cạnh tính năng phân loại, chương trình cĩ khả năng chặn truy cập những trang web theo một số chủ đề nào đĩ được chỉ ra bởi người quản trị. Điều đĩ giúp quản lý việc truy cập Internet cĩ hiệu quả hơn và tránh được những trang web cĩ nội dung khơng tốt. Tồn bộ mã nguồn của chương trình phân loại văn bản và chặn nội dung web được sử dụng trong luận văn đều được xây dựng và phát triển từ đầu.

Về mặt thực nghiệm, những kết quả thực nghiệm của chương trình chặn nội dung web được thống kê chi tiết tại chương 4. Theo đĩ, về mặt thời gian huấn luyện cũng như tỷ lệ gán nhãn thành cơng trong kiểm thử của chương trình đạt kết quả rất tốt. Tỷ lệ gán nhãn đúng trong kiểm thử qua nhiều lần thực nghiệm hơn 98%. Kết quả này cịn được cải thiện tốt hơn với việc thay đổi các tham số điều khiển như: khởi tạo λ, lựa chọn đặc trưng và giá trị hội tụ của Δλ. Với chương trình chặn nội dung web, chương trình được kiểm tra với trình duyệt Internet Explorer. Chương trình tự động kiểm tra những địa chỉ url mà

người dùng nhập vào trình duyệt. Sau đĩ phân tích nội dung của trang web đĩ. Nếu nội dung thuộc chủ đề được phép truy cập chương trình sẽ cập nhập địa chỉ url vào danh sách các địa chỉ url được phép truy cập trên giao diện chương trình. Điều đĩ tương ứng với địa chỉ url bị chặn, chỉ khác ở chỗ địa chỉ url bị chặn sẽ được đưa vào danh sách url bị chặn của ip-sec của window thơng qua các luật. Ngồi chức năng phân tích tự động thơng qua trình duyệt Internet Explorer, người quản trị cũng cĩ thể phân tích trực tiếp một địa chỉ url nào đĩ từ chương trình chặn nội dung web thơng qua giao diện cũng như trực tiếp cho phép truy cập hay chặn truy cập với một url nào đĩ.

Một phần của tài liệu Mô hình maximum entropy và ứng dụng (Trang 53 - 54)

Tải bản đầy đủ (DOC)

(61 trang)
w