Kết quả thực nghiệm và đánh giá kết quả đạt được- 123docz.net

4. Phạm vi ứng dụng

3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được

Việc xây dựng bộ từ điển tiếng Việt với hơn 400 trang web được tìm kiếm trên Internet, sau khi qua các bước tinh chỉnh dữ liệu, trung bình dữliệu thôở mỗi trang web khoảng 200– 500 từtùy từng trang.

Do việc cập nhật từ điển là tự động, cho nên tính chính xác của bộ từ điển phụ thuộc vào thời gian sử dụng, thời gian sử dụng lâu, bộ từ điển học nhiều và tính chính xác càng cao.

Bảng 3.2 –Kết quả xây dựng bộ từ điển tiếng Việt

Loại từ Thông số

Số lượng Tỉlệ đúng

Từ đơn 2114 >83%

Sau khi có bộ từ điển tiến hành học với dữ liệu 200 trang web tốt, 200 trang web xấu, kết quả thu được qua bảng phân loại bên dưới

Bảng 3.3 –Kếtquả phân loại web

Kết quảthửnghiệm Kết quả phân loại Độchính xác

Tốt Xấu Tốt Xấu

Từ đơn 167/200 171/200 83.5% 85.5%

Từ đơn & từ2 tiếng 183/200 181/200 91.8% 90.6%

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Đề tài đãđạt được những kết quả sau đây:

−Nghiên cứu tổng quan các hệ thống lọc web “đen” và những phương pháp xây dựng bộ lọc thông dụng hiện nay gồm ưu điểm lẫn khuyết điểm.

−Tìm hiểu các phương pháp lọc thống kê cũng như những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng tốt vào quy trình lọc nội dung trang web.

−So sánh các phương pháp tách từ trong tiếng Việt , từ đó lựa chọn phương pháp tối ưu nhất để giải quyết bài toán và xây dựng bộ từ điển hoàn chỉnh cho bài toán lọc nội dung không lành mạnh.

−Nghiên cứu các thuận toán, đặc biệt là thuật toán Naïve Bayesứng dụng vào quá trình phân lớp nội dung trang web.

−Hướng tiếp cận mới của đề tài là không những lọc được các trang web tiếng Anh mà còn lọc được các trang web tiếng Việt không lành mạnh dựa trên địa chỉ, tiêu đềvà nội dung chính của trang web.

−Xây dựng được danh sách blacklist, whitelist chứa các địa chỉ website được quyền và không được quyền truy cập.

−Xây dựng bộ lọc web thể hiện hướng nghiên cứu và tiếp cận đúng đắn của đề tài.

→ Kết quả thực nghiệm cho thấy hướng tiếp cận của đề tài khả quan cho độ chính xác cao trong một khoảng thời gian chấp nhận được.

Hướng phát triển

−Tích hợp bộ lọc vào các trình duyệt web thông dụng như Internet Explorer, FireFox, Safari… nhằm nâng cao tínhứng dụng của đềtài

−Cải tiến thuật toán tách từ nhằm giảm thời gian xử lý trong quá trình phân lớp nội dung, tạo sự tiện lợi cho người sửdụng.

−Hướng phát triển của đề tài là đềxuất một phương pháp dung hòa cho việc xử lý nội dung website bao gồm tiếng Việt lẫn tiếng Anh.

−Nghiên cứu xây dựng bộ từ điển các từ vựng thuộc các nội dung không lành mạnh mà không cần duyệt qua nội dung đó.

Tiếng Việt

[1]. Đỗ Phúc (2005), Giáo trình khai thác dữ liệu, Đại học Công nghệ Thông tin Tp. HCM.

[2]. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn (2009), Giáo trình Khai phá dữ liệu web, Nxb Giáo dục Việt Nam.

[3]. Phan Hữu Tiếp (2011) , “Nghiên cứu xây dựng bộ lọc Spam thông minh tự động”, Tập san khoa học giáo viên, Trường Đại học Lạc Hồng.

Tiếng Anh

[4]. Chih-Hao Tsai (1996), A Word Identification System for Mandarin Chinese

Text Based on Two Variants of the Maximum Matching Algorithm.

[5]. Edel Garcia (2008), Term Vector Theory and Keyword Weights.

[6]. Goldszmidt D., Friedman, N.Geiger (2006), Bayesian network classifiersMachine Learning.

[7]. Lafferty J. (2001), Conditional ramdom fields: probabilistic models for

segmenting and labeling sequence data. In International Conference on Machine Learning.

[8]. Rongbo Du, Reihaneh Safavi-Naini and Willy Susilo (2006), Web Filtering

Using Text Classification, Australia.

[9]. Sebastiani Fabrizio (2004), Text Classification for Web Filtering. [10]. Stern Benjamin (2003), Web Filtering Technology Assessment.

Website

[11]. http://www.dict.vietfun.com [12]. www.google.com/trends

Kết quả thực nghiệm và đánh giá kết quả đạt được

Quy trình khai phá Text

Phân loại khai phá web