Sơ đồ chức năng của chương trình

4. Phạm vi ứng dụng

3.3.2. Sơ đồ chức năng của chương trình

3.3.2.1. Chức năng đăng nhập hệ thống

Mơ tả: đây là chức năng dành cho người quản lý chương trình đăng nhập vào. Khi đăng nhập thành cơng sẽ cĩ tồn quyền đối với chương trình như: quản lý địa chỉ Black list, White list,cập nhật lại bộ từ điển từ cũng như tần số xuất hiện của chúng.

3.3.2.2. Chức năng chương trình

Bảng 3.1– Bảng mơ tả chức năng của chương trình

Chức

năng Nội dung chính

Chức năng học từtiếng Việt: chức năng này cho phép người dùng thử nghiệm việc học từtiếng Việt. Ngoài ra, người dùng cũng cĩ thề dùng chức năng này đểcập nhật thêm từ mới cho bộtừ điển làm tăng độchính xác của chức năng phân loại theo nội dung

Chức năng xửlý: gồm 04 chức năng cơ bản Lấy nội dung của website đang truy cập

Chức năng quản lý bộ từ điển tiếng Việt (bao gồm từ1 tiếng & từ 2 tiếng)

Chức năng phân tích nội dung webiste tiếng Việt thành các từ đơn và từtổ tiếng Việt

Chức năng phân tích câu nội dung webiste: chức năng phân tích nội dung website thành các câu đơn chuẩn

Chức năng huấn luyện từ

Huấn luyện từ tiếng Anh đối với nội dung website bằng tiếng Anh Huấn luyện từ tiếng Việt (bao gồm từ đơn và từ2 tiếng) đối với nội dung website bằng tiếng Việt

Chức năng thửnghiệm việc phân loại nội dung theo hai cơ chế Nội dung website tiếng Anh

Chức năng quản lý thơng số hệthống như nơi lưu trữ nội dung

website phân tích được bao gồm cảtiếng Anh lẫn tiếng Việt, ngưởng xác suất của từ được sửdụng

Chức năng dùng để quản lý danh sách Black list của chương trình

Chức năng dùng để quản lý danh sách White list của chương trình

Chức năng dùng để quản lý danh sách các từ khĩa chính của chương trình

Ngồi các chức năng vừa nêu trên, hệ thống cịn cĩ chức năng lọc dựa trên tiêu đề của website cần truy cập và dựa trên từ khĩa chính như các hệthống lọc sẵn cĩ như đã trình bày trong chương 1.

3.4. Chức năng học từ tiếng Việt

Mơ tả: chức năng này dùng để học từ đơn và từ ghép tiếng Việt dựa trên các nội dung webiste thu thập sẵn. Ngồi những nội dung sẵn cĩ, người dùng cĩ thể đưa nội dung mới vào việc học từ thơng qua chức năng lấy nội dung website đang truy cập ( mục 4.4.1)

Hình 3.11– Chức năng học từ đơn và từ ghép tiếng Việt

3.5. Chức năng xử lý

3.5.1. Lấy nội dung website cần phân tích

Mơ tả: dùng đểlấy nội dung website truy cập, phục vụ cho việc học từ tiếng Việt ( mục 4.3) và cho việc phân loại nội dung webiste

Hình 3.12 – Lấy nội dung website cần phân tích

3.5.2. Quản lý bộ từ điển tiếng Việt

Mơ tả: dùng quản lý bộ từ điển phân tích được ( bao gồm từ đơn và từ ghép). Một số chức năng thơng dụng của mục này là:

- Cập nhật trạng thái cho từ đơn và từ ghép

- Loại bỏ từ đơn và từghép ít sửdụng

- Thể hiện được tồn bộ từcĩ trong bộ từ điển

Hình 3.13– Bộ từ điển tiếng Việt

3.5.3. Phân tích câu đối với nội dung website tiếng Việt

Mơ tả: Sau khi lấy được nội dung của webiste cần truy cập, nội dung sẽ được hiệu chỉnh cơ bản trước khi qua bước phân tích thành các câu đơn chuẩn nhằm phục vụ cho việc tách từ đơn đối với tiếng Anh và từ đơn, từ ghép đối với tiếng Việt

3.5.4. Phân tích nội dung website tiếng Việt

Mơ tả: dùng để phân tích nội dung website tiếng Việt sau khi qua các bước tiền xử lý và tách câu thành các từ đơn và từ ghép. Đồng thời thể hiện chúng trên giao diện chương trình và cho biết số lượng từ đơn và từ ghép tìmđược

Hình 3.15– Phân tích nội dung website tiếng Việt

3.6. Chức năng huấn luyện từ cho việc lọc nội dung

Dùng để huấn luyện từ đơn đối với tiếng Anh, từ đơn và từ ghép đối với tiếng Việt. Đối với mỗi loại từ đều được huấn luyện dựa trên 2 tập huấn luyện: tập huấn luyện website thơng thường và tập huấn luyện website khơng lành mạnh.

3.6.1. Huấn luyện từ tiếng Anh

Mơ tả: Trên giao diện chương trìnhđều thểhiện rõ các thơng số

Tổng sốfile của từng bộ file huấn luyện và của tồn bộ việc huấn luyện Sốtừ đơn huấn luyện được dựa trên cả02 file bộ huấn luyện

Hình 3.16 – Huấn luyện từ tiếng Anh

3.6.2. Huấn luyện từ tiếng Việt

Mơ tả: Trên giao diện chương trìnhđều thểhiện rõ các thơng số

Tổng sốfile của từng bộ file huấn luyện và của tồn bộ việc huấn luyện Sốtừ đơn huấn luyện được dựa trên cả02 bộ file huấn luyện

Sốtừ ghép huấn luyện được dựa trên cả 02 bộfile huấn luyện

3.7. Phân loại nội dung website

Dùng để phân loại nội dung website thuộc vào lớp nào: lành mạnh hay khơng lành mạnh. Quy trình phân loại này dựa trên từ đơn đối với tiếng Anh và từ ghép đối với tiếng Việt

3.7.1. Nội dung tiếng Anh

Mơ tả: dữ liệu đầu vào là nội dung website tiếng Anh cần phân tích. Kết quảtrả về cho biết nội dung đĩ thuộc lớp nào và cĩ xác suất trung bình là bao nhiêu dựa vào quá trình phân tích nội dung ( từ đơn tiếng Anh)

Hình 3.18 – Phân lớp nội dung website tiếng Anh

3.7.2. Nội dung tiếng Việt

Mơ tả: dữ liệu đầu vào là nội dung website tiếng Việt cần phân tích. Kết quảtrả về cho biết nội dung đĩ thuộc lớp nào và cĩ xác suất trung bình là bao nhiêu dựa vào quá trình phân tich nội dung ( từghép tiếng Việt)

Hình 3.19 – Phân lớp nội dung website tiếng Việt

3.8. Quản lý các thơng số hệ thống

Mơ tả: dùng để quản lý các thơng số cơ bản của chương trình. Cĩ 2 loại thơng số dành cho tiếng Anh và tiếng Việt. Cả2 loại thơng số gồm cĩ những mục quản lý chính như sau:

Đường dẫn lưu trữ nội dung khơng lành mạnh sau khi phân loại Đường dẫn lưu trữ nội dug tốt sau khi phân loại

Số lượng token từkhĩa tốt nhất cần lấy cho việc phân loại nội dung website Xác suất phân loại tối thiểu dùng cho việc hân lĩp văn bản

Ngưỡng loại bỏ các từ ít sử dụng ( tần số xuất hiện của từ trên tổng nội dung huấn luyện)

Hình 3.20– Quản lý thơng số hệthống

3.9. Quản lý các danh sách

Dùng để quản lý danh sách địa chỉ Black List và White List. Người dùng cĩ thểhiệu chỉnh hay thêm mới đối vĩi 2 danh sách này

3.9.1. Black List

Mơ tả: phía bên trái là danh sách Black List của chương trình. Người quản trị đều cĩ thể thêm mới, xĩa hay hiệu chỉnh thơng tin đối với danh sách này. Hiện tại trong danh sách cĩ 24071 địa chỉ khơng được phép truy cập. Khi người dùng truy cập địa chỉ trong danh sách này thì chương trình sẽ ngăn chặn lại mà khơng cần qua bước phân tích nội dung.

3.9.2. White List

Mơ tả: phía bên trái là danh sách White List của chương trình. Người quản trị đều cĩ thể thêm mới, xĩa hay hiệu chỉnh thơng tin đối với danh sách này. Hiện tại trong danh sách cĩ 24071 địa chỉ khơng được phép truy cập. Khi người dùng truy cập địa chỉ trong danh sách này thì chương trình sẽ hiển thị nội dung ngay mà khơng cần qua bước phân tích nội dung.

Hình 3.22 –Danh sách White List

3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được

Việc xây dựng bộ từ điển tiếng Việt với hơn 400 trang web được tìm kiếm trên Internet, sau khi qua các bước tinh chỉnh dữ liệu, trung bình dữliệu thơở mỗi trang web khoảng 200– 500 từtùy từng trang.

Do việc cập nhật từ điển là tự động, cho nên tính chính xác của bộ từ điển phụ thuộc vào thời gian sử dụng, thời gian sử dụng lâu, bộ từ điển học nhiều và tính chính xác càng cao.

Bảng 3.2 –Kết quả xây dựng bộ từ điển tiếng Việt

Loại từ Thơng số

Số lượng Tỉlệ đúng

Từ đơn 2114 >83%

Sau khi cĩ bộ từ điển tiến hành học với dữ liệu 200 trang web tốt, 200 trang web xấu, kết quả thu được qua bảng phân loại bên dưới

Bảng 3.3 –Kếtquả phân loại web

Kết quảthửnghiệm Kết quả phân loại Độchính xác

Tốt Xấu Tốt Xấu

Từ đơn 167/200 171/200 83.5% 85.5%

Từ đơn & từ2 tiếng 183/200 181/200 91.8% 90.6%

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Đề tài đãđạt được những kết quả sau đây:

−Nghiên cứu tổng quan các hệ thống lọc web “đen” và những phương pháp xây dựng bộ lọc thơng dụng hiện nay gồm ưu điểm lẫn khuyết điểm.

−Tìm hiểu các phương pháp lọc thống kê cũng như những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng tốt vào quy trình lọc nội dung trang web.

−So sánh các phương pháp tách từ trong tiếng Việt , từ đĩ lựa chọn phương pháp tối ưu nhất để giải quyết bài tốn và xây dựng bộ từ điển hồn chỉnh cho bài tốn lọc nội dung khơng lành mạnh.

−Nghiên cứu các thuận tốn, đặc biệt là thuật tốn Nạve Bayesứng dụng vào quá trình phân lớp nội dung trang web.

−Hướng tiếp cận mới của đề tài là khơng những lọc được các trang web tiếng Anh mà cịn lọc được các trang web tiếng Việt khơng lành mạnh dựa trên địa chỉ, tiêu đềvà nội dung chính của trang web.

−Xây dựng được danh sách blacklist, whitelist chứa các địa chỉ website được quyền và khơng được quyền truy cập.

−Xây dựng bộ lọc web thể hiện hướng nghiên cứu và tiếp cận đúng đắn của đề tài.

→ Kết quả thực nghiệm cho thấy hướng tiếp cận của đề tài khả quan cho độ chính xác cao trong một khoảng thời gian chấp nhận được.

Hướng phát triển

−Tích hợp bộ lọc vào các trình duyệt web thơng dụng như Internet Explorer, FireFox, Safari… nhằm nâng cao tínhứng dụng của đềtài

−Cải tiến thuật tốn tách từ nhằm giảm thời gian xử lý trong quá trình phân lớp nội dung, tạo sự tiện lợi cho người sửdụng.

−Hướng phát triển của đề tài là đềxuất một phương pháp dung hịa cho việc xử lý nội dung website bao gồm tiếng Việt lẫn tiếng Anh.

−Nghiên cứu xây dựng bộ từ điển các từ vựng thuộc các nội dung khơng lành mạnh mà khơng cần duyệt qua nội dung đĩ.

Tiếng Việt

[1]. Đỗ Phúc (2005), Giáo trình khai thác dữ liệu, Đại học Cơng nghệ Thơng tin Tp. HCM.

[2]. Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn (2009), Giáo trình Khai phá dữ liệu web, Nxb Giáo dục Việt Nam.

[3]. Phan Hữu Tiếp (2011) , “Nghiên cứu xây dựng bộ lọc Spam thơng minh tự động”, Tập san khoa học giáo viên, Trường Đại học Lạc Hồng.

Tiếng Anh

[4]. Chih-Hao Tsai (1996), A Word Identification System for Mandarin Chinese

Text Based on Two Variants of the Maximum Matching Algorithm.

[5]. Edel Garcia (2008), Term Vector Theory and Keyword Weights.

[6]. Goldszmidt D., Friedman, N.Geiger (2006), Bayesian network classifiersMachine Learning.

[7]. Lafferty J. (2001), Conditional ramdom fields: probabilistic models for

segmenting and labeling sequence data. In International Conference on Machine Learning.

[8]. Rongbo Du, Reihaneh Safavi-Naini and Willy Susilo (2006), Web Filtering

Using Text Classification, Australia.

[9]. Sebastiani Fabrizio (2004), Text Classification for Web Filtering. [10]. Stern Benjamin (2003), Web Filtering Technology Assessment.

Website

[11]. http://www.dict.vietfun.com [12]. www.google.com/trends

Phân loại khai phá web

Rút trích đặc trưng văn bản