Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
183,27 KB
Nội dung
1 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH THẠC SĨ CNTTQM Dương Đình Dũng TÓM LƯỢC LUẬN VĂN ĐỀ TÀI: ỨNG DỤNG PHÂN LOẠI VĂN BẢN XÂY DỰNG BỘ LỌC WEB Chuyên ngành Mã số : KHOA HỌC MÁY TÍNH : 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HƯỚNG DẪN KHOA HỌC: Tiến sĩ Nguyễn Văn Hiệp Thành phố Hồ Chí Minh – 2007 TÓM TẮT LUẬN VĂN CAO HỌC Đề tài: ỨNG DỤNG PHÂN LOẠI VĂN BẢN XÂY DỰNG BỘ LỌC WEB Học viên thực hiện: Dương Đình Dũng Lớp: Cao khọc khóa Giảng viên hướng dẫn: TS Nguyễn Văn Hiệp (ĐH BK TP HCM) Tổng quan Ngày nay, số người dùng Internet dịch vụ chạy Internet ngày nhiều Ineternet xem phương tiện để tiếp nhận truyền tải thông tin Đặc biệt Web Mail, số người truy cập sử dụng dịch vụ nhiều Tuy nhiên, có người sử dụng phương tiện Internet để truyền bá thông tin không lành mạnh có đối tượng tham gia vào việc truy cập thông tin Chính lý mà buộc nhà quản trị mạng phải tìm cách ngăn chặn việc truy cập đến trang web có nội dung không lành mạnh Sự hình thành phát triển giải pháp lọc web ngày nhiều, xuất nhiều hãng sản xuất phần mềm lọc web có lý thuyết công nghệ lọc web Bộ lọc Web có ứng dụng lớn sau: – Bảo vệ chống truy cập nội dung bất hợp lệ: lọc web dùng để chống truy cập đến trang có hình ảnh, nội dung không lành mạnh đặt quy định dùng Internet – Ngăn chặn việc lạm dụng mạng: chức chống lại việc lạm dụng tài nguyên đường truyền quan làm việc riêng tải nhạc, phim, tài liệu không tốt… làm giảm suất hoạt động mạng quan Vấn đề nghiên cứu – Trong đề tài tác giả dùng kỹ thuật lọc web công nghệ khai mỏ văn (text mining) cụ thể phân lớp văn (text classification) Với phương pháp lọc web này: thực khám phá nội dung trang web, đánh giá thông qua tập huấn luyện để đưa định có cho truy cập trang web không? – Nội dung so sánh hai văn công thức cosine quan hệ văn với tập huấn luyện có gọi hệ số trang Cách giải vấn đề 3.1 Lý chọn khai mỏ văn bản: Chọn cách thức thực khai mỏ văn (phân loại văn bản) có số ưu điểm sau: – Phân tích nội dung trang web – Triển khai dễ dàng hiệu – Cơ động vấn đề cập nhật thông tin cho tập liệu mẫu 3.2 Đặc điểm: – Sử dụng tập huấn luyện để làm sở so sánh – Sử dụng tập mẫu thử để xác định ngưỡng cho hệ thống – Kiểm soát hoạt động phân lớp, để đưa định chọn loại văn tương ứng với ngữ cảnh văn đưa vào – Dùng giá trị ngưỡng hệ số trang để đưa định 3.3 Các nghiên cứu có liên quan 3.3.1 Blacklist Whitelist: Có hai danh sách riêng biệt website phải bị ngăn chặn hay cho phép truy cập Blacklist thường tạo thủ công cách khảo sát web site để đưa định trang web bị xem thành viên lớp “cấm” hay không, chẳng hạn bạo lực, khiêu dâm, … trang đưa vào blacklist cách tự động tên miền có chứa từ “sex”, “xxx”,… Trong đó, với Whitelist chứa danh sách trang web chấp nhận cho truy cập Vấn đề với danh sách trang web xuất gây khó khăn cho việc cập nhật danh sách 3.3.2 Chặn từ khóa (keyword blocking): Với cách tiếp cận danh sách từ khóa (keyword) hình thành để nhận trang web bị lọc Ta biết trang web chứa nhiều từ khóa bất hợp lệ, sở để nhận trang web bị cấm Một vấn đề quan trọng phương pháp lọc ngữ nghĩa từ khóa theo ngữ cảnh 3.3.3 Hệ thống phân loại (Rating systems): Một hệ thống phân loại điển hình PICS (Platform for Internet Content Selection) thực phân loại Web site Có cách tiếp cận theo dạng phân loại site, self-rating: cách trang Web phát hành tự phát sinh thông tin phân loại riêng chúng Third-party rating, phụ thuộc vào thành phần thứ ba dùng để đánh giá trang web phát hành kết Các thông tin dùng cho mục đích lọc web Phương pháp vướng phải vấn đề không mang tính bắt buộc sẵn Hơn khả phân loại nên seft-rating không tin cậy xác 3.4 So sánh với hướng tiếp cận khác – Với phương pháp blacklist whitelist khó khăn cho việc phát sinh trì, với việc lọc web dựa so sánh keyword Naïve dễ dàng đánh lừa cách cố ý đánh vần sai keyword kỹ thuật để vượt qua vấn đề dẫn đến kết suất tính toán cao gia tăng số lượng tích cực sai Cuối hệ thống phân loại (rating systems) không cung cấp thông tin đáng tin cậy Giải thuật 4.1 Mô tả giải thuật cấu trúc liệu – Đề xuất phương pháp lọc web dựa phân loại văn (text classification) Sử dụng mẫu trang web cấm để lấy đặc điểm lớp trang web bị chặn Một trang web “gần giống” hay “giống” thành viên lớp bị chặn trang lại “không giống” cho qua Phần lớn hệ thống phân loại văn truyền thống đòi hỏi tập huấn luyện gồm có hai lớp: – Tập tích cực (positive) tài liệu có đặc điểm với lớp (lớp cấm) – Tập tiêu cực (negative) văn đặc điểm với lớp (không phải lớp cấm) Với phương pháp đề xuất này, dùng tập tài liệu huấn luyện tích cực loại bỏ vấn đề thiết lập trì tập tài liệu “tiêu cực” nhiều lĩnh vực 4.2 Trình bày giải thuật * Vector hóa văn bản: – Mỗi văn biển diễn vector tần suất từ, độ dài vector N, có tần suất N từ phổ biến giữ lại Sự giống văn đo thuật ngữ COSINE góc hai vector, văn giống góc nhỏ COSINE lớn ngược lại, văn xa góc hai vector lớn, COSINE nhỏ * Công thức tính COSINE cos( X , Y ) = ∑ XY ∑ X∑Y i i i i Với X, Y hai vector hai văn * Các bước thuật toán: B1: Chuyển đổi thành vector: loại bỏ tag HTML, bỏ từ stopword, rút gọn từ (stemming), thống kê từ vector tần suất B2: Tính ngưỡng cho hệ thống: dùng tập T’ gồm trang nằm bên bên lớp cấm Tính hệ số trang (xem bước 3) thành viên T’ so với T Sử dụng ngưỡng ứng viên tìm giá trị ngưỡng τ, giá trị phân lớp T’ theo hệ số trang tính B3: Tính hệ số trang P so với T đưa định: – Tính cos(Vp, VTi) với ∀Ti ∈ T Lưu vào dãy C – Từ dãy C chọn n% giá trị cos cao (n% phụ thuộc vào số phân lớp T) S – Hệ số trang σp có cách tính trung bình cộng giá trị S, theo công thức sau: σ = p ∑v v∈ S T × n% * So sánh định: Nếu σp >= τ trang P bị cấm bổ sung P vào T Ngược lại cho truy cập 4.3 Sơ đồ thuật toán: Sampl e Page Training Set σP σP>= Kết luận τ σSi τ Sơ đồ thuật toán phân loại văn ứng dụng cho lọc web 4.4 Mô hình proxy trang bị lọc web phân loại văn Internet NIC Proxy/Web Filtering 192.168.1.100 Switch LAN 192.168.1.101 192.168.1.104 Mô hình mạng trang bị lọc web với proxy web Filtering 4.5 Mô tả hoạt động hệ thống – Các máy mạng điều chỉnh hướng máy chủ đại diện (proxy server) – Khi có yêu cầu gởi lên từ máy mạng, Proxy làm đại diện Internet để lấy trang web xử lý Proxy theo thuật toán lọc web phân loại văn Nếu thỏa điều kiện cho truy cập gởi quyền truy cập đến trang web máy gởi yêu cầu Ngược lại, trang báo lỗi gởi đến máy yêu cầu thông báo không truy cập Cài đặt 5.1 Lưu đồ cài đặt có cải tiến – Bổ sung thêm tập liên kết (link hay URL) loại blacklist whitelist – Khi nhận yêu cầu URL từ gởi lên, hệ thống lấy URL tìm blacklist, có gởi thông báo cấm truy cập đến client yêu cầu Ngược lại hệ thống tìm whitelist, URL có whitelist cho truy cập, ngược lại hệ thống tiến hành xét trang theo lưu đồ mục 4.3 5.2 Ngôn ngữ cài đặt – Chương trình cài đặt ngôn ngữ Java biên dịch thành mã máy thi hành môi trường Windows – Cơ sở liệu dùng lưu trữ làm cấu trúc liệu cho chương trình Access Thử nghiệm 6.1 Tư liệu thử nghiệm: – Nguồn làm tập huấn luyện: dùng việc huấn luyện Ts, có 378 trang (lấy từ website http://www.girl-directory.com/erotic-stories.php) – Tập mẫu thử (sample): gồm Tập thứ (T’ 1) trang web bên lớp cấm, trang web phân loại xác thông qua người Tập thứ hai (T’2) trang phân loại xác lớp cấm, trang web không chủ đề với lớp cấm Tổng số lượng T s’ = T’1 + T’2= 173 + 191 = 364 trang 6.2 Phương pháp thử nghiệm: – Bộ phát sinh URL tự động gởi đến proxy: với liệu Ts, cho giá trị ngưỡng τ, chọn ngẫu nhiên n liên kết tập M liên kết có sẵn (n đủ lớn) cho qua proxy kiểm tra đánh giá thời gian thực thi hiệu làm việc lọc – Tổ chức liệu truy cập web server IIS: Xây dựng web server IIS máy B, với thư mục chứa trang web thuộc lớp cấm thư mục chứa trang không thuộc lớp cấm để máy A truy cập vào Như máy B có hai thư mục ảo tương ứng với hai địa trỏ đến thư mục ảo cho n liên kết đến trang lớp cấm m liên kết đến trang không thuộc lớp cấm – Tại máy A chạy dịch vụ proxy có cài thuật toán lọc web đồng thời máy dùng để truy cập web server máy B qua trình duyệt 6.3 Biểu đồ phân lớp hệ số tương tự: – Biểu đồ điểm (point) biểu diễn hệ số tương tự tập T’ so với T (dựa tập liệu giới thiệu mục 6.1) BIỂU DIỄN HỆ SỐ TẬP SAMPLE IN 0.7 OUT 0.6 Hệ số Sigma 0.5 1.6849 0.4 0.3 0.2 0.1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 145 154 163 172 181 190 Số lượng tài liệu Phân lớp hệ số trang phần tử bên (IN) bên (OUT) lớp cấm tập mẫu thử so với ngưỡng hệ thống Tập thử gồm có: 173 trang thuộc lớp cấm (IN) 191 trang lớp cấm (OUT) Kết chạy chương trình: Phân lớp Số lượng Phân loại Tỉ lệ % sai số Ngưỡng σP IN 173 182 4.95% 0.16849 OUT 191 182 4.71% 6.4 Công thức đo tỉ lệ: Công thức tính: * Tính tỉ lệ trang có nội dung cấm bị bỏ sót: Gọi: MIN tổng số trang lớp cấm đem thử N IN % block = % NIN tổng số trang lớp cấm bị khóa (chặn đúng) M IN * Tính tỉ lệ trang có nội dung trang không cấm bị bỏ sót: Gọi: POUT: Tổng trang lớp cấm đem thử Q QOUT: Tổng trang bị khóa (chặn sai) %overblock = OUT % POUT Đóng góp luận văn 7.1 Giá trị thực tiễn Làm sở cho nghiên cứu để hoàn thiện lọc web đa năng: kiểm soát hình ảnh, download, xây dựng lọc đa lĩnh vực Đưa mô hình ứng dụng dựa sở “Công nghệ Tri thức” áp dụng vào mạng máy tính 7.2 Ý nghĩa khoa học Xét mặt khoa học, đề tài bổ sung ý tưởng ứng dụng công nghệ tri thức vào lĩnh vực nghiên cứu an toàn mạng Xét mặt kỹ thuật, đề tài hướng ứng dụng đến mục tiêu tự động hóa nhằm làm giảm bớt can thiệp người trình vận hành hệ thống lọc web Xét tính xã hội, qua đề tài hy vọng góp phần vào công việc bảo vệ giá trị đạo đức xã hội, phong mỹ tục tư tưởng Kết luận 8.1 Kết đạt được: – Xây dựng lọc nội dung web phương pháp phân loại văn 10 – Đưa mô hình lọc web trang bị cho mạng LAN thông qua proxy kiểm soát thông tin lọc nội dung web – Xây dựng ứng dụng minh họa có kiểm thử đánh giá dựa liệu mẫu thử tập huấn luyện – Luận văn trình bày hướng tiếp cận lĩnh vực lọc web, người viết chọn lĩnh vực để kiểm thử trang web sex không sex, kiểm thử thuật toán kiểm thử mạng thấy hiệu ngăn chặn thời gian kiểm thử kết chấp nhận – Còn số vấn đề cần phải nghiên cứu bổ sung thêm cho thuật toán hoàn thiện hơn, mở rộng thuật toán cho nhiều lĩnh vực, triển khai tường lửa lớn 8.2 Khả ứng dụng – Có thể cài đặt thành proxy cho mạng máy tính hay biên dịch thành ứng dụng chạy máy đơn – Tích hợp vào tường lửa nguồn mở để trang bị cho mạng máy tính lớn 8.3 Hướng phát triển đề tài – Trang bị thêm chế lọc hình ảnh, kiểm soát tập tin download – Mở rộng: phát triển lọc tiếng Việt, cách xây dựng thêm kho tư liệu stoplist tiếng Việt, xây dựng danh mục nhóm từ, chế phân tích ngữ nghĩa – Về thuật toán: cải tiến tốc độ làm việc cách tăng cường thêm Hueristic Tập huấn luyện cần tối ưu hóa, chẳng hạn xây dựng thêm danh mục từ chuyên cho lĩnh vực (giảm số chiều vector) hay dùng máy học xây dựng tập ngưỡng dùng để so sánh nhằm giảm thời gian tính toán – Mở rộng ứng dụng: nghiên cứu phát triển lọc phân tán 11 Tài liệu tham khảo GS.TSKH Hoàng Kiếm (2004), Tập giảng chuyên đề Công Nghệ Tri thức ứng dụng, ĐHQG TPHCM TS Đỗ Phúc (2004), Tập giảng chuyên đề Khai phá liệu Nhà kho liệu – ĐHQG TPHCM Dr Edel Garcia (2005), Term Vector Theory and Keyword Weights (www.miislita.com/term-vector/term-vector-1.html) Dr Edel Garcia (2005-Bản cập nhật mạng 11-9-2006), Term Vector Fast Track Dr Edel Garcia (5-9-2006-Bản cập nhật mạng 11-9-2006), A Linear Algebra Approach to Term Vectors Miller David W (2001), Automatic Text Classification through Machine Learning Rongbo Du, Reihaneh Safavi-Naini and Willy Susilo (2003), Web Filtering Using Text Classification, Centre for Communication Security School of Information Technology and Computer Science University of Wollongong, Australia 10 Rosen-Zvi Michal (2001), Text Classification - University of California 11 Sebastiani Fabrizio (Jan.2004), Text Classification for Web Filtering 12 Stern Benjamin A (5/12/2003), Web Filtering Technology Assessment 13 Tính cosine: www.miislita.com/information-retrieval-tutorial/cosine- similarity-tutorial.html (webpage) 14 WordHoard team - Comparing texts (wordhoard.northwestern.edu/ userman/analysis-comparingtexts.html) (*): Bài báo dùng nghiên cứu luận văn [...]... chuyên đề Công Nghệ Tri thức và ứng dụng, ĐHQG TPHCM 2 TS Đỗ Phúc (2004), Tập bài giảng chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu – ĐHQG TPHCM 3 Dr Edel Garcia (2005), Term Vector Theory and Keyword Weights (www.miislita.com/term-vector/term-vector-1.html) 4 Dr Edel Garcia (2005 -Bản cập nhật trên mạng 11-9-2006), Term Vector Fast Track 5 Dr Edel Garcia (5-9-2006 -Bản cập nhật trên mạng 11-9-2006),... Safavi-Naini and Willy Susilo (2003), Web Filtering Using Text Classification, Centre for Communication Security School of Information Technology and Computer Science University of Wollongong, Australia 10 Rosen-Zvi Michal (2001), Text Classification - University of California 11 Sebastiani Fabrizio (Jan.2004), Text Classification for Web Filtering 12 Stern Benjamin A (5/12/2003), Web Filtering Technology Assessment... Filtering Technology Assessment 13 Tính cosine: www.miislita.com/information-retrieval-tutorial/cosine- similarity-tutorial.html (webpage) 14 WordHoard team - Comparing texts (wordhoard.northwestern.edu/ userman/analysis-comparingtexts.html) (*): Bài báo chính dùng nghiên cứu luận văn này