Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
638,34 KB
Nội dung
TÌM HIỂU PHƢƠNG PHÁP NGĂN CHẶN VIỆC TRUY CẬP WEB ĐEN Lưu Huỳnh Đức1, Võ Thành Duy2 , Phan Thanh Điền Em3 , Tạ Ngọc Xuân Thảo4, Trương Thị Kim Ý5 Khoa Kỹ thuật công nghệ môi trường, Đại học An Giang Email:vothanhduy147068@gmail.com Tóm tắt: Các phương pháp ngăn chặn truy cập web đen (trang web mang nội dung hình ảnh không lành mạnh) Trong báo này, tìm hiểu phương pháp ngăn chặn truy cập web đen: phương pháp: dựa vào địa mạng, dựa vào URL, dựa vào lọc hình ảnh… xác định điểm mạnh điểm yếu phương pháp.Bên cạnh phương pháp giúp không vướng vào trang web không lành mạn Từ khóa: địa mạng, địa IP, URL, lọc hình ảnh GIỚI THIỆU Trong thời kỳ nay, Internet ngày phát triển mạnh mẽ trở nên thông dụng lứa tuổi đặc biệt thiếu niên, học sinh, sinh viên Lợi ích thiết thực mà Internet mang lại cung cấp nguồn tài nguyên thông tin vô tận cho người sử dụng, góp phần không nhỏ vào việc nâng cao kiến thức cho lứa tuổi thiếu niên Tuy nhiên, mặt mạnh Internet yếu điểm nó, kiến thức hữu ích người dùng dễ dàng tìm thấy nội dung không lành mạnh Internet Chính vậy, mục đích đề tài nghiên cứu phương pháp ngăn chặn tự động trang web có nội dung không lành mạnh PHƢƠNG PHÁP 2.1 Các loại lọc Web: 2.1.1 Bộ lọc web dựa vào địa mạng: 2.1.1.1 Bức tƣờng lửa (Firewall) Firewall kỹ thuật tích hợp vào hệ thống mạng để chống truy cập trái phép, nhằm bảo vệ nguồn thông tin nội hạn chế xâm nhập không mong muốn vào hệ thống Thông thường Firewall đặt mạng bên (Intranet) công ty, tổ chức,… vai trò bảo mật thông tin, ngăn chặn truy cập không mong muốn từ bên cấm truy cập từ bên (Intranet) tới số địa định Internet Ưu điểm: Đa số các hệ thống firewall sử dụng lọc packet Một ưu điểm phương pháp chi phí thấp chế lọc packet bao gồm phần mềm router Hạn chế: việc định nghĩa chế độ lọc packet việc phức tạp, đòi hỏi người quản trị mạng cần có hiểu biết chi tiết dịch vụ Internet, dạng packet header, … 2.1.1.2 Danh sách đen (Back List) danh sách trắng (White List) Danh sách trắng danh sách đen phương pháp phổ biến nhiều nhà cung cấp phần mềm sử dụng, đơn giản, dễ quản lý cho kết chấp nhận Danh sách trắng danh sách website phép truy cập, danh sách đen danh sách trang cấm, danh sách thường tạo cách thủ công cách khảo sát trang web để đưa định trang web cấm hay phép truy cập Hàng này, số lượng website xuất nhiều gây khó khăn cho việc cập nhật danh sách Backlist, Whitelist làm thủ công nên nhiều thời gian cho việc bổ sung danh sách 2.1.1.3 Lọc web qua địa IP Đây kỹ thuật ngăn chặn trực tiếp đường mạng địa IP website Kỹ thuật thiết thực bối cảnh website thường bị truy cập thông qua địa IP hay truy cập thông qua IP thay cho tên DNS Đa số trường hợp, không khuyến dùng cỏi sau: + Ngăn chặn truy cập đến IP ngăn chặn lưu thông mạng đến site có host ảo IP có nội dung liên quan đến vấn đề cấm hay không + Ngăn chặn truy cập đến IP ngăn chặn lưu thông mạng đến thành viên cổng thông tin nằm IP Nó ngăn chặn thành phần website phần hay tập trang + Đó thay đổi thường xuyên website bị lọc chủ nhân website phát bị lọc Hành động dựa DNS phép người dùng truy cập đến trang web Bảng thống kê phía so sánh kết lọc số phần mềm theo dự án khảo sát website dự án NetProject Phần mềm lọc Tỉ lệ khóa Efectiveness Rate Phần mềm lọc Tỉ lệ khóa % Efectiveness Rate BizGuard 55% 10% Cyber Patrol 52% 2% CYBER sitter 46% 3% Cyber Snoop 65% 23% Norton InternetSecurity 45% 6% SurfMonkey 65% 11% X-Stop 65% 4% Bảng Kết đánh giá NetProject 2.1.2 Bộ lọc web dựa vào URL (Universal Resource Locator) URL, viết tắt Uniform Resource Locator (Định vị Tài nguyên Thống nhất), dùng để tham chiếu tới tài nguyên Internet URL có khả tạo siêu liên kết cho website Các tài nguyên khác tham chiếu tới địa chỉ, URL, gọi địa web liên kết mạng (hay ngắn gọn liên kết) Nói cách khác URL đường dẫn đến website cố định internet 2.1.2.1 Dựa vào từ khóa (keyword) URL Với cách tiếp cận có danh sách chứa từ khóa (keyword) hình thành để nhận địa chị web bị chặn URL keyword chuỗi nằm địa web, địa web có chứa chuỗi thường trang web xấu Theo khảo sát [5] [7], đa phần trang web xấu dùng từ ngữ khiêu dâm, gợi dục làm tên miền cho website với mục đích thu hút ý người dùng Internet Với trang web vậy, việc chặn trực tiếp từ địa URL mà không cần quan tâm đến nội dung trang web điều trang web có nội dung tốt địa xấu Ưu điểm: đơn giản tin cậy Nhược điểm: Đôi có trang chẳng chứa từ khóa khiêu dâm URL thân trang lại có nội dung bẩn chương trình bỏ qua ngược lại trang web giáo dục giới tính lành mạnh chứa từ khóa sex URL lại bị chặn Các trang web có từ khóa: “sex” “porn” trang web không lành mạnh 2.1.2.2 Kỹ thuật lọc web dựa vào URL Đây kỹ thuật lọc cách quan sát lưu thông web (HTTP) cách theo dõi URL host field bên yêu cầu HTTP để nhận đích đến yêu cầu Host field đuợc dùng riêng biệt máy chủ web hosting để nhận tài nguyên trả Lọc web qua URL [8] thường xếp vào loại chủ đề rộng lớn “Content Management” Các kỹ thuật lọc qua URL đời từ kiểu lọc “pass-by” “passthrough” Lọc theo “pass-by”: xử lý đường mạng mà không cần phải trực tiếp đường nối người dùng internet Yêu cầu ban đầu chuyển đến máy chủ web đầu cuối Lọc theo “pass-through”: gồm việc sử dụng thiết bị đường tất yêu cầu người dùng Vì lưu thông mạng qua lọc “passthrough” thiết bị lọc thực Sản phẩm Hãng (Công ty) Secure Computing Smartfilter SurfControl Web Filter Symantec Web Security Burst Technology Bbt – WebFilter Wavecrest Computing CyBlock Web Filter Bảng Một số sản phẩm lọc web theo URL Ƣu điểm sử dụng lọc qua URL - Những Website ảo không bị ảnh hưởng: chúng dùng IP website hạn chế Một website bị chặn website không bị chặn chia sẻ địa IP - Không ảnh hưởng việc thay đổi IP: Vì phương pháp lọc không phụ thuộc vào địa IP Hạn chế sử dụng lọc thông qua URL - Thường ngăn chặn cổng phi tiêu chuẩn - Những Web server làm việc với cổng tiêu chuẩn tốt - Website cổng phi tiêu chuẩn khó khăn cho việc ngăn cấm chúng yêu cầu cấp độ cao lọc -Một giải pháp lọc qua URL kỹ thuật có khả cần thiết cho kết nối HTTP cổng phi tiêu chuẩn - Không làm việc với lưu thông bị mã hóa: HTTP yêu cầu sử dụng SSL/TLS bị mã hóa Phương pháp lọc theo URL đọc hostfield Cho nên, lọc hiệu phát tài nguyên địa IP mà yêu cầu thực định hướng vào Tóm lại, server cần có lọc để thực loại bỏ số trang web không tốt, làm cho hệ thống chậm lại 2.1.2.3 Bộ lọc web dựa vào DNS: Những website bị lọc hoàn toàn truy cập đến tất cấu hình sử dụng lọc nameserver (tên máy chủ) cho phân giải tên tất lọc nameserver trả thông tin bất hợp lệ yêu cầu phân giải hostname website bị lọc Ƣu điểm - Sử dụng đa nghi thức (multi-protocol): http, ftp, gropher nghi thức khác dựa hệ thống tên - Không bị ảnh hưởng việc thay đổi IP: Khi thay đổi IP website không ảnh hưởng đến phương pháp lọc này, phương pháp lọc hoàn toàn độc lập với địa IP Nhƣợc điểm - Không hiệu URL có chứa địa IP - Toàn web server bị chặn hoàn toàn 2.1.2.4 Bộ lọc web dựa vào từ khóa (key word) Tương tự cách tiếp cận dựa vào URL keyword [6], có danh sách từ khóa để nhận trang web bị chặn Một trang web cấm chứa nhiều từ khóa không hợp lệ, sở để nhận trang web bị cấm Điều quan trọng phương pháp ngữ nghĩa từ khóa theo ngữ cảnh, điều làm cho hệ thống có nhầm lẫn đưa định trang web có thể hay không Một website chuyên đề bệnh ung thư bị khóa với lý viết “bệnh ung thư vú”, ta thấy viết có đề cập nhiều đến từ khóa nằm danh sách từ khóa chặn “vú” vô tình hệ thống nhầm lẫn khóa trang Vấn đề từ cố ý hay vô ý đánh vần sai, số trang chứa nội dung xấu ngôn từ dùng trang web bị thay đổi để đánh lừa hệ thống lọc, nhiên người sử dụng đọc hiểu sai tả hệ thống lọc điều làm ảnh hưởng lớn đến hệ thống 2.2 Bộ lọc hình ảnh – imageFilter Mô hình phân lớp cho lọc ImageFilter huấn luyện từ tập liệu gồm 1905 ảnh (trong có 1066 ảnh thuộc nhóm ảnh khiêu dâm 839 ảnh không khiêu dâm – bình thường) [2] Phân loại hình ảnh trình gán ảnh vào hay nhiều lớp ảnh xác định từ trước Người ta phân loại hình ảnh cách thủ công, tức nhìn vào nội dung ảnh sau gán chúng vào hay nhiều lớp cụ thể Hệ thống quản lý tập tin ảnh gồm nhiều ảnh việc tốn nhiều thời gian, công sức không khả thi Do mà phải có phương pháp lọc tự động Để phân loại tự động, người ta sử dụng phương pháp máy học trí tuệ nhân tạo định, Naïve Bayes,… Một ứng dụng quan trọng phân loại tự động ứng dụng hệ thống tìm kiếm ảnh Từ tập ảnh phân lớp sẵn, tát ảnh miền tìm kiếm xử lý rút vectơ đặc trưng gán nhãn lớp tương ứng Một ứng dụng khác phân loại ảnh lĩnh vực hiểu ảnh Phân loại ảnh sử dụng để nhóm ảnh vào nhóm mà nội dung ảnh đề cập Bất luận ảnh có bị xoay, co giãn, hay nói cách khác hình ảnh có bị nhiễu 2.2.1 Phƣơng pháp phát góc Harris Là phương pháp phát điểm quan tâm phổ biến bất biến phép quay, thay đổi độ sáng tạp nhiễu ảnh Phương pháp dựa hàm tương quan tự động cục tín hiệu, hàm tương quan tự động cục đo thay đổi cục tín hiệu với mảnh dịch chuyển lượng nhỏ theo hướng khác Phát góc (corner detection) thuật ngữ tổng quát phát điểm quan tâm (interest point detection) hướng tiếp cận sử dụng hệ thống thị giác máy tính để trích chọn loại đặc trưng[10] suy luận nội dung ảnh Việc phát góc dùng thường xuyên phát hiện, theo dõi chuyển động, mô hình 3D nhận dạng đối tượng Một góc xác định giao hai cạnh Một góc xác định điểm có hai hướng khác vùng cục điểm Một điểm quan tâm điểm ảnh mà điểm có vị trí xác định tốt phát nhanh chóng Điều có nghĩa điểm quan tâm góc điểm đơn có giá trị cường độ cực đại cực tiểu cục bộ, điểm kết thúc đường thẳng điểm đường cong mà độ cong tối đa cục Trên thực tế, hầu hết phương pháp phát góc phát điểm góc nói riêng Cho trước dịch chuyển (∆x, ∆y) điểm (x,y), hàm tương quan tự động định nghĩa sau:[4] c( x, y) w [I( xi , yi ) I ( xi xi , yi y)]2 (1) Trong I(-,-) biểu thị hàm ảnh ( xi , yi ) điểm cửa sổ W đặt vị trí(x,y) Ảnh dịch chuyển xấp xỉ phép khai triển Taylor lượt bớt thành hạng thức bậc nhất: x I y I ( xi x, yi y ) I ( xi , yi ) [I x (x i , yi ) I y ( xi , yi )] (2) y I X (-,-) I y (-,-) biểu thị đạo hàm phần tương ứng theo x y Thế công thức (2) vào (1), ta được: c( x, y) [I ( xi , yi ) I ( xi xi yi y )]2 w x ( I ( xi , yi ) I ( xi , yi ) [I X ( xi , yi ) I y ( xi , yi )] ) w y x [I X ( xi , yi ) I y ( xi , yi )] ) w y x [I X ( xi , yi ) I y ( xi , yi )] ) w y ( I ( x , y ))2 I x ( xi , yi ) I x ( xi , yi ) x w x i i w x, y w ( I x ( xi , yi ) I y ( xi , yi ) w ( I x ( xi , yi ))2 y x x, y C ( x , y ) y Ma trận C(x,y) bắt giữ cấu trúc cường độ vùng lân cận cục quanh điểm(x,y) Lấy 1 , 2 giá trị riêng ma trận C(x,y) Giá trị riêng mô tả bất biến phép quay Có trường hợp xảy ra: Nếu 1 , 2 nhỏ, hàm tương quan tự động cục không thay đổi, vùng ảnh nằm cửa sổ gần không thay đổi cường độ Có nghĩa trường hợp này, điểm quan tâm tìm thấy điểm ảnh(x, y) Nếu 1 lớn 2 nhỏ, có tác dụng dịch chuyển cục theo hướng(dọc theo đỉnh đó) có thay đổi nhỏ c(x, y) thay đổi đáng kể hướng trực giao, điều biểu thị cho cạnh Nếu 1 , 2 dịch chuyển theo hướng đưa đến kết làm tăng đáng kể, điều biểu thị cho góc Ưu điểm: đơn giản dễ hiểu, phát nhanh chóng điểm quan tâm ảnh Nhược điểm: Không bất biến thay đổi tỷ lệ 2.2.2 SIFT (Scale Invarian Feature Transform) Đây phương pháp hiệu để trích chọn điểm bất biến từ ảnh dùng để thực so khớp tin cậy tầm nhìn khác đối tượng quang cảnh Phương pháp gọi “phép biến đổi đặc bất biến tỷ lệ” (Scale Invarian Feature Transform – SIFT) biến đổi liệu ảnh thành tọa độ bất biến tỷ lệ có liên quan tới đặc trưng cục Thuật toán gồm giai đoạn chính: phát cực trị không gian tỷ lệ, định vị xác điểm khóa, gán hướng cho điểm khóa, xây dựng đặc trưng Hình Các giai đoạn lựa chọn điểm khóa 2.3 Bộ lọc dựa vào nội dung text hình ảnh Theo Stanfor project CS229 SaiKat Sen Để xây dựng lọc dựa vào nội dung text hình ảnh tác giả sử dụng ba kỹ thuật là: phân tích hình ảnh, văn bản, phân tích xếp hạng - Để phân tích văn bản, tiến hành kiểm tra: + Tiêu đề trang: tiêu đề trang có chứa từ người lớn trang phân lớp trang người lớn + Từ khóa: trang web dành cho người lớn trang web có chứa nội dung gần giống trang web người lớn tiến hành tìm kiếm từ khóa trang từ điển từ vựng người lớn + URL: phân tích từ URL thành chuỗi tra cứu vào từ điển dành cho người lớn Trong trường hợp từ điển trực tuyến tốt dành cho người lớn tiến hành xây dựng cách sử dụng ứng dụng tùy chỉnh sử dụng sở liệu từ vựng Princeton WordNet Các tùy chỉnh ứng dụng cho phép người dùng lựa chọn nguồn từ, kết đầu từ đồng nghĩa lần lặp cho phép người sử dụng để phân lớp từ đồng nghĩa người lớn, làm xám trước tiến bước lặp lặp lại với từ đồng nghĩa người lớn Nó điều cần thiết để phân lớp từ đồng nghĩa lần lặp lặp lại, không túi từ tăng nhanh kích thước đến hàng ngàn từ với nhiều nghĩa khác Tùy chỉnh ứng dụng xem công cụ dùng để lặp lặp lại không từ Danh sách cuối bao gồm hai tập tin: adult.txt gray.txt Adult.txt chứa từ xác nhận người lớn lọc, gray.txt chứa từ mà muốn lọc sử dụng nội dung người lớn nội dung không dành cho người lớn Mục đích để lọc học số lượng từ thích hợp qua lần huấn luyện từ vựng thu thập bao gồm 106 từ danh sách đen 26 từ xám + Nội dung trang: yếu tố quan trọng - Để phân tích hình ảnh: sử dụng kỹ thuật nhận dạng hình ảnh khác Các gói OpenCV [3] sử dụng để nhận dạng hình ảnh phân lớp ML (Machine Learning) Để xếp hạng sử dụng AldultRank thước đo thứ hạng tương tự PageRank 2.4 Những phần mềm lọc web SurfControl – Enterprise Threat Protecion: phần mềm hãng SurfControl, phần mềm thiết kế theo cách tiếp cận lọc web ngăn chặn từ proxy qua URL từ khóa, có khoảng 20 cách ngăn chặn Internet Filter – Web Filters: hãng iPrism Internet Filters & Web Filters phát triển, phần mềm thực giám sát ngăn chặn Phần mềm quảng cáo dùng kỹ thuật lọc web động kiểm soát nội dung trang web từ ngõ vào Tuy nhiên, theo hướng dẫn nhà sản xuất phần mềm có bóng dáng kỹ thuật dùng phương pháp lọc chặn từ khóa DWK4.1: Depraved Web Killer (DWK) tác giả Vũ Lương Bằng dự thi chung kết thi Trí Tuệ Việt Nam năm 2004, tính đến thời điểm phiên v4.1 (2011) có nhiều chức như: – Ngăn chặn trang web có nội dung xấu (từ khóa, URL) – Ghi nhật ký chương trình chạy máy – Ghi nhật ký trang web truy cập - Ghi nhật ký trang web xấu mà phần mềm ngăn chặn – Gửi nhật k đến địa mail người dùng thiết lập FamilyWall: phần mềm tường lửa chạy thường trú máy tính người sử dụng Chức chủ yếu FamilyWall ngăn chặn việc truy cập Website có nội dung xấu mạng Internet, bao gồm lớp kiểm soát sau: Các từ khóa có nội dung xấu, nội dung trang Web, danh sách Website xấu phát hiện, … KẾT LUẬN Qua trình tìm hiểu nghiên cứu để thực đồ án nhóm chúng em đạt kết sau: Tìm hiểu phương pháp ngăn chặn web đen: dựa theo địa mạng, dựa theo URL, dựa theo hình ảnh,… Biết điểm mạnh yếu phương pháp lọc web đen hiểu phương pháp Thu thập liệu từ Website Hƣớng phát triển Áp dụng phương pháp ngăn chặn web đen để xây dựng công cụ lọc web Cải tiến phương pháp ngăn chặn web đen Nghiên cứu từ vựng thuộc nội dung không lành mạnh mà không cần duyệt qua nội dung LỜI CẢM ƠN Trước hết xin gởi lời cảm ơn chân thành đến thầy giáo hướng dẫn môn Phương pháp nghiên cứu khoa học – công nghệ GV Nguyễn Văn Hòa tận tình 10 bảo, hướng dẫn cho nhóm chúng em trình nghiên cứu thực đồ án Xin cảm ơn bạn bè người thân động viên, giúp đỡ tạo điều kiện thuận lợi cho chúng em trình thực đồ án Cuối cùng, biết ơn gia đình tạo điều kiện thuận lợi cho chúng em yên tâm suốt thời gian nghiên cứu hoàn thành luận văn cao học TÀI LIỆU THAM KHẢO [1] Nguyễn Thanh Phong, Xây dựng lọc phát website có nội dung khiêu dâm dựa URL Text Content, Bộ Giáo Dục Đào Tạo Trường Đại Học Lạc Hồng, 2014 [2] Huỳnh Bé Thơ Trương Quốc Định Xây dựng công cụ ngăn chặn truy cập web đen Tạp chí khoa học Trường Đại Học Cần Thơ, 2013 [3] Đạt Trương Xử lý ảnh với OpenCV: Lọc Số Trong Ảnh Khoa học máy tính, 2015 [4] Nguyễn Đức Năng, Nghiên cứu lọc ảnh thông qua phân loại ảnh kết hợp với gom cụm, Đạ Học Lạc Hồng, 2013 [5] Edel Garcia, Term Vector Theory and Keyword Weights, 2008 [6].Nguyễn Cao Thủy Tiên, Xây dựng lọc phát website có nội dung không lành mạnh,Đại Học Lạc Hồng, 2011 [7] Rongbo Du, Reihaneh Safavi-Naini and Willy Susilo, Web Filtering Using Text Classification, Australia,2006 [8] Trần Thị Thảo “Xây dựng giải pháp hỗ trợ lọc viết từ diễn đàn”, Luận văn thạc sỹ công nghệ thông tin, 2013 [9] Nguyễn Thị Hoàn Phương pháp trích chọn đặc trưng ảnh thuật toán Học máy tìm kiếm ảnh áp dụng toán tìm kiếm sản phẩm Khóa luận Tốt nghiệp Đại học, Đại học Quốc gia Hà Nội, 2010 11