Các kỹ thuật lọc nội dung thông tin qua giao dịch web:

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 55 - 88)

2.3.1. Lọc Ảnh

Hình ảnh là một trong những phƣơng tiện truyền bá thông tin trực quan nhất, và nó đƣợc sử dụng ngày càng nhiều cho việc phát tán thông tin phản động, đồi trụy. Các hệ thống lọc hiện nay mới chỉ dừng ở việc lọc các định dạng ảnh nhƣ GIF, JPEG, PNG... Do các ảnh này đƣợc nhúng trong mã HTML nên bộ lọc ảnh thƣờng có bộ phận tải trƣớc các ảnh trong mã HTML về trƣớc khi trình duyệt gọi hiển thị các ảnh này.

Hai mục tiêu chính của bộ lọc ảnh là: a. Dò tìm các bức hình đồi trụy.

b. Dò tìm các đặc trƣng ảnh có hại (nhƣ Hình đầu lâu xƣơng chéo, cờ của các tổ chức phản động, dấu hiệu của các giáo phái tín ngƣỡng...).

2.3.1.1. Bộ lọc ảnh đồi trụy

Bộ lọc này có cấu trúc bên trong gồm 2 bộ phận: a. Bộ phận dò tìm da (skin detection)

b. Bộ phận phân tích mẫu (format analyse)

Với mỗi bức ảnh đƣợc đƣa vào, bộ phận dò tìm da sẽ cho ra một bản đồ da đen trắng với cấp xám biểu thị mật độ da. Hai mô hình hiệu quả cho bộ lọc này là Maximum Entropy Modeling và Markov Random Field.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Mục tiêu của bộ phận này là so sánh toàn bộ đặc trƣng của một bức ảnh đƣợc lọc với một tập cố định các đặc trƣng mẫu. Điều này rất có ích trong việc lọc ra các hình ảnh có hại

2.3.2. Lọc Văn Bản Dùng Công Nghệ Xử lý Ngôn Ngữ Tự Nhiên (Natural Language Processing Text Filtering) - NLP (Natural Language Processing Text Filtering) - NLP

Phƣơng pháp NLP bao gồm những thành phần sau:

 Tự động trích trọn từ tập sao lục các thuật ngữ quan trọng (từ đơn, cụm từ, từ nhiều nghĩa, kiểu văn bản, v.v.).

 Xây dựng một tập từ điển các từ đồng nghĩa, trái nghĩa (thesauri/semantic).

 Kỹ thuật phân tích ngôn ngữ “không sâu”, đảm bảo phân tích thuận tiện nhiều từ đa nghĩa và các kiểu text, bao gồm:

 Đơn vị ngôn ngữ (Tokenisation).

 Phân tích hình thái học (morphological) và tập danh mục tìm kiếm (lemmatization).

 Nhận dạng tên thực thể.

 Phân đoạn một cụm từ thành các loại từ cụ thể (ví dụ: cụm danh từ.v.v…).

 Xác định những sắp xếp về mặt ngữ nghĩa khác của từ.

 Giải tích hàm (functional analysis) nhƣ là chú giải về mặt ngữ pháp (ví dụ: chủ ngữ, bổ ngữ.v.v.).

Kết quả của việc phân tích ngôn ngữ học “không sâu” sẽ cung cấp một căn cứ đƣợc dùng trong tiến trình quyết định lọc nội dung, nó sẽ là cơ sở chung cho các phƣơng pháp học. Trong phƣơng pháp học mô hình hóa, một quá trình quy nạp chung tự động xây dựng một “ngƣời phân loại” (classifier) bằng cách “học” các đặc trƣng của danh mục quan tâm từ một tập các hạng mục đã phân loại trƣớc đó. Trong hầu hết các phƣơng pháp đƣợc ứng dụng và thực hiện trƣớc đó cho nhiệm vụ phân loại và lọc text, tài liệu đƣợc coi nhƣ là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

một “túi” từ không có cấu trúc. Để mở rộng căn cứ xác thực cho phƣơng pháp quyết định bao gồm các kết quả đã phân tích, việc xử lý ngôn ngữ “không sâu” nên dựa trên việc cung cấp một căn cứ tin cậy và chắc chắn của ký tự và nội dung tài liệu.

Một vấn đề quan trọng cuối cùng đó là cấu hình bộ lọc nội dung không nên để cố định và ở dạng tĩnh, hay nói cách khác là nó nên đƣợc làm cho thích ứng với sự thay đổi tự nhiên của các ngôn ngữ sử dụng và phải đấu tranh với những thủ đoạn ngày càng phát triển của những ngƣời lập web (muốn tăng khả năng vƣợt qua phần mềm lọc). Sự thích ứng này còn thể hiện ở chỗ những phƣơng pháp đó có thể đƣợc ứng dụng lại trên các lĩnh vực khác.

2.3.3. Lọc chọn nội dung PICS

2.3.3.1. Khái niệm

PICS (Platform for Internet Content Selection) là một cơ sở hạ tầng trên nền tiêu chuẩn mở để liên kết siêu dữ kiện (thông tin về thông tin) đối với nội dung Internet, cho phép hoặc ngăn cản truy xuất tới các địa chỉ URL, dựa theo các nhãn PICS mô tả chúng.

PICS đƣợc thiết kế để tạo điều kiện thuận lợi cho việc điều khiển lấy ngƣời nhận làm trung tâm trên Internet hơn là lấy ngƣời gửi làm trung tâm. Hơn thế, nó là một cơ chế để xây dựng và đánh giá các phần mềm lọc. Vì vậy kể từ khi ra đời nó đã đảm nhận vai trò của một phần mềm chủ chốt.

Bộ lọc dựa theo PICS kiểm tra nội dung của các trang siêu liên kết HTML trong một trang web đƣợc yêu cầu nào đó, để tìm ra các nhóm PICS và đuôi định dạng trong phần header của trang HTML. Đối với mỗi nhóm nhãn (xác định bởi địa chỉ URL), bộ lọc sẽ dịch nội dung nhãn sang kết quả hệ thống, bằng việc sử dụng file ánh xạ XML, nó kết hợp nội dung nhãn PICS với một miền kết quả. Kết quả thu đƣợc sau tiến trình này sẽ đƣợc chuyển sang modun kiểm soát (monitor) để chúng tiếp tục đƣợc đƣa vào modun quyết định. Cấu hình mỗi modun cho một loại PICS

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

cần một file đơn ánh XML. Trong hệ thống lọc, PICS là một cách lọc nội dung web có hiệu quả nhƣng vấn đề là không phải tất cả các trang web đều đƣợc gán nhãn.

Thƣờng có sự hiểu sai về PICS, nhƣ PICS có trách nhiệm về đánh giá nội dung. Tuy nhiên, PICS không đánh giá nội dung. PICS đơn giản cung cấp những phƣơng tiện kỹ thuật cho siêu dữ kiện (chẳng hạn: các nhãn, xếp hạng, lập danh mục những bản ghi, hay những chữ ký số hóa) sẽ đƣợc trao đổi với các bộ lọc hoặc các phần mềm khám phá tài nguyên.

Dạng lọc PICS gắn với thao tác phân loại dữ liệu một cách tự động. Đây là cách xác định nội dung trang web theo một tiêu chí nhất định, chẳng hạn nhƣ nó có chứa thông tin xấu, đồi trụy, bạo lực, phản động... hay không. Phƣơng pháp phân loại sẽ dựa trên nhiều mức khác nhau, với độ phức tạp tăng dần từ từ khóa, cấu trúc, đến ngữ nghĩa của dữ liệu. Vì thế công việc này đòi hỏi phải khảo sát công nghệ mới nhất hiện nay để tìm ra giải pháp thích hợp nhất, đảm bảo cả hai tiêu chí chất lƣợng và thời gian nhằm đảm bảo tính tức thời của thông tin yêu cầu.

Phần mềm máy tính có thể thực hiện những sự điều khiển truy nhập dựa trên tất cả các nhân tố kể trên. Phần mềm sẽ chọn lọc trực tuyến giữa ngƣời nhận và tài liệu, kiểm tra nhãn để xác định nên chăng cho phép sự truy nhập tới một tài liệu cụ thể nào đó. Nó có thể cho phép những sự truy nhập cho một số ngƣời sử dụng nhƣng còn những ngƣời khác thì không đƣợc phép, hay là cho phép vào những thời điểm nào đó, còn các thời điểm khác thì không.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 2.3. Mô hình phần mềm chọn lọc ngăn cản truy cập tới một số tài liệu không phù hợp còn các tài liệu khác thì được phép.

2.3.3.2. Các đặc tả cơ bản nhất của PICS

Các đặc tả quan trọng nhất của PICS là:

1, Một cú pháp để mô tả một dịch vụ trị số danh nghĩa, nhờ đó những chƣơng trình máy tính có thể giới thiệu dịch vụ và những nhãn của nó tới những ngƣời sử dụng.

2, Một cú pháp cho nhãn, để những chƣơng trình máy tính có thể xử lý chúng. Một nhãn mô tả một tài liệu đơn lẻ hoặc một nhóm những tài liệu (ví dụ: một site). Một nhãn có thể bao gồm chữ ký số và một giá trị băm đã mã hóa của tài liệu tƣơng ứng.

3, Một danh sách những nhãn nhúng trong định dạng RFC - 822 và định dạng HTML.

4, Một mở rộng của giao thức HTTP, vì vậy những trình khách có thể yêu cầu rằng những nhãn phải đƣợc truyền với một tài liệu.

5, Một cú pháp truy vấn một cơ sở dữ liệu trực tuyến của các nhãn (gọi là một văn phòng nhãn).

Kết luận: PICS cung cấp một nền tảng ghi nhãn cho Internet. Bất kỳ phần mềm tƣơng thích PICS nào cũng có thể giải thích những nhãn từ bất kỳ nguồn nào, bởi vì mỗi nguồn cung cấp một sự mô tả đọc đƣợc bằng máy của những khía cạnh nó ghi nhãn. Tuy nhiên, để xây dựng một lƣợng lớn dữ liệu đƣợc gắn nhãn rất tốn thời gian và tiền bạc, trong khi dữ liệu chƣa gắn nhãn lại có rất nhiều trên internet và không tốn nhiều công sức để thu thập, vì vậy hiện nay có nhiều nghiên cứu tập trung vào sử dụng cả hai loại dữ liệu này để xây dựng mô hình phân loại.

2.3.4. Kỹ thuật lọc và chặn nội dung dựa trên danh sách địa chỉ cấm (Lọc URL) cấm (Lọc URL)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

URL viết tắt của cụm từ “Uniform Resource Locator” còn gọi là địa chỉ web, là địa chỉ của một tài nguyên mạng. Các URL bắt đầu bởi http://

Ví dụ: http://www.vidu.com/khoaluan/baiviet.htm

+ URL tuyệt đối: URL tuyệt đối là url bao gồm cả http:// Ví dụ: http://www.vidu.com/khoaluan/baiviet.htm

+ URL tƣơng đối: URL tƣơng đối là url mà không có http:// lấy một site làm cơ sở.

Ví dụ lấy http://www.vidu.com làm site cơ sở thì ta có một url tƣơng đối là:

/khoaluan/baiviet.htm

2.3.4.2. Ƣu điểm của phƣơng pháp lọc URL

Những cơ chế lọc URL có ƣu điểm là thời gian lọc rất nhanh. Thật ra, sự lọc URL sử dụng công nghệ đơn giản nhƣng có hiệu quả rất cao, điều đó giải thích tại sao tất cả các phần mềm lọc thƣơng mại ngày nay đều sử dụng một vài phƣơng thức lọc URL nào đó.

Công nghệ cơ bản đƣợc sử dụng là phân lớp URL thành hai lớp: một lớp danh sách URL đen, và một lớp URL trắng. Và hiển nhiên nếu URL nào rơi vào lớp danh sách đen thì chắc chắn nó sẽ bị cấm truy nhập cho dù dùng phƣơng thức truy nhập nào đi chăng nữa.

Các URL đƣợc chứa trong mã HTML dƣới 2 dạng: liên kết tĩnh (url tĩnh) và liên kết động (url động). Để có thể trích xuất đƣợc các URL trong mã trang HTML ta cần phải xử lý đƣợc 2 loại liên kết này.

2.3.4.3. Xử lý URL tĩnh

Ví dụ: Trong mã của trang a.html có đoạn

<a href=”http://www.vidu.com/b.html”>Chuyển sang trang b</a>

Nhƣ vậy khi ấn vào liên kết “Chuyển sang trang b” thi ta sẽ dịch chuyển sang trang b.html tƣơng ứng với URL tĩnh là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Việc tìm các url trong mã HTML rất dễ dàng, ta chi cần tìm các thuộc tính href xem giá trị của nó là gì. Ví dụ ở đoạn mã trên ta xác định đƣợc giá trị url là http://www.vidu.com/b.html.

2.3.4.4. Xử lý URL động (do mã JavaScript sinh ra)

Liên kết động, là loại liên kết sinh ra sau khi có sự tƣơng tác giữa hành động của ngƣời dùng và trình duyệt, mà phần quyết định liên kết sinh ra là một đoạn mã (JavaScript). Ví dụ: <area shape="rect" coords="11,105,119,116" href="http://www.viettan.org/Yctha6nhachi nhtri.html" onMouseOver="popUp(’elMenu9’,event)" onMouseOut="popDown(’elMenu9’)">

Việc xác định liên kết động khá phức tạp, nó liên quan đến việc xử lý mã JavaScript.

Nhƣ ở đoạn mã ví dụ trên thuộc tính onMouseOver sẽ thực hiện khi ngƣời dùng để chuột trên vị trí toạ độ đã định trƣớc thì liên kết http://www.viettan.org/Yctha6nhachinhtri.html sẽ đƣợc tải.

Hiện nay trên mạng có một dự án mã nguồn mở xử lý rất hiệu quả các

liên kết động tại http://mozilla.org/js/ hoặc

http://www.bbassett.net/njs/.

2.4. Tình hình phát triển các phần mềm lọc nội dung trong và ngoài nƣớc.

Hiện nay có rất nhiều sản phẩm lọc nội dung xuất hiện và đƣợc sử dụng. Các tiêu chí đánh giá quan trọng nhất đối với các sản phẩm lọc Internet là:

- Dễ dàng sử dụng: Sản phẩm phải có giao diện thân thiện với ngƣời dùng sao cho ngƣời dùng ở mọi trình độ đều có thể dễ dàng khởi tạo và sử dụng phần mềm lọc với đầy đủ tính năng của phần mềm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - Hiệu quả khi lọc: Tạo nên sự cân bằng tốt giữa sự chê trách khi lọc tài liệu với số lƣợng quá nhiều nội dung không đƣợc lọc và cho phép tùy biến năng lực lọc đối với mỗi thành viên trong gia đình, tổ chức.

- Thuật toán lọc tốt: Cần kết hợp nhiều giải pháp lọc nhƣ lọc theo URL, lọc theo từ khóa và lọc động.

- Kết xuất hành động: Cho phép tạo ra các văn bản về hoạt động truy nhập internet bao gồm các trang web đƣợc thăm, hoạt động chat...

- Nền khách - chủ: Cho phép mềm dẻo lựa chọn nền lọc internet là máy khách, máy chủ hoặc cả hai.

- Lọc được tiếng nước ngoài: Có thể lọc nội dung theo đa ngôn ngữ.

- Lọc và kết khối cổng: Lọc nội dung cần đƣợc thực hiện theo mọi giao thức internet chính nhƣ truy nhập web, chat, email, mạng ngang hàng, bản tin và cửa sổ bật lên (pop up window).

Các tiêu chí đánh giá phần mềm lọc Internet trên là rất có ý nghĩa đối với các nghiên cứu, triển khai xây dựng hệ thống lọc nội dung trên internet.

Một số sản phẩm lọc nội dung hiện nay:

2.4.1. VwebFilter (Viết tắt là VWF)

VWF là phần mềm lọc nội dung thông tin Internet độc hại dành cho ngƣời dùng cá nhân, sản phẩm này là kết quả nghiên cứu của nhóm tác giả Công ty điện toán và truyền số liệu VDC. VWF có khả năng lọc các trang web theo luật gồm : danh sách các URL cần chặn và các từ khóa xuất hiện trong các trang web đó.

Sản phẩm này có các đặc điểm nhƣ sau :

+ Cơ chế hoạt động : VwebFilter tƣơng tác trực tiếp với các gói tin để lọc dữ liệu, độc lập với trình duyệt, tƣơng thích với tất cả các trình duyệt hiện nay.

+ VWF có dung lƣợng rất nhỏ (dƣới 1M), khi hoạt động không làm ảnh hƣởng đến hiệu năng của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+ Khả năng cập nhật tự động : Các chính sách lọc chặn và các phiên bản mới nhất của VWF sẽ đƣợc cập nhật tự động từ Policy Server theo định kỳ. + Khả năng ngăn chặn: VWF chặn đƣợc 100% các site phù hợp với các rules ngăn chặn và có khả năng ẩn tiến trình trong Task Manager khi sử dụng.

 Ƣu điểm :

VWF phù hợp với các phụ huynh muốn quản lý, bảo vệ con em mình khỏi những thông tin độc hại trên Internet. Giúp ngăn chặn các trang web xấu cho các cơ sở kinh doanh dịch vụ internet công cộng, các mạng máy tính của các công sở, các trƣờng học, tổ chức, doanh nghiệp kết nối internet.

 Nhƣợc điểm :

- Chƣơng trình cài đặt trên máy trạm, do đó sẽ ảnh hƣởng đến tốc độ của máy tính.

- Danh sách các trang web cần cấm phải đƣợc tải về và cập nhật vào trong phần mềm, nhƣ vây sẽ làm cho phần mềm thụ động, không bắt buộc đƣợc ngƣời dùng sử dụng.

2.4.2. SafeInternet

Safe Internet là phần mềm duyệt WEB có sự kiểm soát địa chỉ, thông tin tìm kiếm và nội dung WEB (do ngƣời quản lý quy định). Phần mềm đƣợc thiết kế dựa trên nền tảng Microsoft Internet Explorer nên có đầy đủ tính năng duyệt WEB và tƣơng thích hầu hết các trang web có trên Internet.

Safe Internet đƣợc thiết kế nhằm mục đích chống các website có nội dung xấu và hạn chế việc mở tự động hoặc download các file mà ngƣời quản lý không mong muốn.

Với Safe Internet bạn không còn lo lắng nhân viên sao lãng công việc, học sinh hay con em lƣớt web không lành mạnh.

Safe Internet phù hợp cho nhu cầu của cơ quan chính phủ, doanh nghiệp, báo chí, trƣờng học, dịch vụ internet, quản trị mạng và quý phụ huynh học sinh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 55 - 88)

Tải bản đầy đủ (PDF)

(88 trang)