Bộ lọc tiếng Anh

a. Giới thiệu

Hiện nay hai phƣơng pháp đƣợc sử dụng nhiều là lọc dựa vào danh sách từ khố và lọc nội dung dựa vào các kỹ thuật xử lý ngơn ngữ tự nhiên:

Lọc dựa vào danh sách các từ khố

Trong phƣơng pháp này, một danh sách các từ cấm đƣợc sử dụng để xác định những thƣ bất hợp pháp. Nếu thƣ điện tử chứa một số từ cấm, nĩ đƣợc coi là thƣ bất hợp pháp. Khĩ khăn với phƣơng pháp này là vấn đề ngữ nghĩa vì nghĩa của nhiều từ phụ thuộc vào văn cảnh. Ví dụ, các trang về bệnh ung thƣ vú cĩ thể bị xem là trang web xấu vì từ “breast” nằm trong danh sách từ khố của lớp “thƣ khiêu dâm”. Vấn đề thứ hai là hệ thống sẽ khĩ cĩ thể nhận ra các thƣ bất hợp pháp nếu từ cấm cố tình hoặc vơ tình bị viết sai lỗi chính tả. Ví dụ, một trang web cĩ nội dung khơng lạnh mạnh cĩ thể thay từ “pornographic” thành từ “pornogaphic” để cản trở hệ thống. Và làm thế nào để hệ thống lọc cĩ thể tìm đƣợc từ gốc chính xác là vấn đề khá khĩ khăn. Hơn thế

nữa, danh sách các từ cấm rất nhiều, khĩ cĩ thể liệt kê hết tất các mọi trƣờng hợp đƣợc.

Lọc nội dung dựa vào các kỹ thật xử lý ngơn ngữ tự nhiên (NLP)

Ƣu điểm của phƣơng pháp trên là nhanh, đơn giản nhƣng khơng hiệu quả khi thực thi vì những khĩ khăn gặp phải nhƣ phân tích ở trên. Để nâng cao tính hiệu quả của hệ thống lọc, phƣơng pháp thƣờng đƣợc sử dụng hiện nay là áp dụng các kỹ thuật xử lý ngơn ngữ tự nhiên. Mục tiêu là cần phải đƣa ra hệ thống cĩ tốc độ xử lý nhanh, đáp ứng đƣợc yêu cầu của ngƣời sử dụng.

Xây dựng bộ lọc thƣ điện tử gồm hai bƣớc. Mục đích của phần này sẽ xác định thƣ cĩ thuộc văn hố phẩm đồi truỵ, các vấn đề chính trị, bạo lực, tơn giáo hay khơng. Trong bƣớc thứ nhất, một mơ hình của bộ phân lớp đƣợc xây dựng bằng cách phân tích nội dung các trang văn bản trong tập dữ liệu huấn luyện thơng qua việc áp dụng các thuật tốn học. Tập dữ liệu huấn luyện là tập hợp các trang văn bản trong cơ sở dữ liệu đã đƣợc gán nhãn từ trƣớc. Trong bƣớc thứ hai, thực hiện việc phân lớp phân lớp các trang văn bản chƣa đƣợc gán nhãn. Các cơng việc thực hiện trong bƣớc này:

Tiền xử lý dữ liệu: là quá trình biểu diễn thƣ điện tử thành một dạng biểu diễn logic mà thuật tốn cĩ thể xử lý đƣợc (ví dụ, dạng biểu diễn vector).

Học các bộ phân lớp: sử dụng các thuật tốn phân lớp để xây dựng mơ hình từ dữ liệu đã qua tiền xử lý.

b. Thuật tốn sử dụng

Bộ phân lớp Naive Bayes thừa nhận một giả thiết mạnh (strong assumptions) là các đặc trƣng (feature) thì độc lập với phân lớp của chúng. Thêm vào đĩ, bộ phân lớp xác suất lựa chọn một vài dạng giả định cho phân phối của mỗi đặc trƣng trong một lớp. Những mơ hình xác suất phổ biến nhất là mơ hình đa thức (multinomial model), mơ hình độc lập nhị phân (binary independence model) và một số mơ hình khác:

 Binary Independence Model ( Multi-variate Bernoulli model).

 Poisson Naive Bayes Model

 Connection between Poisson and Multinomial Model

 Multinomial word model

 Negative binomial Naive Bayes Model

Sử dụng bộ lọc Bayesian

Nguyên lý hoạt động chung