Mô hình entropy cực đại: Ứng dụng trong phân loại văn bản và chặn nội dung web độc hại

MỤC LỤC

Mục tiêu của luận văn

Để hiểu sâu sắc thuật toán, luận văn đề ra mục tiêu xây dựng từ đầu thuật toán mô hình cực đại entropy (chương trình phân loại văn bản tiếng Việt) cũng như ứng dụng chặn nội dung web. Mục đích cuối cùng là hướng tới xây dựng chương trình có khả năng ngăn chặn những trang web có nội dung xấu và giúp người dùng phân loại nội dung của các trang web với các chủ đề khác nhau.

Các phương pháp phân loại văn bản

Các phương pháp phân loại văn bản

Khi phân loại một văn bản, thuật toán sẽ tính khoảng cách của tất cả các văn bản trong tập huấn luyện đến văn bản cần phân lớp để tìm ra k văn bản gần nhất, sau đó dùng các khoảng cách này đánh trọng số cho tất cả chủ đề. Cho trước tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi văn bản là một điểm, phương pháp tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành 2 lớp riêng biệt tương ứng lớp + và lớp -.

Hình 2.1: Các điểm được khoanh tròn là các vector hỗ trợ

Mô hình cực đại entropy

Tổng quát mô hình cực đại entropy

Với mô hình này, nó phân bố tổng xác suất ngang bằng nhau trong số 5 từ (cụm từ) có thể được lựa chọn để dịch, là mô hình đều nhất phụ thuộc vào các hiểu biết của chúng ta. Tuy nhiên không phải là giống nhau hoàn toàn; mà mô hình sẽ cấp một xác suất ngang nhau cho mọi từ (cụm từ) tiếng Pháp có thể được dịch. Chúng ta kiểm tra lại dữ liệu nhiều lần, và lần này nhận thấy sự kiện sau: trong một nửa các trường hợp, hệ thống dịch lựa chọn cả hai từ (cụm từ) “dans” hay “à”.

Chúng ta có thể một lần nữa tìm ra các xác suất mô hình (p) ngang bằng nhau hơn ứng với các ràng buộc trên, nhưng bây giờ việc lựa chọn không còn là hiển nhiên nữa. Thứ nhất, điều đó thực sự là phép lấy trung bình bằng cách ngang bằng nhau, và làm thế nào mà có thể đo được sự ngang bằng nhau của mô hình?. Thứ hai, phải xác định được những câu trả lời phù hợp với những câu hỏi, làm thế nào mà tìm được mô hình ngang bằng nhau nhất phụ thuộc vào tập các ràng buộc giống như chúng ta đã miêu tả?.

Nói một cách khác, cho một tập các sự kiện, lựa chọn một mô hình mà nó phù hợp với tất cả các sự kiện, mặt khác ngang bằng nhất có thể.

Mô hình cực đại entropy

Bằng cách thu hẹp sự chú ý tới những xác suất mô hình, p(y|x), như trong công thức (3), chúng ta loại trừ các mô hình được xem xét mà nó không thích hợp với mẫu huấn luyện dựa vào cách thông thường mà output của bài toán sẽ đưa ra đặc trưng f. Tóm lại, chúng ta có được giá trị trung bình cho các thống kê tương ứng với các hiện tượng tồn tại trong dữ liệu mẫu, Ẽ(f), và cũng là giá trị trung bình yêu cầu mà mô hình của bài toán đưa ra các hiện tượng đó (E(f) = Ẽ(f)). Cần phõn biệt rừ ràng 2 khỏi niệm về đặc trưng và ràng buộc: một đặc trưng là một hàm nhận giá trị nhị phân của cặp (x,y); một ràng buộc là một phương trình giữa giá trị kỳ vọng của hàm đặc trưng trong mô hình và giá trị kỳ vọng của nó trong dữ liệu huấn luyện.

Entropy là bị chặn dưới bởi 0, entropy của mô hình không có sự không chắc chắn nào, và chặn trên bởi log|Y|, entropy của phân phối ngang bằng nhau trên toàn bộ các giá trị có thể |Y| của y. Nguyên lý cực đại entropy đưa ra vấn đề tối ưu các ràng buộc: tìm p* € C mà nó cực đại H(p). Trường hợp đơn giản, chúng ta có thể tìm được giải pháp cho vấn đề này theo phép phân tích. Điều này đúng cho ví dụ được nói đến trong phần 1 khi chúng ta áp dụng 2 ràng buộc đầu tiên lên p. Tiếc là, giải pháp này đối với bài toán cực đại entropy tổng quỏt khụng thể viết ra được một cỏch rừ ràng, và chỳng ta cần nhiều phộp tớnh gần đỳng gián tiếp. Để giải quyết vấn đề cho bài toán tổng quát, chúng ta áp dụng phương pháp của đa thức Lagrange từ học thuyết tối ưu hóa cưỡng chế.  Chúng ta sẽ quy về bài toán tối ưu hóa các ràng buộc ban đầu, ). Tuy nhiên, nguyên lý cơ bản trong học thuyết đa thức Lagrange, được gọi là định lý Kuhn- Tucker tổng quát, khảng định rằng những thừa nhận dưới đây, những bài toán nền tảng và đối ngẫu là có liên quan chặt chẽ.

Kết quả này giúp làm tăng thêm tính đúng đắn cho nguyên lý cực đại entropy: khi quan niệm việc lựa chọn xác suất mô hình p* trên cơ sở cực đại entropy là không đủ sức thuyết phục, điêu xảy ra với cùng một xác suất p* là một mô hình mà nó, trong số toàn bộ các mô hình của cùng một dạng tham số (10), có thể là sự miêu tả tốt nhất cho mẫu huấn luyện.

1 log(

Lựa chọn đặc trưng

Trong phần này chúng tôi giới thiệu phương thức cho việc lựa chọn tự động các đặc trưng trong mô hình cực đại entropy, việc lựa chọn đặc trưng được thực hiện tốt sẽ giúp giảm bớt gánh nặng cho việc tính toán. Như vậy kết quả là, C(S) được rút gọn lại; xác suất mô hình p* trong C với entropy lớn nhất phản ánh sự hiểu biết tăng mãi mãi và vì vậy việc miêu tả bài toán sẽ trở nên chính xác hơn.Điều này giúp cho không gian chấp nhận được của các mô hình được thu hẹp hơn. Tại mỗi giai đoạn của bài toán xây dựng mô hình, mục đích của chúng ta là lựa chọn được đặc trưng ứng cử f̃ € F mà nó giúp tăng ∆L(S,f̃); vì vậy, chúng ta lựa chọn đặc trưng ứng cử, khi nối tiếp vào tập đặc trưng có hiệu lực S, nó giúp tăng đáng kể likelihood trong mẫu huấn luyện.

Input: tập hợp F của các đặc trưng ứng cử; phân phối thực nghiệm p̃(x,y). Output: tập S các đặc trưng có hiệu lực; xác suất mô hình pS hợp nhất các đặc trưng. a) Tính xác suất mô hình PSυf sử dụng thuật toán 1. b) Tính lượng gia tăng của log-likelihood từ những đặc trưng được thêm vào sử dụng công thức (23). Tuy nhiên, để dễ dàng tính toán được thứ hạng của các đặc trưng, chúng ta xấp xỉ chúng, những đặc trưng thêm vào f chỉ tác động tới α, những giá trị λ còn lại được kết hợp với những đặc trưng khác không thay đổi. Tính toán giá trị gần đúng trong likelihood từ việc thêm các đặc trưng f vào pS đã đưa bài toán tối ưu về dạng 1 chiều đơn giản hơn với một tham số α, nó có thể được giải quyết bởi bất kỳ kỹ thuật tìm kiếm tuyến tính thông thường nào (chẳng hạn như phương thức của Newton).

Nhưng việc tiết kiệm chi phí đó: với một đặc trưng riêng biệt f nào đó, chúng ta hầu như đánh giá thấp giá trị của nó, và điều đó giúp chúng ta lựa chọn đặc trưng f mà giá trị gần đúng ~∆L(S,f) của nó là cao nhất thông qua đặc trưng f với việc tăng tối đa giá trị ∆L(S,f).

Thực nghiệm phân loại văn bản

Các thành phần và chức năng của chương trình

Từ tập dữ liệu huấn luyện và kiểm thử thô ban đầu này, trước khi được sử dụng để huấn luyện và kiểm thử cần qua một số bước lọc bỏ các đặc trưng không tốt. Qua đó rút ra nhận xét rằng, kết quả của việc huấn luyện phụ thuộc phần nào vào việc khởi tạo giá trị lựa chọn lamda (lọc bỏ những đặc trưng có tần số nhỏ hơn mức tối thiểu), vào giá trị khởi tạo λ và gí trị hội tụ của Δλ. Chương trình phân loại văn bản với mục đích kiểm nghiệm phương pháp phân loại văn bản cực đại entropy với tiếng Việt và đồng thời cũng là cơ sở để tích hợp vào hệ thống chặn nội dung web.

Nhiệm vụ của chương trình là kiểm soát nội dung của những trang web được người dùng truy cập và mạng Internet thông qua trình duyệt (Internet Explorer). Để đảm bảo độ chính xác, mỗi trang web có thể được phân thành nhiều phạm trù, nó cũng cho phép khách hàng xác định một số lượng không hạn chế các phạm trù được cho phép truy cập hay bị chặn để phù hợp với từng yêu cầu cụ thể (ví dụ như chặn các trang web được phân loại là thể thao hoặc vi tính). Đối với những trang web chưa được phân loại vào các phạm trù ở trên, thì việc cho phép hay chặn dựa trên kỹ thuật Dynamic Real-Time Rating (DRTR) là một kỹ thuật phân loại các trang web khi người dùng cố gắng truy cập.

Như đã nói ở trên, để tăng hiệu quả về mặt thời gian thực Blue Coat sẽ tự động cập nhập những thông tin đã được phân tích của các trang web sau khi người dùng truy cập. Phân tích Thực hiện việc phân tích địa chỉ url được nhập vào textfield tương ứng để thực hiện việc cho phép hoặc chặn truy cập với url đó. Trong số các chủ đề đó, bạn có thể chọn 1 hay nhiều chủ đề sẽ bị chặn truy cập và nhấp vào button “=>” để chuyển vào danh sách các chủ đề bị chặn.

Hình 4.1: Giao diện chức năng huấn luyện