Xây dựng bộ phân loại văn bản (Text Classifier)

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 54 - 57)

3.3.4.1. Cách xây dựng một bộ phân loại văn bản:

Một bộ phân loại cho tập C, cĩ thể được tạo ra theo 2 cách:

– Tạo thủ cơng: trang bị tri thức cho cho bộ phân loại, điều này cĩ nghĩa là xây dựng một tập cĩ dạng:

if ((wheat & farm) or (corn & farm) or

(wheat & commodity) or (wheat & tonnes) or

(wheat & winter & ¬ soft)) then Grain else ¬ Grain

– Tự động: bằng cách dùng cơng nghệ máy học cĩ giám sát, từ một tập huấn luyện của các tài liệu được phân loại trước vào một lớp C.

3.3.4.2. Phân tích, những thuận lợi

Vấn đề lọc web cĩ thể được xem như sự kết hợp của hai ứng dụng riêng biệt của phân loại văn bản:

– Phân loại trang web (Web Classification) sắp xếp các website hay tổ chức tìm kiếm các kết quả dưới những thư mục phân cấp.

 Phân loại trang web là một trường hợp đặc biệt của phân loại văn bản bởi vì sự hiện diện của các siêu liên kết. Sự cấu thành một nguồn tài nguyên phong phú về thơng tin này, cũng như chúng cĩ thể được hiểu như những sự trình bày thích hợp trang được liên kết đến trang đang liên kết.

 Nghiên cứu về sự phân loại Web cho thấy rằng: hiệu quả cĩ thể được cải thiện bằng cách dùng heuristic “trang web đặc trưng” chẳng hạn như dùng các thể loại của các hyper-neighbour như những đặc trưng, và sử dụng “việc gán nhãn nới lỏng” kỹ thuật lặp nếu điều đĩ khơng được biết trong việc cung cấp trước.

 Các trang Web khĩ phân tích hơn tập tin văn bản chuẩn. Xét điều này để thấy rằng nĩ quan trọng để dùng đến những kỹ thuật phức tạp nhằm mục đích đạt tới những cấp độ hợp lý của hiệu quả.

– Bộ lọc (filtering): nghĩa là phân loại mỗi dịng văn bản đến vào trong Useri hay khơng cho Useri dựa trên sự liên quan đến/sự thích hợp của văn bản đến user.

 Cĩ 2 hướng tiếp cận riêng biệt ứng dụng phân loại văn bản trong bộ lọc:  Tích cực sai và tiêu cực sai thường cĩ sự quan trọng khác, điều này

phải được tính đến bằng cách dùng tiện ích lý thuyết đo lường tính hiệu quả.

 Tập huấn luyện thường đạt được sự tăng trưởng, mặc dù cĩ sự tương tác với người dùng. Điều này nĩi lên rằng kỹ thuật đĩ phát sinh một bộ phân loại gia tăng phải được dùng đến.

 Hiện tại, các cấp độ cĩ hiệu lực cĩ thể tương thích với một trong những ứng dụng phân loại văn bản đã được đạt đến trong việc lọc thơng qua việc dùng đến kỹ thuật “maximin-margin online learners”.

– Ngồi ra cịn cĩ ứng dụng dựa trên đặc điểm của một loại ứng dụng thứ ba của phân loại văn bản, đĩ là phát hiện nội dung khơng thích hợp (Detecting unsuitable content)

 Đây là một trường hợp của quản lý nội dung trong mơi trường đối lập “Content Management in Adversarial Environments-CMAE”, điều này cĩ quan hệ đến trường hợp những ứng dụng quản trị nội dung xác định nội dung hiện diện trong văn bản thuộc một tác giả nào.

 Vấn đề ở CMAE là khơng cĩ kỹ thuật nào dành cho CMAE cĩ thể được nhìn nhận chính xác và hồn thiện, vì “động vật ăn thịt luơn thích nghi với con mồi của nĩ”.

 Lọc những nội dung khiêu dâm và lọc thư rác (spam) là hai thể hiện của CMAE.

Chương 4: XÂY DỰNG ỨNG DỤNG, THỬ NGHIỆM, ĐÁNH GIÁ

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 54 - 57)