Xây dựng bộ phân lớp trên cây phân lớp thông minh

Một phần của tài liệu Phân lớp tài liệu web độc lập ngôn ngữ (Trang 33 - 34)

Phần 3.2 và 3.3 đã trình bày về cách giải quyết khó khăn cho bài toán phân lớp văn bản độc lập ngôn ngữ, và cách xây dựng bộ phân lớp cho bài toán này. Tuy nhiên, có thể thấy rằng ứng dụng cho bài toán này là các bài toán không đòi hỏi nhận diện ngôn ngữ cho văn bản. Trong thực tế, có thể thấy rất nhiều ứng dụng phân lớp văn bản

đòi hỏi nhận diện được ngôn ngữ. Ví dụ, bộ phân lớp sách thay cho công việc của một thủ thư kho sách điện tử cần xếp sách vào lớp với ngôn ngữ tương ứng, hay các tin bài của các hãng tin lớn cần được xếp vào chuyên mục tin của ngôn ngữ tương ứng. Tuy nhiên nếu sử dụng thêm một bộ nhận dạng ngôn ngữ tốn kém và làm chậm quá trình phân lớp.

Xuất phát từ nhu cầu đó, và hướng tới các ứng dụng nhỏ khoá luận đề xuất xây dựng một bộ phân lớp văn bản độc lập ngôn ngữ trên cây phân lớp thông minh. Quá trình xây dựng bộ phân lớp này hoàn toàn giống với quá trình xây dựng bộ phân lớp trong phần 3.3. Điểm khác duy nhất nằm ở cây phân lớp. Giả sử trong cây phân lớp chuẩn của bộ phân lớp L ngôn ngữ có N lớp, thì ở cây phân lớp thông minh sẽ có

Bảng 1. Cây phân lớp thông minh tổng quát

STT lang1 lang2 … langL

1 lang1_class1 lang2_class1 … langL_class1

2 lang1_class2 lang2_class3 … langL_class2

N lang1_classN lang2_classN … langL_classN

Bộ phân lớp xây dựng trên cây phân lớp thông minh, vừa có khả năng phân lớp văn bản, vừa có khả năng nhận dạng văn bản được viết bởi nhưng ngôn ngữ nào.

Đây là một ví dụ cây phân lớp thông minh cho bài toán phân lớp tác phẩm văn học: giả

sử chỉ lấy trên 3 lớp là: Thơ, Truyện, Tuỳ bút đối với 2 ngôn ngữ là tiếng Anh và tiếng Trung.

Bảng 2. Bảng ví dụ cho cây phân lớp thông minh

STT Anh Trung Quốc Mô tả

1 en_po cn_po tác phẩm là thơ

2 en_st cn_st tác phẩm là truyện, truyện ngắn, tiểu thuyết,… 3 en_dl cn_dl tác phẩm là kí sự, tuỳ bút,…

Một phần của tài liệu Phân lớp tài liệu web độc lập ngôn ngữ (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(50 trang)