6.2. Thiết kế xây dựng hệ thống thử nghiệm
6.2.2. Chức năng phân lớp văn bản
6.2.2.1. Hướng tiếp cận học không giám sát Mô hình thiết kế chức năng xem hình 6.2.
Hình 6.2. Chức năng phân lớp văn bản theo hướng tiếp cận học không giám sát
văn bản phân lớp bằng tay (tập mẫu)
văn bản cần phân lớp Giao diện người-máy
PHÍA NGƯỜI DÙNG PHÍA HỆ THỐNG
Kho dữ liệu
Bộ VECTOR
HÓA
Văn bản
vector biểu diễn văn bản
Bộ PHÂN LỚP Văn bản Bộ
PHÂN NHÓM
Văn bản
Dữ liệu:
• Dữ liệu đầu vào: tập văn bản mẫu đã phân lớp và văn bản cần phân lớp
• Dữ liệu đầu ra: kết quả phân lớp của văn bản truy vấn đó
Chức năng phân lớp văn bản bao gồm:
• Bộ vector hóa văn bản các văn bản đưa vào, gồm văn bản truy : vấn cần phân lớp và tập văn bản mẫu đã được phân lớp, sẽ được biểu diễn thành các vector TFxIDF trước khi đi vào bộ phân nhóm văn bản (đối với tập mẫu) và bộ xử lý phân lớp (đối với văn bản truy vấn).
• Bộ xử lý phân nhóm: thực hiện phân nhóm tập văn bản mẫu sử dụng thuật toán FIHC. Kết quả đầu ra là các nhóm văn bản mẫu. Mỗi phân lớp văn bản mẫu gồm nhiều phân nhóm. Mỗi văn bản mẫu thuộc vào một phân nhóm.
• Kho dữ liệu chứa thông tin về các nhóm văn bản mẫu được biểu diễn : dưới dạng vector.
• Bộ xử lý phân lớp thực hiện phép xử lý phân lớp văn bản sử dụng thuật : toán k-NN dựa trên vector trọng tâm của các nhóm văn bản mẫu và vector biểu diễn văn bản truy vấn.
Các bước thực hiện:
• Nhập tập huấn luyện thao tác này được thực hiện bởi người dùng. Các : văn bản được nhập vào dưới dạng tệp tin TXT (trong tương lai hệ thống sẽ mở rộng với các định dạng file khác).
• Vector hóa văn bản đây là bước tiền xử lý văn bản, văn bản thô sẽ được : đi qua bộ vector hóa văn bản có nhiệm vụ tiền xử lý văn bản, tách term và loại bỏ StopWords, chuyển từ văn bản thô sang dạng dễ xử lý hơn (dạng vector).
• Phân nhóm văn bản: thực hiện phân nhóm tập các văn bản mẫu đã được phân lớp sẵn và đã được vector hóa. Kết quả lưu trữ trong kho dữ liệu.
• Nhập văn bản cần phân lớp: thao tác này cũng được thực hiện bởi người dùng, văn bản nhập vào dưới dạng tệp tin TXT.
• Phân lớp văn bản từ văn bản truy vấn cần phân lớp sau khi được vector : hóa, hệ thống sẽ sử dụng trọng tâm các nhóm văn bản mẫu trong kho dữ liệu, tính độ liên quan để tìm phân lớp phù hợp nhất cho văn bản truy vấn đó theo thuật toán k-NN.
• Phản hồi sau khi có kết quả phân lớp, hệ thống trả lại kết quả về phía : người dùng. Nếu người dùng lựa chọn chức năng cập nhật, hệ thống sẽ cập nhật kết quả phân lớp vào tập mẫu trong cơ sở dữ liệu. Sau đó, hệ thống tự động “học” lại.
6.2.2.2. Hướng tiếp cận theo đề xuất cải tiến công thức Mô hình thiết kế chức năng xem hình 6.3.
Hình 6.3. Chức năng phân lớp văn bản theo hướng tiếp cận cải tiến công thức
Dữ liệu:
• Dữ liệu đầu vào: tập văn bản mẫu đã phân lớp và văn bản cần phân lớp
• Dữ liệu đầu ra: Kết quả phân lớp của văn bản truy vấn đó
văn bản phân lớp bằng tay (tập mẫu)
văn bản cần phân lớp Giao diện người-máy
PHÍA NGƯỜI DÙNG PHÍA HỆ THỐNG
Kho dữ liệu
Bộ VECTOR
HÓA
Văn bản
vector biểu diễn văn bản
Bộ PHÂN LỚP Văn bản Bộ
Xđịnh trước độ LQ
của term
Các chức năng: tương tự hướng tiếp cận học không giám sát, chức năng phân lớp văn bản trong hướng tiếp cận thứ hai bao gồm:
• Bộ vector hóa thực hiện vector hóa các văn bản mẫu và văn bản truy vấn:
• Bộ xác định trước độ liên quan của các term trong từ điển với tập văn bản mẫu : tính trước độ liên quan của các term có trong từ điển với các văn bản học mẫu. Kết quả lưu trữ trong kho dữ liệu.
• Kho DL: chứa các thông tin trọng số liên quan của các term trong tập văn bản mẫu với từ điển.
• Bộ xử lý phân lớp thực hiện phép xử lý phân lớp văn bản dựa trên độ : liên quan giữa các term trong văn bản truy vấn cần phân lớp và các term có trong văn bản mẫu theo công thức đề xuất (5.4).
Các bước thực hiện phân lớp: (tương tự)
• Nhập tập huấn luyện người dùng nhập các văn bản mẫu.:
• Vector hóa văn bản: tập mẫu được vector hóa.
• Xác định độ liên quan của các term trong văn bản mẫu với từ điển
• Nhập văn bản cần phân lớp
• Phân lớp văn bản: dựa trên các độ liên quan đã lưu trữ trong kho dữ liệu để xác định độ liên quan với các phân lớp của văn bản cần phân lớp.
• Phản hồi sau khi có kết quả phân lớp, hệ thống trả lại kết quả về phía : người dùng. Nếu người dùng lựa chọn chức năng cập nhật, hệ thống sẽ cập nhật kết quả phân lớp vào tập mẫu trong cơ sở dữ liệu. Hệ thống tự động “học” lại.