2.1. Mô hình ca sử dụng.
Hệ thống gồm 3 ca sử dụng là Corpus, KSG và KSG. Đƣợc minh họa nhƣ trên Hình A-1.
Bảng A-1: Danh sách ca sử dụng STT Ca sử dụng Mô tả
1 Corpus
Xử lý corpus, duyệt đệ quy thƣ mục tập ngữ liệu, đƣa văn bản vào danh sách tập ngữ liệu.
2 KSG
Biểu diễn corpus dƣới dạng cây hậu tố, lựa chọn, chiết xuất thuộc tính xâu con chính sử dụng cấu trúc dữ liệu cây hậu tố và đƣa ra các ma trận thuộc tính với trọng số tính theo TF-IDF.
3 SVM Phân loại văn bản sử dụng phƣơng pháp SVM, sử dụng thƣ viện LIBSVM.
Hình A-1: Biểu đồ ca sử dụng
2.2. Biểu đồ tuần tự hệ thống và mô hình khái niệm
: Users
System
Corpus, Parametters for KSG Feature Selection Matrices of KSG Features
Train the classifier Modeled Classifier Predict testing documents
Predicted results
Hình A-2: Biểu đồ tuần tự hệ thống
Mô hình khái niệm
Tác nhân: Ngƣời sử dụng chƣơng trình phân loại văn bản tự động
Lớp giao diện:
o CGuiConsole, lớp giao diện theo console cho phép ngƣời dụng thực hiện các câu lênh của chƣơng trình nhƣ chiết xuất thuộc tính xâu con chính, và thực hiện việc huấn luyện và kiểm thử cho việc phân loại văn bản.
Lớp điều khiển:
o CKSG: Thực hiện thao tác chuyển từ corpus sang câu hậu tố, lựa chọn và chiết xuât thuộc tính nhóm xâu con chính, chuyển ra các dạng ma trận thuộc tính tƣơng thích với đầu vào của SVM.
o CSVM: Thực hiện việc chuẩn hóa dữ liệu, huấn luyện, kiểm thử và dự đoán trong phân loại văn bản.
Lớp thực thể: CCorpus, lƣu thông tin, cấu trúc và dữ liệu của corpus
Users (f rom VNTC_KSG) CGuiConsole CSVM (f rom VNTC_KSG) CKSG (f rom VNTC_KSG) CCorpus (f rom VNTC_KSG) Feature matrix files
Hình A-3: Mô hình khái niệm hệ thống