Phân tích

2.1. Mô hình ca sử dụng.

Hệ thống gồm 3 ca sử dụng là Corpus, KSG và KSG. Đƣợc minh họa nhƣ trên Hình A-1.

Bảng A-1: Danh sách ca sử dụng STT Ca sử dụng Mô tả

1 Corpus

Xử lý corpus, duyệt đệ quy thƣ mục tập ngữ liệu, đƣa văn bản vào danh sách tập ngữ liệu.

2 KSG

Biểu diễn corpus dƣới dạng cây hậu tố, lựa chọn, chiết xuất thuộc tính xâu con chính sử dụng cấu trúc dữ liệu cây hậu tố và đƣa ra các ma trận thuộc tính với trọng số tính theo TF-IDF.

3 SVM Phân loại văn bản sử dụng phƣơng pháp SVM, sử dụng thƣ viện LIBSVM.

Hình A-1: Biểu đồ ca sử dụng

2.2. Biểu đồ tuần tự hệ thống và mô hình khái niệm

: Users

System

Corpus, Parametters for KSG Feature Selection Matrices of KSG Features

Train the classifier Modeled Classifier Predict testing documents

Predicted results

Hình A-2: Biểu đồ tuần tự hệ thống

Mô hình khái niệm

 Tác nhân: Ngƣời sử dụng chƣơng trình phân loại văn bản tự động

 Lớp giao diện:

o CGuiConsole, lớp giao diện theo console cho phép ngƣời dụng thực hiện các câu lênh của chƣơng trình nhƣ chiết xuất thuộc tính xâu con chính, và thực hiện việc huấn luyện và kiểm thử cho việc phân loại văn bản.

 Lớp điều khiển:

o CKSG: Thực hiện thao tác chuyển từ corpus sang câu hậu tố, lựa chọn và chiết xuât thuộc tính nhóm xâu con chính, chuyển ra các dạng ma trận thuộc tính tƣơng thích với đầu vào của SVM.

o CSVM: Thực hiện việc chuẩn hóa dữ liệu, huấn luyện, kiểm thử và dự đoán trong phân loại văn bản.

 Lớp thực thể: CCorpus, lƣu thông tin, cấu trúc và dữ liệu của corpus

Users (f rom VNTC_KSG) CGuiConsole CSVM (f rom VNTC_KSG) CKSG (f rom VNTC_KSG) CCorpus (f rom VNTC_KSG) Feature matrix files

Hình A-3: Mô hình khái niệm hệ thống

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF