3.1. Thao tác trên tập ngữ liệu
Xác định lớp thiết kế
Lớp phân tích Lớp thiết kế Mô tả
CCorpus
Corpus Lƣu trữ và xử lý tập
ngữ liệu, C++ class
Document Lƣu cấu trúc văn bản ,
C++ class IniFile
Xử lý file Ini, Đọc các tham số từ file Ini, C++ class
Biểu đồ lớp của Corpus với các biến và hàm của các lớp thiết kế đƣợc thể hiện nhƣ Hình A-4
Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus
Biểu đồ tuần tự: : IniFile : Corpus : Document GetSection( ) Recurs iveScanPath( ) GetType(Integer) GetValue( ) GetID(Integer) SetType( ) SetCatID( ) GetFullPath(Integer) SetFileName( ) Corpus (String) GetValue( )
3.2. Xử lý thuộc tính xâu con chính.
Xác định lớp thiết kế
Lớp phân tích Lớp thiết kế Mô tả
CKSG
SuffixTree
Xử lý cấu trúc dữ liệu cây hậu tố, chuyển corpus sang cây hậu tố, C++ class
KSG
Thực hiện việc chiết xuất thuộc tính nhóm xâu con chính , C++ class
FeatureSpace
Không gian thuộc tính nhóm xâu con chính và chuyên ra các ma trận thuôc tính cho tập huấn luyện và tập kiểm thử, C++ class
Feature Lƣu cấu trúc các
thuộc tính, C++ class.
Hình A-6: Biểu đồ lớp KSG
Biểu đồ tuần tự
: Users
: GuiConsole : KSG : SuffixTree : Corpus : FeatureSpace : Feature
SetCorpusMode( ) ExtractKSGFeature( ) ExtractKsgFromCorpusFolder( ) stree_new_tree( ) Corpus(String) GetDataFromCorpusFile(Integer) Document Text stree_add_string( ) UpdateFeatureSpace( ) stree_get_ident( ) GetWeight( ) ExportToSVMMatrices( )
SVM Training & Testing Matrices
Show status
Show status
SetParameters( )
3.3. Phân loại văn bản bằng phƣơng pháp SVM Xác định lớp thiết kế Xác định lớp thiết kế
Lớp phân tích Lớp thiết kế Mô tả
CSVM
SVM
Giao tiếp với thƣ viện LIBSVM qua Interface,
C++ class
GuiConsole Giao diện sử dụng, qua console
LibSVM
Interface của thƣ viện LIBSVM, C++ Header
files, DLL files
Biểu đồ lớp:
Hình A-8: Biểu đồ lớp SVM
: Users : GuiConsol e : SVM : Li bSVM Scale( ) Scale( ) Scale( ) T rain( ) T rain( ) T rain( ) Modeled Classifer Modeled Classifer Modeled Classifer Predict Predict( ) Predict( ) Cl assi fi ed results Cl assi fi ed results Cl assi fi ed results
Scaled feature m atri x Scaled feature m atri x
Scaled feature m atri x
Hình A-9: Biểu đồ tuần tự SVM