Thiết kế

Một phần của tài liệu Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 107)

3.1. Thao tác trên tập ngữ liệu

Xác định lớp thiết kế

Lớp phân tích Lớp thiết kế Mô tả

CCorpus

Corpus Lƣu trữ và xử lý tập

ngữ liệu, C++ class

Document Lƣu cấu trúc văn bản ,

C++ class IniFile

Xử lý file Ini, Đọc các tham số từ file Ini, C++ class

Biểu đồ lớp của Corpus với các biến và hàm của các lớp thiết kế đƣợc thể hiện nhƣ Hình A-4

Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus

Biểu đồ tuần tự: : IniFile : Corpus : Document GetSection( ) Recurs iveScanPath( ) GetType(Integer) GetValue( ) GetID(Integer) SetType( ) SetCatID( ) GetFullPath(Integer) SetFileName( ) Corpus (String) GetValue( )

3.2. Xử lý thuộc tính xâu con chính.

Xác định lớp thiết kế

Lớp phân tích Lớp thiết kế Mô tả

CKSG

SuffixTree

Xử lý cấu trúc dữ liệu cây hậu tố, chuyển corpus sang cây hậu tố, C++ class

KSG

Thực hiện việc chiết xuất thuộc tính nhóm xâu con chính , C++ class

FeatureSpace

Không gian thuộc tính nhóm xâu con chính và chuyên ra các ma trận thuôc tính cho tập huấn luyện và tập kiểm thử, C++ class

Feature Lƣu cấu trúc các

thuộc tính, C++ class.

Hình A-6: Biểu đồ lớp KSG

Biểu đồ tuần tự

: Users

: GuiConsole : KSG : SuffixTree : Corpus : FeatureSpace : Feature

SetCorpusMode( ) ExtractKSGFeature( ) ExtractKsgFromCorpusFolder( ) stree_new_tree( ) Corpus(String) GetDataFromCorpusFile(Integer) Document Text stree_add_string( ) UpdateFeatureSpace( ) stree_get_ident( ) GetWeight( ) ExportToSVMMatrices( )

SVM Training & Testing Matrices

Show status

Show status

SetParameters( )

3.3. Phân loại văn bản bằng phƣơng pháp SVM Xác định lớp thiết kế Xác định lớp thiết kế

Lớp phân tích Lớp thiết kế Mô tả

CSVM

SVM

Giao tiếp với thƣ viện LIBSVM qua Interface,

C++ class

GuiConsole Giao diện sử dụng, qua console

LibSVM

Interface của thƣ viện LIBSVM, C++ Header

files, DLL files

Biểu đồ lớp:

Hình A-8: Biểu đồ lớp SVM

: Users : GuiConsol e : SVM : Li bSVM Scale( ) Scale( ) Scale( ) T rain( ) T rain( ) T rain( ) Modeled Classifer Modeled Classifer Modeled Classifer Predict Predict( ) Predict( ) Cl assi fi ed results Cl assi fi ed results Cl assi fi ed results

Scaled feature m atri x Scaled feature m atri x

Scaled feature m atri x

Hình A-9: Biểu đồ tuần tự SVM

Một phần của tài liệu Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 107)

Tải bản đầy đủ (PDF)

(119 trang)