Phân tích và thiết kế chức năng

CHƯƠNG 3. THIẾT KẾ VÀ XÂY DỰNG CHƯƠNG TRÌNH

3.2 Phân tích và thiết kế chức năng

Nhiệm vụ chính của đề tài là tìm hiểu phương pháp phân loại SVMs ứng dụng trong bài toán phân loại văn bản tiếng Việt, từ đó xây dựng một ứng dụng thử nghiệm nhằm thực hiện chức năng phân loại dựa trên các nghiên cứu lý thuyết về phương pháp SVMs. Việc tiền xử lý văn bản tiếng Việt đòi hỏi dựa vào một từ điển thuật ngữ tiếng Việt cho trước, chính vì vậy đòi hỏi hệ thống phải quản lý tốt danh sách thuật ngữ, thuận tiện cho việc cập nhật bổ sung các thuật ngữ mới liên quan

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 33/67

Từ tập các văn bản mẫu đã được gán nhãn chủ nhóm, hệ thống sẽ phân tích và tìm ra các đặc điểm riêng biệt của từng nhóm. Sau đó, với mỗi một văn bản mới đưa vào, hệ thống sẽ chỉ ra tên nhóm phù hợp nhất cho văn bản này. Các văn bản sẽ được nhập vào dưới dạng tệp tin TXT hoặc thông qua chức năng tạo mới văn bản của hệ thống. Nhãn của văn bản mẫu sẽ được người dùng xác định trong quá trình nhập văn bản. Kết quả sẽ được trả ra dưới dạng thông báo tên nhóm phù hợp nhất với văn bản cần phân loại.

3.2.2 Thiết kế chức năng

Hệ thống xử lý bao gồm các chức năng sau:

 Chức năng chính:

- Huấn luyện SVMs

- Kiểm tra hiệu năng SVMs - Phân loại văn bản

 Chức năng trợ giúp:

- Tóm tắt văn bản - Quản lý từ điển

Hình 3-1: Sơ đồ chức năng hệ thống xử lý văn bản.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 34/67

3.2.2.1 Chức năng phân loại văn bản

Module tiền xử lý văn bản

Bộ xử lý phân loại SVMs Giao diện Người-Máy

Văn bản phân loại bằng tay (tập mẫu)

Văn bản cần phân loại

Vector biểu diễn văn bản

Kho dữ liệu

Tên nhóm của văn bản (gán nhãn nhóm)

PHÍA NGƯỜI DÙNG PHÍA HỆ THỐNG

Hình 3-2: Sơ đồ minh hoạ chức năng Phân loại văn bản.

Chức năng phân loại văn bản được thực hiện bởi các bộ:

 Bộ tiền xử lý văn bản: các văn bản đưa vào, gồm tập văn bản mẫu đã được gán nhãn và văn bản cần phân loại, sẽ được biểu diễn thành các vector văn bản trước khi đi vào kho dữ liệu và bộ xử lý phân loại.

 Kho dữ liệu: là nơi chứa các thông tin về văn bản mẫu được biểu diễn dưới dạng vector.

 Bộ xử lý phân loại SVMs: là nơi thực hiện phép xử lý phân loại dựa trên các tham số siêu phẳng phân tách đã qua huấn luyện.

Các bước thực hiện:

 Nhập tập dữ liệu huấn luyện: thao tác này được thực hiện bởi người dùng, các văn bản được nhập dưới dạng tệp tin TXT.

 Nhập văn bản cần phân loại: thao tác này cũng được người dùng nhập vào dưới dạng tệp tin TXT.

 Vector hoá văn bản: đây là bước tiền xử lý văn bản, văn bản thô sẽ được đi qua bộ phận vector hoá văn bản, bộ phận này có nhiệm vụ chuyển từ văn bản thô sang dạng có cấu trúc (dạng vector).

 Thực hiện huấn luyện SVMs: người dùng cần lựa chọn các thông số huấn luyện SVMs, sau đó chương trình sẽ thực hiện quá trình học để tìm ra các

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 35/67

tham số siêu phẳng phân tách tối ưu. Các kết quả tham số sẽ được lưu lại dùng để thực hiện trong bước phân loại.

 Phân loại văn bản: từ văn bản mới cần phân loại sau khi được vector hoá, hệ thống sẽ sử dụng các tham số của các siêu phẳng phân tách tối ưu (sau quá trình huấn luyện) để thực hiện gán nhãn cho văn bản.

 Đƣa ra thông tin phản hồi: sau khi có được quyết định phân loại, hệ thống trả lại kết quả gán nhãn về phía người dùng.

3.2.2.2 Chức năng tiền xử lý văn bản

Đầu vào của chức năng này là văn bản thô, đầu ra là một vector biểu diễn cho văn bản dưới dạng vector tần suất.

Loại nhiễu ký tự

Mã hoá ký tự

Tách tiếng Tách từ khoá

Loại từ dừng Thống kê từ

khoá

Văn bản thô Vector biểu diễn

văn bản theo tần suất xuất hiện

chỉ số các từ khoá (keyword index)

chỉ số các từ khoá (keyword index) chỉ số các

từ tiếng (syllable index) BỘ TIỀN XỬ LÝ VĂN BẢN

Hình 3-4: Mô hình bộ tiền xử lý văn bản.

Các bước chính trong quá trình vector hoá văn bản:

 Loại nhiễu ký tự: mục đích của bước này là loại bỏ các ký tự vô nghĩa không có trong từ điển thuật ngữ.

 Mã hoá ký tự: trong tiếng Việt có rất nhiều loại font chữ khác nhau, chính vì thế mà chúng ta cần thống nhất tất cả các loại font chữ về một mối để dễ dàng hơn trong quá trình xử lý. Ngoài ra, chúng ta chú ý rằng trong chữ viết còn có ký tự viết hoa, ký tự viết thường, vì thế, cần phải có biện pháp đồng nhất các ký tự này để tránh sai trong các xử lý tiếp theo.

 Tách tiếng: chúng ta cần có một từ điển để mã hoá văn bản, sau khi mã hoá ký tự thành một văn bản tiếng, ở đó văn bản được biểu diễn dưới dạng một chuỗi các tiếng (đã được mã hoá theo chỉ số có trong từ điển tiếng) được xếp kế tiếp nhau.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 36/67

 Tách từ khoá: từ văn bản được biểu diễn dưới dạng danh sách các mã tiếng, bộ tách từ sẽ tiến hành ghép các tiếng lại thành các từ khoá có trong từ điển từ theo ưu tiên từ có số tiếng dài nhất.

 Loại từ dừng (Stop Words): mục đích của bước này là loại bỏ các từ ít mang ý nghĩa trong quá trình xử lý nội dung. Quá trình xử lý này cần có một từ điển StopWords riêng do người dùng tự xây dựng.

 Thống kê từ khoá: sau các bước xử lý ở trên, văn bản bây giờ được biểu diễn dưới dạng danh sách các từ khoá được tách ra từ từ điển. Bước cuối cùng bộ vector hoá cần làm là thống kê xem các từ khoá xuất hiện bao nhiêu lần và biểu diễn cả văn bản vừa phân tích dưới dạng một vector tần suất xuất hiện (TF).

Các mô hình biểu diễn văn bản

Bài toán phân loại văn bản