SƠ ĐỒ KHUNG CẢNH MỨC CỦA HỆ THỐNG

Một phần của tài liệu Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường (Trang 47 - 49)

- C1C2 C3C4 C5 C1C2 C3C4 C5C

3.3. SƠ ĐỒ KHUNG CẢNH MỨC CỦA HỆ THỐNG

Sơ đồ khung cảnh ở mức 0, gồm cỏc chức năng chớnh: quản lý văn bản mẫu, quản lý văn bản cần phõn lớp, quản lý từ điển từ dừng, quản lý chủ đề, tiền xử lý, tớnh TFxIDF và vector húa văn bản, sinh tập đặc trưng.

- Người dựng truy cập chức năng quản lý văn bản mẫu:

+ Văn bản mẫu được cập nhập vào hệ thống dưới dạng file.doc hoặc.txt (Văn bản thụ)

+ Văn bản thụ chuyển qua tiền xử lý để lọc nhiễu, tỏch từ loại bỏ từ dừng. Quản lý từ điển từ dừng Cơ sở dữ liệu Quản lý văn bản phõn lớp Quản lý chủ đề Người quản trị Quản lý văn bản mẫu Tớnh TFxIDF Vộc tơ húa VB Tiền xử lý Hỡnh 3.3. Sơ đồ khung cảnh mức 0

+ Kết quả thu được sau tiền xử lý là tập hợp từ khúa và tần xuất từ, được lưu vào file vectorvanban, trong cơ sở dữ liệu. văn bản mẫu được lưu vào file vanban trong cơ sở dữ liệu.

+ Lựa chọn đặc trưng (sinh tập phổ biến) theo từng chủ đề cho tập văn bản mẫu. Học viờn đó sử dụng hai phương phỏp lựa chọn đặc trưng là định luật Zớp và thuật toỏn Apriori, lưu tập phổ biến vào file tapphobien.

- Người dựng truy nhập chức năng quản lý từ điển, từ dừng: trong quản lý từ điển, từ dừng lại cú chức năng thờm, xúa từ điển từ dừng.

- Người dựng truy nhập chức năng quản lý chủ đề: cú chức năng thờm, xúa cỏc chủ đề.

- Người dựng truy nhập chức năng quản lý văn bản phõn lớp: + Người dựng nhập vào mỏy tớnh văn bản cần phõn lớp

+ Thực hiện tiền xử lý văn bản: lọc nhiễu, tỏch từ loại bỏ từ dừng. + Lưu từ khúa và tần xuất từ nhận được vào file vectorvanban trong cơ sở dữ liệu.

- Thực hiện chức năng vộc tơ húa:

+ Tớnh trọng số TFxIDF cho cỏc từ khúa cú trong tập đặc trưng chủ đề, từ khúa nào khụng cú trong tập đặc trưng thỡ cú trọng số bằng 0.

+ Vector húa văn bản cần phõn lớp và văn bản mẫu với số chiều khụng gian vộc tơ là số từ khúa trong tập đặc trưng.

- Thực hiện phõn lớp văn bản bằng thuật toỏn KNN.

+ tớnh độ tương tự của văn bản cần phõn lớp với cỏc văn bản mẫu, ỏp dụng cụng thức cosin giữa hai vộc tơ văn bản

+ Áp dụng thuật toỏn KNN phõn lớp văn bản

Một phần của tài liệu Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường (Trang 47 - 49)

Tải bản đầy đủ (PDF)

(80 trang)