Thực nghiệm hệ thống

Một phần của tài liệu Một số thuật toán Bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 52)

Thực nghiệm thu thập dữ liệu huấn luyện:

Bảng 3.8: Thống kê dữ liệu huấn luyện của các lớp

TT Lớp Tổng số tài liệu

1 Điện tử viễn thông 20

2 Tự động hoá 20

3 Kỹ thuật điện tử 20

4 Điện tự động 20

5 Điện tử dân dụng 20

6 Điện tử công nghiệp 20

Thực nghiệm bước tiền xử lý dữ liệu:

Để dữ liệu huấn luyện được đảm bảo chính xác khi tiến hành thực nghiệm chương trình, tác giả đã tiến hành các bước:

Bước 1: Xây dựng các lớp (trong luận văn này có 6 lớp như đã trình bày ở trên), xác định số giáo trình/tài liệu mà mỗi lớp sẽ chứa (trong luận văn này, tác giả chọn 20 giáo trình/tài liệu ngành Điện tử cho mỗi lớp).

Bước 2: Mô hình hóa giáo trình/tài liệu theo cấu trúc file .XML.

Với cấu trúc file .XML đã mô tả ở trên, tác giả xây dựng một file .XML chuẩn (chỉ bao gồm các thẻ mở/đóng của từng thành phần như hình 3.2), dữ liệu sau khi được chuyển thành các file văn bản điện tử thông thường (dạng .docx hoặc .doc) cũng có cấu trúc tương tự như cấu trúc file .XML, tác giả thực hiện sao chép tương ứng các thành phần từ file văn bản word sang file .XML. Trong đó, cần lưu ý tính chính xác tên giáo trình/tài liệu và tên các lớp chứa giáo trình/tài liệu đó.

Như đã nói ở trên, mỗi giáo trình/tài liệu, những thông tin quan trọng và đại diện cho giáo trình/tài liệu nằm ở các phần: mục lục, tóm tắt và tên giáo trình, đây chính là nơi chứa các đặc trưng của giáo trình/tài liệu. Do đó, cần thận trọng trong việc sao chép hay di chuyển giữa file .docx hoặc .doc sang các thẻ đã được định nghĩa trong cấu trúc của file .XML.

Bước 3: Lưu các file .XML vào các lớp đã được xây dựng trong bước 1 (mỗi lớp có 20 file .XML).

Thực nghiệm bước phân lớp dữ liệu:

Với tổng số tài liệu học và tài liệu kiểm tra là 120, được chia theo tỷ lệ 50:50; tài liệu học có 60 tài liệu, tài liệu kiểm tra có 60 tài liệu.

Hệ thống tiến hành phân lớp và đưa ra kết quả: kết quả phân lớp với 5 tài liệu được thể hiện dưới bảng sau:

Bảng 3.9: Kết quả phân lớp của hệ thống với 5 tài liệu

TT Tên tài liệu Nhãn ban đầu Nhãn gán bởi hệ thống 1 Cau_Truc_May_Vi_Tinh. xml [DTCN,DTD, DTVT, TDH] [DTCN, DTD, TDH, DTVT] 2 Vo_Tuyen_Dien_Tu. xml [TDH, DTVT] [DTCN, KTDT, TDH] 3 Ky_Thuat_Do. Xml [DTD, KTDT, DTCN, DTDD] [DTCN, TDH, DTVT] 4 Dan_Duong_Ve_Tinh. xml [DTVT, KTDT, DTD] [DTCN, KTDT, DTVT] 5 Ky_Thuat_Nhiet_Dien. xml [KTDT, DTCN, DTD] [DTCN, DTD]

Một phần của tài liệu Một số thuật toán Bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 52)

Tải bản đầy đủ (PDF)

(61 trang)