TT Lớp Tổng số tài liệu
1 Điện tử viễn thơng 20
2 Tự động hố 20
3 Kỹ thuật điện tử 20
4 Điện tự động 20
5 Điện tử dân dụng 20
6 Điện tử cơng nghiệp 20
Thực nghiệm bước tiền xử lý dữ liệu:
Để dữ liệu huấn luyện được đảm bảo chính xác khi tiến hành thực nghiệm chương trình, tác giả đã tiến hành các bước:
Bước 1: Xây dựng các lớp (trong luận văn này cĩ 6 lớp như đã trình bày ở trên), xác định số giáo trình/tài liệu mà mỗi lớp sẽ chứa (trong luận văn này, tác giả chọn 20 giáo trình/tài liệu ngành Điện tử cho mỗi lớp).
Bước 2: Mơ hình hĩa giáo trình/tài liệu theo cấu trúc file .XML.
Với cấu trúc file .XML đã mơ tả ở trên, tác giả xây dựng một file .XML chuẩn (chỉ bao gồm các thẻ mở/đĩng của từng thành phần như hình 3.2), dữ liệu sau khi được chuyển thành các file văn bản điện tử thơng thường (dạng .docx hoặc .doc) cũng cĩ cấu trúc tương tự như cấu trúc file .XML, tác giả thực hiện sao chép tương ứng các thành phần từ file văn bản word sang file .XML. Trong
Như đã nĩi ở trên, mỗi giáo trình/tài liệu, những thơng tin quan trọng và đại diện cho giáo trình/tài liệu nằm ở các phần: mục lục, tĩm tắt và tên giáo trình, đây chính là nơi chứa các đặc trưng của giáo trình/tài liệu. Do đĩ, cần thận trọng trong việc sao chép hay di chuyển giữa file .docx hoặc .doc sang các thẻ đã được định nghĩa trong cấu trúc của file .XML.
Bước 3: Lưu các file .XML vào các lớp đã được xây dựng trong bước 1 (mỗi lớp cĩ 20 file .XML).
Thực nghiệm bước phân lớp dữ liệu:
Với tổng số tài liệu học và tài liệu kiểm tra là 120, được chia theo tỷ lệ 50:50; tài liệu học cĩ 60 tài liệu, tài liệu kiểm tra cĩ 60 tài liệu.
Hệ thống tiến hành phân lớp và đưa ra kết quả: kết quả phân lớp với 5
tài liệu được thể hiện dưới bảng sau: