Đặc trưng một tài liệu thực nghiệm

Một phần của tài liệu Một số thuật toán Bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 36)

Trong nội dung luận văn, tác giả thực nghiệm trên dữ liệu thu thập thông tin từ các giáo trình, tài liệu ngành Điệntử ở các chuyên ngành: Điện tử Công nghiệp, Điện tử Dân dụng, Điện tử viễn thông, Điện tự động, Tự động hóa, Kỹ thuật điện tử - là lĩnh vực đang được đào tạo tại trường Cao đẳng Công nghệ Viettronics nơi tác giả công tác, bao gồm các giáo trình/tài liệu tại trung tâm thư viện và kho dữ liệu mở tại trung tâm thư viện của trường Cao đẳng Công nghệ Viettronics, các giáo trình được tìm kiếm trên Internetđược lưu có cấu trúc sử dụng chuẩn định dạng .XML.

XML (Extensible Markup Language) là ngôn ngữ ở mức thấp nhất, dùng để định nghĩa và miêu tả cấu trúc dữ liệu bất kỳ. XML là một tập các luật để định nghĩa các thẻ, chia tài liệu thành các phần và xác định rõ các phần khác nhau của tài liệu. Nó là ngôn ngữ siêu đánh dấu (meta – markup language), có cơ chế định nghĩa cú pháp được sử dụng trong các tài liệu có cấu trúc, có ngữ nghĩa và được áp dụng cho một lĩnh vực cụ thể. Tên các thành phần trong XML có thể được lựa chọn sao cho nó có ý nghĩa thực tiễn. Các thẻ đánh dấu có 3 kiểu ý nghĩa: cấu trúc (structure), ngữ nghĩa (semantics), và kiểu dáng (style) [HPDN09].

Luận văn sử dụng tính có cấu trúc của XML. Tính cấu trúc chia tài liệu thành một cây, cấu trúc liên quan đến dạng của tài liệu, các thẻ của tài liệu;tên các thẻ không ảnh hưởng đến cấu trúc của tài liệu [HPDN09].

Giới thiệu một tài liệu huấn luyện

Các giáo trình/tài liệu đều có một cấu trúc chung như: tên giáo trình/tài liệu, nội dung tài liệu,tóm tắt nội dung, mục lục, thông tin về tác giả, nhà xuất bản, năm xuất bản. Trong đó,nội dung, tóm tắt nội dung, mục lục, tên giáo trình/tài liệu là các phần quan trọng. Mỗi giáo trình/tài liệu thông thường có từ 300 đến 500 trang (hoặc có thể nhiều hơn) nhưng những thông tin quan trọng và

đại diện cho giáo trình/tài liệu nằm ở mục lục, tóm tắt và tên của giáo trình/tài liệu.

Với mỗi giáo trình/tài liệu, tác giả tiến hành phân tích và tổng hợpcác thông tin sau:

- Tóm tắt nội dung: Phần tóm tắt này luận văn sử dụng nội dung tóm tắt đã

được tác giả viết giáo trình/tài liệu trình bày ở phần giới thiệu chung về giáo trình/tài liệu.

- Mục lục: Chi tiết hóa toàn bộ mục lục của giáo trình/tài liệu. - Tên giáo trình/tài liệu.

- Tên tác giả.

- Tên Nhà xuất bản.

- Năm xuất bản.

- Tên các nhãn lớp mà giáo trình/tài liệu đó có thể được gán vào.

Tài liệu huấn luyện sử dụng font chữ Times New Roman với kích thước

font chữ là 11.5pt. Ví dụ tài liệu Tu_Dong_Hoa_San_Xuat (Tự động hóa sản xuất) được biểu diễn như sau:

Một phần của tài liệu Một số thuật toán Bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 36)