Phân lớp đa nhãn thơng qua thứ tự tổng và xu hướng chung

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 39 - 42)

Tóm tắt chƣơng2

Như vậy, trong chương 2 của luận văn, tác giả đã giới thiệu về phân lớp Bayes, một số thuật tốn phân lớp đa nhãn Bayes.

Để kiểm chứng cho kết quả áp dụng các thuật tốn Bayes nĩi trên, trong chương 3 tác giả sẽ trình bày chương trình thực nghiệm và đánh giá kết quả cũng như các đề xuất định hướng phát triển.

CHƢƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dựa vào mơ hình đề xuất ở chương 2, tác giả tiến hành thu thập dữ liệu, trích xuất đặc trưng cho từng văn bản (document) và tổng hợp đặc trưng liên quan tới truy vấn.

3.1 Mơi trƣờng và các cơng cụ sử dụng thực nghiệm

Cấu hình phần cứng

Bảng 3.1: Cấu hình hệ thống thử nghiệm

Thành phần Chỉ số

CPU 2. 0 GHz Dual Core Intel

RAM 1GB

OS Windows 7 Pro

Bộ nhớ ngồi 250GB

Các phần mềm sử dụng

Bảng 3.2: Cơng cụ phần mềm sử dụng

STT Tên phần mềm Tác giả Nguồn Chức năng

1 Eclipse-SDK- 3.5-win32 http://www.eclipse. org/downloads Mơi trường lập trình java 2 JvnTextPro 2.0 N.C.Tú- P.X.Hiếu- N.T.Trang http://jvntextpro. sourceforge. net/ Tách câu, tách từ, gán nhãn

3.2 Dữ liệu thực nghiệm

3.2.1 Đặc trưng một tài liệu thực nghiệm

Trong nội dung luận văn, tác giả thực nghiệm trên dữ liệu thu thập thơng tin từ các giáo trình, tài liệu ngành Điệntử ở các chuyên ngành: Điện tử Cơng nghiệp, Điện tử Dân dụng, Điện tử viễn thơng, Điện tự động, Tự động hĩa, Kỹ thuật điện tử - là lĩnh vực đang được đào tạo tại trường Cao đẳng Cơng nghệ Viettronics nơi tác giả cơng tác, bao gồm các giáo trình/tài liệu tại trung tâm thư viện và kho dữ liệu mở tại trung tâm thư viện của trường Cao đẳng Cơng nghệ Viettronics, các giáo trình được tìm kiếm trên Internetđược lưu cĩ cấu trúc sử dụng chuẩn định dạng .XML.

XML (Extensible Markup Language) là ngơn ngữ ở mức thấp nhất, dùng để định nghĩa và miêu tả cấu trúc dữ liệu bất kỳ. XML là một tập các luật để định nghĩa các thẻ, chia tài liệu thành các phần và xác định rõ các phần khác nhau của tài liệu. Nĩ là ngơn ngữ siêu đánh dấu (meta – markup language), cĩ cơ chế định nghĩa cú pháp được sử dụng trong các tài liệu cĩ cấu trúc, cĩ ngữ nghĩa và được áp dụng cho một lĩnh vực cụ thể. Tên các thành phần trong XML cĩ thể được lựa chọn sao cho nĩ cĩ ý nghĩa thực tiễn. Các thẻ đánh dấu cĩ 3 kiểu ý nghĩa: cấu trúc (structure), ngữ nghĩa (semantics), và kiểu dáng (style) [HPDN09].

Luận văn sử dụng tính cĩ cấu trúc của XML. Tính cấu trúc chia tài liệu thành một cây, cấu trúc liên quan đến dạng của tài liệu, các thẻ của tài liệu;tên các thẻ khơng ảnh hưởng đến cấu trúc của tài liệu [HPDN09].

Giới thiệu một tài liệu huấn luyện

Các giáo trình/tài liệu đều cĩ một cấu trúc chung như: tên giáo trình/tài liệu, nội dung tài liệu,tĩm tắt nội dung, mục lục, thơng tin về tác giả, nhà xuất

đại diện cho giáo trình/tài liệu nằm ở mục lục, tĩm tắt và tên của giáo trình/tài liệu.

Với mỗi giáo trình/tài liệu, tác giả tiến hành phân tích và tổng hợpcác thơng tin sau:

- Tĩm tắt nội dung: Phần tĩm tắt này luận văn sử dụng nội dung tĩm tắt đã được tác giả viết giáo trình/tài liệu trình bày ở phần giới thiệu chung về giáo trình/tài liệu.

- Mục lục: Chi tiết hĩa tồn bộ mục lục của giáo trình/tài liệu. - Tên giáo trình/tài liệu.

- Tên tác giả.

- Tên Nhà xuất bản. - Năm xuất bản.

- Tên các nhãn lớp mà giáo trình/tài liệu đĩ cĩ thể được gán vào.

Tài liệu huấn luyện sử dụng font chữ Times New Roman với kích thước font chữ là 11.5pt. Ví dụ tài liệu Tu_Dong_Hoa_San_Xuat (Tự động hĩa sản xuất) được biểu diễn như sau:

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 39 - 42)

Tải bản đầy đủ (PDF)

(66 trang)