Phân lớp cho dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tóm tắt dữ liệu cho bài toán phân lớp và dự báo (Trang 55)

3 THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.2.2 Phân lớp cho dữ liệu

Tiến hành phân lớp dữ liệu dựa trên các dữ liệu đã có so với dữ liệu đầu vào. XL1 =[" K é m "," Y ế u "," T r u n g B ì nh "," Kh á "," Gi ỏ i "] XL =[" K "," Y "," TB "," Kh "," G "] P =[1 ,1 ,1 ,1 ,1] maxs =0 i n d e x =0 f o r j i n r a n g e(l e n( XL ) ) : i f a > -1: P [ j ]= P [ j ]* XSM ( a , XL [ j ]) i f b > -1: P [ j ]= P [ j ]* X S T X 1 ( b , XL [ j ]) i f c > -1: P [ j ]= P [ j ]* X S T X 2 ( c , XL [ j ]) i f d > -1: P [ j ]= P [ j ]* X S T X 3 ( d , XL [ j ]) i f e > -1: P [ j ]= P [ j ]* XSGK ( e , XL [ j ]) i f f > -1: P [ j ]= P [ j ]* XSCK ( f , XL [ j ]) 3.2.3 Dự đoán kết quả

Áp dụng kỹ thuật phân lớp Bayesian để dự đoán kết quả:

f o r i i n r a n g e(l e n( P ) ) : i f P [ i ] > maxs :

maxs = P [ i ] i n d e x = i

3.3 Giao diện chính của chương trình

Giao diện chính khi chạy ứng dụng:

Hình 3.4: Giao diện chính của ứng dụng

Sau khi nhập các dữ liệu điểm (mỗi giá trị điểm tương ứng với dữ liệu theo thời gian) của một em học sinh bất kỳ cần dự đoán. Sau đó ấn nút lệnh “DỰ BÁO” để xem kết quả. Để thực hiện một dự báo khác ta chọn nút lệnh “Dự đoán khác”.

Giao diện chạy chương trình với bộ dữ liệu nhập vào để khảo sát: 3.4 Đánh giá kết quả

Ở đây tôi xét dữ liệu kết quả dự báo của 100 bản ghi ngẫu nhiên trong 2 trường hợp khi có một nửa dữ liệu dự đoán (tức có các cột điểm Miệng, điểm Thường xuyên 1 và điểm Thường xuyên 2) và trường hợp có đầy đủ 6 cột điểm thì kết quả thu được so với thực tế như Hình 3.6 và Hình 3.7. - Trường hợp nhập 3 cột điểm: có 65 kết quả dự đoán đúng.

Hình 3.5: Giao diện nhập liệu và kết quả dự báo

Từ kết quả trên cho thấy: kết quả dự đoán của phương pháp là khá tốt và đặc biệt khi số lượng dữ liệu càng nhiều thì kết quả dự đoán sẽ cao hơn điều này cũng sát với thực tế. Khi có kết quả dự đoán, dự báo thì sẽ giúp học sinh cũng như giáo viên có những định hướng, điều chỉnh việc học tập, thi cử để có kết quả tốt nhất. Mở rộng ra là các nhà quản lý, hoạch định sẽ có những quyết định, định hướng phù hợp theo thời gian trong tương lai.

3.5 Kết luận Chương 3

Nội dung Chương 3 đã trình bày ứng dụng của kỹ thuật phân lớp trong bài toán dự báo. Đã tiến hành cài đặt và ứng dụng trên dữ liệu điểm thực tế. Ứng dụng đã chứng minh được khả năng áp dụng của kỹ thuật phân lớp dữ liệu NB nói chung trong lĩnh vực khoa học máy tính mà cụ thể là phục vụ cho nhu cầu ra quyết định của con người, từ đó định hướng điều chỉnh theo chiều hướng tích cực hơn.

KẾT LUẬN

Trong luận văn "Ứng dụng tóm tắt dữ liệu cho bài toán phân lớp và dự báo" chúng tôi đạt được một số kết quả sau:

ˆ Trình bày các khái niệm cơ bản về khám phá tri thức và khai phá dữ liệu;quá trình khám phá tri thức; các phương pháp, kỹ thuật chính trong khai phá dữ liệu, tập trung đề cập phương pháp phân lớp và dự đoán; tìm hiểu về mạng Bayesian và cái nhìn tổng quan về bài toán dự báo.

ˆ Đầu chương 2 chúng tôi trình bày những kiến thức về phân loại dữ liệu và phân loại dữ liệu với mạng Bayesian. Phần trọng tâm chúng tôi đã đề xuất các bước để giải bài toán dự báo sử dụng kỹ thuật phân lớp dữ liệu NB; và cuối chương là một số ví dụ minh họa cho các trường hợp dự báo xảy ra.

ˆ Trong chương 3 chúng tôi sử dụng các bước giải đã đề xuất ở chương trước để tiến hành cài đặt và đánh giá kết quả trên dữ liệu thực tế. Hạn chế và hướng phát triển của luận văn: Hướng khắc phục cho vấn đề xác suất “bằng không” ta có thể xử lý theo cách giải quyết trong ví dụ minh họa mục 2.4.3 hoặc sử dụng các phương án như trong [9] - [?]. Bên cạnh đó sẽ phát triển phần giao diện thân thiện hơn, đồng thời tiếp cận các phương pháp phân lớp khác cho bài toán để mang lại kết quả dự báo tốt hơn cho nhiều trường hợp xảy ra trên thực tế.

Tài liệu tham khảo

[1] Katarzyna Kaczmarek-Majer, Olgierd Hryniewicz, "Application of Linguistic Summarization Methods in Time Series", Information Sci- ences, no. INS 14080, 2018.

[2] T. V. T. N. Châu, "Khai phá dữ liệu", in Chương 4: Phân loại dữ liệu, Tp. Hồ Chí Minh, Khoa Khoa học & kỹ thuật máy tính, Trường ĐHBK Tp. Hồ Chí Minh, 2011-2012.

[3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Tech- niques”, Second Edition, Morgan Kaufmann Publishers, 2006.

[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006. [5] N. T. T. Linh, Nghiên cứu các thuật toán phân lớp dữ liệu Dựa trên

cây quyết định, Hà Nội: Trường ĐH Công Nghệ, 2005.

[6] P. H. Q. Thụy, Bài giảng Khai phá dữ liệu„ Hà Nội: Đại học Công Nghệ-Đại Học Quốc Gia Hà Nội.

[7] Jiawei Han và Micheline Kamber, Khái niệm và kỹ thuật khai phá dữ liệu, 2012.

[8] Duan Li-guo, Di peng*, Li Ai-ping, A New Naive Bayes Text Classifi- cation Algorithm, Indonesian Journal of Electrical Engineering, 2014. [9] Đào Đức Anh, Nguyễn Tu Trung, Vũ Văn Thỏa, "Ứng dụng thuật toán bayes trong vấn đề dự báo học lực của học sinh phổ thông,"Tạp chí khoa học CNTT&TT, no. Số 01 (CS.01) 2020 , 2020.

[10] H. A. Công, "Nghiên cứu lý thuyết naive bayes và ứng dụng Phân loại tài liệu tiếng việt trong thư viện số".

[11] N. V. Huy, "Thuật toán Bayes và ứng dụng,"vol. Khóa luận tốt nghiệp, 2009.

[12] N. B. Nam, "Nghiên cứu ứng dụng khai phá dữ liệu chuỗi thời,"2012. [13] Hoàng Thị Lan Giao, Giang Hào Côn, Nghiên cứu ứng dụng thuật toán phân lớp vào bài toán dự đoán rủi ro tín dụng trong ngân hàng và các tổ chức tín dụng - Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 2011, pp. 7-8 tháng 10 năm 2011.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tóm tắt dữ liệu cho bài toán phân lớp và dự báo (Trang 55)

Tải bản đầy đủ (PDF)

(62 trang)