2.6 .Các giai đoạn của quá trình khai phá dữ liệu
3.4. Mô tả việc tổng hợp dữ liệu cho bài toán
3.5. Chuẩn hoá dữ liệu đầu vào cho thuật toán
3.5.1. Lọc thuộc tính (Filtering Attributes)3.5.2. Rời rạc hóa dữ liệu(Discretization) 3.5.2. Rời rạc hóa dữ liệu(Discretization)
3.6. Phân tích cơ sở dữ liệu dữ liệu
3.6.1. Tìm hiểu và chuẩn bị dữ liệu 3.6.2. Mô hình hóa dữ liệu 3.6.2. Mô hình hóa dữ liệu
Sau bước tiền xử lý dữ liệu sẽ đến giai đoạn mô hình hoá cho việc dự đoán. Trong phần này sẽ trình bày việc xây dựng mô hình bao gồm các kỹ thuật sử dụng, các biến đầu vào và biến dự đoán (target attribute)
Bảng 3.3 trình bày chi tiết dữ liệu cũng như các kỹ thuật dùng trong dự đoán kết quả chọn ngành. Tác giả đã sử dụng dạng phân lớp cho dự đoán Xuất sắc, Giỏi, Khá, Trung bình.
Vấn đề: Dựa vào thông tin đầu vào và kết quả đầu ra để dự đoán kết quả học tập của sinh viên
Kho chứa dữ liệu điểm (Excel; SQL; …) Phân tích dữ liệu điểm Descition tree(ID3, C45,…); Apriori;… Các tập luật tư vấn Chương trình hỗ trợ tư vấn Giao diện kết quả tư vấn
Bảng 3.3: Giải thuật của hệ thống
Giải thuật Biến đầu vào Kết quả đầu ra
Dựa vào cây quyết định để dự đoán dữ liệu chưa biết của sinh viên là kết quả tốt nghiệp đại học, cao đẳng: Xuất sắc, Giỏi, Khá và Trung bình. - KhuVuc - MaDiemTHPT - DiemToan - DiemVan - DiemNN - DiemLy - GioiTinh Dự đoán kết quả tốt nghiệp là: Xuất sắc, Giỏi, Khá, Trung bình. 3.6.3. Đánh giá mô hình
Sau khi mô hình hóa, việc đánh giá độ tin cậy của các mô hình sẽ được thực hiện, gồm cả thao tác điều chỉnh giá trị của các thuộc tính, thay đổi các tham số, kiểm tra mô hình sao cho đạt kết quả chính xác nhất.Đánh giá hiệu quả phân lớp bằng độ đo
InfoGain trong chức năng InfoGainAttributeEval của Weka. Kết quả cho thấy như sau:
Với dữ liệu huấn luyện là 158 thuộc tính và sử dụng thuật toán C4.5 thì Weka phân lớp được 112 thuộc tính đúng và 46 thuộc tính không phân lớp được chiếm tỷ lệ phân lớp đúng là 71% và sai là 29%.
Sau đó dựa vào mô hình này ta sử dụng để dự đoán cho tập dữ liệu kiểm thử với 122 thuộc tính ta có kết quả sau:
Hình 3.17: Ứng dụng mô hình cho tập dữ liệu kiểm tra
Ta thấy rằng với mô hình trên nhưng với ở tập dữ liệu kiểm thử ít hơn nên cho ta mức độ dự đoán tốt hơn đó là dự đoán đúng 81% và sai 19%.
Do đó, mô hình này tốt để dự đoán những tập dữ liệu mới chưa biết.
3.7. Khai phá dữ liệu rút ra tri thức
Tập luật được rút ra dưới dạng If-Then dựa vào cây quyết định được sinh ra với tập dữ liệu huấn luyện bằng thuật toán J48.
Dạng cây quyết định được xây dựng từ J48 với phần mềm Weka có tập luật như sau:
Luật 1: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemVan = Cao) and (KhuVuc = 3) then XLTN = XuatSac
Luật 2: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemVan = Cao) and (KhuVuc = 2) then XLTN = Gioi
Luật 3: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemVan = Cao) and (KhuVuc = 1) then XLTN = Kha
Luật 4: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Cao) and (Nganh = CNTT) and (GioiTinh = Nam) then XLTN = XuatSac
Luật 5: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Cao) and (Nganh = CNTT) and (GioiTinh = Nu) then XLTN = Gioi
Luật 6: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Cao) and (Nganh = SPNguVan) then XLTN = Kha
Luật 7: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Thap) and (Nganh = CNTT) then XLTN = Kha
Luật 8: IF (DiemTHPT = Kha) and (DiemToan= Thap) or (DiemToan= Cao)and (DiemLy= Thap)and (DiemNN = Thap) and (Nganh = CNTT) then XLTN = TrungBinh
Luật 9: IF (DiemTHPT = Kha) and (DiemToan= cao) and (DiemLy= cao) and (DiemNN = cao) and (Nganh = CNTT) then XLTN = Kha
Luật 10: IF (DiemTHPT = Kha) and (DiemToan= cao) and (DiemLy= cao) and (DiemNN = cao) and (Nganh = CNTT) then XLTN = Kha
Luật 11: IF (DiemTHPT = TB) and (DiemToan= cao) and (DiemVan= cao) and (DiemNN = cao) and (KhuVuc = 3) then XLTN = Kha
Luật 12: IF (DiemTHPT = TB) and (DiemToan= cao) and (DiemVan= cao) and (DiemNN = cao) and (KhuVuc = 1) then XLTN = TrungBinh.
Trên đây giới thiệu mô hình và bài toán, mô tả việc tổng hợp dữ liệu, chuẩn hóa dữ liệu đầu vào cho bài toán trong luận văn, phân tích dữ liệu, mô hình hóa dữ liệu, đánh giá mô hình và cuối cùng rút ra tri thức tạo cơ sở dữ liệu để phát triển hệ thống.
3.8. Biểu đồ triển khai hệ thống
Hình 3.18: Mô hình tổng thể của hệ thống Web hỗ trợ dự đoán Người dùng CSDL Được xây dựng từ tập luật Trả kết quả yêu cầu
3.9. Triển khai chương trình
3.9.1. Cài đặt chương trình 3.9.2. Hướng dẫn sử dụng 3.9.2. Hướng dẫn sử dụng
3.10. Hình ảnh trích ra từ chương trình demo
3.10.1. Giao diện thiết lập cơ sở dữ liệu
Hình 3.19: Sơ đồ quan hệ của cơ sở dữ liệu hệ thống
3.10.2. Giao diện chương trình tư vấn chọn ngành cho học sinh:
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. Kết luận
Trải qua thời gian dài nghiên cứu và thực hiện luận văn, tác giả đã hoàn thành luận văn với các mục tiêu mà bài toán đặt ra ban đầu, luận văn đã kết hợp được công nghệ thông tin vào lĩnh vực giáo dục. Cụ thể luận văn đã đạt được những kết quả sau:
- Kết quả đề tài xây dựng được hệ hỗ trợ tư vấn mang tính chất cộng đồng
- Giới thiệu phương pháp tổng quát xây dựng cây quyết định, và trình bày cụ thể thuật toán xây dựng cây quyết định bằng thuật toán C4.5.
- XâydựngtrangWeb hỗ trợ tư vấn chọn ngành phù hợp năng lực người học.
- Xây dựng, lưu trữ được tập luật và cơ sở dữ liệu điểm để tư vấn chọn ngành.
- Tập dữ liệu test và huấn luyện khi kiểm thử có tỉ lệ chênh lệch không cao
- Luận văn đã giải quyết được những vấn đề đặt ra trong bài toán bên cạnh đó có một số vấn đề chưa thỏa mãn được như mong đợi của tác giả:
+ Nguồn dữ liệu thu thập được chưa nhiều vì số lượng tuyển sinh của trường còn ít.
+ Việc rời rạc dữ liệu đạt tỉ lệ độ chính xác chưa thật sự cao dẫn đến kết quả chưa thật sự tốt do có có một số luật thừa không mong muốn tuy nhiên tác giả đã cắt bỏ một số luật thừa khi phát triển ứng dụng.
Ngoài ra đề tài có thể được phát triển để hỗ trợ nhanh và tương đối chính xác cho người cần tham khảo để chọn ngành và một số ngành cần gợi ý thêm.
2. Hướng phát triển
Khai phá dữ liệu là lĩnh vực được nhiều người quan tâm và nghiên cứu, chính vì vậy nó được ứng dụng rộng rãi trong nhiều lĩnh vực tuy nhiên để mở rộng ứng dụng này và đưa vào thực tiễn thì ta cần quan tâm đến một số cộng việc sau:
-Tìm hiểu phương pháp xây dựng cây quyết định trên dữ liệu nhiều phân lớp.
-CSDL phải được thu thập với số lượng nhiều hơn.
-Xử lý dữ liệu tốt hơn để tăng hiệu suất thực thi chương trình.
-Cần sự hợp tác hơn với cán bộ đào tạo và chuyên gia quản lý công nghệ thông tin của trường.
ở hệ thống trường Đại học
-Tìm hiểu nhu cầu thực tế của người học để phát triển cải tiến bài toán theo các thuật toán đã nghiên cứu để phát triển thành ứng dụng phổ biến đáp ứng nhu cầu cho xã hội.
DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Nguyễn Đức Cường, “Slide bài giảng môn học BI & DM: Bussiness Intellegent and Data Mining”,2011-2012
[2] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining,
Institute of Information Technology National Center for Natural Science and Technology.
[3] Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh,. Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên. Hội nghị sinh viên nghiên cứu khoa học lần thứ 8, Đại học Đà Nẵng, 2012.
[4] Nguyễn Chí Ngôn và Nguyễn Thái Nghe. 2010. Hệ chuyên gia hổ trợ sinh viênlậpkế hoạch học tập (dựa trên phương pháp khai phá dữ liệu - data mining). Đề tài NCKH cấp trường. Đại học Cần Thơ.
[5] Nguyễn Thái Nghe. 2013a. Hệ thống dự báo năng lực học tập và hỗ trợ sinhviênlựa chọn môn học. Đề tài NCKH cấp trường. Đại học Cần Thơ.
[6] Nguyễn Thái Nghe, Huỳnh Xuân Hiệp. 2012. Ứng dụng kỹ thuật phân rã ma trận đa quan hệ trong xây dựng hệ trợ giảng thông minh, Kỷ yếu Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của CNTT&TT (@2012). Nhà xuất bản Khoa học và Kỹ thuật. ISBN: 893-5048-931578
[7]. TS Trương Ngọc Châu, Bài Giảng Khai phá dữ liệu, Đại học Bách Khoa, Đại học Đà Nẵng.
[8]. TS Trương Ngọc Châu, Bài Giảng Cơ sở dữ liệu, Đại học Bách Khoa, Đại học Đà Nẵng.
Tiếng Anh
[9] J. Han and Micheline Kamber. Data Mining:Concepts and Techniques, 3rd Edition. Morgan Kaufmann Publishers, 2011.
[10]. John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc.
[11]. Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – Verlag New York, Inc.
[12] John Shafer, Rakesh Agrawal, Manish Mehta. “Sprint – A Scalable Classifier for Data mining” in Predeeings of the 22nd International Conference on very large database, India1996.
[13] http://technet.microsoft.com/en-us/library/bb895174.aspx
[14] J. Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993
[15] Ming Li “Data mining. Chepter 10 : Predictive Modeling”, Department of Computer Science and Technology Nanjing University, 2011
Tài liệu internet