Khai phá dữ liệu sinhviên Trường Đại học Phạm Vă- 123docz.net

2.6 .Các giai đoạn của quá trình khai phá dữ liệu

2.8. Khai phá dữ liệu sinhviên Trường Đại học Phạm Văn Đồng

Chương này trình bày các kỹ thuật: cây quyết định, thuật toán ID3, thuật toán C4.5 và thuật toán Naive Bayes. Với mỗi kỹ thuật đều có ưu nhược điểm riêng và được áp dụng trong những mục đích khai phá dữ liệu khác nhau. Cây quyết định được dùng trong các bài toán phân lớp, dự báo. Cây quyết định được dùng rộng rãi vì những ưu điểm của nó như cây quyết định cho kết quả trực quan, dễ hiểu. Cây quyết định xử lý được dữ liệu kiểu số và rời rạc, dữ liệu thiếu. Thuật toán C4.5 được sử dụng rộng rãi vì giải thuật đơn giản, cho ra kết quả dễ hiểu.

CHƯƠNG 3 ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH VÀ HỖ TRỢ HỌC SINH CHỌN NGÀNH HỌC VÀO TRƯỜNG

ĐẠI HỌC PHẠM VĂN ĐỒNG

3.1. Giới thiệu về Trường Đại học Phạm Văn Đồng

Trường Đại học Phạm Văn Đồng được thành tại Quyết định số 1168/QĐ - TTg ngày 07/9/2007 của Thủ tướng Chính phủ. Trường Đại học Phạm Văn Đồng là cơ sở công lập, đào tạo đa ngành, đa phương thức; là cơ sở nghiên cứu khoa học, ứng dụng và chuyển giao công nghệ; cung cấp nguồn nhân lực có chất lượng, đáp ứng nhu cầu phát triển kinh tế - xã hội tỉnh Quảng Ngãi và cả nước; là trường công lập thuộc hệ thống giáo dục quốc dân nước CHXHCN Việt Nam, do Thủ tướng Chính phủ quyết định thành lập dựa trên sự sát nhập của Trường Cao đẳng Sư phạm Quảng Ngãi và Trường Cao đẳng Cộng đồng Quảng Ngãi từ năm 2007.

Hình 3.1: Trường Đại học Phạm Văn Đồng 3.2. Giới thiệu về công cụ khai phá dữ liệu

3.3. Mô hình và bài toán xây dựng hệ hỗ trợ tư vấn tuyển sinh.

Sau khi thu thập dữ liệu ta cần xử lý cơ sở dữ liệu, lưu trữ các thông tin cần thiết cho quá trình xây dựng chương theo mô hình sau.

Hình 3.3: Mô hình giải pháp xây dựng hệ hỗ trợ tư vấn tuyển sinh.

3.3.2. Giới thiệu bài toán

3.4. Mô tả việc tổng hợp dữ liệu cho bài toán 3.5. Chuẩn hoá dữ liệu đầu vào cho thuật toán 3.5. Chuẩn hoá dữ liệu đầu vào cho thuật toán

3.5.1. Lọc thuộc tính (Filtering Attributes)3.5.2. Rời rạc hóa dữ liệu(Discretization) 3.5.2. Rời rạc hóa dữ liệu(Discretization)

3.6. Phân tích cơ sở dữ liệu dữ liệu

3.6.1. Tìm hiểu và chuẩn bị dữ liệu 3.6.2. Mô hình hóa dữ liệu 3.6.2. Mô hình hóa dữ liệu

Sau bước tiền xử lý dữ liệu sẽ đến giai đoạn mô hình hoá cho việc dự đoán. Trong phần này sẽ trình bày việc xây dựng mô hình bao gồm các kỹ thuật sử dụng, các biến đầu vào và biến dự đoán (target attribute)

Bảng 3.3 trình bày chi tiết dữ liệu cũng như các kỹ thuật dùng trong dự đoán kết quả chọn ngành. Tác giả đã sử dụng dạng phân lớp cho dự đoán Xuất sắc, Giỏi, Khá, Trung bình.

Vấn đề: Dựa vào thông tin đầu vào và kết quả đầu ra để dự đoán kết quả học tập của sinh viên

Kho chứa dữ liệu điểm (Excel; SQL; …) Phân tích dữ liệu điểm Descition tree(ID3, C45,…); Apriori;… Các tập luật tư vấn Chương trình hỗ trợ tư vấn Giao diện kết quả tư vấn

Bảng 3.3: Giải thuật của hệ thống

Giải thuật Biến đầu vào Kết quả đầu ra

Dựa vào cây quyết định để dự đoán dữ liệu chưa biết của sinh viên là kết quả tốt nghiệp đại học, cao đẳng: Xuất sắc, Giỏi, Khá và Trung bình. - KhuVuc - MaDiemTHPT - DiemToan - DiemVan - DiemNN - DiemLy - GioiTinh Dự đoán kết quả tốt nghiệp là: Xuất sắc, Giỏi, Khá, Trung bình. 3.6.3. Đánh giá mô hình

Sau khi mô hình hóa, việc đánh giá độ tin cậy của các mô hình sẽ được thực hiện, gồm cả thao tác điều chỉnh giá trị của các thuộc tính, thay đổi các tham số, kiểm tra mô hình sao cho đạt kết quả chính xác nhất.Đánh giá hiệu quả phân lớp bằng độ đo

InfoGain trong chức năng InfoGainAttributeEval của Weka. Kết quả cho thấy như sau:

Với dữ liệu huấn luyện là 158 thuộc tính và sử dụng thuật toán C4.5 thì Weka phân lớp được 112 thuộc tính đúng và 46 thuộc tính không phân lớp được chiếm tỷ lệ phân lớp đúng là 71% và sai là 29%.

Sau đó dựa vào mô hình này ta sử dụng để dự đoán cho tập dữ liệu kiểm thử với 122 thuộc tính ta có kết quả sau:

Hình 3.17: Ứng dụng mô hình cho tập dữ liệu kiểm tra

Ta thấy rằng với mô hình trên nhưng với ở tập dữ liệu kiểm thử ít hơn nên cho ta mức độ dự đoán tốt hơn đó là dự đoán đúng 81% và sai 19%.

Do đó, mô hình này tốt để dự đoán những tập dữ liệu mới chưa biết.

3.7. Khai phá dữ liệu rút ra tri thức

Tập luật được rút ra dưới dạng If-Then dựa vào cây quyết định được sinh ra với tập dữ liệu huấn luyện bằng thuật toán J48.

Dạng cây quyết định được xây dựng từ J48 với phần mềm Weka có tập luật như sau:

Luật 1: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemVan = Cao) and (KhuVuc = 3) then XLTN = XuatSac

Luật 2: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemVan = Cao) and (KhuVuc = 2) then XLTN = Gioi

Luật 3: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemVan = Cao) and (KhuVuc = 1) then XLTN = Kha

Luật 4: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Cao) and (Nganh = CNTT) and (GioiTinh = Nam) then XLTN = XuatSac

Luật 5: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Cao) and (Nganh = CNTT) and (GioiTinh = Nu) then XLTN = Gioi

Luật 6: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Cao) and (Nganh = SPNguVan) then XLTN = Kha

Luật 7: IF (DiemTHPT = Gioi) and (DiemToan= Cao) and (DiemLy= Cao)and (DiemNN = Thap) and (Nganh = CNTT) then XLTN = Kha

Luật 8: IF (DiemTHPT = Kha) and (DiemToan= Thap) or (DiemToan= Cao)and (DiemLy= Thap)and (DiemNN = Thap) and (Nganh = CNTT) then XLTN = TrungBinh

Luật 9: IF (DiemTHPT = Kha) and (DiemToan= cao) and (DiemLy= cao) and (DiemNN = cao) and (Nganh = CNTT) then XLTN = Kha

Luật 10: IF (DiemTHPT = Kha) and (DiemToan= cao) and (DiemLy= cao) and (DiemNN = cao) and (Nganh = CNTT) then XLTN = Kha

Luật 11: IF (DiemTHPT = TB) and (DiemToan= cao) and (DiemVan= cao) and (DiemNN = cao) and (KhuVuc = 3) then XLTN = Kha

Luật 12: IF (DiemTHPT = TB) and (DiemToan= cao) and (DiemVan= cao) and (DiemNN = cao) and (KhuVuc = 1) then XLTN = TrungBinh.

Trên đây giới thiệu mô hình và bài toán, mô tả việc tổng hợp dữ liệu, chuẩn hóa dữ liệu đầu vào cho bài toán trong luận văn, phân tích dữ liệu, mô hình hóa dữ liệu, đánh giá mô hình và cuối cùng rút ra tri thức tạo cơ sở dữ liệu để phát triển hệ thống.

3.8. Biểu đồ triển khai hệ thống

Hình 3.18: Mô hình tổng thể của hệ thống Web hỗ trợ dự đoán Người dùng CSDL Được xây dựng từ tập luật Trả kết quả yêu cầu

3.9. Triển khai chương trình

3.9.1. Cài đặt chương trình 3.9.2. Hướng dẫn sử dụng 3.9.2. Hướng dẫn sử dụng

3.10. Hình ảnh trích ra từ chương trình demo

3.10.1. Giao diện thiết lập cơ sở dữ liệu

Hình 3.19: Sơ đồ quan hệ của cơ sở dữ liệu hệ thống

3.10.2. Giao diện chương trình tư vấn chọn ngành cho học sinh:

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

1. Kết luận

Trải qua thời gian dài nghiên cứu và thực hiện luận văn, tác giả đã hoàn thành luận văn với các mục tiêu mà bài toán đặt ra ban đầu, luận văn đã kết hợp được công nghệ thông tin vào lĩnh vực giáo dục. Cụ thể luận văn đã đạt được những kết quả sau:

- Kết quả đề tài xây dựng được hệ hỗ trợ tư vấn mang tính chất cộng đồng

- Giới thiệu phương pháp tổng quát xây dựng cây quyết định, và trình bày cụ thể thuật toán xây dựng cây quyết định bằng thuật toán C4.5.

- XâydựngtrangWeb hỗ trợ tư vấn chọn ngành phù hợp năng lực người học.

- Xây dựng, lưu trữ được tập luật và cơ sở dữ liệu điểm để tư vấn chọn ngành.

- Tập dữ liệu test và huấn luyện khi kiểm thử có tỉ lệ chênh lệch không cao

- Luận văn đã giải quyết được những vấn đề đặt ra trong bài toán bên cạnh đó có một số vấn đề chưa thỏa mãn được như mong đợi của tác giả:

+ Nguồn dữ liệu thu thập được chưa nhiều vì số lượng tuyển sinh của trường còn ít.

+ Việc rời rạc dữ liệu đạt tỉ lệ độ chính xác chưa thật sự cao dẫn đến kết quả chưa thật sự tốt do có có một số luật thừa không mong muốn tuy nhiên tác giả đã cắt bỏ một số luật thừa khi phát triển ứng dụng.

Ngoài ra đề tài có thể được phát triển để hỗ trợ nhanh và tương đối chính xác cho người cần tham khảo để chọn ngành và một số ngành cần gợi ý thêm.

2. Hướng phát triển

Khai phá dữ liệu là lĩnh vực được nhiều người quan tâm và nghiên cứu, chính vì vậy nó được ứng dụng rộng rãi trong nhiều lĩnh vực tuy nhiên để mở rộng ứng dụng này và đưa vào thực tiễn thì ta cần quan tâm đến một số cộng việc sau:

-Tìm hiểu phương pháp xây dựng cây quyết định trên dữ liệu nhiều phân lớp.

-CSDL phải được thu thập với số lượng nhiều hơn.

-Xử lý dữ liệu tốt hơn để tăng hiệu suất thực thi chương trình.

-Cần sự hợp tác hơn với cán bộ đào tạo và chuyên gia quản lý công nghệ thông tin của trường.

ở hệ thống trường Đại học

-Tìm hiểu nhu cầu thực tế của người học để phát triển cải tiến bài toán theo các thuật toán đã nghiên cứu để phát triển thành ứng dụng phổ biến đáp ứng nhu cầu cho xã hội.

DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Nguyễn Đức Cường, “Slide bài giảng môn học BI & DM: Bussiness Intellegent and Data Mining”,2011-2012

[2] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining,

Institute of Information Technology National Center for Natural Science and Technology.

[3] Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh,. Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên. Hội nghị sinh viên nghiên cứu khoa học lần thứ 8, Đại học Đà Nẵng, 2012.

[4] Nguyễn Chí Ngôn và Nguyễn Thái Nghe. 2010. Hệ chuyên gia hổ trợ sinh viênlậpkế hoạch học tập (dựa trên phương pháp khai phá dữ liệu - data mining). Đề tài NCKH cấp trường. Đại học Cần Thơ.

[5] Nguyễn Thái Nghe. 2013a. Hệ thống dự báo năng lực học tập và hỗ trợ sinhviênlựa chọn môn học. Đề tài NCKH cấp trường. Đại học Cần Thơ.

[6] Nguyễn Thái Nghe, Huỳnh Xuân Hiệp. 2012. Ứng dụng kỹ thuật phân rã ma trận đa quan hệ trong xây dựng hệ trợ giảng thông minh, Kỷ yếu Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của CNTT&TT (@2012). Nhà xuất bản Khoa học và Kỹ thuật. ISBN: 893-5048-931578

[7]. TS Trương Ngọc Châu, Bài Giảng Khai phá dữ liệu, Đại học Bách Khoa, Đại học Đà Nẵng.

[8]. TS Trương Ngọc Châu, Bài Giảng Cơ sở dữ liệu, Đại học Bách Khoa, Đại học Đà Nẵng.

Tiếng Anh

[9] J. Han and Micheline Kamber. Data Mining:Concepts and Techniques, 3rd Edition. Morgan Kaufmann Publishers, 2011.

[11]. Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – Verlag New York, Inc.

[12] John Shafer, Rakesh Agrawal, Manish Mehta. “Sprint – A Scalable Classifier for Data mining” in Predeeings of the 22nd International Conference on very large database, India1996.

[13] http://technet.microsoft.com/en-us/library/bb895174.aspx

[14] J. Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993

[15] Ming Li “Data mining. Chepter 10 : Predictive Modeling”, Department of Computer Science and Technology Nanjing University, 2011

Tài liệu internet