Lựa chọn giải pháp

Để thử nghiệm trên thực tiễn ứng dụng khai phá dữ liệu trong tƣ vấn học tập. Chƣơng trình cài đặt trên ngôn ngữ C#, CSDL thiết kế trên SQL sever 2008, hệ điều hành Windows 7.

Hình 3.1. Sơ đồ dữ liệu quan hệ CSDL điểm sinh viên 3.2. Đặc tả dữ liệu

Trong quy chế đào tạo theo hệ thống tín chỉ, điểm trung bình môn học của sinh viên K37 trƣờng Đại học Sƣ Phạm Hà Nội 2 đƣợc tính bằng 20% điểm thành phần 1 + 20% điểm thành phần 2 + 60% điểm thi, rồi quy đổi ra bằng chữ là A,B,C,D,F với điểm A là điểm thuộc khoảng [8.5...10], điểm B là điểm thuộc khoảng [7.0...8.5), điểm C thuộc khoảng [5.5...7.0), điểm D thuộc khoảng [4.0...5.5), còn lại là điểm F.

Nhƣng để tiện cho việc tính toán, trong bài này em sẽ chia khoảng điểm các môn thành các khoảng [0...5], (5...7], (7...8], (8...10] để có thể tìm đƣợc những kết quả tốt nhất. Việc chia khoảng nhƣ vậy sẽ giúp chúng ta tìm ra luật khi sinh viên có xu hƣớng điểm trong khoảng này của môn A, sẽ kéo theo điểm trong khoảng kia của môn B đúng với mục đích của khai phá dữ liệu.

43 Mã SV Họ tên Lớp Hệ điều hành CSDL ... Lập trình hƣớng đối tƣợng 1151030000 SV 1 K37-Tin 8 6 ... 6 1151030001 SV 2 K37-Tin 6 8 ... 8 1151030002 SV 3 K37-Tin 6 7 ... 8 1151030003 SV 4 K37-Tin 6 7 ... 9 1151030004 SV 5 K37-Tin 5 7 ... 9 1151030005 SV 6 K37-Tin 7 8 ... 5

Bảng 3.1. Ví dụ về CSDL điểm của sinh viên Dữ liệu đã đƣợc biểu diễn thành các kí hiệu:

Tên Môn [0...5] (5...7] (7...8] (8...10]

Lập trình hƣớng đối tƣợng RR1 RR2 RR3 RR4

Cơ sở dữ liệu QQ1 QQ2 QQ3 QQ4

Hệ điều hành H1 H2 H3 H4

Bảng 3.2. Thuộc tính điểm đƣợc chia thành khoảng và ký hiệu Khi đó mỗi sinh viên sẽ trở thành một Transaction (giao dịch):

STT Các mục 1 H3, RR1, QQ2 2 H2, RR2, QQ3 3 H4, RR3, QQ2 4 H2, RR2, QQ1 5 H1, RR1, QQ3 6 H4, RR1, QQ3 Bảng 3.3. CSDL điểm đã đƣợc mã hóa

Sau quá trình mã hóa ta có thể tính đƣợc support cho từng tập mục và thực hiện thuật toán Apriori để phát hiện những tập mục phổ biến nhƣ ví dụ đã nêu ở chƣơng 2. Việc mã hóa nhƣ trên sẽ có thể xảy ra những vấn đề nhƣ số lƣợng khoảng nhiều thì support cho từng khoảng điểm là nhỏ nên min sup của bài toán phải điều chỉnh đƣợc. Một số thông tin có thể bị mất do việc chia khoảng và một số thông tin không hữu dụng nhƣ xu hƣớng đƣợc điểm thấp môn A -> điểm thấp môn B, điểm cao môn A -> điểm thấp môn B hoặc ngƣợc lại. Vì vậy cần tạo ra một bộ lọc để lấy những luật mà điểm của sinh viên đạt từ (8...10].

Bài toán khai phá luật kết hợp lúc này có thể thực hiện qua các bƣớc sau: Bƣớc 1: Tìm support cho mỗi giá trị của các thuộc tính phân loại lẫn thuộc tính số lƣợng, tìm tất cả các tập mục đạt minsup.

Bƣớc 2: Tìm confidence cho mỗi quan hệ của các tập mục, và sinh ra luật kết hợp.

3.3 Giao diện chính của chƣơng trình

Hình 3.2: Nhập thông tin sinh viên

Hình 3.3. Danh mục môn học

Hình 3.5: Cập nhật điểm sinh viên

Hình 3.6.2. Kết quả với minsup = 60%, minconf = 80%

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 1. Kết luận

Sau khoảng thời gian tìm hiểu về đề tài, em đã đạt đƣợc kết quả là:

- Hiểu đƣợc về khai phá dữ liệu, quy trình khai phá và các phƣơng pháp khai phá dữ liệu.

- Tìm hiểu ứng dụng của khai phá dữ liệu trong đào tạo để suy ra mối tƣơng quan giữa các môn học trên một cơ sở dữ liệu điểm có sẵn.

- Xây dựng chƣơng trình thực hiện nhiệm vụ trên.

Khai phá dữ liệu là lĩnh vực rất hữu ích cho mọi mặt trong cuộc sống. Trên đây đã trình bày những vấn đề cơ bản nhất, các phƣơng pháp khai phá dữ liệu và đi sâu vào tìm hiểu về luật kết hợp. Bài toán đã tìm ra các luật có thể cho những kết quả tốt trong những năm học tiếp theo, đồng thời hỗ trợ sinh viên lựa chọn môn học, hỗ trợ cán bộ đào tạo đƣa ra quyết định.

Khai phá dữ liệu đã và đang đƣợc nghiên cứu và phát triển mạnh để từng bƣớc nâng cao chất lƣợng của tất cả các lĩnh vực trong cuộc sống vì khả năng tìm đƣợc những thông tin có ích từ đó dự báo giúp chúng ta có những kế hoạch đúng đắn trong tƣơng lai.

Chƣơng trình còn nhiều hạn chế khi phải nhập điểm của sinh viên từ bàn phím vì quá trình tiền xử lý dữ liệu chƣa thống nhất đƣợc các tệp CSDL khác nhau. Nhƣng qua thuật toán Apriori, ta có thể thu đƣợc các luật hữu ích phục vụ cho đào tạo, hỗ trợ sinh viên lựa chọn môn học.

Bài khóa luận đã giúp em đƣợc tìm hiểu sâu về một vấn đề, nhờ đó em đƣợc đánh giá, phân tích thực tế để đối chiếu với những kiến thức đã học đƣợc ở trƣờng. Đó cũng là thời gian để em học hỏi nhiều kinh nghiệm để hoàn thành tốt những nhiệm vụ khác trong tƣơng lai.

2. Hƣớng phát triển

Trong tƣơng lai em mong muốn chƣơng trình sẽ càng gắn liền với thực tế để đƣợc sử dụng rộng rãi. Đồng thời sẽ phát triển hơn nữa nhƣ:

- Xây dựng thêm nhiều bộ lọc để tìm thêm những luật có ích. - Phân biệt đƣợc những môn học tự chọn, môn học bắt buộc.

- Phân biệt đƣợc thứ tự các môn học (ví dụ: môn A học trƣớc môn B). - Kết nối đƣợc với những cơ sở dữ liệu phức tạp.

TÀI LIỆU THAM KHẢO

[1]. Nhà xuất bản khoa học kỹ thuật (2010) - Một số vấn đề chọn lọc của

công nghệ thông tin

[2]. Lê Văn Phùng, Quách Xuân Trƣờng (2008) - Khai phá dữ liệu [3]. Nguyễn Nhật Quang (2010 - 2011) - Giáo trình khai phá dữ liệu. [4]. Đại học Bách khoa TP. Hồ Chí Minh (2008) - Khai phá dữ liệu

[5]. Nguyễn Văn Chức (2011) - Bài giảng thuật toán Apriori khai phá luật kết hợp

Phƣơng pháp khai phá luật kết hợp

Giao diện chính của chƣơng trình