Mã hóa kết quả học tập: phạm vi nghiên cứu của đề tài chỉ khảo sát các kết quả nhỏ hơn 6.0 điểm. Như vậy, những ơ có giá trị nhỏ hơn 6 sẽ được thay thế
Trang 25
bằng mã học phần tương ứng, ngược lại, những ơ có giá trị từ 6 trở lên sẽ được để trống. Kết quả sau khi mã hóa thu được bảng dữ liệu có dạng như sau:
Sau đó, các học phần ứng với mỗi sinh viên được ghép lại. Như vậy, danh sách các sinh viên tương ứng với mã các học phần có điểm nhỏ hơn 6 có dạng như sau:
3.1.4 Xử lý các giá trị trống và các mẫu nghèo thơng tin
Sau khi có được bảng kết quả như trên, sẽ có những sinh viên khơng có học phần nào dưới 6 điểm, điều đó có nghĩa là trong bảng kết quả danh sách mã các học phần là rỗng hoặc có những sinh viên chỉ có 1 học phần có điểm dưới 6, điều đó có nghĩa là trong bảng kết quả danh sách mã các học phần chỉ có 1 mã học phần. Các trường hợp này khơng được sử dụng. Vì vậy, kết quả của các sinh viên này sẽ xóa khỏi cơ sở dữ liệu.
3.1.5 Khai thác dữ liệu
Từ kết quả trên, tiến hành đưa dữ liệu đã xử lý vào hệ quản trị cơ sở dữ liệu SQL server 2008. Có 3 bảng được dùng để lưu trữ dữ liệu là bảng
Trang 26
MONHOC dùng để lưu trữ danh sách các học phần gồm có hai cột là ID(mã học phần) và NAME(tên học phần), bảng thứ hai là bảng GIAODICH dùng để lưu trữ kết quả các học phần có điểm dưới 6 của các sinh viên gồm có hai cột là ID(mã sinh viên) và ITEM(chuỗi các học phần dưới 6) và bảng TIENQUYET dùng để lưu trữ điều kiện tiên quyết của các học phần gồm có hai cột là IDfirst(mã học phần là điều kiện tiên quyết cho các học phần sau) và ListID(mã các học phần có điều kiện tiên quyết là học phần IDfirst). Bảng TIENQUYET được hình thành từ chương trình đào tạo.
Hình 3.1: Tiến trình đào tạo ngành Cơng Nghệ Phần Mềm. Dữ liệu của các bảng trên như sau: Dữ liệu của các bảng trên như sau:
Trang 27
Hình 3.2: Các bảng dữ liệu.
3.1.6 Đánh giá và biểu diễn tri thức
Sử dụng chương trình phần mềm đã viết để tìm ra các luật kết hợp với độ phổ biến tối thiểu và độ tin cậy tối thiểu được nhập vào chương trình. Chẳng hạn, với độ phổ biến tối thiểu 30% và độ tin cậy tối thiểu 60%, chương trình cho kết quả như sau:
Trang 28
Hình 3.3: Minh họa kết quả của chương trình. Kết quả tìm ra được 2 luật như sau: Kết quả tìm ra được 2 luật như sau:
Có 30% sinh viên học khơng tốt học phần Lập trình Java thì cũng sẽ học khơng tốt học phần Phân tích và thiết kế giải thuật với độ tin cậy 60%.
Có 30% sinh viên học không tốt học phần Lập trình ứng dụng thì cũng sẽ học khơng tốt học phần Phân tích và thiết kế giải thuật với độ tin cậy 60%.
Từ các luật tìm được này, các nhà quản lý sẽ cải tiến, cập nhật chương trình đào tạo cho hai học phần Lập trình Java và Lập trình ứng dụng. Các luật này cũng cung cấp thêm thông tin cho sinh viên trong việc học tập để đạt kết quả tốt trong suốt quá trình học. Với các luật trên, sinh viên sẽ cố gắng học tốt học phần Lập trình Java, Lập trình ứng dụng.
3.2 Cài đặt chương trình.
Trong phần này, sẽ trình bày phần giao diện của chương trình
Trang 29
Hình 3.4: Màn hình quản lý các học phần.
Danh sách các học phần gồm có 2 cột là mã học phần và tên học phần. Các chức năng sử dụng cho màn hình này là thêm học phần, sửa học phần và xóa học phần.
3.2.2 Màn hình quản lý các học phần tiên quyết.
Hình 3.5: Màn hình quản lý các học phần tiên quyết.
Điều kiện tiên quyết của các học phần gồm có 2 cột là học phần tiên quyết và danh sách các học phần có điều kiện tiên quyết (là học phần ở cột thứ nhất). Màn
Trang 30
hình này có các chức năng là thêm điều kiện các môn tiên quyết(chọn học phần tiên quyết từ danh sách các học phần tiên quyết, chọn học phần có học phần tiên quyết, sau đó nhấn nút THÊM), chỉnh sửa(chọn dịng dữ liệu cần chỉnh sửa, sau đó nhấn nút SỬA, điều chỉnh lại trên danh sách môn tiên quyết và môn học). Trong lúc chỉnh sửa, nếu danh sách mơn học khơng có mơn nào được chọn thì dịng dữ liệu đang chỉnh sửa sẽ bị xóa.
3.2.3 Màn hình quản lý các giao dịch
Hình 3.6: Màn hình quản lý các giao dịch.
Màn hình này có các chức năng thêm, sửa, xóa danh sách các học phần của một sinh viên.
Trang 31
Hình 3.7: Màn hình tìm luật kết hợp.
Màn hình này có chức năng tìm ra các luật kết hợp từ cơ sở dữ liệu khi nhập độ phổ biến tối thiểu và độ tin cậy tối thiểu.
Trang 32
KẾT LUẬN
Khai phá dữ liệu là một trong những kỹ thuật quan trọng. Sự bùng nổ thơng tin, dữ liệu tồn cầu, trên mọi mặt của đời sống xã hội cùng với sự phát triển và ứng dụng ngày càng rộng rãi của công nghệ thông tin trong mọi lĩnh vực đã dẫn đến nhu cầu xử lý những khối dữ liệu khổng lồ để kết xuất ra những thông tin, tri thức hữu ích cho người sử dụng một cách tự động, nhanh chóng và trở thành nhân tố quan trọng hàng đầu cho mọi thành công của các cơ quan, tổ chức và cá nhân trên thế giới.
Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau. Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn.
Một trong những phương pháp quan trọng và cơ bản nhất của kỹ thuật khai phá dữ liệu mà đề tài tìm hiểu là khai phá luật kết hợp. Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu.
Do thời gian nghiên cứu đề tài còn hạn chế nhưng đã tổng kết được các kiến thức cơ bản nhất của phương pháp khai phá luật kết hợp. Đồng thời cũng đã cài đặt chương trình nhằm thực nghiệm khai phá luật kết hợp cho một cơ sở dữ liệu thực tế. Dựa vào các luật được tìm ra khi nhập độ phổ biến tối thiểu và độ tin cậy tối thiểu, các thông tin rút ra từ các luật này được sử dụng để hỗ trợ cho các nhà quản lý đề ra những cải tiến cho chương trình đào tạo.
Điểm hạn chế của đề tài là nguồn dữ liệu dùng để khai phá chưa nhiều, điều này dẫn đến việc tìm ra các luật chưa có độ phổ biến và độ tin cậy cao. Tuy nhiên, trong quá trình thực hiện đề tài, tác giả đã xây dựng được một chương trình phần mềm dùng để tìm ra mối quan hệ giữa các học phần của sinh viên đạt kết quả không tốt.
Trang 33
Hướng phát triển tiếp theo, sẽ nghiên cứu cài đặt thêm các thuật toán cải tiến để nâng cao hiệu quả về mặt xử lý và không gian lưu trữ trong bộ nhớ máy tính, đồng thời phát triển giao diện chương trình cho phù hợp và thuận tiện sử dụng hơn.
Trang 34
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] TS.Đỗ Phúc, Giáo trình Khai thác dữ liệu, Đại học quốc gia TP.Hồ CHí Minh-Trường đại học Công nghệ thông tin, NXB đại học Quốc gia TP.Hồ Chí Minh, 2008.
[2] Hồng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc, Giáo trình các hệ cơ sở tri thức, NXB Đại học Quốc gia TP. Hồ Chí Minh, 2002.
[3] Trần Đức Quang, Nguyên lý các hệ Cơ sở dữ liệu và Cơ sở tri thức, Tập 3 (biên dịch từ bản gốc của Jeffrey D. Ullman), NXB Thống kê, 2000.
Tiếng Anh
[4] Rakesh Agrawal and Ramakrishnan Srikant, Fast Algorithms for mining association rules, IBM almaden Research Center.
[5] Li Pingxiang- Chen Jiangping-Bian Fuling, A developed algorithm of apriori based on association analysis, WuHan University.
[6] Jen-Ting Tony Hsiao-Alexandros Ntoulas, Data Mining Association Rules. [7] Rakesh Agrawal-Tomasz Imielinski-Arun Swami, Mining Association Rules between Sets of Items in Large Databases.
Trang 35
PHỤ LỤC
HƯỚNG DẪN CÀI ĐẶT PHẦN MỀM 1. Cài đặt phần mềm
Bước 1: Double click file setup trong thư mục PROGRAM.
Bước 2: Chọn Next
Trang 36
Chọn nút Browse để chọn thư mục( ví dụ cài vào thư mục D:\test)
Bước 4: Chọn Next, Next để cài đặt.
Trang 37
Sau khi cài xong, thư mục TEST có 2 file
Màn hình Destop có shortcut
2. Cài đặt cơ sở dữ liệu
Dữ liệu sử dụng trong thư mục DATA
Sử dụng hệ quản trị SQL Server 2008 để quản lý cơ sở dữ liệu. Bước 1: Chép thư mục DATA vào thư mục D:\TEST
Bước 2: Kết nối hệ quản trị SQL Server 2008
Trang 38
Bước 4: Nhấn chuột phải trên Databases chọn Attach
Bước 5: Chọn nút Add
Trang 39
3. Khởi động phần mềm
Doudle click vào file Apriori trong thư mục TEST hoặc doudle click vào shortcut Apriori trên màn hình Destop.