Mã các học phần

Mã hóa kết quả học tập: phạm vi nghiên cứu của đề tài chỉ khảo sát các kết quả nhỏ hơn 6.0 điểm. Như vậy, những ơ có giá trị nhỏ hơn 6 sẽ được thay thế

Trang 25

bằng mã học phần tương ứng, ngược lại, những ơ có giá trị từ 6 trở lên sẽ được để trống. Kết quả sau khi mã hóa thu được bảng dữ liệu có dạng như sau:

Sau đó, các học phần ứng với mỗi sinh viên được ghép lại. Như vậy, danh sách các sinh viên tương ứng với mã các học phần có điểm nhỏ hơn 6 có dạng như sau:

3.1.4 Xử lý các giá trị trống và các mẫu nghèo thơng tin

Sau khi có được bảng kết quả như trên, sẽ có những sinh viên khơng có học phần nào dưới 6 điểm, điều đó có nghĩa là trong bảng kết quả danh sách mã các học phần là rỗng hoặc có những sinh viên chỉ có 1 học phần có điểm dưới 6, điều đó có nghĩa là trong bảng kết quả danh sách mã các học phần chỉ có 1 mã học phần. Các trường hợp này khơng được sử dụng. Vì vậy, kết quả của các sinh viên này sẽ xóa khỏi cơ sở dữ liệu.

3.1.5 Khai thác dữ liệu

Từ kết quả trên, tiến hành đưa dữ liệu đã xử lý vào hệ quản trị cơ sở dữ liệu SQL server 2008. Có 3 bảng được dùng để lưu trữ dữ liệu là bảng

Trang 26

MONHOC dùng để lưu trữ danh sách các học phần gồm có hai cột là ID(mã học phần) và NAME(tên học phần), bảng thứ hai là bảng GIAODICH dùng để lưu trữ kết quả các học phần có điểm dưới 6 của các sinh viên gồm có hai cột là ID(mã sinh viên) và ITEM(chuỗi các học phần dưới 6) và bảng TIENQUYET dùng để lưu trữ điều kiện tiên quyết của các học phần gồm có hai cột là IDfirst(mã học phần là điều kiện tiên quyết cho các học phần sau) và ListID(mã các học phần có điều kiện tiên quyết là học phần IDfirst). Bảng TIENQUYET được hình thành từ chương trình đào tạo.

Hình 3.1: Tiến trình đào tạo ngành Cơng Nghệ Phần Mềm. Dữ liệu của các bảng trên như sau: Dữ liệu của các bảng trên như sau:

Trang 27

Hình 3.2: Các bảng dữ liệu.

3.1.6 Đánh giá và biểu diễn tri thức

Sử dụng chương trình phần mềm đã viết để tìm ra các luật kết hợp với độ phổ biến tối thiểu và độ tin cậy tối thiểu được nhập vào chương trình. Chẳng hạn, với độ phổ biến tối thiểu 30% và độ tin cậy tối thiểu 60%, chương trình cho kết quả như sau:

Trang 28

Hình 3.3: Minh họa kết quả của chương trình. Kết quả tìm ra được 2 luật như sau: Kết quả tìm ra được 2 luật như sau:

 Có 30% sinh viên học khơng tốt học phần Lập trình Java thì cũng sẽ học khơng tốt học phần Phân tích và thiết kế giải thuật với độ tin cậy 60%.

 Có 30% sinh viên học không tốt học phần Lập trình ứng dụng thì cũng sẽ học khơng tốt học phần Phân tích và thiết kế giải thuật với độ tin cậy 60%.

Từ các luật tìm được này, các nhà quản lý sẽ cải tiến, cập nhật chương trình đào tạo cho hai học phần Lập trình Java và Lập trình ứng dụng. Các luật này cũng cung cấp thêm thông tin cho sinh viên trong việc học tập để đạt kết quả tốt trong suốt quá trình học. Với các luật trên, sinh viên sẽ cố gắng học tốt học phần Lập trình Java, Lập trình ứng dụng.

3.2 Cài đặt chương trình.

Trong phần này, sẽ trình bày phần giao diện của chương trình

Trang 29

Hình 3.4: Màn hình quản lý các học phần.

Danh sách các học phần gồm có 2 cột là mã học phần và tên học phần. Các chức năng sử dụng cho màn hình này là thêm học phần, sửa học phần và xóa học phần.

3.2.2 Màn hình quản lý các học phần tiên quyết.

Hình 3.5: Màn hình quản lý các học phần tiên quyết.

Điều kiện tiên quyết của các học phần gồm có 2 cột là học phần tiên quyết và danh sách các học phần có điều kiện tiên quyết (là học phần ở cột thứ nhất). Màn

Trang 30

hình này có các chức năng là thêm điều kiện các môn tiên quyết(chọn học phần tiên quyết từ danh sách các học phần tiên quyết, chọn học phần có học phần tiên quyết, sau đó nhấn nút THÊM), chỉnh sửa(chọn dịng dữ liệu cần chỉnh sửa, sau đó nhấn nút SỬA, điều chỉnh lại trên danh sách môn tiên quyết và môn học). Trong lúc chỉnh sửa, nếu danh sách mơn học khơng có mơn nào được chọn thì dịng dữ liệu đang chỉnh sửa sẽ bị xóa.

3.2.3 Màn hình quản lý các giao dịch

Hình 3.6: Màn hình quản lý các giao dịch.

Màn hình này có các chức năng thêm, sửa, xóa danh sách các học phần của một sinh viên.

Trang 31

Hình 3.7: Màn hình tìm luật kết hợp.

Màn hình này có chức năng tìm ra các luật kết hợp từ cơ sở dữ liệu khi nhập độ phổ biến tối thiểu và độ tin cậy tối thiểu.

Trang 32

KẾT LUẬN

Khai phá dữ liệu là một trong những kỹ thuật quan trọng. Sự bùng nổ thơng tin, dữ liệu tồn cầu, trên mọi mặt của đời sống xã hội cùng với sự phát triển và ứng dụng ngày càng rộng rãi của công nghệ thông tin trong mọi lĩnh vực đã dẫn đến nhu cầu xử lý những khối dữ liệu khổng lồ để kết xuất ra những thông tin, tri thức hữu ích cho người sử dụng một cách tự động, nhanh chóng và trở thành nhân tố quan trọng hàng đầu cho mọi thành công của các cơ quan, tổ chức và cá nhân trên thế giới.

Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau. Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn.

Một trong những phương pháp quan trọng và cơ bản nhất của kỹ thuật khai phá dữ liệu mà đề tài tìm hiểu là khai phá luật kết hợp. Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu.

Do thời gian nghiên cứu đề tài còn hạn chế nhưng đã tổng kết được các kiến thức cơ bản nhất của phương pháp khai phá luật kết hợp. Đồng thời cũng đã cài đặt chương trình nhằm thực nghiệm khai phá luật kết hợp cho một cơ sở dữ liệu thực tế. Dựa vào các luật được tìm ra khi nhập độ phổ biến tối thiểu và độ tin cậy tối thiểu, các thông tin rút ra từ các luật này được sử dụng để hỗ trợ cho các nhà quản lý đề ra những cải tiến cho chương trình đào tạo.

Điểm hạn chế của đề tài là nguồn dữ liệu dùng để khai phá chưa nhiều, điều này dẫn đến việc tìm ra các luật chưa có độ phổ biến và độ tin cậy cao. Tuy nhiên, trong quá trình thực hiện đề tài, tác giả đã xây dựng được một chương trình phần mềm dùng để tìm ra mối quan hệ giữa các học phần của sinh viên đạt kết quả không tốt.

Trang 33

Hướng phát triển tiếp theo, sẽ nghiên cứu cài đặt thêm các thuật toán cải tiến để nâng cao hiệu quả về mặt xử lý và không gian lưu trữ trong bộ nhớ máy tính, đồng thời phát triển giao diện chương trình cho phù hợp và thuận tiện sử dụng hơn.

Trang 34

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] TS.Đỗ Phúc, Giáo trình Khai thác dữ liệu, Đại học quốc gia TP.Hồ CHí Minh-Trường đại học Công nghệ thông tin, NXB đại học Quốc gia TP.Hồ Chí Minh, 2008.

[2] Hồng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc, Giáo trình các hệ cơ sở tri thức, NXB Đại học Quốc gia TP. Hồ Chí Minh, 2002.

[3] Trần Đức Quang, Nguyên lý các hệ Cơ sở dữ liệu và Cơ sở tri thức, Tập 3 (biên dịch từ bản gốc của Jeffrey D. Ullman), NXB Thống kê, 2000.

Tiếng Anh

[4] Rakesh Agrawal and Ramakrishnan Srikant, Fast Algorithms for mining association rules, IBM almaden Research Center.

[5] Li Pingxiang- Chen Jiangping-Bian Fuling, A developed algorithm of apriori based on association analysis, WuHan University.

[6] Jen-Ting Tony Hsiao-Alexandros Ntoulas, Data Mining Association Rules. [7] Rakesh Agrawal-Tomasz Imielinski-Arun Swami, Mining Association Rules between Sets of Items in Large Databases.

Trang 35

PHỤ LỤC

HƯỚNG DẪN CÀI ĐẶT PHẦN MỀM 1. Cài đặt phần mềm

Bước 1: Double click file setup trong thư mục PROGRAM.

Bước 2: Chọn Next

Trang 36

Chọn nút Browse để chọn thư mục( ví dụ cài vào thư mục D:\test)

Bước 4: Chọn Next, Next để cài đặt.

Trang 37

Sau khi cài xong, thư mục TEST có 2 file

Màn hình Destop có shortcut

2. Cài đặt cơ sở dữ liệu

Dữ liệu sử dụng trong thư mục DATA

Sử dụng hệ quản trị SQL Server 2008 để quản lý cơ sở dữ liệu. Bước 1: Chép thư mục DATA vào thư mục D:\TEST

Bước 2: Kết nối hệ quản trị SQL Server 2008

Trang 38

Bước 4: Nhấn chuột phải trên Databases chọn Attach

Bước 5: Chọn nút Add

Trang 39

3. Khởi động phần mềm

Doudle click vào file Apriori trong thư mục TEST hoặc doudle click vào shortcut Apriori trên màn hình Destop.

Danh mục các học phần

Màn hình tìm luật kết hợp