Trong chương này tác giả đã nghiên cứu kết quả tuyển sinh và kết quả học tập của sinh viên niên khoá 2004 – 2007, trường CĐSP Hưng Yên và một số cách để thể hiện dữ liệu này theo các mục đích khác nhau. Tác giả đã chuẩn hoá dư liệu để phù hợp với mục đích nghiên cứu. Khi cài đặt và chạy thử chương trình với dữ liệu đào tạo đã được rời rạc hoá thành dữ liệu nhị phân, tác giả thu được một số luật kết hợp và đã đi phân tích một số luật làm đại diện và tìm ra những hạn chế trong công tác quản lí đào tạo tại trường CĐSP Hưng Yên để từ đó có thể đưa ra một số đề xuất.
Đồng thời từ quá trình chuẩn bị, cài đặt, chạy chương trình và phân tích kết quả thì tác giả nhận thấy chương trình có ưu điểm nhất định. Cụ thể:
Đây là lần đầu tiên thực hiện khai phá dữ liệu đào tạo tại trường CĐSP Hưng
Yên. Chương trình thử nghiệm có giao diện thân thiện, hiện đang vận hành tốt, sử dụng tiện lợi và đã đáp ứng được phần lớn các yêu cầu của việc sinh các luật kết hợp giữa kết quả tuyển sinh với kết quả học tập của sinh viên của trường CĐSP Hưng Yên.
Việc chạy chương trình đã sinh ra được số lượng lớn các luật nhằm phục vụ công tác phân tích dữ liệu đào tạo. Một số luật kết hợp tìm được giúp ích phần nào để đưa ra các biện pháp khắc phục những tồn tại cũng như phát huy những thành tựu đã đạt được trong thực tiễn quản lí đào tạo tại trường CĐSP Hưng Yên.
Tuy nhiên, chƣơng trình vẫn còn một số hạn chế sau:
Số thuộc tính và dữ liệu để khai phá còn ít. Thời gian chạy chương trình chưa
nhanh khi dữ liệu lớn .
Luật kết hợp tìm được còn chưa tập trung, chưa thuận lợi cho người khai thác
luật tìm được.
Để khắc phục những hạn chế của chương trình, tác giả rất mong muốn sẽ phát triển vấn đề này trong tương lai với các khía cạnh sau:
Khai phá dữ liệu trên nhiều thuộc tính, dữ liệu nhiều khoá liên tục để tìm được
Vấn đề tìm những luật có độ hỗ trợ thấp nhưng độ tin cậy cao, có thể cũng cho ta những thông tin quí giá vì đó có thể là những điều bất thường.
Qua thực tiễn cài đặt và chạy thử chương trình, tác giả thấy việc phân tích dữ
liệu đào tạo sử dụng thuật toán cây quyết định có thể phù hợp hơn. Vì vậy, ngoài việc nghiên cứu, cải tiến chương trình hiện tại, tác giả sẽ thử nghiệm với thuật toán cây quyết định. Với những nghiên cứu hiện tại và tương lai, tác giả mong muốn có thể áp dụng chương trình phân tích dữ liệu đào tạo cho các trường đại học, cao đẳng khác.
Kết quả thể hiện của chương trình là các luật, cần phát triển thêm những phân
KẾT LUẬN
Luận văn đã trình bày tổng quan về khai phá dữ liệu, bao gồm: một số khái niệm cơ bản về dữ liệu, khai phá dữ liệu, luật kết hợp, phân tích dữ liệu trực tuyến. Đặc biệt đã trình bày được các thuật toán Apriori, FP-growth để tìm tập phổ biến từ đó sinh các luật kết hợp.
Đồng thời, luận văn cũng trình bày được tổng quan thực tại ứng dụng CNTT, và nhu cầu phân tích dữ liệu đào tạo tại trường CĐSP Hưng Yên. Đặc biệt đã tổng hợp dữ liệu đào tạo của trường CĐSP Hưng Yên, trọng tâm là kết quả tuyển sinh và kết quả học tập của sinh viên từ đó đặt ra việc cần phải phân tích dữ liệu đào tạo để phục vụ công tác quản lí đào tạo tại trường.
Phần chính của luận văn tập trung vào việc vận dụng các thuật toán, kết quả nghiên cứu cơ sở dữ liệu của trường CĐSP Hưng Yên vào việc cài đặt chương trình tìm luật kết hợp giữa kết quả tuyển sinh và kết quả học tập của sinh viên. Từ đó phân tích các luật và đưa ra một số nhận định ban đầu về công tác quản lí đào tạo của trường CĐSP Hưng Yên. Tuy nhiên, việc khai thác dữ liệu đào tạo phục vụ cho công tác quản lí đào tạo của trường CĐSP Hưng Yên đòi hỏi một lực lượng lớn nhân lực tham gia với trình độ cao. Do vậy, với năng lực và thời gian công tác còn ít, tác giả nghiên cứu và xây dựng một chương trình khai phá dữ liệu đào tạo chủ yếu trên hai thuật tìm luật kết hợp Apriori, FP-growth với cơ sở dữ liệu hạn chế là kết quả tuyển sinh với kết quả học tập của sinh viên niên khóa 2004 – 2007, trường CĐSP Hưng Yên. Đồng thời mới chỉ phân tích một số luật đại điện.
Chương trình thử nghiệm được xây dựng hiện đang vận hành tốt, sử dụng tiện lợi và đã đáp ứng được phần lớn các yêu cầu của việc sinh các luật kết hợp giữa kết quả tuyển sinh với kết quả học tập của sinh viên của trường CĐSP Hưng Yên. Tuy nhiên, còn nhiều yêu cầu chưa được đáp ứng một cách đầy đủ và nhanh chóng cả về nội dung cũng như hình thức trình diễn. Do đó, việc tiếp tục hoàn thiện chương trình đang được đặt ra trong thời gian tới cả về các tiến trình vận hành và nội dung khai thác nhằm nâng cao hiệu năng của chương trình. Cụ thể:
Khai phá trên nhiều thuộc tính, dữ liệu nhiều khoá liên tục để tìm được nhiều
luật có ý nghĩa hơn.
Nghiên cứu, cải tiến chương trình để có thể áp dụng được với dữ liệu đào tạo
của các trường đại học, cao đẳng khác.
Kết quả thể hiện của chương trình là các luật, cần phát triển thêm những phân
TÀI LIỆU THAM KHẢO Tiếng Việt
1. Lê Hoàng Dũng, Nguyễn Trần Minh Khuê, OLAP (On-Line Analytical
Processing).
2. Nguyễn Hà Nam, Bài giảng “Khai phá dữ liệu”, trường Đại học Công nghệ −
ĐH Quốc gia Hà Nội, 2008
3. Peter Van Gils (2003), CNTT trong giáo dục, TP. Hồ Chí Minh.
4. Hồ Anh Tài (2004), Ứng dụng kỹ thuật khai khoáng dữ liệu trong xử lý cước
điện thoại tại bưu điện tỉnh Ninh Thuận, Luận văn thạc sĩ khoa học công nghệ
thông tin, Trường Đại học khoa học Tự nhiên, Đại học Quốc gia thành phố Hồ Chí Minh.
5. Nguyễn Thế Quyền, Giới thiệu về kiến trúc khối của OLAP.
6. Đỗ Trung Tuấn (1998), Cơ sở dữ liệu, Nhà xuất bản Giáo dục, Hà Nội.
7. Nguyễn Tuệ, Giáo trình nhập môn hệ cơ sở dữ liệu, Nhà xuất bản Giáo dục, Hà
Nội.
8. Trường cán bộ quản lý giáo dục TPHCM (2009), Công nghệ thông tin trong giáo dục.
9. Trường CĐSP Hưng Yên, Kế hoạch đào tạo hệ chính quy khoá 2004-2007, Tài
liệu lưu hành nội bộ.
Tiếng Anh
10. Jiawei Han and Michenline Kamber (2006), Data Mining Concepts and
Techniques_2nd, Morgan Kaufmann Publishers.
11. Microsoft (2008), SQL Server 2005 Books Online.
12. T. Mitchell (1999), Machine Learning and Data Mining, Communications of
the ACM, Vol. 42 No. 11, pp. 30-36.
13. Usama M.Fayyad, Gregory. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy
(1996), Advances in Knowledge Discovery and Data Mining, AAAI Press,
Menlo Park, CA.
14. Michelle Wilkie and Arlene Zaima (2008), ROLAP and HOLAP solutions using
SAS and Teradata, Teradata Magazine, pp.1.
15. William H. Inmon, Building the Data Warehouse, Wiley_ 2005
16. ZhaoHui Tang andJamie MacLennan (2005), Data Mining with
SQLServer2005, Wiley Publishing, eBook-DDU.
Internet
17. http://vi.wikipedia.org/wiki/
18. http://en.wikipedia.org/wiki/Data
20. http://www.icaen.uiowa.edu/~ankusiak
21. http://www.vnu-itp.edu.vn
22. http://en.wikipedia.org/wiki/Olap