Khai phá dữ liệu cho tư vấn lựa chọn môn học (tt)

12 18 0
Khai phá dữ liệu cho tư vấn lựa chọn môn học (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐỒN BƯU CHÍNH VIỄN THƠNG VIỆT NAM HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - PHẠM THỊ PHÚC KHAI PHÁ DỮ LIỆU CHO TƯ VẤN LỰA CHỌN MÔN HỌC CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ : 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Trần Đình Quế HÀ NỘI – 2010 TÀI LIỆU THAM KHẢO [1] R Agrawal and Ramakrishnan Srikant (1994), Fast algorithms for mining association rules In Proc of the 20th Int’l Conf on Very Large Databases [2] N Bendakir and E Aimeur Using association rules for course recommendation In Proceedings of the AAAI Workshop on Educational Data Mining, July 16-17 2006 [3] F Castro, A Vellido, A Nebot, F Mugica Applying Data Mining Techniques to e-Learning Problems [4] J Han and M Kamber: Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco, CA, (2000) [5] J Hipp, U Guntzer, and G Nakaeizadeh Algorithms for Association Rule Mining - A General Survey and Comparison In Proc ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2000 [6] Ho Tu Bao: Introduction to Knowledge Discovery and Data Mining, Institute of Information Technology [7] Margaret H Dunham, Yongqiao Xiao, Le Gruenwald, Zahid Hossain, "A Survey of Association Rules”, 2000 [8] RYAN S.J.D BAKER, K YACEF The State of Educational Data Mining in 2009: A Review and Future Visions [9] C.Vialardi, J Bravo, L Shafti, A Ortigosa Recommendation in Higher Education Using Data Mining Techniques [10] I H Witten and E Frank: Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers, New York, NY, (2000) 20 đào tạo (hỗ trợ thêm nhiều chức năng: xếp lịch học, sinh viên đăng ký môn học, …)  Hiện nay, liệu lưu trữ ngày tăng, để ứng dụng khai phá liệu vào toán cần tiếp tục nghiên cứu phương pháp xử lý cho tốn có liệu lớn Xem xét, nghiên cứu số ứng dụng khác Khai phá liệu Những năm gần đây, khoa học công nghệ thông tin ngày phát triển vũ bão vấn đề khai phá liệu trở thành hướng nghiên cứu lĩnh vực khoa học máy tính công nghệ tri thức Khai phá liệu ứng dụng thành công vào nhiều lĩnh vực khác như: thương mại, tài chính, thị trường chứng khoán, y học, thiên văn học, sinh học, giáo dục viễn thông v.v Đối với nước ta, hệ thống giáo dục dần chuyển từ đào tạo theo niên chế sang đào tạo theo tín Đào tạo tín có nhiều ưu điểm giúp sinh viên tự quản lý quỹ thời gian tùy theo khả sinh viên tự định môn học kỳ mình, tạo điều kiện cho sinh viên đạt kết cao với khả đồng thời xếp thời gian tự hỗ trợ thân áp dụng lý thuyết học giảng đường để tiếp cận thực tế Vì việc xây dựng hệ thống tư vấn môn học cho sinh viên tạo để sinh viên lựa chọn mơn học lựa chọn, chuyên ngành đạt hiệu cao điều cần thiết hữu ích Mục đích luận văn nhằm tìm hiểu kỹ thuật khai phá liệu Xem xét sử dụng kỹ thuật khai phá luật kết hợp tư vấn môn học cho sinh viên Một ví dụ ví dụ áp dụng thể xây dựng hệ tư vấn trường Đại học Thăng Long 2 19 I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU KẾT LUẬN Ngày nay, liệu lưu trữ ngày tăng Vấn đề đặt phải làm để tìm tri thức từ lượng lớn khổng lồ liệu Nhiệm vụ Khai phá liệu từ liệu có sẵn có phải tìm thơng tin tiềm ẩn có giá trị mà trước chưa phát tìm xu hướng phát triển xu hướng tác động lên chúng Các kỹ thuật cho phép lấy tri thức từ sở liệu gọi kỹ thuật khai phá liệu (DM: Data Mining) Có nhiều kỹ thuật khai phá liệu khác tuân theo bước trình phát tri thức Luận văn “Khai phá liệu cho tư vấn lựa chọn mơn học” trình bày số vấn đề sau:  Những nghiên cứu khai phá liệu ứng dụng nhiều lĩnh vực khác nhằm khai phá nguồn liệu phong phú lưu trữ hệ thống thông tin Khai phá liệu áp dụng nhiều việc tư vấn, dự báo, đặc biệt ứng dụng cho tư vấn giáo dục  Khai phá liệu có nhiều hướng tiếp cận (nhiều nhiệm vụ, mục đích), có nhiệm vụ phổ biến: phát Luật kết hợp (Association rules), Phân cụm (Clustering) Phân loại (Classification) Trong nhiệm vụ phát luật kết hợp nhiệm vụ quan tâm, nghiên cứu nhiều  Tìm hiểu ưu điểm khó khăn việc đào tạo theo tín Sử dụng phần mềm mã nguồn mở Weka (đang sử dụng phổ biến) cho việc sinh luật kết hợp Xây dựng hệ thống tư vấn môn học cho Sinh viên nhằm giúp sinh viên định hướng việc lựa chọn môn học, chuyên ngành học I.1 QUÁ TRÌNH PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU Quá trình phát tri thức trải qua giai đoạn khác mà khai phá liệu giai đoạn phát tri thức Đưa kết vào thực tế 4.Minh hoạ đánh giá tri thức phát Khai phá liệu – trích mẫu/mơ hình Thu nhập tiền xử lý liệu Hiểu xác định vấn đề Hình 1.1 Quá trình phát tri thức từ sở liệu Hình mơ tả giai đoạn trình phát tri thức từ sở liệu Quá trình phát tri thức từ sở Hướng phát triển luận văn:  Để trình đào tạo theo tín hoạt có hiệu quả, cần xây dựng hệ thống hồn chỉnh hỗ trợ q trình 18 liệu trình tương tác lặp lặp lại theo chu trình liên tục kiểu xốy trơn ốc, lần lặp sau hồn chỉnh lần lặp trước Giai đoạn sau sử dụng kết giai đoạn trước I.2 CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU Hình 3.12 Giao diện định hướng chuyên ngành III.3 Kết luận Trong chương này, hiểu thuận lợi khó khăn q trình đào tạo theo tín Hiểu bước tiền xử lý liệu từ nguồn liệu thu thập Sử dụng phần mềm mã nguồn mở Weka vào việc sinh tập luật kết hợp Từ xây dựng tiến trình tư vấn mơn học cho sinh viên Giúp sinh viên định hướng việc học tập, đạt kết tốt học tập  Cây định  Luật kết hợp  Mạng Nơron  Thuật toán di truyền (1) Cây định: Cây định cấu trúc giống lưu đồ mà nút biểu diễn trường hợp thử phép kiểm tra thuộc tính Mỗi phân nhánh nút biểu diễn khả giá trị (miền giá trị) phép thử Các giá trị nằm phía so với ngưỡng tương ứng nút Các nút biểu diễn lớp phân bố lớp Nút gọi nút gốc (2) Luật kết hợp: Trong thực tế chuyên gia kinh doanh tiếp thị thích luật đại thể như: “ 90% phụ nữ có xe máy màu đỏ đeo đồng hồ Thuỵ Sỹ dùng nước hoa hiệu Chanel” Những thơng tin hữu ích cho việc định hướng hoạt động tiếp thị kinh doanh Luật kết hợp có dạng X=>Y Tuy nhiên thơng tin tìm từ sở liệu nhiều Nhưng thông tin đáng tin cậy Phương pháp khai phá luật kết hợp có hai yếu tố đặc trưng độ hỗ trợ (support)- tần xuất xuất tập mục sở liệu độ tin cậy (confidence)- tỉ lệ phần trăm ghi chứa Y số ghi có X 17 Giao diện chương trình (3) Mạng nơron: Có nhiều kiến trúc khác cho mạng nơron chúng sử dụng cách kết nối mạng khác chiến lựơc học khác để thực nhiệm vụ Khi sử dụng mạng nơron phải phân biệt hai giai đoạn: giai đoạn mã hoá mạng nơron học mẫu liệu huấn luyện, thực nhiệm vụ giai đoạn giải mã mạng sử dụng để phân lớp, làm dự báo thực bắt nhiệm vụ học liên quan (4) Thuật toán di truyền: Việc xây dựng thuật toán di truyền sinh học nhằm tìm giải pháp tốt bao gồm bứơc sau: Tạo chế mã di truyền dạng xâu bảng mã kỹ tự hạn chế Hình 3.10.Giao diện cập nhật điểm người dùng Thiết lập mơi trường nhân tạo máy tính giải pháp tham gia “đấu tranh sinh tồn” với để xác định độ đo thành công hay thất bại, hay cịn gọi “hàm thích nghi” Phát triển “phép lai ghép” để giải pháp kết hợp với Khi xâu mã di truyền giải pháp cha mẹ bị cắt xếp lại Trong trình sinh sản kiểu đột biến áp dụng Cung cấp quần thể giải pháp ban đầu tương đối đa dạng để máy tính thực “cuộc chơi tiến hoá” cách loại bỏ giải pháp từ cá thể thay chúng Hình 3.11 Giao diện định hướng cho mơn học lựa chọn 16  Sử dụng phần sinh luật kết hợp, với thuật toán Apriori, ta tập luật kết hợp lưu dạng file text Giai đoạn (tư vấn): sử dụng luật nhận từ giai đoạn để đưa tư vấn cho người dùng  Người dùng cập nhập liệu điểm mơn Đại cương  Sau đó, người dùng yêu cầu hệ thống đưa định hướng chuyên ngành định hướng môn lựa chọn (chương trình hiển thị luật phù hợp với liệu điểm mà người dùng cập nhật) FOR tất luật DO IF cặp mamon, loaidiem vế trái luật i trùng với cặp mamon_loaidiem bangdiem THEN Luật i luật tư vấn cho người dùng END END Hình 3.6.:Thuật toán tư vấn cháu đột biến giải pháp tốt Thuật toán kết thúc họ giải pháp thành công sinh I.3 ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC Hiện có nhiều nghiên cứu ứng dụng khai phá liệu cho giáo dục Những khai phá liệu giáo dục bật lên lĩnh vực nghiên cứu độc lập năm gần đây, mà cao điểm năm 2008 với thành lập hội nghị quốc tế khai phá liệu giáo dục, báo khai phá liệu giáo Đó “Applying Data Mining Techniques to e-Learning Problems” Félix Castro1, Alfredo Vellido1, Àngela Nebot1, Francisco Mugica3, “Recommendation in Higher Education Using Data Mining Techniques” César Vialardi, Javier Bravo, Leila Shafti, Álvaro Ortigosa, “Using Association Rules for Course Recommendation” Narimel Bendakir v Esma Aămeur Vic ng dng khai phỏ d liu giáo dục đóng vai trị quan trọng việc phát triển giáo dục trợ giúp đáng kể cho hoạt động giáo dục II LUẬT KẾT HỢP Khai phá luật kết hợp tìm mối quan hệ kết hợp từ tập mục liệu, thông thường từ sở liệu lớn, giới thiệu năm 1993 Từ đến nay, khai phá luật kết hợp thu hút nhiều quan tâm nhà nghiên cứu, không ngừng phát triển đóng vai trị quan trọng khai phá tri thức từ sở liệu Phần giới thiệu khái niệm sở, thuật toán khai phá luật kết hợp 6 II.1 Các khái niệm sở Kí hiệu I = {i1, i2, …, im} tập thuộc tính D sở liệu tập giao tác, giao tác T tập mục tập mục I, T  I Mỗi giao tác có định danh gọi TID (Transaction Identification) X={i1, i2,…,ik} I gọi tập mục hay tập k-mục chứa k mục Một giao tác T gọi chứa tập mục X X  T Mỗi giao tác , I tập mục Độ hỗ trợ (support) 15  Sinh viên dễ dàng chuyển đổi chuyên ngành mà bảo lưu điểm tương ứng  Sinh viên chủ động xếp lịch học cho phù hợp với sức học, tài  Sinh viên học lại, thi lại mơn với lớp sau mà không cần tổ chức thi lại III.2 Kiến trúc hệ tư vấn Kiến trúc chương trình Độ hỗ trợ tập mục X sở liệu D tỉ số số giao tác T  D có chứa tập X tổng số giao tác D (hay phần trăm giao tác D có chứa tập mục X), kí hiệu Supp(X) Supp (X)  | T  D : X  T  | |D| Độ hỗ trợ luật X  Y tỉ số số giao tác có chứa X  Y số giao tác sở liệu D, kí hiệu: Supp(XY) Supp (X  Y)  | T  D : X  Y  T | |D| Độ Tin cậy (Confidence) Độ tin cậy luật r =X Y tỉ số (phần trăm) số giao tác D chứa X  Y với số giao tác D có chứa tập mục X Kí hiệu độ tin cậy luật conf (r) Ta có  conf  Hình 3.1.Kiến trúc hệ thống tư vấn Giai đoạn (khai phá liệu): Trong giai đoạn phần mềm mã nguồn Weka sử dụng để sinh luật kết hợp  Từ liệu thu thập được, ta chỉnh sửa cho khơng tính xác liệu  Tạo file liệu định dạng ARFF  Tải file liệu vào phần mềm mã nguồn mở Weka 14 windows, hệ điều hành Macintosh Nó cung cấp giao diện thống với nhiều thuật toán khác nhau, với phương pháp cho việc xử lý trước xử lý sau dành cho việc đánh giá kết sơ đồ học tập liệu cho trước Weka download từ http://www.cs.waikato.ac.nz/ml/weka Để sử dụng phần mềm Weka ta phải chuẩn bị liệu dạng file ARFF Dữ liệu đầu lưu file dạng text II.5 Kết luận Trong chương này, tìm hiểu khái niệm bản, thuật tốn khai phá luật kết hợp tìm hiểu phần mềm mã nguồn mở Weka, cách sử dụng Weka để sinh luật kết hợp - phần mềm sử dụng phổ biến III ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀO XÂY DỰNG HỆ THỐNG TƯ VẤN LỰA CHỌN MÔN HỌC Phần giới thiệu mơ hình đào tạo theo tín chỉ, tìm hiểu cách sử dụng phần mềm mã nguồn mở Weka để sinh luật kết hợp Sau xây dựng hệ thống tư vấn môn học cho Sinh viên III.1 Đặc điểm đào tạo theo tín  Sinh viên chủ động đăng ký môn học  Sinh viên tốt nghiệp sau hoàn thành khoảng 90 đơn vị trình đại cương, 120 đơn vị trình chuyên ngành Tập mục (Itemset) Tập mục X gọi tập mục thường xuyên có Supp(X)  MinSup, ( MinSup giá trị cho trứoc) Tính chất (Hỗ trợ tập con) Giả sử A, B  I hai tập mục với A  B Supp(A)  Supp(B) Tính chất Giả sử A, B hai tập mục, A, B  I Nếu B tập mục thường xuyên A  B A tập mục thường xuyên Tính chất A, B hai tập mục, A  B A tập mục khơng thường xun B tập mục không thường xuyên Luật kết hợp Cho giao tác, giao tác tập mục, luật biểu thức có dạng XY, với X, Y tập mục, X  Y = , X  I, Y  I, X gọi tiền đề, Y gọi kết luận luật Một luật X  Y thoả mãn D với support tối thiểu minsup ngưỡng confidence tối thiểu minconf cho trước ta phải có: Support (X  Y)  minsup Và Confidence (X Y) minconf (X Y phải tập mục thường xuyên D) Tính chất Luật kết hợp khơng có tính bắc cầu Nếu X Y Y  Z thoả D khơng thể khăng định X Z thoả mãn D Tính chất Luật kết hợp khơng có tính tách 8 Nếu X  Y Z X Z Y  Z chưa xảy Tính chất Luật kết hợp khơng có tính bắc cầu Nếu X Y Y  Z thoả D khơng thể khăng định X Z thoả mãn D 13 nhớn k+1 khơng đủ nhớ Kích thước k ước lượng công thức candidatescCksuport(c)+ số giao tác II.3.2.Thuật toán sinh luật kết hợp For all large k-itemset lk , k2, begin H1 ={hệ luật từ lk với item có mặt phần hệ quả} Tính chất Nếu luật X (L-X) khơng thoả độ tin cậy cực tiểu luật Y(L-Y) không thoả mãn, với tập mục Y  X  L II.2.Mơ hình tốn khai phá luật kết hợp Bài toán xuất phát từ kho liệu lưu thông tin kết học tập sinh viên với mong muốn tìm quy luật lựa chọn chuyên ngành môn tự chọn đào tạo tín cách hợp lý cho đạt kết học tập tốt Khai phá luật kết hợp từ sở liệu chia thành hai giai đoạn: Dữ liệu vào: Cho trước tập mục I, sở liệu D, ngưỡng minsup minconf Dữ liệu ra: Tìm tất luật kết hợp X Y D thoả mãn: Support (XY)  minsup confidence (X Y)  minconf Giai đoạn 1: Tìm tất tập mục thường xuyên (các tập có support lớn ngưỡng minsup): - Tạo tập tập mục (itemset), gọi ứng viên (candidate) Yêu cầu bước tối ưu kích thước Call ap_genrules (lk , Hl); End Procedure ap_genrules (lk:large k-itemset, Hm: set of m-item consequents) If (k >m+1) then begin Hm+1 =Apriori_gen(Hm); For all hm+1  Hm+1 begin Conf = support (lk)/support (lk-hm+1); If (conf minconf) then Output the rule (lk –hm+1)  hm+1 With confidence =conf and support=support(lk); Else Delete hm+1 from Hm+1; End Call ap_genrules (lk, Hm+1); End II.4 Phần mềm mã nguồn mở Weka Weka phát triển trường Đại học Waikato New Zealand tên viết tắt Waikato Environment for Knowledge Analysis Hệ thống viết Java Nó chạy bấ kỳ platform nào, thử nghiệm với Linux 12 //sử dụng tập mục phổ biến trước For (mỗi tập k-1 mục s c) If s  Lk-1 then return TRUE; End; Thuật toán AprioriTID L1= {Large 1-itemset}; C’1 = Database D; for (k=2; Lk-1   ; k++) Begin Ck = apriori_gen(Lk-1); C’k = ; for tất t  C’k-1 begin // xác định tập ứng viên Ck chứa giao dịch với định //danh t Tid (Transaction Code) Ct = c  Ck | (c-c[k])  t.Set_of_ItemSets^(c-c[k-1] t.Set_of_ItemSets for ứng viên c  Ct c.count ++; if (Ct) then C’k+= < t.Tid, Ct > end Lk = c Ck | c.count  minsup; End return = kLk; Thuật toán AprioriHibrid Thuật toán AprioriHyrid thuật toán lai thuật toán Apriori AprioriTID; nghĩa ban đầu sử dụng thuật toán Apriori, k nhỏ vừa đủ nhớ số phần tử tập ứng viên Ck nhỏ Ck-1 chuyển sang sử dụng thuật toán AprioriTID Điều kiện thứ hai để tránh tượng k đủ vộ tập ứng viên để hạn chế chi phí nhớ thời gian Số lượng tập ứng viên khởi tạo phụ thuộc vào đặc thù thuật toán - Đếm số giao dịch hỗ trợ tập mục ứng cử (candidate itemset) cách duyệt qua giao dịch sở liệu Thuật toán lặp lại trình xác định tập mục thường xuyên thoả mãn yêu cầu Giai đoạn 2: Khai phá luật kết hợp Khi thu tập mục thường xuyên giai đoạn 1, thuật toán sinh luật cách: - Đếm tính tốn độ hỗ trợ Support cho tập mục thường xuyên tập (subset) chúng để tính tốn độ tin cậy confidence - Xây dựng luật: Dựa vào tính chất 2.3, ứng với tập mục thường xuyên, tập tiền đề luật, mục lại đưa vào kết luận luật - Chọn luật: Tính tốn giá trị confidence luật sinh ra, giá trị lớn ngưỡng minconf luật chọn Thuật toán phát luật kết hợp từ tập mục thường xuyên theo bước sau: Dữ liệu vào: I, D, minsup, minconf, L tập tập mục thường xuyên Dữ liệu ra: Tất luật kết hợp thoả mãn minsup minconf 10 11 Tìm tất mục không rỗng X tập mục thường xuyên l L Lk = {c  Ck| c.count  minsup} end; return kLk Từ tập mục X  l, tìm luật có dạng X  (l-X) có độ hỗ trợ lớn minsup độ tin cậy lớn minconf Hàm apriori-gen Input: tập mục phổ biến Lk-1 có kích thước k-1 Output: tập ứng cử viên Ck Method: II.3 CÁC THUẬT TOÁN CƠ BẢN II.3.1 Các thuật toán sinh tập mục thường xuyên Thuật tốn Apriori Các kí hiệu: Lk: Tập k-mục phổ biến (large k-itemset) Ck: Tập candidate k-itemset (tập tập k-mục ứng cử viên) Input: Tập giao dịch D, ngưỡng support tối thiểu minsup Output: L- tập mục phổ biến D Method: L1={large 1-itemset} //tìm tất tập mục phổ biến: nhận L1 for (k=2; Lk-1  ; k++) begin Ck=apriori-gen(Lk-1); //sinh tập ứng cử viên từ Lk-1 for (mỗi giao dịch T D) begin CT = subset(Ck, T); //lấy tập T ứng cử viên Ck for (mỗi ứng cử viên c CT) c.count++; //tăng đếm tần xuất đơn vị end; function (Lk-1: tập mục phổ biến có kích thước k-1) Begin For (mỗi L1  Lk-1) For (mỗi L2  Lk-1) begin If ((L1[1]=L2[1])  (L1[2]=L2[2])   (L1[k2]=L2[k-2])  (L1[k-1]=L2[k1])) then c = L1  L2; // kết nối L1 với L2 sinh ứng cử viên c If has_infrequent_subset(c, Lk-1) then remove (c) // bước tỉa (xoá ứng cử viên c) else Ck = Ck  {c}; kết tập c vào Ck end; Return Ck; End; Hàm kiểm tra tập k-1 mục ứng cử viên k-mục không tập phổ biến: function has_infrequent_subset(c: viên k-mục; Lk-1 tập phổ biến k-1 mục) Begin ứng cử ... thuật cho phép lấy tri thức từ sở liệu gọi kỹ thuật khai phá liệu (DM: Data Mining) Có nhiều kỹ thuật khai phá liệu khác tuân theo bước trình phát tri thức Luận văn ? ?Khai phá liệu cho tư vấn lựa chọn. .. thuật khai phá luật kết hợp tư vấn môn học cho sinh viên Một ví dụ ví dụ áp dụng thể xây dựng hệ tư vấn trường Đại học Thăng Long 2 19 I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU KẾT LUẬN Ngày nay, liệu. .. Xây dựng hệ thống tư vấn môn học cho Sinh viên nhằm giúp sinh viên định hướng việc lựa chọn môn học, chuyên ngành học I.1 QUÁ TRÌNH PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU Quá trình phát tri thức trải

Ngày đăng: 19/03/2021, 17:57

Tài liệu cùng người dùng

Tài liệu liên quan