Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
443,17 KB
Nội dung
1 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM THỊ THANH MAI ỨNG DỤNG LUẬT KẾT HỢP TRONG HỖ TRỢ TƯ VẤN CHỌN CHUYÊN NGÀNH HỌCCHO SINH VIÊN Chuyên ngành: Truyền liệu mạng máy tính Mã số: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học:PGS.TS NGUYỄN BÁ TƯỜNG Phản biện 1: …………………………………………… Phản biện 2: …………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 22 Hướng phát triển luận văn: Để trình đào tạo theo tín hoạt động có hiệu quả, cần xây dựng hệ thống hoàn chỉnh hỗ trợ trình đào tạo (hỗ trợ thêm nhiều chức năng: xếp lịch học, sinh viên đăng ký môn học, …) Hiện nay, liệu lưu trữ ngày tăng, để ứng dụng khai phá liệu vào toán cần tiếp tục nghiên cứu phương pháp xử lý cho tốn có liệu lớn Xem xét, nghiên cứu số ứng dụng khác Khai phá liệu MỞ ĐẦU Bước sang kỷ 21 phải đối mặt với gia tăng, bùng nổ liệu từ mức độ Terabytes đến mức độ Petabytes, làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lưu trữ, phân tích khai phá liệu Khai phá liệu khai phá thơng tin hữu ích tiềm ẩn, khơng biết trước sở liệu Khai phá liệu ứng dụng thành công nhiều lĩnh vực khác thương mại, tài chính, thị trường chứng khoán, y học, thiên văn học, sinh học, giáo dục viễn thông… Hệ thống giáo dục nước ta dần chuyển từ đào tạo theo niên chế sang đào tạo theo tín Đào tạo tín có nhiều ưu điểm, giúp sinh viên tự quản lý quỹ thời gian tùy theo khả sinh viên tự định môn học kỳ, tạo điều kiện cho sinh viên đạt kết cao học tập Vì việc xây dựng hệ thống tư vấn lựa chọn chuyên ngành học cho sinh viên điều cần thiết hữu ích Mục đích luận văn là: Tìm hiểu kỹ thuật khai phá liệu, nghiên cứu sử dụng kỹ thuật khai phá luật kết hợp hỗ trợ tư vấn chọn chuyên ngành học cho sinh viên, trình bầy ví dụ áp dụng cho nghiên cứu xây dựng hệ thống tư vấn lựa chọn chuyên ngành học cho sinh viên trường Cao đẳng Kinh tế Kỹ thuật Thương mại 21 Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Đặt vấn đề Ngày liệu lưu trữ ngày gia tăng Vấn đề đặt phải làm để tìm tri thức hữu ích, tiềm ẩn từ lượng lớn khổng lồ liệu Nhiệm vụ Khai phá liệu từ liệu có sẵn tìm thơng tin tiềm ẩn có giá trị mà trước chưa phát tìm xu hướng phát triển xu hướng tác động lên chúng Các kỹ thuật cho phép lấy tri thức từ sở liệu gọi kỹ thuật khai phá liệu (DM: Data Mining) Có nhiều kỹ thuật khai phá liệu khác tuân theo bước trình phát tri thức KẾT LUẬN Luận văn “Ứng dụng luật kết hợp hỗ trợ tư vấn chọn chuyên ngành học cho sinh viên” trình bày số kết sau đây: Những nghiên cứu khai phá liệu ứng dụng nhiều lĩnh vực khác nhằm khai phá nguồn liệu phong phú lưu trữ hệ thống thông tin Khai phá liệu áp dụng nhiều việc tư vấn, dự báo, đặc biệt ứng dụng cho tư vấn giáo dục Khai phá liệu có nhiều hướng tiếp cận (nhiều nhiệm vụ, mục đích), có nhiệm vụ phổ biến: phát Luật kết hợp (Association rules), Phân cụm (Clustering) Phân loại (Classification) Trong nhiệm vụ phát luật kết hợp nhiệm vụ quan tâm, nghiên cứu nhiều Tìm hiểu ưu điểm khó khăn việc đào tạo theo tín Sử dụng phần mềm mã nguồn mở Weka (đang sử dụng phổ biến) cho việc sinh luật kết hợp Xây dựng hệ thống tư vấn môn học cho Sinh viên nhằm giúp sinh viên định hướng việc lựa chọn mơn học, chun ngành học 1.2 Q trình phát tri thức từ sở liệu 1.2.1 Quá trình phát tri thức Quá trình phát tri thức từ sở liệu bao gồm năm giai đoạn sau: Hiểu xác định vấn đề Thu thập tiền xử lý liệu Khai phá liệu Minh họa, đánh giá tri thức phát Đưa kết vào thực tế 20 Giai đoạn (tư vấn): sử dụng luật nhận từ giai đoạn để đưa tư vấn cho người dùng Người dùng cập nhập liệu điểm mơn Đại cương Sau đó, người dùng yêu cầu hệ thống đưa định hướng chuyên ngành định hướng mơn lựa chọn (chương trình hiển thị luật phù hợp với liệu điểm mà người dùng cập nhật) FOR tất luật DO IF cặp mamon, loaidiem vế trái luật i trùng với cặp mamon_loaidiem bangdiem THEN Luật i luật tư vấn cho người dùng END END Hình 3.6.:Thuật tốn tư vấn 3.4 Kết luận chương Trong chương trình bầy thuận lợi khó khăn q trình đào tạo theo tín Hiểu bước tiền xử lý liệu từ nguồn liệu thu thập Sử dụng phần mềm mã nguồn mở Weka vào việc sinh tập luật kết hợp Từ mơ tả tiến trình tư vấn mơn học cho sinh viên Giúp sinh viên định hướng việc học tập, đạt kết tốt học tập Hình mơ tả giai đoạn trình phát tri thức từ sở liệu Quá trình phát tri thức từ sở liệu trình tương tác, lặp lặp lại theo chu trình liên tục kiểu xốy trơn ốc, lần lặp sau hồn chỉnh lần lặp trước Giai đoạn sau sử dụng kết giai đoạn trước 1.2.2 Các nhiệm vụ khai phá liệu 1.3 Các kỹ thuật khai phá liệu Cây định Luật kết hợp Mạng Nơron Thuật toán di truyền (1) Cây định: Cây định cấu trúc giống lưu đồ mà nút biểu diễn trường hợp thử phép kiểm tra thuộc tính Mỗi phân nhánh nút biểu diễn khả giá trị (miền giá trị) phép thử Các giá trị nằm phía so với ngưỡng tương ứng nút Các nút biểu diễn lớp phân bố lớp Nút gọi nút gốc (2) Luật kết hợp: Trong thực tế chuyên gia kinh doanh tiếp thị quan tâm đến luật có dạng như: “ 90% phụ nữ có xe máy màu đỏ đeo đồng hồ Thuỵ Sỹ dùng nước hoa hiệu Chanel” Những thơng tin hữu ích cho việc định hướng hoạt động tiếp thị kinh doanh Luật kết hợp có dạng X=>Y Tuy nhiên thơng tin tìm từ sở liệu lớn Nhưng thông tin đáng tin cậy Phương pháp khai phá luật kết hợp có hai yếu tố đặc trưng độ hỗ trợ (support)- tần xuất xuất tập mục sở liệu độ tin cậy (confidence)- tỉ lệ phần trăm ghi chứa Y số ghi có X 19 3.2 Kiến trúc hệ tư vấn 3.2.1 Kiến trúc chương trình (3) Mạng nơron: Có nhiều kiến trúc khác cho mạng nơron, chúng sử dụng cách kết nối mạng khác chiến lựơc học khác để thực nhiệm vụ Khi sử dụng mạng nơron phải phân biệt hai giai đoạn: giai đoạn mã hoá mạng nơron học mẫu liệu huấn luyện, thực nhiệm vụ giai đoạn giải mã mạng sử dụng để phân lớp, làm dự báo thực bắt nhiệm vụ học liên quan (4) Thuật toán di truyền: Việc xây dựng thuật tốn di truyền sinh học nhằm tìm giải pháp tốt bao gồm bước sau: Tạo chế mã di truyền dạng xâu bảng mã kỹ tự hạn chế Thiết lập mơi trường nhân tạo máy tính giải pháp tham gia “đấu tranh sinh tồn” với để xác định độ đo thành cơng hay thất bại, hay cịn gọi “hàm thích nghi” Phát triển “phép lai ghép” để giải pháp kết hợp với Khi xâu mã di truyền giải pháp cha mẹ bị cắt xếp lại Trong trình sinh sản kiểu đột biến áp dụng Cung cấp quần thể giải pháp ban đầu tương đối đa dạng để máy tính thực “cuộc chơi tiến hố” cách Hình 3.1.Kiến trúc hệ thống tư vấn 3.2.2 Mơ tả chương trình Giai đoạn (khai phá liệu): Trong giai đoạn phần mềm mã nguồn Weka sử dụng để sinh luật kết hợp Từ liệu thu thập được, ta chỉnh sửa cho khơng tính xác liệu Tạo file liệu định dạng ARFF Tải file liệu vào phần mềm mã nguồn mở Weka Sử dụng phần sinh luật kết hợp, với thuật toán Apriori, ta tập luật kết hợp lưu dạng file text 18 Chương 3: NGHIÊN CỨU XÂY DỰNG HỆ THỐNG HỖ TRỢ TƯ VẤN CHỌN CHUYÊN NGÀNH HỌC CHO SINH VIÊN TẠI TRƯỜNG CAO ĐẲNG KINH TẾ KỸ THUẬT THƯƠNG MẠI Chương giới thiệu mơ hình đào tạo theo tín chỉ, tìm hiểu cách sử dụng phần mềm mã nguồn mở Weka để sinh luật kết hợp Sau nghiên cứu xây dựng hệ thống tư vấn môn học cho Sinh viên 3.1 Giới thiệu mơ hình đào tạo theo tín - Sinh viên chủ động đăng ký môn học - Sinh viên tốt nghiệp sau hồn thành 42 tín đại cương, 69 tín chuyên ngành - Sinh viên dễ dàng chuyển đổi chuyên ngành mà bảo lưu điểm tương ứng - Sinh viên chủ động xếp lịch học cho phù hợp với lực học, tài - Sinh viên học lại, thi lại môn với lớp sau mà không cần tổ chức thi lại loại bỏ giải pháp từ cá thể thay chúng cháu đột biến giải pháp tốt Thuật toán kết thúc họ giải pháp thành công sinh 1.4 Ứng dụng khai phá liệu giáo dục Hiện có nhiều nghiên cứu ứng dụng khai phá liệu cho giáo dục Những khai phá liệu giáo dục bật lên lĩnh vực nghiên cứu độc lập năm gần đây, mà cao điểm năm 2008 với thành lập hội nghị quốc tế khai phá liệu giáo dục, báo khai phá liệu giáo Đó “Applying Data Mining Techniques to e-Learning Problems” Félix Castro1, Alfredo Vellido1, Àngela Nebot1, Francisco Mugica3, “Recommendation in Higher Education Using Data Mining Techniques” César Vialardi, Javier Bravo, Leila Shafti, Álvaro Ortigosa, “Using Association Rules for Course Recommendation” Narimel Bendakir Esma Aămeur Vic ng dng khai phỏ d liu giáo dục đóng vai trị quan trọng việc phát triển giáo dục trợ giúp đáng kể cho hoạt động giáo dục 8 17 End Call ap_genrules (lk, Hm+1); End Chương 2: LUẬT KẾT HỢP Khai phá luật kết hợp tìm mối quan hệ kết hợp từ tập mục liệu, thông thường từ sở liệu lớn, giới thiệu năm 1993 Từ đến nay, khai phá luật kết hợp thu hút nhiều quan tâm nhà nghiên cứu, không ngừng phát triển đóng vai trị quan trọng khai phá tri thức từ sở liệu 2.1 Các khái niệm Kí hiệu I = {i1, i2, …, im} tập thuộc tính D sở liệu tập giao tác, giao tác T tập mục tập mục I, T I Mỗi giao tác có định danh gọi TID (Transaction Identification) X={i1, i2,…,ik} I gọi tập mục hay tập k-mục chứa k mục Một giao tác T gọi chứa tập mục X X T Mỗi giao tác , I tập mục Độ hỗ trợ (support) Độ hỗ trợ tập mục X sở liệu D tỉ số số giao tác T D có chứa tập X tổng số giao tác D (hay phần trăm giao tác D có chứa tập mục X), kí hiệu Supp(X) | T D : X T | Supp (X) |D | 2.5 Sinh luật kết hợp với phần mềm mã nguồn mở Weka Weka phát triển trường Đại học Waikato New Zealand tên viết tắt Waikato Environment for Knowledge Analysis Hệ thống viết Java Nó chạy platform nào, thử nghiệm với Linux windows, hệ điều hành Macintosh Nó cung cấp giao diện thống với nhiều thuật toán khác nhau, với phương pháp cho việc xử lý trước xử lý sau dành cho việc đánh giá kết sơ đồ học tập liệu cho trước Weka download từ http://www.cs.waikato.ac.nz/ml/weka Để sử dụng phần mềm Weka ta phải chuẩn bị liệu dạng file ARFF Dữ liệu đầu lưu file dạng text 2.6 Kết luận chương Trong chương này, tìm hiểu khái niệm bản, thuật toán khai phá luật kết hợp tìm hiểu phần mềm mã nguồn mở Weka, cách Độ hỗ trợ luật X Y tỉ số số giao tác có chứa X Y số giao tác sở liệu D, kí hiệu: Supp(XY) sử dụng Weka để sinh luật kết hợp - phần mềm sử dụng phổ biến 16 End return = kLk; Supp (X Y) Thuật toán AprioriHibrid Thuật toán AprioriHyrid thuật toán lai thuật toán Apriori AprioriTID; nghĩa ban đầu sử dụng thuật toán Apriori, k nhỏ vừa đủ nhớ số phần tử tập ứng viên Ck nhỏ Ck-1 chuyển sang sử dụng thuật tốn AprioriTID Điều kiện thứ hai để tránh tượng k đủ vộ nhớn k+1 khơng đủ nhớ Kích thước k ước lượng công thức candidatescCksuport(c)+ số giao tác 2.4.2 Thuật toán sinh luật kết hợp For all large k-itemset lk , k2, begin H1 ={hệ luật từ lk với item có mặt phần hệ quả} Call ap_genrules (lk , Hl); End Procedure ap_genrules (lk:large k-itemset, Hm: set of m-item consequents) If (k >m+1) then begin Hm+1 =Apriori_gen(Hm); For all hm+1 Hm+1 begin Conf = support (lk)/support (lk-hm+1); | T D : X Y T| |D| Độ Tin cậy (Confidence) Độ tin cậy luật r =X Y tỉ số (phần trăm) số giao tác D chứa X Y với số giao tác D có chứa tập mục X Kí hiệu độ tin cậy luật conf (r) Ta có conf Tập mục (Itemset) Tập mục X gọi tập mục thường xuyên có Supp(X) MinSup, ( MinSup giá trị cho trứoc) Luật kết hợp Cho giao tác, giao tác tập mục, luật biểu thức có dạng XY, với X, Y tập mục, X Y = , X I, Y I, X gọi tiền đề, Y gọi kết luận luật Một luật X Y thoả mãn D với support tối thiểu minsup ngưỡng confidence tối thiểu minconf cho trước ta phải có: Support (X Y) minsup Và Confidence (X Y) minconf If (conf minconf) then (X Y phải tập mục thường xuyên D) Output the rule (lk –hm+1) hm+1 With confidence =conf and support=support(lk); Else Delete hm+1 from Hm+1; Tính chất Luật kết hợp khơng có tính bắc cầu Nếu X Y Y Z thoả D khơng thể khăng định X Z thoả mãn D 10 15 else Ck = Ck {c}; kết tập c vào Ck Tính chất Luật kết hợp khơng có tính tách Nếu X Y Z X Z Y Z chưa xảy Tính chất Luật kết hợp khơng có tính bắc cầu Nếu X Y Y Z thoả D khăng định X Z thoả mãn D Tính chất Nếu luật X (L-X) khơng thoả độ tin cậy cực tiểu luật Y(L-Y) khơng thoả mãn, với tập mục Y X L 2.2 Mơ tả kho liệu điểm tốn Với sở liệu (CSDL) có 6.000 sinh viên gần 2000 sinh viên tốt nghiệp (kể từ khóa 11 đến khóa 13) (ký hiệu CSDL D) Ta xem sở liệu D ma trận dòng thể giao tác cột ứng với mục (thuộc tính) Ma trận trình bày theo cách: Dạng véc tơ mục ngang, Dạng danh sách mục ngang, Dạng véc tơ định danh dọc, Danh sách định danh dọc Dạng véc tơ mục ngang: HIV (Horizontal Item Vecto) sở liệu tổ chức tập dịng dòng lưu trữ định danh (TID) giao tác vectơ end; Return Ck; End; Hàm kiểm tra tập k-1 mục ứng cử viên k-mục không tập phổ biến: function has_infrequent_subset(c: ứng cử viên k-mục; Lk-1 tập phổ biến k-1 mục) Begin //sử dụng tập mục phổ biến trước For (mỗi tập k-1 mục s c) If s Lk-1 then return TRUE; End; Thuật toán AprioriTID L1= {Large 1-itemset}; C’1 = Database D; for (k=2; Lk-1 ; k++) Begin Ck = apriori_gen(Lk-1); C’k = ; for tất t C’k-1 begin // xác định tập ứng viên Ck chứa giao dịch với định //danh t Tid (Transaction Code) Ct = c Ck | (c-c[k]) t.Set_of_ItemSets^(c-c[k-1] t.Set_of_ItemSets for ứng viên c Ct c.count ++; if (Ct) then C’k+= < t.Tid, Ct > end Lk = c Ck | c.count minsup; 14 Ck=apriori-gen(Lk-1); //sinh tập ứng cử viên từ Lk-1 for (mỗi giao dịch T D) begin CT = subset(Ck, T); //lấy tập T ứng cử viên Ck for (mỗi ứng cử viên c CT) c.count++; //tăng đếm tần xuất đơn vị end; Lk = {c Ck| c.count minsup} 11 nhận giá trị tuỳ thuộc vào khơng có mặt hay có mặt giao tác end; return kLk Hàm apriori-gen Input: tập mục phổ biến Lk-1 có kích thước k-1 Output: tập ứng cử viên Ck Method: function (Lk-1: tập mục phổ biến có kích thước k-1) Begin For (mỗi L1 Lk-1) For (mỗi L2 Lk-1) begin If ((L1[1]=L2[1]) (L1[2]=L2[2]) (L1[k2]=L2[k-2]) (L1[k-1]=L2[k1])) then c = L1 L2; // kết nối L1 với L2 sinh ứng cử viên c If has_infrequent_subset(c, Lk-1) then remove (c) // bước tỉa (xoá ứng cử viên c) Hình 2.3 Dạng biểu diễn CSDL 2.3 Xây dựng toán tổng quát Bài toán: Cho kho liệu điểm, lưu thông tin kết học tập sinh viên Hãy tìm quy luật lựa chọn chuyên ngành học môn tự chọn đào tạo tín cách hợp lý cho đạt kết học tập tốt Khai phá luật kết hợp từ sở liệu chia thành hai giai đoạn: Dữ liệu vào: Cho trước tập mục I, sở liệu D, ngưỡng minsup minconf Dữ liệu ra: Tìm tất luật kết hợp X Y D thoả mãn: 12 13 Support (XY) minsup confidence (X Y) minconf Thuật toán phát luật kết hợp từ tập mục thường xuyên theo bước sau: Giai đoạn 1: Tìm tất tập mục thường xuyên (các tập có support lớn ngưỡng minsup): Dữ liệu vào: I, D, minsup, minconf, L tập tập mục thường xuyên - Tạo tập tập mục (itemset), gọi ứng viên (candidate) Yêu cầu bước tối ưu kích thước tập ứng viên để hạn chế chi phí nhớ thời gian Số lượng tập ứng viên khởi tạo phụ thuộc vào đặc thù thuật toán Dữ liệu ra: Tất luật kết hợp thoả mãn minsup minconf - Đếm số giao dịch hỗ trợ tập mục ứng cử (candidate itemset) cách duyệt qua giao dịch sở liệu Thuật toán lặp lại trình xác định tập mục thường xuyên thoả mãn yêu cầu Giai đoạn 2: Khai phá luật kết hợp Tìm tất mục không rỗng X tập mục thường xuyên l L Từ tập mục X l, tìm luật có dạng X (l-X) có độ hỗ trợ lớn minsup độ tin cậy lớn minconf 2.4 Các thuật toán 2.4.1 Các thuật toán sinh tập mục thường xuyên a Thuật toán Apriori Khi thu tập mục thường xuyên giai đoạn 1, thuật tốn sinh luật cách: Các kí hiệu: - Đếm tính tốn độ hỗ trợ Support cho tập mục thường xuyên tập (subset) chúng để tính tốn độ tin cậy confidence Ck: Tập candidate k-itemset (tập tập k-mục ứng cử - Xây dựng luật: Dựa vào tính chất 2.3, ứng với tập mục thường xuyên, tập tiền đề luật, mục cịn lại đưa vào kết luận luật - Chọn luật: Tính tốn giá trị confidence luật sinh ra, giá trị lớn ngưỡng minconf luật chọn Lk: Tập k-mục phổ biến (large k-itemset) viên) Input: Tập giao dịch D, ngưỡng support tối thiểu minsup Output: L- tập mục phổ biến D Method: L1={large 1-itemset} //tìm tất tập mục phổ biến: nhận L1 for (k=2; Lk-1 ; k++) begin ... Sử dụng phần sinh luật kết hợp, với thuật toán Apriori, ta tập luật kết hợp lưu dạng file text 18 Chương 3: NGHIÊN CỨU XÂY DỰNG HỆ THỐNG HỖ TRỢ TƯ VẤN CHỌN CHUYÊN NGÀNH HỌC CHO SINH VIÊN TẠI... giúp sinh viên tự quản lý quỹ thời gian tùy theo khả sinh viên tự định môn học kỳ, tạo điều kiện cho sinh viên đạt kết cao học tập Vì việc xây dựng hệ thống tư vấn lựa chọn chuyên ngành học cho sinh. .. liệu điểm, lưu thông tin kết học tập sinh viên Hãy tìm quy luật lựa chọn chuyên ngành học môn tự chọn đào tạo tín cách hợp lý cho đạt kết học tập tốt Khai phá luật kết hợp từ sở liệu chia thành