Áp dụng thuật toán FHIM để khai phá tập mục hữu ích cao từ cơ sở dữ liệu đào tạo trường đại học phạm văn đồng (tt)

26 108 0
Áp dụng thuật toán FHIM để khai phá tập mục hữu ích cao từ cơ sở dữ liệu đào tạo trường đại học phạm văn đồng (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHẠM KHÁNH BẢO ÁP DỤNG THUẬT TOÁN FHIM ĐỂ KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU ĐÀO TẠO TRƯỜNG ĐẠI HỌC PHẠM VĂN ĐỒNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng – Năm 2016 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TSKH Trần Quốc Chiến Phản biện 1: TS Lê Thị Mỹ Hạnh Phản biện 2: TS Nguyễn Quang Thanh Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 25 tháng 07 năm 2016 * Có thể tìm hiểu luận văn tại: Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết đề tài Khai phá luật kết hợp kỹ thuật khai phá liệu sử dụng phổ biến Khai phá luật kết hợp tiến hành qua bước: 1: khai phá tập phổ biến thỏa mãn độ hỗ trợ tối thiểu từ sở liệu giao tác; 2: sinh luật kết hợp thỏa mãn độ tin cậy tối thiểu từ tập phổ biến xác định Việc khai phá tập mục phổ biến mang ngữ nghĩa thống kê nên đáp ứng phần nhu cầu ứng dụng thực tiễn Chính điều mà khái niệm đời, Khai phá tập mục hữu ích cao (High Utility Itemsets Mining), tức mục có xét đến yếu tố hữu ích (ví dụ: số lượng, lợi nhuận mặt hàng giao tác) Như vậy, khai phá tập mục hữu ích cao trình tìm kiếm sở liệu giao tác tập mục có giá trị hữu ích khơng nhỏ ngưỡng hữu ích tối thiểu cho trước Vì tập mục hữu ích cao khơng thỏa mãn tính chất Apriori nên khơng thể áp dụng chiến lược tỉa khơng gian tìm kiếm sử dụng khai phá tập phổ biến vào thuật tốn khai phá tập mục hữu ích cao, vậy, khai phá tập mục hữu ích cao khó khăn nhiều so với khai phá tập mục phổ biến Xuất phát từ vấn đề này, nhiều nhà nghiên cứu đề xuất nhiều thuật toán để khai phá tập mục hữu ích cao Tháng 03/2015, tạp chí có uy tín Expert System with Applications, nhà khoa học người Ấn Độ có tên Jayakrushna Sahoo, Ashok Kumar Das A Goswami đề xuất thuật toán có tên FHIM Theo nhận xét nhóm tác giả, thuật tốn có khả khắc phục hạn chế thuật toán đề xuất trước Thực tế Trường Đại học Phạm Văn Đồng cho thấy, kết học tập số môn học cao, không đánh giá lực sinh viên (tạm gọi môn học có kết bất thường) Việc xác định mơn học cần thiết Với liệu kết học tập sinh viên ngành Công nghệ thông tin trường ĐH Phạm Văn Đồng năm qua, ta sử dụng phương pháp khai phá liệu để rút thông tin mơn học có kết bất thường Một kỹ thuật khai phá tập mục hữu ích cao Coi sinh viên giao tác, môn học mà sinh viên học mục giao tác Từ CSDL giao tác này, ta rút tập mục hữu ích cao, tập hợp mơn học có kết bất thường Vì lý trên, tơi chọn đề tài “Áp dụng thuật tốn FHIM để khai phá tập mục hữu ích cao từ sở liệu đào tạo trường Đại học Phạm Văn Đồng” làm đề tài luận văn cao học Mục tiêu nghiên cứu - Mục tiêu chung: Nghiên cứu thuật toán FHIM để khai phá tập mục hữu ích cao từ CSDL giao tác Ứng dụng thuật toán FHIM để tìm tập mục hữu ích cao (các mơn học có kết điểm bất thường) từ kho liệu thô (kết học tập sinh viên ngành CNTT trường Đại học Phạm Văn Đồng) - Các mục tiêu cụ thể: + Tìm hiểu khai phá liệu nói chung khai phá luật kết hợp nói riêng + Tìm hiểu thuật tốn khai phá tập mục hữu ích cao trước + Tìm hiểu thuật tốn FHIM + Thu thập liệu đào tạo sinh viên ngành CNTT, trường ĐH Phạm Văn Đồng từ năm 2007 đến + Tìm hiểu cách tạo CSDL giao tác từ kho liệu thơ + Cài đặt thuật tốn FHIM thực nghiệm CSDL giao tác, từ rút tập mục hữu ích cao, mơn học có kết bất thường + Tiến hành so sánh, đánh giá thuật toán FHIM so với thuật toán trước Đối tượng phạm vi nghiên cứu a Đối tượng nghiên cứu - Thuật toán FHIM khai phá tập mục hữu ích cao b Phạm vi nghiên cứu - Khai phá tập mục hữu ích cao từ CSDL giao tác - Thuật toán FHIM - Ứng dụng việc khai phá tập mục hữu ích cao để xác định mơn học có kết bất thường Phương pháp nghiên cứu a Phương pháp lý thuyết - Nghiên cứu tài liệu: tìm hiểu, phân tích, tổng hợp tài liệu có liên quan từ sách, giáo trình, báo ngồi nước b Phương pháp thực nghiệm - Cài đặt thuật toán chạy thử nghiệm liệu thực tế Ý nghĩa khoa học thực tiễn - Cài đặt thuật toán FHIM để khai phá tập mục hữu ích cao - Rút ưu điểm so với thuật toán khác, tiến tới đề xuất cải tiến thuật toán (nếu có thể) - Từ CSDL điểm sinh viên, rút mơn học có kết điểm bất thường, từ có phương pháp cải tiến, nâng cao chất lượng đào tạo Bố cục luận văn Chương 1: Cơ sở lý thuyết khai phá liệu Chương 2: Khai phá tập mục hữu ích cao từ CSDL giao tác Chương 3: Cài đặt thuật toán FHIM ứng dụng khai phá liệu đào tạo CHƯƠNG CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khai phá liệu Khai phá liệu (Data Mining) tiến trình khám phá tri thức tiềm ẩn CSDL Cụ thể hơn, tiến trình trích lọc, sản sinh tri thức mẫu tiềm ẩn, chưa biết hữu ích từ CSDL lớn Mục đích khai phá liệu trích lọc thơng tin có ích (khơng hiển nhiên, khơng tường minh, khơng biết trước) từ mẫu liệu sở liệu nhằm cải tiến định tương lai Khai phá liệu thực phát huy hiệu CSDL lớn, nơi mà phương pháp truyền thống khả diễn dịch người thực thực với hiệu không cao 1.1.2 Lịch sử phát triển Khai phá liệu Khai phá liệu bắt đầu phát triển từ năm 1970 Từ đến nay, Khai phá liệu có bước phát triển đáng kể với nhiều lĩnh vực nghiên cứu Ngày nay, khai phá liệu trở nên phổ biến lĩnh vực kinh doanh, khoa học, kỹ thuật, y học Thuật ngữ Big Data trở nên phổ biến mà việc thu thập liệu trở nên dễ dàng tốn nhiều so với trước 1.1.3 Các sở liệu khai phá - Cơ sở liệu quan hệ (Relational Database) - Cơ sở liệu giao tác (Transaction Database) 1.1.4 Các công đoạn khám phá tri thức từ sở liệu a Trích lọc liệu b Tiền xử lý liệu c Chuyển đổi liệu d Khai phá liệu e Đánh giá biểu diễn tri thức 1.1.5 Các kỹ thuật khai phá liệu a Khai phá tập phổ biến luật kết hợp b Khai phá mẫu c Phân lớp liệu d Dự đoán e Khai thác cụm 1.1.6 Một số ứng dụng khai phá liệu Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực khác như: tài ngân àng, công nghiệp bán lẻ, viễn thông, thương mại điện tử, giáo dục, y tế, sinh học, an toàn mạng, thiên văn học, thể thao, giải trí, đầu tư, quảng cáo, nhân sự, chế tạo khí… 1.1.7 Khó khăn khai phá liệu - Kích thước sở liệu lớn - Dữ liệu biến đổi - Dữ liệu thiếu nhiễu - Cần giao diện trực quan 1.2 KỸ THUẬT KHAI PHÁ TẬP MỤC PHỔ BIẾN VÀ LUẬT KẾT HỢP 1.2.1 Các khái niệm a Cơ sở liệu giao tác Cho tập mục (itemset) I = {i1, i2, …, in} Một giao tác (transaction) Ti chứa tập mục Ii tập I (Ii Í I) Cơ sở liệu giao tác tập hợp giao tác T = {T1, T2, …, Tm} Mỗi giao tác gán định danh Ti Một tập mục X Í I, gồm k mục phân biệt gọi tập mục mức k (k-itemset) Giao tác Ti gọi chứa tập mục X X Í Ii b Độ hỗ trợ Độ hỗ trợ tập mục X CSDL giao tác T, ký hiệu: sup(X), tỉ lệ số giao tác CSDL có chứa tập mục X tổng số giao tác T Với: + k số giao tác có chứa tập mục X + m tổng số giao tác CSDL giao tác T c Tập mục phổ biến (frequent itemset) Tập mục X gọi tập mục phổ biến với độ hỗ trợ tối thiểu minsup nếu: sup(X) ≥ minsup Với minsup giá trị xác định người sử dụng Tính chất Apriori: Tất tập không rỗng tập phổ biến tập phổ biến d Luật kết hợp Luật kết hợp có dạng X → Y, đó, X, Y tập mục (X,Y Í I) thỏa điều kin X ầY = ặ + X c gi l tiền đề luật + Y gọi hệ luật Độ hỗ trợ (Support) luật kết hợp X → Y, ký hiệu sup(X → Y), độ hỗ trợ tập mục X È Y Nói cách khác, độ hỗ trợ luật kết hợp X → Y xác suất xuất đồng thời X Y giao tác sup(X → Y) = sup(X È Y) Độ tin cậy (Confidence) luật kết hợp X → Y, ký hiệu conf (X → Y) tỉ lệ số giao tác chứa tập mục X, Y số giao tác chứa tập mục X Độ tin cậy conf(X → Y) xác suất có điều kiện P(Y/X) conf ( X ® Y ) = sup( X È Y ) sup( X ) 1.2.2 Khai phá tập mục phổ biến Bài tốn khai phá tập mục phổ biến chia thành hai tốn nhỏ hơn: tìm tập mục ứng viên tìm tập mục phổ biến Tập mục ứng viên tập mục hy vọng tập mục phổ biến, tập mục phổ biến tập mục có độ hỗ trợ ngưỡng hỗ trợ tối thiểu người sử dụng quy định Để xác định tập mục phổ biến, cần phải duyệt không gian tìm kiếm tập mục sở liệu Các thuật toán thường áp dụng để xác định tập mục phổ biến: Apriori, Partition, FP-growth, Eclat… 1.2.3 Khai phá luật kết hợp Việc xác định luật kết hợp từ tập mục phổ biến theo nguyên tắc: X tập mục phổ biến ta có luật kết hợp: X’ X\X’ Với - X’ tập thực X - c độ tin cậy luật, thỏa mãn c ≥ minconf Như vậy, quy trình khai phá luật kết hợp thực sau: 10 CHƯƠNG KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU GIAO TÁC 2.1 ĐẶT VẤN ĐỀ Khi thực khai phá tập mục phổ biến, người ta bỏ qua giá trị hữu ích gắn liền với mục Có tập mục khơng phải tập mục phổ biến (có tần suất xuất thấp) lại có giá trị hữu ích cao nhiều so với tập mục phổ biến Trong thực tế, việc khai phá tập mục mang giá trị hữu ích cao quan trọng có ý nghĩa lớn đời sống xã hội Từ dẫn đến hướng nghiên cứu khai phá liệu, khai phá tập mục hữu ích cao 2.2 MỘT SỐ ĐỊNH NGHĨA QUAN TRỌNG Giá trị hữu ích nội (internal utility) mục giao tác số gắn liền với mục giao tác tương ứng Giá trị hữu ích ngoại (external utility) mục cung cấp bới bảng riêng, mô tả giá trị lợi nhuận mục Định nghĩa 1: Giá trị hữu ích mục (item) il giao tác td, ký hiệu u(il, td), tích giá trị hữu ích nội q(il,td) giá trị hữu ích ngoại pl il u(il, td) = pl * q(il,td) Định nghĩa 2: Giá trị hữu ích tập mục (itemset) X giao tác td, ký hiệu u(X,td) xác định tổng giá trị hữu ích tất mục chứa X 11 u ( X , t d ) = åi ỴX Ù X Ít u (il , td ) l d Định nghĩa 3: Giá trị hữu ích tập mục X CSDL giao tác D, ký hiệu u(X) xác định tổng giá trị hữu ích X trong tất giao tác chứa X D u ( X ) = å X Ít d Ù t d ỴD u ( X , t d ) =å X Ít d Ù t d ỴD å ipỴ X u (il , t d ) Định nghĩa 4: Một tập mục X gọi tập mục hữu ích cao, giá trị hữu ích X lớn độ hữu ích tối thiểu, ký hiệu min_util Ngược lại, X gọi tập mục hữu ích thấp Gọi F tập mục CSDL giao tác, H tập hợp tập mục hữu ích cao, đó: H = {X X Í F , u ( X ) ³ min_ util} 2.3 TỔNG QUAN VỀ TÌNH HÌNH NGHIÊN CỨU 2.4 MỘT SỐ HƯỚNG NGHIÊN CỨU MỞ RỘNG 2.5 MỘT SỐ THUẬT TỐN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO ĐÃ ĐƯỢC ĐỀ XUẤT 2.6 THUẬT TOÁN FHIM 2.6.1 Một số khái niệm Độ hữu ích giao tác Độ hữu ích giao tác td, ký hiệu tu(td) xác định tổng độ hữu ích tất mục chứa giao tác 12 Độ hữu ích trọng số giao tác (Transaction-Weighted Utility TWU) tập mục Độ hữu ích trọng số giao tác tập mục X CSDL D, ký hiệu TWU(X), xác định tổng giá trị hữu ích tất giao tác chứa X D Tính chất 1: Nếu tập mục X có TWU(X) nhỏ giá trị min_util cho trước, tất tập mục chứa X khơng phải tập mục hữu ích cao Danh sách hữu ích (Utility-List) Cho Ω thứ tự xếp mục I CSDL D theo thứ tự giá trị TWU tăng dần Cho tập mục X giao tác t, với X Í t Sau xếp giao tác t X theo thứ tự Ω (thứ tự xếp tập mục theo giá trị TWU tăng dần), tập hợp mục sau X t ký hiệu t/X Danh sách hữu ích X ba (tid, iutil, rutil) cho giao tác tid chứa X Tính chất 2: Cho tập mục X danh sách hữu ích UL(X) Nếu tổng giá trị iutil UL(X) nhỏ min_util, X tập mục hữu ích cao Ngược lại, X tập mục hữu ích cao Tính chất 3: Cho tập mục X danh sách hữu ích UL(X), Ω thứ tự xếp tập mục theo giá trị TWU tăng dần Một tập mục Y gọi mở rộng X Y = X È Z (với Z đứng sau X thứ tự Ω) 13 Nếu tổng tất giá trị iutil rutil danh sách hữu ích UL(X) nhỏ min_util, khơng tồn tập mục hữu ích cao Y tập mục mở rộng X Người ta gọi tổng tất giá trị iutil rutil danh sách hữu ích tập mục X giá trị hữu ích triển vọng (promising utility) X Cấu trúc EUCS (Estimated Utility Co-occurrence Structure) EUCS ba (a,b,c) Ỵ I’ x I’ x R mà TWU(a,b) = c EUCS biểu diễn ma trận chiều bảng băm Việc xây dựng EUCS thực cách duyệt CSDL lần thời điểm với việc xây dựng danh sách hữu ích Cắt tỉa EUCP (Estimated Utility Co-occurrence Pruning) Cho tập mục X = {x1, x2, …, xk} mục y Nếu EUCS không tồn ba (xk, y, c) mà c < min_util, Xy tập mục cha Xy tập mục hữu ích cao [11] 2.6.2 Thuật toán FHIM Thuật toán FHIM (D, min-util) Input: D: sở liệu, min_util: ngưỡng hữu ích tối thiểu Output: tập mục hữu ích cao Duyệt CSDL D để tính giá trị TWU cho mục Gọi C tập hợp mục x mà TWU(x) ≥ min_util Sắp xếp mục C theo thứ tự giá trị TWU tăng dần Xóa mục CSDL có TWU < min_util Xây dựng danh sách hữu ích (utility-list) UL với: 14 UL = {UL(x) | TWU(x) ≥ min_util} xây dựng cấu trúc EUCS sau: Với mục x Ỵ C: Nếu (SUM(UL(x).iutils ≥ min_util) Write {x}, {x}.utility, {x}.support Nếu (SUM(UL(x).iutils) + SUM(UL(x).rutils) ≥ min_util) 10 tail = Ỉ; 11 C Duyệt mục y Ỵ C, với x trước y 12 v ≥ min_util Nếu tồn (x, y, v) Ỵ EUCS mà X = {x} È {y} 13 14 UL(X) = Construct(Ỉ,Ỉ,UL(x),UL(y)); tail = tail È UL(X) 15 16 17 Rsearch (x, tail, min_util); Xóa UL(X) khỏi UL 2.7 TỔNG KẾT CHƯƠNG Nội dung chương tập trung vào tìm hiểu định nghĩa liên quan đến thuật tốn FHIM, từ đó, trình bày lại thuật tốn FHIM CHƯƠNG CÀI ĐẶT THUẬT TỐN FHIM VÀ ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐÀO TẠO 3.1 GIỚI THIỆU BÀI TỐN Thơng qua kết học tập sinh viên nhiều năm, Nhà 15 trường nhận thấy số môn học, kết không đánh giá lực học tập sinh viên Điểm thi sinh viên cao (hầu hết sinh viên đạt từ đến 10 điểm) - tạm gọi mơn học có kết bất thường Coi kết học tập sinh viên giao tác, môn học mục CSDL giao tác Giá trị hữu ích nội mục giao tác điểm số mà sinh viên đạt mơn học tương ứng Giá trị hữu ích ngoại mục độ quan trọng mơn học chương trình đào tạo Từ liệu đầu vào bảng điểm thu thập từ CSDL đào tạo trường Đại học Phạm Văn Đồng ngưỡng giá trị min_util cho trước, áp dụng thuật toán FHIM để xuất kết đầu mơn học có kết bất thường 3.2 MỘT SỐ ĐỊNH NGHĨA LIÊN QUAN ĐẾN KHÁI NIỆM “MƠN HỌC CĨ KẾT QUẢ BẤT THƯỜNG” 3.2.1 Mức độ quan trọng mơn học chương trình đào tạo a Các yếu tố ảnh hưởng đến kết học tập sinh viên Có hai yếu tố ảnh hưởng đến kết học tập sinh viên, số đơn vị học trình mơn học độ tiên môn học Độ tiên mơn học biểu diễn đồ thị có hướng, với đỉnh mơn học Tồn cung từ A đến B A môn học tiên B Độ tiên môn học biểu diễn số nguyên Gọi TQ(U) tiên đỉnh U Khi đó, TQ(U) 16 xác định theo nguyên tắc: - TQ(U) = đỉnh U không tồn cung đến đỉnh khác - TQ(U) = TQ(U’)+1 tồn cung từ đỉnh U đến đỉnh U’ - Nếu đỉnh U có n cung đến n đỉnh U1, U2, …, Un thì: TQ(U) = max(TQ (U1)+1, TQ (U2)+1, …, TQ (Un)+1) b Cơng thức tính mức độ quan trọng mơn học Tác giả đề xuất cơng thức tính độ quan trọng mơn học giá trị trung bình cộng hai giá trị nói trên: QT(X) = (ĐVHT(X) + TQ(X)) / Với: - QT(X): mức độ quan trọng môn học X - ĐVHT(X): số đơn vị học trình mơn học X - TQ(X): độ tiên X 3.2.2 Giá trị hữu ích mơn học kết điểm sinh viên Giá trị hữu ích mơn học X kết điểm sinh viên d, ký hiệu u(X,d), tích điểm số mà sinh viên d đạt độ quan trọng mơn học X tồn chương trình học u(X,d) = QT(X) * diem(X, d) Với: - u(X,d): giá trị hữu ích mơn học X kết điểm sinh viên d - QT(X): mức độ quan trọng môn học X - diem(X,d): điểm môn học X mà sinh viên d đạt 17 3.2.3 Giá trị hữu ích mơn học sở liệu điểm Giá trị hữu ích mơn học X tồn sở liệu điểm D, ký hiệu u(X), xác định tổng giá trị hữu ích mơn học X kết điểm sinh viên có học mơn học X 3.2.4 Định nghĩa mơn học có kết bất thường Một mơn học gọi có kết bất thường, giá trị hữu ích mơn học lớn giá trị hữu ích tối thiểu min_util cho trước X mơn học có kết bất thường Û u(X) ≥ min_util Với: - u(X): giá trị hữu ích mơn học X - min_util: giá trị hữu ích tối thiểu cho trước 3.3 THU THẬP VÀ XỬ LÝ DỮ LIỆU 3.3.1 Thu thập xử lý liệu điểm để tạo CSDL giao tác Để đơn giản hóa việc thực thuật tốn, tác giả thực khảo sát điểm 12 môn chuyên ngành Công nghệ thông tin, bao gồm: Nhập môn tin học Cấu trúc liệu giải thuật Toán rời rạc Nguyên lý Hệ điều hành Xác suất thống kê Lập trình hướng đối tượng 18 Lập trình dotNet Cơ sở lập trình Cơ sở liệu 10 Phân tích thiết kế Hệ thống thơng tin 11 Kỹ thuật lập trình 12 Lý thuyết mạng máy tính Dữ liệu thu thập mã hóa thành tập tin văn có cấu trúc gồm nhiều dịng, dịng thể giao tác, gồm có thành phần: danh sách mục giao tác, giá trị hữu ích giao tác giá trị hữu ích mục giao tác Sau tiến hành thu thập liệu đào tạo trường Đại học Phạm Văn Đồng, việc mã hóa tiến hành Đầu tiên, mơn học mã hóa số nguyên dương Bảng 3.3 Bảng mã hóa mơn học Mơn học Mã hóa Nhập mơn tin học Cấu trúc liệu giải thuật Toán rời rạc Hệ điều hành Lập trình web Lập trình hướng đối tượng Lập trình dot Net Cơ sở lập trình Cơ sở liệu Phân tích thiết kế hệ thống thơng tin 10 Lý thuyết mạng máy tính 11 Kỹ thuật lập trình 12 Khi đó, liệu đào tạo sau mã hóa lưu trữ 19 tập tin văn sau: Hình 3.3 Dữ liệu sau mã hóa thành CSDL giao tác 3.3.2 Đánh giá mức độ quan trọng môn học Để đánh giá mức độ quan trọng môn học, ta cần phải xác định hai yếu tố: số đơn vị học trình mức độ tiên mơn học Hình 3.4 đồ thị có hướng biểu diễn mức độ tiên mơn học Hình 3.4 Đồ thị biểu diễn mối quan hệ tiên môn học 20 Bảng 3.6 Mức độ quan trọng mơn học Mã hóa 10 11 12 Môn học Nhập môn tin học Cấu trúc liệu giải thuật Tốn rời rạc Hệ điều hành Lập trình web Lập trình hướng đối tượng Lập trình dot Net Cơ sở lập trình Cơ sở liệu Phân tích thiết kế hệ thống thông tin Lý thuyết mạng máy tính Kỹ thuật lập trình Số ĐVHT Độ tiên 4 Mức độ quan trọng 4 2 3 3 1 2 1.5 2.5 2.5 2.5 1 2.5 Độ hữu ích tập mục xác định dựa vào bảng 3.4 lưu tập tin ExternalUtility.txt sau: Hình 3.5 Nội dung tập tin ExternalUtility.txt biểu diễn giá trị hữu ích ngoại 21 3.4 CÀI ĐẶT THUẬT TOÁN FHIM 3.5 KẾT QUẢ THỰC HIỆN Sau cài đặt thuật toán, tác giả cho thực thi thuật toán với hai tập tin liệu đầu vào INPUT.txt ExternalUtility.txt với giá trị hữu ích tối thiểu 10000 Dữ liệu lấy từ thông tin điểm 612 sinh viên tốt nghiệp, tương ứng 612 dòng liệu giao tác Kết thực thuật toán lưu trữ vào tập tin OUTPUT.txt Kết thực sau: Hình 3.6 Nội dung tập tin OUTPUT.txt thể kết thuật toán Từ đó, kết luận rằng, với độ hữu ích tối thiểu min_util = 10000, mơn học có kết bất thường tìm thấy Nhập mơn tin học (mã số 1), Toán rời rạc (mã số 2) Cơ sở lập trình (mã số 8) 3.6 ĐÁNH GIÁ THUẬT TOÁN Luận văn so sánh thuật toán FHIM với thuật toán FHM UP-Growth với liệu ba phương diện: kết trả về, thời gian thực thi dung lượng nhớ 22 3.6.1 Về kết đầu Kết tập mục hữu ích cao trả tương đối giống Bảng 3.7 Bảng so sánh kết trả thuật toán FHIM UP- min_util = min_util = min_util = 8000 10000 12000 {1;8;2;5} {1;8;2} {1} {1;8;2;5;6} {1;8;2} {1} {1;8;2;5} {1;8;2} {1} Growth FHM 3.6.2 Về thời gian thực thi Hình 3.7 Thời gian thực thi thuật toán liệu Nhìn vào biểu đồ 3.7, nhận thấy thời gian thực thi thuật toán FHIM nhanh hẳn thời gian thực thi thuật toán UP-Growth, tương đương với thời gian thực thi thuật toán FHM 23 3.6.3 Về dung lượng nhớ Hình 3.8 Dung lượng nhớ thực thuật tốn Nhìn vào biểu đồ 3.8, nhận thấy thời gian dung lượng nhớ mà máy tính cần để thực thi thuật tốn FHIM 4.02 MB, chiếm dung lượng nhớ thuật toán UP-Growth (4.76 MB) FHM (6.09 MB) 3.7 TỔNG KẾT CHƯƠNG Trong chương 3, luận văn tập trung vào việc thiết kế định dạng liệu đầu vào cho liệu điểm trường ĐH Phạm Văn Đồng, cài đặt thuật toán FHIM thực thi thuật toán với liệu đầu vào tạo Luận văn so sánh thuật tốn FHIM với thuật tốn trước (UP-Growth FHM) ba phương diện: kết trả về, thời gian thực thi thuật toán dung lượng nhớ cần để thực thuật toán Kết cho thấy, thuật tốn FHIM có ưu điểm tương đối 24 KẾT LUẬN VÀ KIẾN NGHỊ Khai phá liệu nói chung, khai phá tập mục hữu ích cao nói riêng lĩnh vực nghiên cứu rộng, tiềm phát triển cao Luận văn tập trung tìm hiểu tổng quan khai phá liệu thuật tốn khai phá tập mục hữu ích cao Qua đó, tác giả sâu tìm hiểu thuật toán FHIM mà nhà nghiên cứu người Ấn Độ đề xuất, sau đó, ứng dụng thuật tốn để khai phá CSDL đào tạo trường Đại học Phạm Văn Đồng nhằm rút môn học có kết bất thường Q trình thực luận văn gặp khơng khó khăn Các tài liệu chủ yếu viết tiếng Anh, nhiều khái niệm liên quan mơ hồ, tốn nhiều thời gian để tìm hiểu Các ứng dụng khai phá tập mục hữu ích cao trình bày tài liệu chủ yếu liên quan đến lĩnh vực bán lẻ, kinh doanh Do đó, việc áp dụng khai phá tập mục hữu ích cao vào CSDL đào tạo cịn khó khăn, số vấn đề chưa phù hợp với ý nghĩa thực tế Theo quan điểm chủ quan, kết ứng dụng luận văn chưa thực mong muốn người thực Trong thời gian tới, tác giả tiếp tục nghiên cứu sâu lĩnh vực Khai phá liệu, đặc biệt Khai phá tập mục hữu ích cao Khai phá luật kết hợp từ tập mục hữu ích cao Qua đó, áp dụng có hiệu vào lĩnh vực liệu đào tạo để rút trích tri thức có ích tiềm ẩn CSDL đào tạo trường đại học, góp phần nâng cao chất lượng đào tạo đại học nước ta ... tiến, nâng cao chất lượng đào tạo Bố cục luận văn Chương 1: Cơ sở lý thuyết khai phá liệu Chương 2: Khai phá tập mục hữu ích cao từ CSDL giao tác Chương 3: Cài đặt thuật toán FHIM ứng dụng khai phá... ích cao, tập hợp môn học có kết bất thường Vì lý trên, tơi chọn đề tài “Áp dụng thuật tốn FHIM để khai phá tập mục hữu ích cao từ sở liệu đào tạo trường Đại học Phạm Văn Đồng” làm đề tài luận văn. .. tài luận văn cao học Mục tiêu nghiên cứu - Mục tiêu chung: Nghiên cứu thuật tốn FHIM để khai phá tập mục hữu ích cao từ CSDL giao tác Ứng dụng thuật toán FHIM để tìm tập mục hữu ích cao (các mơn

Ngày đăng: 24/12/2018, 13:09

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan