Nghiên cứu và khai thác tập hiếm

61 155 0
Nghiên cứu và khai thác tập hiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ THỊ THANH HẰNG NGHIÊN CỨU KHAI THÁC TẬP HIẾM LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ THỊ THANH HẰNG NGHIÊN CỨU KHAI THÁC TẬP HIẾM LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HOÀI BẮC TP HỒ CHÍ MINH, tháng 10 năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS TS Lê Hoài Bắc Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày… tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 20 tháng 10 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ THỊ THANH HẰNG Giới tính: NỮ Ngày, tháng, năm sinh: 14/9/1983 Nơi sinh: TP HCM Chuyên ngành: Công nghệ thông tin MSHV: 1341860039 I- Tên đề tài: NGHIÊN CỨU KHAI THÁC TẬP HIẾM II- Nhiệm vụ nội dung: Nghiên cứu thuật toán tìm tập tối tiểu III- Ngày giao nhiệm vụ: 03/4/2015 IV- Ngày hoàn thành nhiệm vụ: 15/9/2015 V- Cán hướng dẫn:PGS TS LÊ HOÀI BẮC CÁN BỘ HƯỚNG DẪN PGS TS Lê Hoài Bắc KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Lê Thị Thanh Hằng ii LỜI CÁM ƠN Luận văn thực Khoa Công nghệ thông tin - Trường Đại học Công nghệ TP HCM, hướng dẫn khoa học PGS.TS Lê Hoài Bắc Trước tiên xin bày tỏ lòng biết ơn sâu sắc tới Thầy Lê Hoài Bắc đưa đến với lĩnh vực nghiên cứu Thầy tận tình giảng dạy, hướng dẫn giúp tiếp cận đạt thành công công việc nghiên cứu Thầy tận tâm động viên, khuyến khích dẫn giúp hoàn thành luận văn Tôi xin bày tỏ lòng biết ơn tới Thầy Cô thuộc Khoa Công nghệ thông tin cán Phòng Đào tạo - Trường Đại học Công nghệ TP HCM, tạo điều kiện thuận lợi giúp đỡ trình học tập nghiên cứu trường Tôi xin chân thành cảm ơn PGS.TSKH Nguyễn Xuân Huy, TS Võ Đình Bảy, TS Cao Tùng Anh Thầy Hội đồng đóng góp ý kiến quý báu giúp hoàn thiện luận án Học viên thực Luận văn Lê Thị Thanh Hằng iii TÓM TẮT Khai thác tập dạng nghiên cứu quan trọng, có tính ứng dụng thực tiễn cao, đặc biệt phân tích liệu y sinh học Phát tập nhận nhiều quan tâm nhà nghiên cứu Luận văn mô tả số thuật toán nhằm khai thác tập tối tiểu: AprioriRare liệt kê tất tập phổ biến trước tiếp cận đến biên âm chúng MRG-Exp tránh khảo sát tập phổ biến, quan tâm đến sinh phổ biến trước tiếp cận đến vùng tập Walky-G phương pháp khai thác sinh phổ biến theo chiều dọc, xử lý theo chiều sâu IT-tree lưu lại tập tối tiểu iv ABSTRACT Rare itemsets are important sort of patterns that have a widerange of practical applications, in particular, in analysis of biomedicaldata Although mining rare patterns poses specific algorithmic problems,it is yet insufficiently studied In this work, I describe some methods to approach minimal rare itemsets: Apriori-Rare lists all frequent itemsets before reaching their negative border MRG-Exp explores only the frequent generators before reaching their negative border Walky-G is a vertical FG-miner following a depth-first traversal of the IT-tree and retains minimal rare itemsets v MỤC LỤC LỜI CAM ĐOAN .i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv DANH MỤC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC HÌNH VẼ, ĐỒ THỊ ix MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU 1.1 Khái niệm 1.2 Kiến trúc hệ thống khai thác liệu 1.3 Các giai đoạn trình khai thác liệu 1.4 Một số kỹ thuật khai thác liệu 1.5 Các sở liệu phục vụ cho khai thác liệu 11 1.6 Các phương pháp khai thác liệu 13 1.7 Các ứng dụng khai thác liệu 15 1.8 Khai thác liệu lĩnh vực liên quan 16 1.9 Khai thác tập 17 CHƯƠNG 20 vi KHAI THÁC TẬP HIẾM TỐI TIỂU DỰA TRÊN APRIORI 20 2.1 Các khái niệm 20 2.2 Tìm tập tối tiểu theo cách tiếp cận ngây thơ Naïve 23 2.3 Tìm tập tối thiểu mRI phương pháp tối ưu 25 CHƯƠNG 29 KHAI THÁC TẬP HIẾM TỐI TIỂU THEO CHIỀU SÂU 29 3.1 Các khái niệm 29 3.2 Tìm tập tối thiểu theo chiều sâu 30 3.2.1 Talky-G 31 3.2.2 Walky – G 31 CHƯƠNG 39 KẾT QUẢ THỰC NGHIỆM 39 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 34 2) generator← getNextGenerator(curr, other) 3) if (generator≠ null) then curr.addChild(generator) 4) } 5) loop over the children of curr from right-to-left (child) { 6) saveFg(child) // child is a frequent generator 7) extend(child) // discover the subtree below child 8) } Hình Hàmextend Walky-G Các chức getNextGenerator(Hình 3.5) lấy hai nút trả FG mới, trả "null" FG không tạo từ nút Ngoài ra, phương pháp kiểm tra tập giữ lại tập tối tiểu Đầu tiên, nút ứng cử viên tạo cách lấy liên kết tập nút giao hình ảnh tương ứng chúng Các nút đầu vào cha mẹ nút ứng cử viên Sau đó, ứng cử viên trải qua bước kiểm tra độ phổ biến(thử nghiệm 1) Nếu thử nghiệm thất bại ứng cử viên Trong trường hợp này, độ tối tiểu ứng cử viên xét Nếu tất tập nhỏ phần tử diện fgMap ứng cử viên sinh tối tiểu tất tập FG (xem tính chất 1) Từ Mệnh đề cho thấy mRG mRI, ứng cử viên xử lý thủ tục saveMri Nếu thử nghiệm độ phổ biến thành công, ứng cử viên so sánh với nút cha mẹ tương ứng (thử nghiệm 2): tidset tương đương với nút cha mẹ, ứng cử viên sinh Thậm chí với kết tích cực, tập sinh tập tương ứng nằm chỗ khác IT-tree Do chiến lược giao Walky-G, tất tập sinh ứng cử viên thời phát thuật toán lưu trữ chúng fgMap (xem quy trình saveFg) Như vậy, thử nghiệm cuối (thử nghiệm 3) kiểm tra xem ứng cử viên có tập tương ứng với độ hỗ trợ fgMap 35 Hàm“getNextGenerator” Phương pháp: Tạo sinh phổ biến lọc tập tối tiểu Đầu vào: nút IT (curr other) Đầu ra: Một tập liên tục phổ biến vô hiệu 1) cand.itemset ←curr.itemset ∪ other.itemset 2) cand.tidset ←curr.tidset ∩other.tidset 3) if (cardinality(cand.tidset) 0) 10% 0.17 0.17 0.10 723 0.75% 57.30 56.78 17.59 118.967 0.50% 62.28 61.59 20.49 154.263 0.25% 103.20 108.26 42.84 236.860 30% 12.13 3.15 0.35 230 20% 36.94 6.24 0.41 400 10% 97.66 8.28 0.58 901 5% 485.84 30.12 0.79 200.2 2% 936.25 42.48 1.12 740.2 40% 1.72 0.81 0.21 254 30% 5.95 2.04 0.24 409 15% 96.10 4.81 0.32 184.6 10% 902.70 7.32 0.40 307.7 T20I6D100K C20D10k MushRooms Tập liệu T20 tập liệu thưa có độ tương quan yếu, số lượng FI nhỏ gần FI sinh Thuật toán MRG-Exp có thời gian thực thi tương đương với Apriori Rare phải duyệt hết vùng liệu Mặc dù Walky-G khai thác vùng tìm kiếm tương tự với Apriori Rare, thời gian chạy nhiều dựa vào phương pháp khai thác theo chiều sâu 41 Trong tập liệu C20 Mushrooms, số lượng FG nhỏ nhiều so với tổng số FI, thuật toán MRG-Exp Walky-G thể nhiều ưu điểm khai thác vùng tìm kiếm nhỏ so với Apriori Rare Do đó, MRG-Exp Walky-G thực tốt tập liệu dày có độ tương quan cao 120 100 108.26 103.2 80 62.28 61.59 60 40 Apriori-Rare 57.3 56.78 MRG-Exp Walky-G 42.84 20.49 20 17.59 0.25% 0.50% 0.75% 0.17 0.1 10.00% Hình Kết thực nghiệm chạy tập liệu T20I6D100k 42 1000 936.25 900 800 700 600 Apriori-Rare 500 485.84 MRG-Exp 400 Walky-G 300 200 100 97.66 42.48 1.12 2% 30.12 0.79 5% 36.94 6.24 0.41 8.28 0.58 10% 20% 12.13 3.15 0.35 30% Hình Kết thực nghiệm chạy tập liệu C20D10k 1000 902.7 900 800 700 600 Apriori-Rare 500 MRG-Exp 400 Walky-G 300 200 100 96.1 0.4 10% 5.95 0.24 0.32 15% 30% 1.72 0.21 40% Hình Kết thực nghiệm chạy tập liệu Mushrooms 43 Ngoài ra, luận văn ứng dụng thực nghiệm liệu thực có định dạng ARFF Chronic_kidney_disease_full.arff[14] tập tin văn mô tả tập hợp thuộc tính bao gồm tuổi, huyết áp, thông tin liên quan đến nồng độ đường, máu… nhằm phát sớm bệnh thận kinh niên Tập liệu công bố Giáo sư bác sĩ Eswaran thuộc Viện Khoa học máy tính kỹ thuật, trường Đại học Alagappa (Ấn Độ) vào tháng năm 2015 Số giao dịch tập liệu 400, độ dài trung bình giao tác 25 Bảng 4.3 Thông tin thuộc tính tập Chronic_kidney_disease_full STT 10 Giải thích Thuộc tính Kiểu liệu Ví dụ age numerical 48, 7, 60, … Số tuổi bp numerical 50, 80, 90, … Huyết áp sg nominal al nominal 0, 1, 2, 3, 4, Albumin su nominal 0, 1, 2, 3, 4, Đường huyết rbc nominal normal, abnormal Hồng cầu pc nominal normal, abnormal Tế bào mủ pcc nominal present, notpresent Khối tế bào mủ ba nominal present, notpresent Vi khuẩn bgr numerical 1.005,1.010,1.015, Trọng lượng riêng 1.020,1.025 75, 121, … Đường máu liệu 44 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Ure máu bu numerical 36, 18, 53, … sc numerical 0.8, 1.2, 1.4, … Creatinin máu sod numerical 53, 111, 114, … Sodium pot numerical 38, 62, … hemo numerical 11.2, 15.8, … Kali Hemoglobin Khối lượng hồng cầu pcv numerical 75, 44, 68, … kết tủa wc numerical 7800, 6000, … Số lượng bạch cầu rc numerical 5.2, 3.9, … Số lượng hồng cầu htn nominal yes, no Cao huyết áp dm nominal yes, no Đái tháo đường cad nominal yes, no Bệnh động mạch vành appet nominal good, poor Cảm giác ngon miệng pe nominal yes, no Phù chân ane nominal yes, no Thiếu máu class nominal ckd, notckd Đối tượng 45 Bảng 4 Thời gian phản hồi thuật toán Min_supp Execution time (sec.) #mRI Aprior-Rare MRG-Exp Walky-G (support>0) 30% 0.69 0.61 0.15 836 25% 1.52 1.32 0.28 848 10% 7.57 6.97 0.42 852 5% 46.17 38.17 18.23 863 chronic_kidney_disease_full Kết thời gian chạy thuật toán tương tự liệu trước Sự hiệu thuật toán Walky-G rõ rệt Căn vào kết thu được, ta đưa dự đoán khả mắc bệnh thận kinh niên bệnh nhân từ đưa giải pháp phù hợp để ngăn ngừa chữa trị hiệu Kết luận: Trong chương 4, luận văn tiến hành thực nghiệm thuật toán loại tập liệu lớn có đặc điểm khác nhau, bao gồm tập liệu giả định, tập liệu thực dạng số liệu thực dạng văn Trong liệu trên, thuật toán Walky-G chứng tỏ hiệu trội việc phát tập tối tiểu 46 KẾT LUẬN Các kết luận văn Khai thác liệu lĩnh vực quan trọng, bao gồm nhiều lĩnh vực nhiều kỹ thuật khác Luận văn đề cập đến nội dung phát tri thức, khai thác liệu Luận văn trình bày chi tiết vấn đề khai thác tập hiếm: từ khái niệm sở, toán xuất phát đến mô hình hình thức, thuật toán khai thác tập tối tiểu theo chiều rộng chiều sâu Luận văn thực vấn đề sau: - Tổng quan khai thác liệu khai thác tập - Nghiên cứu thuật toán khai thác tập tối tiểu theo chiều rộng chiều sâu - Thử nghiệm thuật toán liệu giả định liệu thực dạng số khác - Ứng dụng chạy thực nghiệm liệu thực dạng văn Hướng nghiên cứu tương lai Trên sở nghiên cứu trình bày luận văn, tiếp tục nghiên cứu sâu thuật toán khai tập hiếm, tìm cách cải tiến nhằm khắc phục nhược điểm thuật toán có để áp dụng vào số toán khai thác liệu phù hợp cho giai đoạn như: y tế, dược phẩm Trong trình học tập, tìm hiểu nghiên cứu với khoảng thời gian làm luận văn, cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên thời gian nghiên cứu có hạn nên không tránh khỏi thiếu sót, mong nhận nhận xét đóng góp ý kiến thầy cô giáo quan tâm để luận văn hoàn thiện 47 TÀI LIỆU THAM KHẢO [1] H Liu, H Lu, L Feng, and F Hussain Efficient Search of Reliable Exceptions In Proc of PAKDD ’99, pages 194– 203, London, UK, 1999 SpringerVerlag [2] E Suzuki Undirected Discovery of Interesting Exception Rules International Journal of Pattern Recognition and Artificial Intelligence (IJPRAI), 16(8):1065–1086, 2002 [3] B A Davey and H A Priestley Introduction to Lattices and Order Cambridge University Press, 2nd edition, 2002 [4] H Mannila and H Toivonen Levelwise Search and Borders of Theories in Knowledge Discovery Data Mining and Knowledge Discovery, 1(3):241–258, September 1997 [5] Szathmary, L., Napoli, A., Valtchev, P.: Towards Rare Itemset Mining In: Proceed-ings of the 19th IEEE International Conference on Tools with Articial Intelligence (ICTAI '07) Volume 1., Patras, Greece (Oct 2007) 305-312 [6] L Szathmary, P Valtchev, A Napoli, and R Godin 2012 Efficient vertical mining of minimal rare itemsets.Proc Conf on Concept Lattices and Their Applications (2012), 269–280 [7] Zaki, M.J., Parthasarathy, S., Ogihara, M., Li, W.: New Algorithms for Fast Discovery of Association Rules In: Proceedings of the 3rd International Conference on Knowledge Discovery in Databases (August 1997) 283-286 [8] Szathmary, L., Valtchev, P., Napoli, A., Godin, R.: Effient Vertical Mining ofFrequent Closures and Generators In: Proc of the 8th Intl Symposium on Intelligent Data Analysis (IDA '09) Volume 5772 of LNCS., Lyon, France, Springer(2009) 393-404 48 [9] Calders, T., Goethals, B.: Depth-first non-derivable itemset mining In: Proceedings of the SIAM International Conference on Data Mining (SDM '05), Newport Beach, USA (Apr 2005) [10] Koh Y S., Rountree N (2005), “Finding Sporadic Rules Using AprioriInverse”, Proc of PAKDD2005, pp 97-106 [11] Szathmary L., Valtchev P., and Napoli A (2010), “Generating Rare Association Rules Using Minimal Rare Itemsets Family”, International Journal of Software and Informatics, Vol (3), pp 219-238 [12] J Mining: Han, Concepts M Kamber, and and Techniques Jian Pei (3rd (2011) edition), Kaufmann [13] http://www.almaden.ibm.com/software/quest/Resources/ [14] http://kdd.ics.uci.edu/ Data Morgan ... Chương 1: Tổng quan khai thác liệu: Giới thiệu tổng quan khai thác liệu, khai thác tập hiếm; Chương 2: Khai thác tập tối tiểu dựa thuật toán Apriori; Chương 3: Khai thác tập tối tiểu dựa thuật... cao , khai thác thông tin web (web mining) trở thành lĩnh vực nghiên cứu khai thác liệu, nhà nghiên cứu đặc biệt quan tâm Khai thác liệu web thông thường chia thành ba phạm trù chính: Khai thác. .. phục vụ cho khai thác liệu 11 1.6 Các phương pháp khai thác liệu 13 1.7 Các ứng dụng khai thác liệu 15 1.8 Khai thác liệu lĩnh vực liên quan 16 1.9 Khai thác tập

Ngày đăng: 11/09/2017, 20:39

Tài liệu cùng người dùng

Tài liệu liên quan