Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
2,57 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM - DIỆP LONG KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN DỮ LIỆU DẠNG LUỒNG LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 11 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM - DIỆP LONG KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN DỮ LIỆU DẠNG LUỒNG LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THÚY LOAN TP HỒ CHÍ MINH, tháng 11 năm 2017 CƠNGTRÌNH ĐƯỢCHỒNTHÀNHTẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP.HCM Cán hướng dẫn khoa học: TS Nguyễn Thị Thúy Loan (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP.HCM ngày 19 tháng 11 năm2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ vàtên Chức danh Hội đồng PGS.TS VÕ ĐÌNH BẢY Chủ tịch PGS.TS VŨ ĐỨC LUNG Phảnbiện TS CAO TÙNG ANH Phảnbiện TS VĂN THIÊN HOÀNG Ủy viên TS VŨ THANH HIỀN Ủy viên Xác nhận Chủ tịch Hội đồng đánh giáluận văn sau luận văn sửa chữa (nếucó) Chủ tịch Hội đồng đánh giá luận văn TRƯỜNG ĐH CƠNG NGHỆ TP.HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM VIỆN ĐÀO TẠO SAU ĐẠI HỌC Độc lập – Tự – Hạnh phúc TP HCM, ngày tháng 11 năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên họcviên: Diệp Long Giới tính: Nam Ngày, tháng, năm sinh: 08/11/1984 Nơi sinh: Tây Ninh Chuyênngành: Công nghệ thông tin MSHV: 1541860015 I- Tên đề tài: KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN DỮ LIỆU DẠNG LUỒNG II- Nhiệm vụ nộidung: Đề tài nghiên cứu thuật toán khai thác liệu dạng luồng dựa phương pháp khai thác luật phân lớp kết hợp Đề xuất hướng tiếp cận thuật toán CAR-Miner để truy xuất hiệu liệu dạng luồng có yếu tố thời gian III- Ngày giaonhiệmvụ:01/10/2016 IV- Ngày hoàn thành nhiệm vụ: 31/ 08/2017 V- Cán hướng dẫn: TS NGUYỄN THỊ THÚY LOAN CÁN BỘHƯỚNGDẪN (Họ tên vàchữký) TS NGUYỄN THỊ THÚY LOAN KHOA QUẢN LÝCHUYÊNNGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Diệp Long ii LỜI CẢM ƠN Lời đầu tiên, tôixin bày tỏ lịng biết ơn sâu sắc đến Cơ, TS Nguyễn Thị Thúy Loan nhờ động viên, bảo tận tình, truyền đạt kiến thức tạo điều kiện tốt để tơicó thể hồn thành luận văn Tôicũng xin gửi lời cảm ơn đến quý Thầy Cô khoa Công Nghệ Thông tin trường Đại học Công Nghệ TP HCM giảng dạy chotơi nhiều kiến thức q báu giúp tơi hồn thành tốt luận văn Tôi xin cảm ơn quý Thầy Cơ, Anh chị làm việc Phịng Sau đại học hỗ trợ nhiều thủ tục văn bản, giấy tờ liên quan đến luận văn Xin cảm ơn gia đình, đồng nghiệp, bạn bè động viên tôitrong suốt thời gian thực luận vănnày TP Hồ Chí Minh, ngày tháng11 năm 2017 Học viên Diệp Long iii TÓM TẮT Khai thác liệu dạng luồng nội dung quan trọng khai thác liệu với nhiều ứng dụng rộng rãi phân tích thị trường, quản trị mạng, bảo mật, quản lý liệu viễn thông, sản xuất, mạng cảm biến số ứng dụng khác.Khai thác liệu dạng luồng coi trường khai thác liệu, máy học, khám phá tri thức Phương pháp khai thác luật phân lớp kết hợp liệu dạng luồng giải vấn đề liệu liên tục, thay đổi nhanh chóng có khối lượng lớn.Dự đốn nhãn lớp giá trị liệu nhằmđưa số kiến thức thành phần nhãn lớp giá trị trường hợp trước liệu dạng luồng Các nghiên cứu gần cho thấy tập trung chủ yếu sở liệu tĩnh Bản chất liệu dạng luồng sử dụng nhớ hạn chế, cấu trúc kiến thức liên tục, ghi liệu tăng nhanh chóng,khả xử lý liệu lần truy cập số lượng nhỏ lần truy cập.Vì việc khai thác luật phân lớp kết hợp liệu dạng luồng có giá trị hiệu cao khơng gian cấu trúc liệu để giảm chi phí khai thác sở liệu Luận văn nghiên cứu thuật toán khai thác luật phân lớp kết hợp liệu dạng luồng, áp dụng thuật toán PSTMiner dựa cấu trúc PSTree lưu trữ liệu dạng luồng nhằm giảm thiểu thời gian xử lý trình duyệt tập liệu Đồng thời nghiên cứu thuật toán CAR-Miner để áp dụng vào liệu dạng luồngnhằm làm giảm thời gian khai thác tiết kiệm nhớ lưu trữ iv ABSTRACT Data stream mining is an important topic in data mining problem with broad applications such as market analysis, network management, security, data management telecommunications, manufacturing, and the sensor network Data stream mining can be considered a subfield of data mining, machine learning, and knowledge discovery Class association rule mining method on the data stream solves the problem of continuous data, rapid change, and large volume Predicting the class label or the value of newly data that gives some knowledge about the composition of the class label or the value of the previous case in data stream Recently, the researches show that focuses primarily on the basis of static data The nature of data stream is limited memory usage, continuous knowledge structure, data record rapid increase, the ability toprocess the data in a single pass, or a small number of passes Thus the class associationrules mining on data stream efficient spatial data structure to reduce costs in database mining The thesis studiesclass association rules mining approach on data stream, applies PSTMiner algorithm baseda compact novel tree structure called PSTree (Prefix Streaming Tree) for storing data stream to reduce runtime in the process of mining Besides, modified CAR-Miner algorithm into data stream toreduce runtime and save memory storage v DANHMỤC TỪVIẾT TẮT STT Tên viết tắt Nghĩa tiếng việt Luật phân lớp kết hợp Tên đầy đủ CAR Class Association Rules CBA Phân lớp dựa kết hợp ILA Thuật toán học quy nạp CMAR Phân lớp dựa đa luật CSDL Cơ sở liệu Database CPAR Phân lớp dựa luật kết hợp dự đoán Classification based on predictive association rules minSup Ngưỡng hỗ trợ tối thiểu Minimum support minConf Ngưỡng tin cậy tối thiểu Minimum confidence 10 FP Mẫu phổ biến Frequent Pattern Classification Based on Associations Inductive Learning Algorithm Classification based on Multiple Association Rules vi MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii TÓM TẮT iii ABSTRACT iv DANHMỤC TỪVIẾT TẮT v MỤC LỤC vi DANH MỤC HÌNH viii DANH MỤC BẢNG ix CHƯƠNG 1: MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Tính cấp thiết đề tài CHƯƠNG2:CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu liệu dạng luồng 2.2 Khai thác luật phân lớp 2.3 Khai thác luật kết hợp 2.4 Các hướng tiếp cận thuật toán phân lớp kết hợp liệu dạng luồng 2.4.1 Thuật toán khai thác PSTree 2.4.2 Thuật toán khai thác luật phân lớp kết hợp PSTMiner liệu dạng luồng 16 2.5 Tổng kết chương 21 CHƯƠNG 3:THUẬT TỐN CAR-MINER TRÊNDỮ LIỆU DẠNG LUỒNG22 3.1 Mơ hình xử lý liệu 22 3.2 Thuật toán khai thác CAR-Miner[6] 23 3.3 Thuật toán CAR-Miner liệu dạng luồng: 28 3.4 Tổng kết chương 38 4.1 Môi trường thực nghiệm 39 4.2 Đặc điểm sở liệu thực nghiệm 39 4.3 Kết thực nghiệm 40 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 5.1 Kết luận 42 31 Với nút = ( : thủ tục tính tốn độ tin cậy Conf = 3/3 = 1>minConf ) (60%), thêm luật {(A3,b3)}→ y1(3,1)vào tập luật CARs Ý nghĩa luật là“nếu A1= b3thì lớp lày1” (độ hỗ trợ = vàđộ tin cậy = 100%) Dựa vào định lý 2, khơng cần tính tốn nội dung nútnhư {3×a1a2, 5×a1b3} Bảng 3.2 thể luật tạo thỏa minSup = vàminConf = 60% Bảng 3.2 Các luật tạo cửa sổ ID Node x a1 x b2 x b3 Luật tạo If A1 = a1 thenClass = y1 If A2 = b2 then Class = y1 If A3 = b3 then Class = y1 Sup 3/4 2/4 3/4 Conf 3/4 2/2 3/3 + Sau phân lớp cửa sổ W1, tiếp tục tăng startPos = vị trí cuối = 1+ w-1= Ta tập liệu D’ cửa sổ W2 có dòng gồm ID 1, 2, 3, Bảng 3.3 Mơ tả tiến trình CAR-Miner với cửa sổ W2 ID A1 A2 A3 Class a1 a2 b3 y1 a1 a2 c3 y2 a1 b2 b3 y1 a1 b2 b3 y1 b1 b2 a3 y2 b1 a2 b3 y1 a1 b2 b3 y1 a1 a2 b3 y1 c1 c2 c3 y1 a1 a2 b3 y2 startPos = CAR-Miner-Stream Vị trí cuối = Q trình tiến hành phân lớp cửa sổ CAR-Miner tương tự cửa sổ với minSup = minConf = 60% ta có tập: Lr 32 ={ ( ( ) ( ) ( ) ( ) ( ) }, MECR luật phân lớp kết hợp ) sau: {} 𝑥𝑎 (𝟐 ) 𝑥𝑎 𝑏 (𝟐 ) 𝑥𝑏 (𝟐 ) 𝑥𝑏 (𝟐 ) 𝑥𝑎 𝑏 (𝟐 ) 6𝑥𝑏 𝑏 (𝟐 ) Hình 3.6 Cây MECR–Tree tổng quát cửa sổ Bảng 3.4 Các luật tạo cửa sổ ID Node x a1 x b2 x b3 Luật tạo If A1 = a1 then Class = y1 If A2 = b2 then Class = y1 If A3 = b3 then Class = y1 Sup 2/4 2/4 2/4 Conf 2/3 2/3 2/2 + Tiếp tục tăngstartPos = vị trí cuối = +w - 1= Ta tập liệu D’ cửa sổ W3 có dịng gồm ID 2, 3, 4, Bảng 3.5 Mô tả tiến trình CAR-Miner với cửa sổ W3 ID A1 A2 A3 Class a1 a2 b3 a1 a2 c3 y1 y2 a1 b2 b3 y1 a1 b2 b3 y1 b1 b2 a3 y2 b1 a2 b3 y1 a1 b2 b3 y1 a1 a2 b3 y1 c1 c2 c3 y1 a1 a2 b3 y2 startPos = CAR-Miner-Stream Vị trí cuối = Quá trình tiến hành phân lớp cửa sổ CAR-Miner tương tự cửa sổ với 33 minSup = minConf = 60% ta có tập: Lr ={ ( ( ) ( ) ( ) ( ) ( ) ( ) ( ) }, MECR luật phân ) lớp kết hợp sau: {} 𝑥𝑎 (𝟐 ) 𝑥𝑎 𝑏 (𝟐 ) 𝑥𝑏 (𝟏 ) 𝑥𝑎 𝑏 (𝟐 ) 𝑥𝑏 (𝟐 ) 𝑥𝑏 (𝟑 ) 6𝑥𝑏 𝑏 (𝟐 ) Hình 3.7 Cây MECR–Tree tổng quát cửa sổ Bảng 3.6 Các luật tạo cửa sổ ID Node Luật tạo Sup Conf 1 x a1 If A1 = a1 then Class = y1 2/4 2/2 2 x b2 If A2 = b2 then Class = y1 3/4 2/3 x b3 If A3 = b3 then Class = y1 3/4 3/3 + Tiếp tục tăngstartPos = vị trí cuối = + w- 1= Ta tập liệu D’ cửa sổ W4 có dịng gồm ID 3, 4, 5, 34 Bảng 3.7 Mơ tả tiến trình CAR-Miner với cửa sổ W4 ID A1 A2 A3 Class a1 a2 b3 y1 a1 a2 c3 a1 b2 b3 y2 y1 a1 b2 b3 y1 b1 b2 a3 y2 b1 a2 b3 y1 a1 b2 b3 y1 a1 a2 b3 y1 c1 c2 c3 y1 a1 a2 b3 y2 startPos = CAR-Miner-Stream Vị trí cuối = Quá trình tiến hành phân lớp cửa sổ CAR-Miner tương tự cửa sổ với minSup = minConf = 60% ta có tập : Lr ={ ( 6( ) ( ) ( ) ( ) 6( ) ( ) 6( ) }, MECR luật phân ) lớp kết hợp sau: {} 𝑥𝑎 6(𝟐 ) 𝑥𝑎 𝑏 6(𝟐 ) 𝑥𝑏 (𝟏 ) 𝑥𝑎 𝑏 6(𝟐 ) 𝑥𝑏 6(𝟐 ) 𝑥𝑏 6(𝟑 ) 6𝑥𝑏 𝑏 6(𝟐 ) Hình 3.8 Cây MECR–Tree tổng quát cửa sổ 35 Bảng 3.8 Các luật tạo cửa sổ ID Node x a1 x b2 x b3 Luật tạo If A1 = a1 then Class = y1 If A2 = b2 then Class = y1 If A3 = b3 then Class = y1 Sup 2/4 3/4 3/4 Conf 2/2 2/3 3/3 + Tiếp tục tăngstartPos=4 vị trí cuối = + w- 1= Ta tập liệu D’ cửa sổ W5 có dòng gồm ID 4, 5, 6, Bảng 3.9 Mơ tả tiến trình CAR-Miner với cửa sổ W5 ID A1 A2 A3 Class a1 a2 b3 y1 a1 a2 c3 a1 b2 b3 y2 y1 a1 b2 b3 y1 b1 b2 a3 y2 b1 a2 b3 y1 a1 b2 b3 y1 a1 a2 b3 y1 c1 c2 c3 y1 a1 a2 b3 y2 startPos = CAR-Miner-Stream Vị trí cuối = Q trình tiến hành phân lớp cửa sổ CAR-Miner tương tự cửa sổ với minSup = minConf = 60% ta có tập: Lr ={ ( ( ) ( ) ( ) ( ) ( luật phân lớp kết hợp sau: ) ( ) 6( ) ( ) ( ) }, MECR ) 36 {} 𝑥𝑎 (𝟐 ) 𝑥𝑎 (𝟐 ) 𝑥𝑏 (𝟏 ) 𝑥𝑎 𝑏 (𝟐 ) 𝑥𝑏 6(𝟏 ) 𝑥𝑏 (𝟑 ) 6𝑥𝑎 𝑏 (𝟐 ) Hình 3.9 Cây MECR-Tree tổng quát cửa sổ Bảng 3.10 Các luật tạo cửa sổ ID Node Luật tạo Sup Conf 1 x a1 Nếu A1 = a1 lớp = y1 2/4 2/2 2 x b2 Nếu A2 = b2 lớp = y1 2/4 2/2 x b3 Nếu A3 = b3 lớp = y1 3/4 3/3 + Tiếp tục tăng startPos = vị trí cuối = + w- 1= Ta tập liệu D’ cửa sổ W6 có dịng gồm ID 5, 6, 7, Bảng 3.11 Mơ tả tiến trình CAR-Miner với cửa sổ W6 ID A1 A2 A3 Class a1 a2 b3 y1 a1 a2 c3 y2 a1 b2 b3 y1 a1 b2 b3 b1 b2 a3 y1 y2 b1 a2 b3 y1 a1 b2 b3 y1 a1 a2 b3 y1 c1 c2 c3 y1 a1 a2 b3 y2 startPos = CAR-Miner-Stream Vị trí cuối = Q trình tiến hành phân lớp cửa sổ CAR-Miner tương tự cửa sổ 37 với minSup = minConf = 60% ta có tập:Lr ={ ( ( ) ( ) ( ) ( ) ( ) }, ) MECR luật phân lớp kết hợp sau: {} 𝑥𝑎 (𝟐 ) 𝑥𝑎 (𝟐 ) 𝑥𝑎 𝑏 (𝟐 ) 6𝑥𝑎 𝑏 (𝟐 ) 𝑥𝑏 (𝟑 ) Hình 3.10 Cây MECR-Tree tổng quát cửa sổ Bảng 3.12 Các luật tạo cửa sổ ID Node x a1 x b2 x b3 Luật tạo If A1 = a1 then Class = y1 If A2 = b2 then Class = y1 If A3 = b3 then Class = y1 Sup 2/4 2/4 3/4 Conf 2/2 2/2 3/3 + Tiếp tục tăng startPos= vị trí cuối = + w- 1= Ta tập liệu D’ cửa sổ W7 có dịng gồm ID 6, 7, 8, Bảng 3.13 Mơ tả tiến trình CAR-Miner với cửa sổ W7 ID A1 A2 A3 Class a1 a2 b3 y1 a1 a2 c3 y2 a1 b2 b3 y1 a1 b2 b3 y1 b1 b2 a3 b1 a2 b3 y2 y1 a1 b2 b3 y1 a1 a2 b3 y1 c1 c2 c3 y1 a1 a2 b3 y2 startPos = CAR-Miner-Stream Vị trí cuối = 38 Q trình tiến hành phân lớp cửa sổ CAR-Miner tương tự cửa sổ với minSup = minConf = 60% ta có tập Lr ={ ( ( ) ( ) ( ) ( )6 ( ) }, ) MECR luật phân lớp kết hợp sau: {} 𝑥𝑎 (𝟐 ) 𝑥𝑎 (𝟏 ) 𝑥𝑎 𝑏 (𝟐 ) 6𝑥𝑎 𝑏 (𝟏 ) 𝑥𝑏 (𝟐 ) Hình 3.11 Cây MECR-Tree tổng quát cửa sổ Bảng 3.14 Các luật tạo cửa sổ ID Node x a1 x b3 Luật tạo If A1 = a1 then Class = y1 If A3 = b3 then Class = y1 Sup 3/4 3/4 Conf 2/3 2/3 Nhận xét thuật toán CAR-Miner liệu dạng luồng - Thuật tốn CAR-Miner cần qt lần tồn liệu dạng luồng để phát trì tập phổ biến cửa sổ trượt liệu thời Tất tập phổ biến liệu dạng luồng xuất theo thời gian thực dựa ngưỡng cụ thể người dùng - Thuật tốn sử dụng mơ hình xử lý liệu mơ hình cửa sổ trượt (Slide Window) Mơ hình cho kết khai thác sát với thực tế liệu dạng luồng quan tâm tới tập giao dịch gần thời điểm Tức tập phổ biến tìm kết khai thác tính từ tập giao dịch gần - Các thao tác thuật toán tương đối đơn giản, sử dụng phép tốn, điều làm cho thời gian thực thuật toán nhanh 3.4 Tổng kết chương Trong chương này, luận văn nghiên cứu hướng tiếp cận luật phân lớp kết hợp liệu dạng luồng thuật toán CAR-Miner [6] Qua trình bày đánh giá nhận xét thuật toán CAR-Miner dựa cấu trúc MECR-Tree để tiến hành khai thác tập phổ biến sở liệu dạng luồng 39 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm Các thuật toán sử dụng thử nghiệm mã hóa vào máy tính cá nhân có cài phần mềm Visual Studio 2010, Windows 7, với cấu hình máy Intel®Core ™ i5-2557M CPU @1.70 GHz 2.50 GHz, 4GBbộ nhớ RAM 4.2 Đặc điểm sở liệu thực nghiệm Dữ liệu dạng luồng loại liệu phổ biến nhiều lĩnh vực ứng dụng.Tuy nhiên môi trường liệu dạng luồng, cácgiao dịch xuất nhanh liên tục, đề tài tiến hành thực nghiệm tập liệu thu từ UCI Repository địa (http://mlearn.ics.uci.edu) Kết thực nghiệm tiến hành khai thác tập liệu chuẩn thực nghiệm tic-tac, breastcancer, Vehicle Kết thực nghiệm tập liệu từ bảng 4.1, dùng thuật toán CARMiner liệu dạng luồng với minSup = minConf = 50% với kích thước cửa sổ Kích thước cửa sổcàng cao số lượng tập tìm thấy cao khơng tn theo tỉ lệ số lượng tậptrên sở liệu khác Bảng 4.1 Đặc tính tập liệu thực nghiệm CSDL Số giao dịch Số thuộc tính Số lớp Tic-tac 958 10 Breast-cancer 699 11 Vehicle 846 19 40 4.3 Kết thực nghiệm THỜI GIAN THỰC THI (GIÂY) CAR-MINER-STREAM TIC-TAC 0,087 0,086 0,085 0,084 0,083 0,082 0,081 0,08 0,079 500 600 700 800 WINDOW 900 Hình 4.1 Biểu đồ thời gian khai thác CAR-Miner liệu dạng luồng với sở liệu Tic-tac CAR-MINER-STREAM THỜI GIAN THỰC THI (GIÂY) 0,06 BREATS 0,05 0,04 0,03 0,02 0,01 200 300 400 500 WINDOW 600 Hình 4.2 Biểu đồ thời gian khai thác CAR-Miner liệu dạng luồng với sở liệu Breats-Cancer 41 CAR-MINER-STREAM THỜI GIAN THỰC THI (GIÂY) 0,12 0,1 0,08 0,06 0,04 Vehicle 0,02 400 500 600 700 WINDOW 800 Hình 4.3Biểu đồ thời gian khai thác CAR-Miner liệu dạng luồng với sở liệu Vehicle Nhận xét Qua kết thực nghiệm tập liệu Hình 4.1, 4.2, 4.3 cho thấy thời gian thực thi để tìm kiếm tập thay đổi tùy theo kích thước cửa sổ, kích thước cửa sổ thấp thời gian thực thi chậm kích thước cửa sổ cao thời gian thực thi nhanh Từ kết thử nghiệm, ta thấy thời gian xử lý thuật toán đề xuất CAR-Miner liệu dạng luồng nhanh ổn sở liệu có kích thước khơng q lớn, vừa nhỏ mức ngưỡng thích hợp với sở liệu 42 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn tập trung vào nghiên cứu thuật toán khai thác phân lớp kết hợp liệu dạng luồng Kết thực CSDL cho thấy tính hiệu phương pháp đề xuất so với thuật toán đề nghị trước Mục đích luận văn đưa phương pháp hiệu để khai thác luật phân lớp kết hợp liệu dạng luồng Sau điểm mà luận văn tập trung giải quyết: - Nghiên cứu sở lý thuyết kỹ thuật khai thác liệu phương pháp Luật phân lớp, Luật kết hợp, Luật Phân lớp kết hợp - Luận văn sâu vào vấn đề khai thác luật phân lớp kết hợp dữliệu dạng luồng Do đặc điểm liệu dạng luồng nên khai thác đặt số thách thức mới, địi hỏi phải có phương pháp kỹ thuật phù hợp Luận văn trìnhbày phân tích rõ mơ hình xử lý liệu liệu dạng luồng là: mốc thời gian, mốc thời gian với gán trọng số mơ hình cửa sổ trượt Luận văn tóm lược thuật toán phân lớp kết hợp PSTree, PSTMiner, qua nghiên cứu hướng tiếp cận thuật tốn CAR-Miner theo mơ hình xử lý liệu dạng luồng .- Luận văn trình bày chi tiết thuật tốn CAR-Miner thuật toán trội khai thác luật phân lớp kết hợp áp dụng vào liệu dạng luồng Các cấu trúc liệu sử dụng thuật toán bước thực thuật toán trình bày chi tiết ví dụ minh họa - Cài đặt thực nghiệm để khảo sát kết thuật toán đề xuất: tiến hành khai thác thuật toán đề xuất sở liệu chuẩn UCI Tuy nhiên, luận văn nghiên cứu mặt lý thuyết, chưa vận dụng vào ứng dụng thực tế để thấy tính ứng dụng hiệu luật phân lớp kết hợp 43 5.2 Hướng phát triển Nghiên cứu thuật toán khai thác luật phân lớp kết hợp liệu dạng luồng hướng nghiên cứu nhiều nhà nghiên cứu quan tâm tính ứng dụngcủa vào nhiều lĩnh vực Đề tài luận văn tiếp tục nghiên cứu tiếpmột số vấn đề sau: - Phát triển kỹ thuật khai thác luật phân lớp kết hợp để phù hợp với môi trường liệu dạng luồng có tốc độ cao - Khai thác giao dịch liệu dạng luồng mơ hình cửa sổ trượt mà giao dịch liệu gán trọng số - Khai thác phân lớp kết hợp liệu dạng luồng có kèm theo điều kiện ràngbuộc để phù hợp với mục đích sử dụng - Đi sâu vào tính ứng dụng tốn khai thác luật phân lớp kết hợp liệu dạng luồng Trong tương lai, mở rộng thuật toán đề xuất cho ứng dụng liệu dạng luồng khác 44 TÀI LIỆU THAM KHẢO [1] Cai, C H., Fu, A W., Cheng, C H., & Kwong, W W (1998) “Mining association rules with weighted items” In: Proceedingss of international database engineering and applications symposium (IDEAS 98) (pp 68-77) [2] P L Kompalli (2014), “Efficient Mining of Data Streams Using Associative Classification Approach”, International Journal of Software Engineering and Knowledge Engineering (pp 605–631) [3] P L Kompalli, K Reddy (2010) “A Survey on Different Trends in Data Stream” In Proc of IEEE International Conference on Networking and Information Technology (pp 451 – 455) [4] B Liu, W Hsu, Y Ma (1998): "Integrating classification and association rule mining", in 4th International conference on knowledge discovery and Data mining, (pp 80–86) [5] W Li, J Han, J Pei (2001): "CMAR: Accurate and efficient classification based on multiple class-association rules ", in 1st IEEE international conference on Data mining, (pp 369–376) [6] Loan Nguyen, Bay Vo, Tzung-Pei Hong, Hoang Chi Thanh (2013): "CARMiner: An efficient algorithm for mining class-association rules", Expert Systems With Applications 40(6), (pp 2305-2311) [7] R Quinlan (1986): "Induction of Decision Trees", Machine Learning 1(1), (pp 81-106) [8] R Quinlan (1992): "C4.5: programs for machine learning", Machine Learning 16, (pp 235-240) [9] W Snedecor and W Cochran (1989).“Statistical Methods Eighth Edition”, in Iowa State University Press [10] S K Tanbeer, C F Ahmed, B S Jeong, and Y K Lee 2008 “CP-Tree: A tree structure for single-pass frequent pattern mining” In Proc Of PAKDD, Lect NotesArtif Int, (pp 1022 – 1027) [11] F A Thabtah, Peter Cowling, Yonghong Peng (2004): "MMAC: A new multi-class, multi-label associative classification approach", the 4th IEEE 45 International Conference on Data mining, (pp 217-224) [12] M R Tolun, S M Abu-Soud (1998): "ILA: an inductive learning algorithm for rule extraction", Expert Systems With Applications 14(3), (pp 361–370) [13] Bay Vo, Bac Le (2008): "A novel classification algorithm based on association rule mining", PKAW 2008, (pp 61-75) [14] K Wang, S Zhou and Y He (2000)“Growing decision trees on support-less association rules”, in Proc Sixth Int'l Conf Knowledge Discovery and Data Mining [15] X Yin, J Han (2003): "CPAR: Classification based on predictive association rules", in SIAM international conference on Data mining (SDM’03), (pp 331– 335) ` ... kết thúc liệu dạng luồng 2.4.2 Thuật toán khai thác luật phân lớp kết hợp PSTMiner liệu dạng luồng Thuật toán khai thác luật phân lớp kết hợp PSTMiner thuật toán cho kỹ thuật khai thác liệu dạng. .. tốn để khai thác luật phân lớp dựa khai thác luật kết hợp phát triển năm gần như: phân lớp dựa luật kết hợp dự đoán (CPAR) [15], phân lớp dựa nhiều luật kết hợp (CMAR)[5], phân lớp dựa kết hợp (CBA)... đề tài: KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN DỮ LIỆU DẠNG LUỒNG II- Nhiệm vụ nộidung: Đề tài nghiên cứu thuật toán khai thác liệu dạng luồng dựa phương pháp khai thác luật phân lớp kết hợp Đề