Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian (tt)

27 4 0
Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… TRƢƠNG ĐỨC PHƢƠNG PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG CƠ SỞ DỮ LIỆU ĐỊNH LƢỢNG CÓ YẾU TỐ THỜI GIAN Chuyên ngành: Hệ thống thông tin Mã số: 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH Hà Nội – 2021 Cơng trình đƣợc hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Ngƣời hƣớng dẫn khoa học 1: PGS.TS Đỗ Văn Thành Ngƣời hƣớng dẫn khoa học 2: PGS.TS Nguyễn Đức Dũng Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ‟, ngày … tháng … năm 201… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án động lực nghiên cứu (Phương and Thành, 2013) Phát luật kết hợp mẫu chuỗi, luật chuỗi nằm số vấn đề quan trọng lĩnh vực khai phá liệu Đến nay, nhiều cơng trình nghiên cứu liên quan đến lĩnh vực Các luật kết hợp mẫu chuỗi, luật chuỗi đề xuất đa dạng, chúng luật, mẫu chuỗi giao dịch/định lượng; có trọng số/khơng trọng số; có yếu tố thời gian/khơng có yếu tố thời gian;.v.v Vấn đề phát luật kết hợp CSDL giao địch đề xuất lần đầu vào năm 1993 (Agrawal, Imieliński and Swami, 1993) đến có nhiều thuật tốn xây dựng theo nhiều cách tiếp cận khác để phát luật CSDL giao dịch: APRIORI (Agrawal, Srikant and others, 1994), PARTITION (Savasere, Omiecinski and Navathe, 1995), A-CLOSE (Pasquier et al., 1999a), A-CLOSE+ (Shekofteh, Rahmani and Dezfuli, 2008), CLOSE (Pasquier et al., 1999b), CLOSET (Pei et al., 2000), CLOSET+ (Wang, Han and Pei, 2003), CHARM (Zaki and Hsiao, 2002), MAFIA (Burdick, Calimlim and Gehrke, 2001), GENMAX (Gouda and Zaki, 2005), ECLAT (Ogihara et al., 1997), DIC (Brin et al., 1997), FP-GROWTH (Han et al., 2004), CFPMINE (Qin, Luo and Shi, 2004), ETARM (Nguyen et al., 2018), LRM (Saravanan and Sree, 2011), PARM (Sumathi and Kirubakaran, 2012), NEGFIN (Aryabarzan, Minaei-Bidgoli and Teshnehlab, 2018) Tuy nhiên CSDL thực tế thường có thuộc tính nhận giá trị số giá trị phân loại Những CSDL gọi CSDL định lượng Việc phát luật kết hợp CSDL định lượng thường sử dụng cách là: rời rạc hóa (Srikant and Agrawal, 1996a; Lent, Swami and Widom, 1997; Fukuda et al., 1999; Rastogi and Shim, 2002) mờ hóa thuộc tính định lượng (Chan and Au, 1997; Kuok, Fu and Wong, 1998; T.-P Hong, Kuo and Chi, 1999; Hong, Kuo and Chi, 2001; Hong, Chiang and Wang, 2002; Hong, 2003) Bản chất cách tiếp cận thứ đưa CSDL định lượng CSDL giao dịch cách chuyển thuộc tính định lượng thành số mục (item) tương ứng sau áp dụng thuật toán phát luật kết hợp CSDL giao dịch biết Cách tiếp cận thứ hai nhằm khắc phục nhược điểm cách tiếp cận thứ nhất, thuật toán phát luật kết hợp CSDL cần cải tiến phát triển tiếp CSDL có yếu tố thời gian (temporal database) CSDL có lưu trữ thông tin thời điểm xảy giao dịch (Tansel et al., 1993) (Aydin and Angryk, 2018) Năm 1998, Lu cộng (Lu, Han and Feng, 1998) đề xuất luật kết hợp có tính đến độ chênh lệch thời điểm (gọi khoảng cách thời gian) xảy giao dịch CSDL giao dịch có yếu tố thời gian, luật có dạng → với a, b tập mục liệu Trong (Lu, Han and Feng, 1998), hai thuật toán E-Apriori EH-Apriori đề xuất để phát luật dạng Về ý tưởng chính, hai thuật toán E-Apriori, EH-Apriori dựa ý tưởng thuật toán Apriori sử dụng cửa sổ trượt khoảng cách thời gian Để phát luật kết hợp có tính đến khoảng cách thời gian CSDL giao dịch có yếu tố thời gian, nhiều thuật tốn tiếp tục đề xuất như: FITI (Tung et al., 2003), ITARM (Qin and Shi, 2006), ITPMiner (Lee and Wang, 2007), IAR Miner (Nandagopal, Arunachalam and Karthik, 2012), CITP-Miner (Nguyen et al., 2019), NCITPS-MINER (Nguyen et al., 2020) Việc phát luật kết hợp có tính đến khoảng cách thời gian dừng lại CSDL giao dịch có yếu tố thời gian mà chưa thực CSDL định lượng có yếu tố thời gian Đây khoảng trống nghiên cứu mà luận án mong muốn giải Luật chuỗi, mẫu chuỗi hiểu từ trước đến gọi luật chuỗi, mẫu chuỗi cổ điển để phân biệt với loại luật chuỗi, mẫu chuỗi đề xuất năm gần Các mẫu chuỗi cổ điển (được gọi ngắn gọn mẫu chuỗi) chuỗi cổ điển (nói gọn chuỗi) phổ biến CSDL chuỗi giao dịch Các mẫu chuỗi biểu diễn mối quan hệ có trình tự thời gian xảy giao dịch chuỗi Phát mẫu chuỗi CSDL chuỗi giao dịch giới thiệu lần đầu năm 1995 (Agrawal, Srikant and others, 1995) đến nhận nhiều quan tâm Hiện có nhiều thuật tốn phát mẫu chuỗi CSDL chuỗi giao dịch GSP (Srikant and Agrawal, 1996b), SPIRIT (Garofalakis, Rastogi and Shim, 1999), SPADE (Zaki, 2001), SPAM (Ayres et al., 2002), FAST (Salvemini et al., 2011), CM-SPADE (Fournier-Viger, Gomariz, Campos, et al., 2014), MAXSP (Fournier-Viger, Wu and Tseng, 2013), GENMINER (Lo, Khoo and Li, 2008), FREESPAN (Han et al., 2000), PREFIXSPAN (Pei et al., 2004), CLOSPAN (Yan, Han and Afshar, 2003), MSPIC-DBV (Van, Vo and Le, 2018), HSPREC (Bhatta, Ezeife and Butt, 2019), Các CSDL chuỗi giao dịch có yếu tố thời gian CSDL có lưu trữ thơng tin thời điểm xảy giao dịch Năm 2000, Yoshida cộng (Yoshida et al., 2000) đề xuất mẫu chuỗi có tính đến khoảng cách thời gian CSDL chuỗi giao dịch có yếu tố thời gian, 〉 với a, b, c tập mục, [1−4] [5−9] mẫu chuỗi có dạng 〈 khoảng thời gian xảy a, b b, c Để phát mẫu chuỗi có tính đến khoảng cách thời gian, thuật toán Delta-Pattern đề xuất (Yoshida et al., 2000) Phát mẫu chuỗi có tính đến khoảng cách thời gian (Yoshida et al., 2000) tiếp tục giải thuật toán I-Apriori I-PrefixSpan (Chen, Chiang and Ko, 2003), TAS (Giannotti et al., 2006) Năm 2005, để khắc phục tượng “sắc nét” điểm giáp danh khoảng chia khoảng cách thời gian, Chen Huang (Chen and Huang, 2005) đề xuất mẫu chuỗi có tính đến khoảng cách thời gian mà khoảng cách 〉 với Short, Long thời gian tập mờ, mẫu chuỗi có dạng 〈 tập mờ, tập mờ có hàm thành viên tương ứng Trong (Chen and Huang, 2005), hai thuật toán FTI-Apriori FTI-PrefixSpan đề xuất để phát mẫu chuỗi Mẫu chuỗi tiếp tục phát thuật toán FP Growth- PrefixSpan (Mukhlash, Yuanda and Iqbal, 2018) Khái niệm luật chuỗi chung xuất vài năm gần (Fournier-Viger et al., 2010, 2017) Fournier-Viger cộng đề xuất Luật chuỗi chung phát CSDL chuỗi giao dịch biểu diễn mối quan hệ tập mục, mục phần tiền đề (bên trái) hệ (bên phải) luật không cần thứ tự mà cần thỏa mãn điều kiện mục phần tiền đề phải xảy trước mục phần hệ Thuật toán phát luật chuỗi chung CMRules (Fournier-Viger et al., 2010) sau tiếp tục phát triển Rule Growth (Fournier-Viger, Nkambou and Tseng, 2011), ERMiner (Fournier-Viger, Gueniche, et al., 2014) Các luật chuỗi chung thực có ích ứng dụng thực tế (Çelebi et al., 2014) Luật chuỗi chung đến phát CSDL chuỗi giao dịch mà chưa áp dụng CSDL chuỗi định lượng có yếu tố thời gian Đây khoảng trống thứ xác định vấn đề nghiên cứu luận án Luận án nhằm giải khoảng trống xác định Việc nghiên cứu giải vấn đề thực cần thiết không phương diện phát triển lý thuyết mà phương diện ứng dụng thực tế Đó động lực để tác giả luận án thực nghiên cứu đề tài “Phát luật kết hợp luật chuỗi mờ sở liệu định lượng có yếu tố thời gian” Cụ thể luận án đề xuất giải vấn đề phát luật kết hợp mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian xảy giao dịch tương ứng CSDL định lượng có yếu tố thời gian CSDL chuỗi định lượng có yếu tố thời gian Luận án thực có đóng góp mặt lý thuyết, cung cấp giải pháp cho vấn đề chưa giải hướng nghiên cứu phát luật kết hợp mẫu chuỗi, luật chuỗi chung tương ứng CSDL định lượng CSDL chuỗi định lượng có yếu tố thời gian Mục tiêu, đối tƣợng phạm vi nghiên cứu luận án 2.1 Mục tiêu luận án  Phát luật kết hợp có tính đến khoảng cách thời gian xảy giao dịch CSDL định lượng có yếu tố thời gian Các luật tìm gọi luật kết hợp mờ với khoảng cách thời gian mờ  Phát mẫu chuỗi có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian Các mẫu chuỗi tìm gọi mẫu chuỗi mờ với khoảng cách thời gian mờ  Phát luật chuỗi chung (là luật chuỗi dạng tổng quát chung so với luật chuỗi (cổ điển) biết từ trước đến nay) có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian Các luật tìm được gọi luật chuỗi chung mờ với khoảng cách thời gian mờ 2.2 Đối tượng nghiên cứu: thuật toán phát luật kết hợp, mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian CSDL định lượng CSDL chuỗi định lượng có yếu tố thời gian 2.3 Phạm vi nghiên cứu:  Luận án nghiên cứu luật kết hợp, mẫu chuỗi, luật chuỗi chung, CSDL định lượng CSDL chuỗi định lượng có yếu tố thời gian  Các tập mờ sử dụng tham số cho trước làm đầu vào cho thuật tốn đề xuất, luận án khơng tập trung nghiên cứu sâu lý thuyết mờ  Do luật kết hợp, mẫu chuỗi, luật chuỗi chung đề xuất luận án mới, nên phần thực nghiệm luận án không so sánh kết với thuật toán khác Phƣơng pháp nghiên cứu Luận án sử dụng phương pháp nghiên cứu sau:  Phương pháp tổng hợp, phân tích: sử dụng để tổng hợp phân tích nghiên cứu vấn đề liên quan để phát khoảng trống nghiên cứu xác định vấn đề nghiên cứu mà luận án cần giải Phương pháp phân tích thường sử dụng đề xuất khái niệm liên quan đến vấn đề nghiên cứu luận án cho khái niệm phát triển dựa nhiều khái niệm có liên quan  Phương pháp so sánh: sử dụng để so sánh kỹ thuật, thuật toán đề xuất để giải vấn đề nghiên cứu liên quan, từ hình thành ý tưởng cho thuật toán cho vấn đề nghiên cứu  Phương pháp thiết kế đánh giá độ phức tạp thuật toán: sử dụng để thiết kế thuật toán giải toán cụ thể đặt luận án ước lượng độ phức tạp tính tốn thuật toán  Phương pháp thực nghiệm: Các thuật toán đề xuất thực nghiệm tập liệu thực để đánh giá đắn tính khả thi thuật tốn Các đóng góp luận án Những đóng góp luận án đề xuất giải vấn đề sau:  Đề xuất vấn đề thuật toán phát luật kết hợp có tính đến khoảng cách thời gian xảy giao dịch CSDL định lượng có yếu tố thời gian, thuộc tính định lượng khoảng cách thời gian xảy giao dịch chuyển thành thuộc tính mờ khoảng cách thời gian mờ [CT4]  Đề xuất vấn đề thuật toán phát mẫu chuỗi (cổ điển) có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian, thuộc tính định lượng khoảng cách thời gian xảy giao dịch chuyển thành thuộc tính mờ khoảng cách thời gian mờ [CT5]  Đề xuất vấn đề thuật toán phát luật chuỗi chung có tính đến khoảng cách thời gian xảy giao địch CSDL chuỗi định lượng có yếu tố thời gian,       thuộc tính định lượng khoảng cách thời gian chuyển thành thuộc tính mờ khoảng cách thời gian mờ [CT9] Bố cục luận án Luận án gồm phần mở đầu, 04 chương nội dung phần kết luận: Phần mở đầu: Trình bày cần thiết động lực nghiên cứu đề tài; mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; đóng góp cấu trúc luận án Chương 1: Tổng quan luật kết hợp mẫu chuỗi, luật chuỗi chung Chương 2: Phát luật kết hợp có tính đến khoảng cách thời gian CSDL định lượng có yếu tố thời gian Chương 3: Phát mẫu chuỗi có tính đến khoảng cách thời gian CSDL chuỗi định lượng có yếu tố thời gian Chương 4: Phát luật chuỗi chung có tính đến khoảng cách thời gian CSDL chuỗi định lượng có yếu tố thời gian Phần kết luận: Trình bày số kết luận ý nghĩa, đóng góp luận án định hướng nghiên cứu tương lai CHƯƠNG TỔNG QUAN VỀ LUẬT KẾT HỢP VÀ MẪU CHUỖI, LUẬT CHUỖI CHUNG Chương trình bày tổng quan vấn đề liên quan đến phát luật kết hợp mẫu chuỗi, luật chuỗi chung CSDL giao dịch/định lượng khơng có có yếu tố thời gian Chương khoảng trống chưa giải để từ xác định vấn đề nghiên cứu luận án 1.1 Luật kết hợp 1.1.1 Phát luật kết hợp CSDL giao dịch Định nghĩa 1.1 CSDL giao dịch (Agrawal, Srikant and others, 1994): Giả sử I = { } tập mục, D = { } tập giao dịch, (1jm) tập mục thỏa mãn  I, biểu diễn mục xuất giao dịch (hay tương ứng nhận giá trị xuất giao dịch này), nói cách Khi đó, D gọi CSDL giao dịch Định nghĩa 1.2 Luật kết hợp (Agrawal, Imieliński and Swami, 1993): Giả sử X tập mục, giao dịch T gọi chứa X XT Luật kết hợp luật có dạng X  Y với XI, YI XY= Trong X gọi tiền đề, Y hệ luật Định nghĩa 1.3 Độ hỗ trợ độ tin cậy luật kết hợp (Agrawal, Imieliński and Swami, 1993) Độ hỗ trợ (support) tập mục X tỉ lệ số giao dịch D chứa X, kí hiệu sup(X) |{ | }| | | Độ hỗ trợ luật (1.1) tỉ lệ số giao dịch D chứa XY, kí hiệu (1.2) | | Độ tin cậy (confidence) luật hiệu là tỉ lệ số giao dịch D chứa X chứa Y, kí (1.3) Việc phát luật kết hợp thường chia làm giai đoạn (Agrawal, Imieliński and Swami, 1993; Kotsiantis and Kanellopoulos, 2006):  Giai đoạn 1: Tìm tất tập phổ biến CSDL, tập phổ biến tập có độ hỗ trợ khơng nhỏ độ hỗ trợ cực tiểu (hay ngưỡng hỗ trợ) cho trước;  Giai đoạn 2: Sinh luật kết hợp có độ tin cậy không nhỏ độ tin cậy cực tiểu (hay ngưỡng tin cậy) cho trước từ tập phổ biến tìm giai đoạn 1.1.2 Phát luật kết hợp CSDL định lượng } tập Định nghĩa 1.4 CSDL định lượng (Chan and Au, 1997): Giả sử I = { } tập giao dịch, (1jm) tập thuộc tính thỏa thuộc tính, D = { mãn  I, giá trị tương ứng với thuộc tính (1kn) giao dịch (1jm) nhận giá trị số phân loại Khi đó, D gọi CSDL định lượng 1.1.3 Phát luật kết hợp tính đến khoảng cách thời gian xảy giao dịch CSDL có yếu tố thời gian Định nghĩa 1.5 CSDL có yếu tố thời gian CSDL (giao dịch định lượng) có thuộc tính thời gian nhận giá trị thời điểm (hay timestamp) xảy giao dịch Bảng 1.1 Một số nghiên cứu phát luật kết hợp có tính đến khoảng cách thời gian Thuật toán Tập liệu Tập phổ biến/luật EH-Apriori (Lu, Han and Feng, CSDL giao 1998), dịch có yếu FITI (Tung et al., 2003), tố thời gian ITARM (Qin and Shi, 2006), ITP-Miner (Lee and Wang, 2007), IAR Miner (Nandagopal, Arunachalam and Karthik, 2012), NCITPS-Miner (Nguyen et al., 2020) → Ý nghĩa Nếu mặt hàng a mua mặt hàng b mua sau ngày 1.2 Mẫu chuỗi 1.2.1 Phát mẫu chuỗi CSDL chuỗi giao dịch Định nghĩa 1.6 CSDL chuỗi giao dịch (Agrawal, Srikant and others, 1995): Giả sử I } tập mục Một chuỗi s =〈 〉 danh sách có thứ tự tập mục ={ với  I (1km) Một CSDL chuỗi giao dịch SD tập chuỗi giao dịch } SD = { Định nghĩa 1.7 Độ dài chuỗi (Agrawal, Srikant and others, 1995): Độ dài chuỗi 〈 〉 tổng số tập mục chuỗi Một chuỗi có độ dài k gọi kchuỗi Định nghĩa 1.8 Chuỗi (Agrawal, Srikant and others, 1995): Chuỗi 〈 〉 gọi chuỗi chuỗi 〈 〉 tồn k số nguyên cho    kí hiệu  Nói cách khác, chuỗi chuỗi chuỗi nhận từ sau bỏ số giao dịch số mục giao dịch Khi ta gọi chuỗi chứa chuỗi Định nghĩa 1.9 Độ hỗ trợ chuỗi (Agrawal, Srikant and others, 1995): Độ hỗ trợ chuỗi CSDL chuỗi SDB, kí hiệu sup( ), tỷ số số chuỗi SDB chứa tổng số chuỗi CSDL Độ hỗ trợ chuỗi tính theo cơng thức: |{ |  }|/|SDB| (1.4) Chuỗi gọi phổ biến mẫu chuỗi độ hỗ trợ chuỗi s không nhỏ độ hộ trợ cực tiểu min_sup cho trước, tức sup( )  min_sup 1.2.2 Phát mẫu chuỗi CSDL chuỗi định lượng } tập thuộc tính Định nghĩa 1.10 CSDL chuỗi định lượng: Giả sử I = { 〉 danh sách có thứ tự tập thuộc tính Một chuỗi định lượng s = 〈  I (1km) thuộc tính a nhận giá trị số phân loại Một CSDL chuỗi định lượng tập chuỗi định lượng { } 1.2.3 Phát mẫu chuỗi tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi có yếu tố thời gian Định nghĩa 1.11 CSDL chuỗi giao dịch/định lượng có yếu tố thời gian (Guyet, 2020): CSDL chuỗi giao dịch/định lượng có thêm thuộc tính thời gian nhận giá trị thời điểm xảy giao dịch chuỗi giao dịch 〈 〉 , } tập mục Một chuỗi Giả sử I = { thời điểm xuất mục I (1  n) chuỗi 〉 Chuỗi giao dịch s viết dạng s = 〈 (1≤ j≤ k) tương ứng thời điểm xảy giao dịch mua mặt hàng Một CSDL chuỗi có yếu tố thời gian tập tất chuỗi có yếu tố thời gian { } Trong CSDL trên, mục I xem thuộc tính nhận giá trị tương ứng với mục xuất hay khơng xuất CSDL chuỗi giao dịch có yếu tố thời gian trở thành CSDL chuỗi nhị phân có yếu tố thời gian Nếu thuộc tính I nhận giá trị số giá trị phân loại nhận CSDL gọi CSDL chuỗi định lượng có yếu tố thời gian Bảng 1.2 Một số nghiên cứu phát mẫu chuỗi có tính đến khoảng cách thời gian Thuật tốn Tập liệu TAS (Giannotti et CSDL chuỗi al., 2006) giao dịch có yếu tố thời gian Delta-Pattern (Yoshida et 2000) CSDL chuỗi al., giao dịch có yếu tố thời gian I-Apriori algorithm, I-PrefixSpan (Chen, Chiang and Ko, 2003) FTI-Apriori, FTIPrefixSpan (Chen and Huang, 2005) FP-GrowthPrefixSpan (Mukhlash, Yuanda and Iqbal, 2018) SPFTI (Chang, Chueh and Lin, 2009), CSDL chuỗi giao dịch có yếu tố thời gian Ý nghĩa Mẫu 〈 〉 Nếu khách hàng mua a sau mua b thời gian ngày khách hàng mua c sau ngày 〈 〉 Nếu khách hàng mua a sau mua b thời gian [0, ngày] khách hàng mua c vịng [0, ngày] Nếu khách hàng mua a sau 〈 〉 (khoảng cách thời mua b sau thời gian I1 khách hàng mua c sau thời gian I2 gian giá trị rõ) CSDL chuỗi 〈 〉 Nếu khách hàng mua a mua b giao dịch có yếu (Khoảng cách thời sau thời gian Short khách hàng tố thời gian mua c sau thời gian Long gian giá trị mờ) CSDL chuỗi 〈 〉 Nếu khách hàng mua a mua b giao dịch có yếu (Khoảng cách thời sau thời gian khách hàng tố thời gian gian giá trị mờ) mua c sau thời gian ISPFTI (Chang, Chueh and Luo, 2012) 1.3 Luật chuỗi chung 1.3.1 Khái niệm luật chuỗi chung } Định nghĩa 1.12 Luật chuỗi chung (Fournier-Viger et al., 2012): Giả sử I = { tập mục, SD CSDL chuỗi giao dịch, luật chuỗi chung có dạng X⟹Y, X, Y  I thỏa mãn X  Y=, X, Y ≠  mục Y phải xuất sau mục X 1.3.2 Phát luật chuỗi chung Luật chuỗi chung xuất vài năm gần (Fournier-Viger et al., 2010) Các thuật toán để phát luật chuỗi chung CSDL chuỗi chưa nhiều Bảng 1.3 sau giới thiệu thuật toán Bảng 1.3 Một số nghiên cứu phát luật chuỗi chung Thuật tốn Dữ liệu Mẫu/Luật Mơ tả CMRules (Fournier-Viger CSDL chuỗi Luật chuỗi chung: Nếu khách hàng et al., 2010), giao dịch mua a mua b {a, b} ⟹ {c} Rule Growth (Fournierkhách hàng mua Viger, Nkambou and c sau Tseng, 2011), ERMiner (Fournier-Viger, Gueniche, et al., 2014) Định nghĩa 1.13 Các lớp tương đương trái/phải (Fournier-Viger, Gueniche, et al., 2014): Cho CSDL chuỗi giao dịch, I tập mục CSDL Một lớp tương đương trái kí hiệu xác định = {W ⟹ Y | Y I |Y| = i} W I i số tự nhiên Tương tự, lớp tương đương phải kí hiệu xác định = {X ⟹ W | X I |X| = i} W I i số nguyên Định nghĩa 1.14 Các phép hợp trái/phải (Fournier-Viger, Gueniche, et al., 2014): Giả sử lớp tương đương trái hai luật r = W ⟹ X s = W ⟹ Y thuộc |  | | – | Một phép hợp trái r s trình kết hợp r, s để nhận luật ⟹  Tương tự, gọi lớp tương đương phải hai luật r = ⟹ s = ⟹ thỏa mãn r, s |  | | – | Một phép hợp phải r s trình kết hợp r, s để  ⟹ Kết luận Chương Chương trình bày cách tổng quan, tóm tắt vấn đề liên quan đến phát luật kết hợp mẫu chuỗi, luật chuỗi chung tương ứng CSDL (giao dịch, định lượng) CSDL chuỗi (giao dịch, định lượng) có yếu tố thời gian Luận án tập trung nghiên cứu đề xuất giải pháp giải triệt để vấn đề sau đây:  Vấn đề 1: Phát luật kết hợp có tính đến khoảng cách thời gian xảy giao dịch CSDL định lượng có yếu tố thời gian  Vấn đề 2: Phát mẫu chuỗi có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian  Vấn đề 3: Phát luật chuỗi chung có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian Ba chương nội dung luận án trình bày cụ thể giải pháp tương ứng cho vấn đề nghiên cứu CHƯƠNG PHÁT HIỆN LUẬT KẾT HỢP CĨ TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN Trong chương 1, luận án khoảng trống cần nghiên cứu phát luật kết hợp có tính đến khoảng cách thời gian xảy giao dịch CSDL định lượng có yếu tố thời gian Chương này, luận án trình bày giải pháp để giải vấn đề nghiên cứu Khi đó, dạng luật kết hợp gọi luật kết hợp mờ với khoảng cách thời gian mờ phát Kết nghiên cứu Chương đăng tạp chí Indian Journal of Science and Technology [CT4] Chương chủ yếu tập trung trình bày vấn đề phát luật kết hợp mờ với khoảng cách thời gian mờ CSDL định lượng có yếu tố thời gian 2.1 Giới thiệu Phát luật kết hợp hướng nghiên cứu ứng dụng quan trọng lĩnh vực khai phá liệu Phát luật kết hợp từ CSDL giao dịch Rakesh Agrawal cộng đề xuất lần đầu năm 1993 (Agrawal, Imieliński and Swami, 1993) đến nhận nhiều kết nghiên cứu (Agrawal, Srikant and others, 1994; Savasere, Omiecinski and Navathe, 1995; Zaki and Hsiao, 2002; Sumathi and Kirubakaran, 2012; Aryabarzan, MinaeiBidgoli and Teshnehlab, 2018) Trong trình nghiên cứu phát luật kết hợp người ta quan tâm đến khoảng cách thời gian xảy giao dịch (Lu, Han and Feng, 1998; Tung et al., 2003; Qin and Shi, 2006; Lee and Wang, 2007; Nandagopal, Arunachalam and Karthik, 2012) khoảng cách thời gian giao dịch mờ hóa nghiên cứu (Chen and Huang, 2005) Ý tưởng nghiên cứu (Chen and Huang, 2005) mờ hóa khoảng cách thời gian sau 〉, a, b, c mục, Short, Long phát mẫu chuỗi dạng 〈 khái niệm mờ liên tương ứng với khoảng cách thời gian; đề xuất hai thuật toán FTIApriori FTI-Prefix Span cho việc phát mẫu chuỗi với khoảng cách thời gian mờ Tuy nhiên nghiên cứu (Chen and Huang, 2005) đề cập đến việc mẫu chuỗi với khoảng cách thời gian CSDL chuỗi giao dịch mà thuộc tính khơng phải thuộc tính định lượng mà khơng áp dụng CSDL định lượng, tức phát luật có dạng “Nếu khách hàng mua a mua b sau thời gian Short khách hàng mua c sau thời gian Long” Nghiên cứu [CT2] đề xuất giải vấn đề phát luật kết hợp với khoảng cách thời gian mờ CSDL giao dịch có yếu tố thời gian Luật phát dạng “Nếu mặt hàng a mua hơm mặt hàng b mua Ngắn ngày kế tiếp” Thuật toán FTITS đề xuất để phát luật [CT2] Thuật toán FTITS dựa ý tưởng thuật toán FTI-Apriori (Chen and Huang, 2005) để phát chuỗi với thời gian mờ phổ biến làm sở để tìm luật đề xuất Mục đích chương phát luật dạng tổng quát luật kết hợp mờ với khoảng cách thời gian mờ CSDL định lượng có yếu tố thời gian 2.2 Một số khái niệm } tập thuộc tính, D = { Định nghĩa 2.1 Gọi I={ }, (1jp) tập thuộc tính thỏa mãn  I thời điểm ( ≥0), giá trị định lượng thời điểm (1≤k≤n) Khi đó, D gọi CSDL định lượng có yếu tố thời gian Định nghĩa 2.2 Cho T tập giao dịch, I tập thuộc tính { } tập tập mờ gắn với thuộc tính I, { } tập mờ gắn với thuộc tính (k=1, , n), hk số lượng tập mờ thuộc tính , tập mờ thứ j thuộc tính (1≤ j≤ ) ={các thuộc tính DF} ={α |Supp(α)≥min_sup} =; for each for each for each ltd LT { α= *ltd* ; add α to ; 10 } 11 for each α 12 α.count=Supp(α); 13 ={α |α.count ≥min_sup} 14 for (k>2; ≠;k++){ 15 =fuzzy_apriori_gen( ); 16 for each α 17 α.count=Supp(α); 18 ={α |α.count ≥min_sup} 19 } 20 return Generating_rules(  ); 21.} 2.3.4 Tính đắn tính đầy đủ thuật toán Định lý 2.1 Thuật toán FTQ đắn đầy đủ 2.3.5 Trường hợp suy biến luật kết hợp mờ với khoảng cách thời gian mờ Định lý 2.2: Thuật tốn FTQ tìm 2.4 Thử nghiệm thuật toán 2.4.1 Dữ liệu thử nghiệm Bảng 2.1 Dữ liệu thử nghiệm ISTANBUL STOCK EXCHANGE luật CSDL Số thuộc tính Số giao dịch ISTANBUL STOCK EXCHANGE 537 VNINDEX 11 1161 2.4.2 Kết thử nghiệm a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE Hình 2.1 biểu diễn mối quan hệ số lượng luật tìm từ thuật tốn FTQ độ tin cậy cực tiểu min_conf trường hợp khác độ hỗ trợ cực tiểu min_sup 11 Hình 2.1 Mối quan hệ số lượng luật tìm từ thuật toán FTQ độ tin cậy cực tiểu min_conf trường hợp khác độ hỗ trợ cực tiểu min_sup Hình 2.2 Hình 2.3 biểu diễn kết so sánh số luật thời gian thực phương pháp mờ hóa khoảng cách thời gian (A) với phương pháp chia khoảng khoảng cách thời gian (B) Khoảng thời gian phương pháp chia khoảng (B) chia thành khoảng, giá trị khoảng cách thời gian nhận giá trị thuộc khoảng, ngược lại nhận giá trị Hình 2.2 So sánh số luật phương pháp mờ hóa (A) phương pháp chia khoảng (B) khoảng cách thời gian thực thuật tốn FTQ Hình 2.3 So sánh thời gian chạy phương pháp mờ hóa (A) phương pháp chia khoảng (B) khoảng cách thời gian thực thuật toán FTQ Kết luận Chƣơng Trong chương luận án trình bày giải pháp phát luật kết hợp có tính đến khoảng cách thời gian xảy giao dịch CSDL định lượng có yếu tố thời gian cách đề xuất thuật toán phát luật kết hợp mờ với khoảng cách thời gian mờ CSDL Thuật tốn gọi FTQ Theo thuật tốn này, thuộc tính định lượng khoảng cách thời gian xảy giao dịch mờ hóa Thuật tốn FTQ phát triển từ ý tưởng thuật toán Apriori (Agrawal, Srikant and others, 1994), chuỗi phổ biến độ dài k nhận cách liên kết hai chuỗi phổ biến độ dài k-1 Chương 12 trình bày kết thử nghiệm thuật toán FTQ CSDL thực, so sánh với phương pháp chia khoảng tương ứng phân tích ý nghĩa luật thu Với việc lựa chọn hàm thành viên cách thích hợp, thuật toán FTQ trở thành thuật toán phát luật kết hợp luật kết hợp mờ với khoảng cách thời gian số xác tương ứng CSDL giao dịch CSDL định lượng có yếu tố thời gian Hơn CSDL định lượng có yếu tố thời gian suy biến thành CSDL giao dịch có yếu tố thời gian, thuộc tính mờ hóa thành tập mờ tương ứng hàm thành viên nhận giá trị 0, thuật toán trở thành thuật toán phát luật kết hợp với khoảng cách thời gian mờ CHƯƠNG PHÁT HIỆN MẪU CHUỖI CÓ TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN Trong chương 1, luận án xác định vấn đề cần nghiên cứu phát mẫu chuỗi cố điển CSDL chuỗi định lượng có yếu tố thời gian Ở chương này, luận án trình bày giải pháp giải vấn đề cần nghiên cứu Cụ thể chương này, luận án trình bày thuật tốn phát mẫu chuỗi có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian Các mẫu chuỗi tìm gọi mẫu chuỗi mờ với khoảng cách thời gian mờ Vấn đề phát mẫu chuỗi có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian giải theo cách tiếp cận từ đơn giản đến phức tạp Cách tiếp cận bắt đầu việc nghiên cứu giải toán phát mẫu chuỗi với khoảng cách thời gian xác định [CT1] CSDL giao dịch có yếu tố thời gian, giải toán phát mẫu chuỗi mờ với khoảng cách thời gian xác định [CT6] CSDL chuỗi định lượng có yếu tố thời gian cuối phát mẫu chuỗi cổ điền mờ với khoảng cách thời gian mờ CSDL kết nghiên cứu giải toán đăng tạp chí Cybernetics and Information Technologies [CT5] Chương tập trung trình bày kết nghiên cứu báo [CT5] 3.1 Giới thiệu Phát mẫu chuỗi hướng nghiên cứu ứng dụng quan trọng lĩnh vực khai phá liệu Phát mẫu chuỗi từ CSDL chuỗi giao dịch giới thiệu lần đầu vào năm 1995 (Agrawal, Srikant and others, 1995) Vấn đề phát mẫu chuỗi với khoảng cách thời gian xảy mục đối tượng CSDL chuỗi giao dịch nghiên cứu (Yoshida et al., 2000; Chen, Chiang and Ko, 2003) Trong (Chen, Chiang and Ko, 2003), mẫu chuỗi có 〉, a, b, c mục, dạng 〈 phạm vi thời gian khoảng cách thời gian giao dịch chuỗi gọi mẫu chuỗi với khoảng cách thời gian Nhằm khắc phục tượng “sắc nét” việc chia khoảng thời gian (time range) điểm gần ranh giới khoảng chia (Chen, Chiang and Ko, 2003), nghiên cứu (Chen and Huang, 2005) đề xuất giải vấn đề phát mẫu chuỗi với khoảng cách thời gian mờ từ CSDL chuỗi giao dịch dựa việc chuyển khoảng cách thời gian thành tập mờ Các mẫu chuỗi nghiên cứu (Chen and Huang, 2005) biểu diễn mối quan hệ 〉, a, b, c mục cịn Short, Long kiện dạng 〈 tập mờ gắn với khoảng cách thời gian giao dịch chuỗi Mục đích chương đề xuất phát mẫu chuỗi dạng tổng quát mẫu chuỗi mờ với khoảng thời gian mờ Đây vấn đề thứ đặt luận án Các mẫu chuỗi có 〉, dạng 〈 tập mờ gắn với thuộc tính a, b, c Short, Long tập mờ khoảng cách thời gian Từ mẫu chuỗi này, ta phát luật dạng “Nếu khách hàng mua mặt hàng a với số lượng Ít mặt hàng b với lượng Nhiều sau thời gian Short khách hàng mua mặt hàng c lượng TB với thời gian Long” Ý tưởng thuật tốn FSPFTIM đề xuất chương 13 sử dụng lý thuyết mờ để chuyển đổi thuộc tính định lượng, khoảng cách thời gian thành khái niệm mờ; tìm chuỗi có độ dài k cách liên kết chuỗi phổ biến có độ dài k1 theo cách giống thuật toán Apriori (Agrawal, Srikant and others, 1994; Chen and Huang, 2005) , từ tìm tất mẫu chuỗi mờ với khoảng cách thời gian mờ 3.2 Một số khái niệm } Định nghĩa 3.1 Gọi I={ tập thuộc tính, s = 〈 〉 chuỗi định lượng có yếu tố thời gian, I thuộc tính (1kn), ( ≥0) thời điểm tương ứng với xảy ra, với 2kn ( ) = , nhận giá trị số phân loại Một CSDL chuỗi định lượng có yếu tố thời gian QSD tập tất chuỗi định lượng có yếu tố thời gian { } tập tập mờ gắn với thuộc tính I, Định nghĩa 3.2 Gọi { } tập tập mờ gắn với thuộc tính (k=1, , u), với tập mờ thứ j (1≤ j≤ số lượng tập mờ gắn với thuộc tính ), , gọi thuộc tính mờ Mỗi tập mờ có hàm thành viên tương ứng : X[0,1] Chuỗi fs = 〈 〉 gọi chuỗi mờ có yếu tố thời gian, (1≤ i≤ n) tập mờ, giá trị hàm thành viên ( ) CSDL chuỗi mờ có yếu tố thời gian FSD tập chuỗi mờ có yếu tố thời gian Định nghĩa 3.3 Gọi LT={ | j=1,2, ,p} tập tập mờ gắn với khoảng cách thời gian,  hàm thành viên tập mờ (Hu, Tzeng and Chen, 2004) Khi đó, α = 〈 〉 gọi chuỗi mờ với khoảng cách thời gian mờ (1≤i≤r) tập mờ LT (1≤i≤r-1) Chuỗi α có độ dài r kí hiệu r-chuỗi mờ với khoảng cách thời gian mờ (r-fuzzy sequential pattern with fuzzy time-intervals) Định nghĩa 3.4 Một chuỗi mờ với khoảng cách thời gian mờ  = 〈 〉 chuỗi chuỗi mờ với khoảng cách thời gian mờ 〉 tồn số nguyên w thỏa mãn β=〈 với i|1≤i≤k-1 Trong trường hợp k=1 〉 Định nghĩa 3.5 Cho chuỗi mờ S = 〈 〉, ta có chuỗi mờ với khoảng cách thời gian mờ α = 〈 định nghĩa sau:  Độ hỗ trợ chuỗi S α, kí hiệu , xác định sau: { (∏ ) { ( )} (3.1)  Chuỗi mờ B = 〈 S=〈 〉 chuỗi chuỗi mờ 〉 tồn r số nguyên để | Độ hỗ trợ chuỗi mờ S α, kí hiệu SupS(α), giá trị lớn chuỗi B thuộc S α: ( ) (3.2) Độ hỗ trợ chuỗi mờ với khoảng cách thời gian mờ α, kí hiệu Sup(α), giá trị trung bình độ hỗ trợ chuỗi giao dịch mờ FSD α 14 (∑ ) (3.3) chuỗi mờ thứ i FSD, NS số lượng chuỗi mờ FSD  Một mẫu chuỗi mờ với khoảng cách thời gian mờ chuỗi mờ với khoảng cách thời gian mờ có độ hỗ trợ khơng nhỏ độ hỗ trợ cực tiểu min_sup cho trước Tính chất 1: Chuỗi chuỗi mờ với khoảng cách thời gian mờ phổ biến phổ biến Tính chất 2: Mọi chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k kết phép kết hợp hai chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1 3.3 Thuật toán phát mẫu chuỗi mờ với khoảng cách thời gian mờ 3.3.1 Bài tốn đặt Cho trước CSDL định lượng có yếu tố thời gian QSD, độ hỗ trợ cực tiểu min_sup, tập mờ khoảng cách thời gian LT hàm thành viên tương ứng, tập tập mờ FE thuộc tính định lượng QSD hàm thành viên tương ứng Bài toán đặt ra: Phát mẫu chuỗi mờ với khoảng cách thời gian mờ CSDL định lượng có yếu tố thời gian QSD 3.3.2 Ý tưởng thuật toán Đầu tiên, thuộc tính định lượng QSD chuyển thành tập mờ Tiếp theo, chuỗi giao dịch QSD chuyển đổi thành chuỗi giao dịch mờ dựa tập mờ hàm thành viên tương ứng để tạo CSDL chuỗi mờ FSD Tiếp đến, thuật tốn FSPFTIM áp dụng để tìm mẫu chuỗi mờ với khoảng cách thời gian mờ Thuật toán phát triển dựa ý tưởng thuật toán Apriori Thuật toán FSPFTIM thực sinh tập chuỗi ứng cử viên độ dài 1, , sau tính độ hỗ trợ cho chuỗi thuộc bổ sung chuỗi ứng viên thỏa mãn độ hỗ trợ cực tiểu min_sup vào tập mẫu chuỗi mờ với khoảng cách thời gian mờ độ dài 1, Tiếp theo, tập chuỗi ứng viên tập mẫu chuỗi mờ với khoảng cách thời gian mờ độ dài 2, , sinh Quá trình sinh thực tập chuỗi ứng cử viên rỗng ( =) Kết trả lại tập tất chuỗi mờ với khoảng cách thời gian mờ thuộc tập với k>1 3.3.3 Thuật toán FSPFTIM Thuật tốn mơ tả Error! Reference source not found Thuật toán 3.1 Thuật toán FSPFTIM Input: - CSDL chuỗi định lượng có yếu tố thời gian QSD; - Độ hỗ trợ cực tiểu min_sup; - Tập tập mờ FE hàm thành viên tương ứng với thuộc tính QSD; - Tập LT hàm thành viên tương ứng khoảng cách thời gian Output: Tập mẫu chuỗi mờ với khoảng cách thời gian mờ FSPFTIM { Tạo CSDL chuỗi mờ có yếu tố thời gian FSD từ CSDL QSD {fe| fe thuộc tính mờ FSD} { |Sup()≥min_sup} ; 15 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 } for each { for each { for each ltd LT {  *ltd* ; add  to ; } } } for each  { Tính độ hỗ trợ  (Sup()); } { |Sup() ≥min_sup} for (k>2; ≠;k++){ fuzzy_apriori_gen( ); for each  { Tính độ hỗ trợ  (Sup()); } { |Sup() ≥min_sup} } return ⋃ ; 3.3.4 Tính đắn tính đầy đủ thuật toán Định lý 3.1 Thuật toán FSPFTIM đắn đầy đủ 3.3.5 Độ phức tạp thuật toán Theo cách tính (Tan et al., 2005), độ phức tạp thuật toán FSPFTIM là: O(N.l.h +M.N.l.h2 + | |2 ( ) |LT| + ∑ | | ( ) | |) 3.3.6 Trường hợp suy biến mẫu chuỗi mờ với khoảng cách thời gian mờ Định lý 3.2: Thuật tốn FSPFTIM tìm mẫu chuỗi 〈 〉 〈 〉 3.4 Thử nghiệm thuật toán 3.4.1 Dữ liệu thử nghiệm Bảng 3.1 Dữ liệu thử nghiệm S100I1000T3D341K Online Retail_France CSDL Số lƣợng thuộc tính (I) S100I1000T3D341K 1000 Online Retail_France 1523 3.4.2 Kết thử nghiệm Số lƣợng giao dịch (D) Số lƣợng chuỗi (S) Độ dài trung bình giao dịch (T) Độ dài trung bình chuỗi 341 365 100 87 29.3 22.8 3.41 4.20 3.4.2.1 Mối quan hệ số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup thời gian chạy thuật toán với min_sup trường hợp số phân hoạch thuộc tính định lượng khác 16 (a) (b) Online Retail_France Online Retail_France Hình 3.1 Mối quan hệ số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup (a) thời gian chạy thuật toán với min_sup (b) trường hợp số phân hoạch thuộc tính định lượng khác thực tập liệu Online Retail_France 3.4.2.2 Mối quan hệ số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup thời gian chạy thuật toán với min_sup trường hợp số phân hoạch khoảng cách thời gian khác (a) (b) S100I1000T3D341K S100I1000T3D341K Hình 3.2 Mối quan hệ số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup (a) thời gian chạy thuật toán với min_sup (b) trường hợp số phân hoạch khoảng cách thời gian (Kt) khác tập liệu S100I1000T3D341K 3.4.2.3 So sánh số luật thời gian thực phương pháp mờ hóa với phương pháp chia khoảng khoảng cách thời gian Hình 3.3 So sánh số mẫu chuỗi phương pháp mờ hóa (A) phương pháp chia khoảng (B) khoảng cách thời gian thực thuật toán FSPFTIM Kết luận Chƣơng Trong chương luận án trình bày việc phát mẫu chuỗi mờ với khoảng cách thời gian mờ CSDL chuỗi định lượng có yếu tố thời gian Thuật tốn phát 17 mẫu chuỗi gọi thuật tốn FSPFTIM Trong thuật tốn này, thuộc tính định lượng khoảng cách thời gian xảy giao dịch chuỗi mờ hóa Thuật toán phát triển dựa thuật toán Apriori Thuật toán đắn đầy đủ Độ phức tạp tính tốn thuật tốn Luận án tiến hành thực nghiệm thuật toán tập liệu thực Kết thực nghiệm cho thấy tính đắn khả thi thuật tốn đề xuất Kết thực nghiệm so sánh với phương pháp chia khoảng tương ứng CHƯƠNG PHÁT HIỆN LUẬT CHUỖI CHUNG CĨ TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN Chương xác định vấn đề nghiên cứu luận án phát luật chuỗi chung có tính đến khoảng cách thời gian xảy giao dịch CSDL chuỗi định lượng có yếu tố thời gian Các luật phát gọi luật chuỗi chung mờ với khoảng cách thời gian mờ Chương trình bày chi tiết thuật toán phát luật chuỗi chung Thuật tốn gọi IFERMiner 4.1 Giới thiệu Luật chuỗi gồm kiểu luật chuỗi luật chuỗi chung (Fournier-Viger et al., 2017) Ở kiểu luật thứ nhất, phần tiền đề hệ thuộc vào mẫu chuỗi (Agrawal, Srikant and others, 1995) Việc phát luật chuỗi kiểu tương tự cách tiếp cận phát luật kết hợp, tức bao gồm giai đoạn, giai đoạn đầu tìm mẫu chuỗi giai đoạn sinh luật chuỗi từ mẫu chuỗi tìm Khác với luật chuỗi, luật chuỗi chung đề cập sau (Fournier-Viger et al., 2010; Fournier-Viger, Nkambou and Tseng, 2011; Fournier-Viger, Gueniche, et al., 2014) Các luật chuỗi chung biểu diễn mối quan hệ tập mục không thứ tự (Fournier-Viger et al., 2010; Fournier-Viger, Nkambou and Tseng, 2011; Fournier-Viger, Gueniche, et al., 2014), mục phần tiền đề phải xảy trước tất mục phần hệ luật Luật chuỗi chung có dạng { } ⟹ { }, có nghĩa “Nếu khách hàng mua mặt hàng a mặt hàng b khách hàng mua mặt hàng c d sau đó” với việc mua a mua b khơng cần xảy theo trình tự thời gian, mua c d không cần xảy theo trình tự thời gian phải sau thời điểm mua a mua b Trong thực tế, việc phát luật chuỗi chung từ CSDL chuỗi định lượng có yếu tố thời gian cần thiết Nghiên cứu [CT8] đề xuất giải vấn đề phát luật } ⟹{ } có chuỗi chung mờ CSDL chuỗi định lượng Luật phát dạng { nghĩa “Nếu khách hàng mua mặt hàng a với lượng Ít mua mặt hàng b lượng Nhiều khách hàng mua c với lượng TB d lượng Ít sau đó” Thuật tốn FERMiner đề xuất để phát luật chuỗi chung mờ Thuật tốn FERMiner mờ hóa thuộc tính định lượng, dựa ý tưởng thuật toán ERMiner (Fournier-Viger, Gueniche, et al., 2014) để phát luật chuỗi chung mờ Mục đích chương đề xuất phát luật chuỗi chung dạng tổng quát luật chuỗi chung có tính đến khoảng cách thời gian CSDL chuỗi định lượng có yếu tố thời gian, gọi luật chuỗi chung mờ với khoảng cách thời gian mờ Đây vấn đề thứ đặt } luận án Các luật chuỗi chung mờ với khoảng cách thời gian mờ có dạng { { } , có nghĩa “Nếu khách hàng mua mặt hàng a với lượng Ít mua mặt hàng ⇒ b lượng Nhiều khách hàng mua c với lượng TB d lượng Ít sau khoảng thời gian Long” Thuật toán IFERMiner đề xuất để phát luật chuỗi chung mờ với khoảng cách thời gian mờ Trong thuật toán IFERMiner, lý thuyết mờ sử dụng để mờ hóa thuộc tính định lượng khoảng cách thời gian dựa ý tưởng 18 thuật toán ERMiner (Fournier-Viger, Gueniche, et al., 2014): sử dụng lớp tương đương tạo luật chuỗi chung cách hợp luật chuỗi chung tìm 4.2 Một số khái niệm } tập thuộc tính, Định nghĩa 4.1 Gọi I={ quan hệ thứ tự toàn phần thuộc tính I i1 i2 …, iu, 〉 chuỗi định lượng, s = 〈 I (1kn), giá trị thời điểm ( nhận giá trị số phân loại),  với 2kn; ( , , ) gọi phần tử chuỗi định lượng s Trong chuỗi, phần tử xảy thời điểm theo quan hệ thuộc tính Chuỗi định lượng s biểu diễn dạng s = 〈 〉, = {( , ), ( , ), ( , ),…, ( , )} tất thuộc tính xảy thời điểm gọi giao dịch Error! Reference source not found ví dụ biểu diễn CSDL chuỗi định lượng có yếu tố thời gian } tập tập mờ gắn với thuộc tính Định nghĩa 4.2 Gọi FE = { { } tập tập mờ thuộc tính (k=1, , u), I, tập mờ thứ j (1≤ j≤ ), số lượng tập mờ Mỗi tập mờ có hàm thành viên 〉 gọi tương ứng : X[0,1] Chuỗi fs = 〈 chuỗi giao dịch mờ, FE (1≤j≤n) tập mờ gọi thuộc tính mờ; giá trị hàm thành viên ứng với giá trị , tức ;( , , ) gọi phần tử chuỗi mờ Định nghĩa 4.3 Luật FCSI, kí hiệu ⇒ , luật chuỗi chung mờ với khoảng cách thời gian mờ thỏa mãn: X Y = , X, Y tập thuộc tính X, Y ≠ ; X Y xuất chuỗi giao dịch mờ; Y xuất sau X thời gian mờ lt (lt LT, LT tập tập mờ khoảng cách thời gian) 〉 chuỗi giao dịch mờ viết gọn chuỗi Định nghĩa 4.4 Giả sử rfs = 〈 fs, tập thuộc tính mờ X xuất chứa chuỗi giao dịch mờ fs X , X ⇒ Y chứa fs X , với ,Y , < < ≤ ≤ k, thuộc tính mờ xuất sau thuộc tính mờ với khoảng thời gian mờ lt Luật FCSI r = Định nghĩa 4.5 Luật FCSI r = X ⇒ Y gọi có kích thước k*m | | = k | | = m Một luật có kích thước f*g gọi lớn luật kích thước h*i f > h g ≥ i f ≥ h g > i Định nghĩa 4.6 Cho chuỗi giao dịch mờ fs =〈 〉, luật FCSI r = Độ hỗ trợ fs tập X xác định sau: ( ∏ ) ⇒ (4.1) Độ hỗ trợ tập X CSDL chuỗi mờ có yếu tố thời gian FSD xác định bởi: 19 | ∑ | (4.2) Độ hỗ trợ fs r xác định bởi: ( ∏ ) (4.3) ( ), tập mờ lt giá trị Độ hỗ trợ luật r CSDL FSD xác định là: | giá trị hàm thành viên ∑ | (4.4) Độ tin cậy luật FCSI r = X ⇒ Y xác định bởi: (4.5) Định nghĩa 4.7 Gọi min_sup, min_conf [0,1] ([0%, 100%]) tương ứng ngưỡng độ hỗ trợ cực tiểu độ tin cậy cực tiểu xác định người sử dụng, FSD CSDL chuỗi mờ có yếu tố thời gian Luật FCSI r gọi phổ biến sup(r) ≥ min_sup; Luật FCSI r gọi tin cậy conf(r) ≥ min_conf Luật r gọi luật FCSI valid luật phổ biến tin cậy Các khái niệm phát triển dựa khái niệm (Fournier-Viger et al., 2010; Fournier-Viger, Nkambou and Tseng, 2011; Fournier-Viger, Gueniche, et al., 2014) Định nghĩa 4.8 (các lớp tương đương mờ trái/phải phép hợp trái/phải): Cho CSDL chuỗi mờ FSD, tập tất luật FCSI phổ biến, tập tất thuộc tính mờ thuộc tính FSD, LT tập tập mờ gắn với khoảng cách thời gian Một lớp tương đương mờ trái với khoảng cách thời gian mờ lt , kí hiệu , xác | | định sau: = { ⇒ | W, Y , i số tự nhiên, lt LT} Một cách tương tự lớp tương đương mờ phải với khoảng thời gian mờ lt , kí hiệu ={ ⇒ | | | X, W , i số tự nhiên, lt LT} Giả sử hai luật FCSI , , = ⇒ , | hép hợp trái r1, r2 trình hợp ⇒ Một cách tương tự giả sử hai luật FCSI ⇒ | | để nhận luật r = | | phép hợp phải ⇒ Tính chất 1: Giả sử luật FCSI ⇒ | | ⇒ | để nhận luật r = , , = ⇒ , trình hợp = = ⇒ phổ biến X luật FCSI phổ biến Một cách tương tự , = luật FCSI phổ biến 20 ⇒ Y = luật FCSI phổ biến X ⇒ Y Tính chất 2: Mọi luật FCSI phổ biến r = ⇒ ,| | kết hợp trái luật FCSI , – lớp tương đương mờ trái với khoảng cách thời gian mờ lt Một cách tương tự, luật FCSI mờ phổ biến r = ⇒ , | | kết hợp phải luật FCSI , – lớp tương đương mờ phải với khoảng cách thời gian mờ lt Từ hai tính chất trên, ta có nhận xét sau: Nhận xét: 1) Độ hỗ trợ luật FCSI r sinh từ phép hợp nhỏ độ hỗ trợ , 2) Nếu độ hỗ trợ luật FCSI r nhỏ min_sup luật khơng thể tham gia hợp để tạo luật FCSI phổ biến Nhận xét sử dụng để giảm bớt khơng gian tìm kiếm luật FCSI phổ biến Tương tự (Fournier-Viger, Gueniche, et al., 2014), số luật FCSI tìm vài cách khác thơng qua phép hợp trái/phải với thuộc tính mờ khác Để tránh sinh trùng lặp luật, tương tự giải pháp (Fournier-Viger, Gueniche, et al., 2014), phép hợp phải không thực sau phép hợp trái áp đặt thứ tự quan hệ toàn phần cho thuộc tính mờ nguyên nhân hệ luật, thực phép hợp trái (hoặc hợp phải phần hệ có chung thuộc tính cuối theo thứ tự quan hệ tồn phần (Fournier-Viger, Gueniche, et al., 2014) 4.3 Thuật toán phát luật chuỗi chung mờ với khoảng cách thời gian mờ 4.3.1 Bài toán đặt Cho trước CSDL chuỗi định lượng có yếu tố thời gian QSD; min_sup, min_conf độ hỗ trợ cực tiểu độ tin cậy cực tiểu người sử dụng xác định; tập mờ khoảng cách thời gian LT hàm thành viên tương ứng; tập tập mờ FE thuộc tính định lượng QSD hàm thành viên tương ứng Vấn đề: phát luật chuỗi chung có tính đến khoảng cách thời gian xảy giao dịch CSDL QSD 4.3.2 Thuật tốn IFERMiner Thuật tốn IFERMiner mơ tả Error! Reference source not found Thuật toán 4.1 Thuật tốn IFERMiner Input: - CSDL chuỗi định lượng có yếu tố thời gian QSD; - Độ hỗ trợ cực tiểu độ tin cậy cực tiểu min_sup, min_conf; - Tập tập mờ FE hàm thành viên tương ứng với thuộc tính QSD; - Tập LT hàm thành viên tương ứng khoảng cách thời gian Output: Frules – tập tất luật FCSI valid IFERMiner{ Frules Duyệt QSD để tạo CSDL mờ có yếu tố thời gian FSD foreach lt LT { fleftStore_lt ; Tính , tập lớp tương đương trái với khoảng cách thời gian mờ lt có kích cỡ 1*1 sinh luật FCSI valid cỡ 1*1; for each lớp tương đương trái với khoảng cách thời gian mờ lt, H { 21 fleftSearch(H, Frules) } for each lớp tương đương phải với khoảng cách thời gian mờ lt, J { 10 frighSearch(J, Frules, fleftStore_lt) 11 } 12 for each lớp tương đương trái với khoảng cách thời gian mờ lt, K fleftStore_lt { 13 fleftSearch(K, Frules) 14 } 15 } 16 return Frules 17 } 4.3.3 Tính đắn đầy đủ Định lý 4.1: Thuật toán IFERMiner đắn đầy đủ 4.3.4 Độ phức tạp thuật toán IFERMiner Định lý 4.2: Độ phức tạp tính tốn thuật tốn IFERMiner đa thức phụ thuộc vào N: tổng số chuỗi CSDL chuỗi định lượng có yếu tố thời gian QSD, m: số lượng giao dịch trung bình chuỗi, d: độ dài trung bình giao dịch QSD, h: số lượng tập mờ trung bình liên kết với thuộc tính định lượng QSD |LT|: số lượng tập mờ khoảng thời gian LT Chứng minh: Độ phức tạp tính tốn thuật tốn IFERMiner C phân tích sau: | | Trong đó:  : Độ phức tạp tính tốn để tạo CSDL chuỗi mờ có yếu tố thời gian FSD từ CSDL chuỗi định lượng có yếu tố thời gian QSD  : Độ phức tạp tính tốn để tính toán lớp tương đương mờ trái/phải với khoảng cách thời gian mờ lt có kích thước 1*1 để sinh luật FCSI valid có kích thước 1*1  : Độ phức tạp tính tốn thủ tục fleftSearch - tập tất lớp tương đương mờ trái với khoảng cách thời gian mờ lt có kích thước 1*1  : Độ phức tạp tính tốn thủ tục frightSearch - tập tất lớp tương đương mờ phải với khoảng cách thời gian mờ lt có kích thước 1*1  : Độ phức tạp tính tốn thủ tục fleftSearch fleftStore - tập tất lớp tương đương mờ trái với khoảng cách thời gian mờ lt sinh thủ tục frightSearch 4.3.5 Trường hợp suy biến luật chuỗi chung mờ với khoảng cách thời gian mờ Định lý 4.3: Thuật tốn IFERMiner tìm luật ⟹ với X, Y tập mục 4.4 Thử nghiệm thuật toán 4.4.1 Dữ liệu thử nghiệm Bảng 4.1 Dữ liệu thử nghiệm thuật toán IFERMiner Dữ liệu thử nghiệm Online Retail_France Số lƣợng thuộc tính (I) Số lƣợng giao dịch (D) Số lƣợng chuỗi giao dịch (S) Độ dài trung bình giao dịch (T) Độ dài trung bình chuỗi giao dịch 1523 365 87 21.38 95.88 22 QtyT40I10D100K 100 10000 100 4.26 420 4.4.2 Kết thử nghiệm 4.4.2.1 Mối quan hệ số lượng luật sinh với độ hỗ trợ cực tiểu min_sup độ tin cậy cực tiểu min_conf Online Retail France (a) Số luật 1500 1000 500 3.1% 3.3% 3.5% 3.7% 3.9% 4.1% 4.3% 4.5% min_conf=70 % min_conf=73 % min_conf=76 % min_conf=79 % min_sup Hình 4.1 Mối quan hệ số lượng luật FCSI valid với min_sup min_conf 4.4.2.2 Mối quan hệ thời gian thực thuật toán với độ hỗ trợ cực tiểu min_sup độ tin cậy cực tiểu min_conf Thời gian (giây) Online Retail France (a) 2.5 1.5 0.5 min_conf=70% min_conf=73% min_conf=76% min_conf=79% 3.1% 3.3% 3.5% 3.7% 3.9% 4.1% 4.3% 4.5% min_conf=82% min_conf=85% min_sup Hình 4.2 Mối quan hệ thời gian thực thuật toán với min_sup min_conf 4.4.2.3 So sánh số luật thời gian thực phương pháp mờ hóa với phương pháp chia khoảng khoảng cách thời gian Hình 4.3 So sánh số luật phương pháp mờ hóa (A) phương pháp chia khoảng (B) khoảng cách thời gian thực thuật toán IFERMiner Kết luận Chƣơng Chương tập trung trình bày thuật tốn phát luật chuỗi chung mờ với khoảng cách thời gian mờ CSDL định lượng có yếu tố thời gian gọi IFERMiner Phương pháp mờ hóa thuộc tính định lượng khoảng cách thời gian tương 23 tự hai chương trước Thuật tốn IFERMiner phát triển từ ý tưởng thuật toán ERMiner để phát luật chuỗi chung CSDL giao dịch yếu tố thời gian Cụ thể thuật tốn IFERMiner xây dựng dựa lớp tương đương mờ trái, mờ phải luật chuỗi chung mờ phổ biến với khoảng cách thời gian mờ phép hợp trái, phải lớp tương đương Thuật toán IFERMiner đắn đầy đủ KẾT LUẬN VÀ KIẾN NGHỊ Luận án đạt đƣợc kết sau: NCS hồn thành mục tiêu luận án NCS tập trung nghiên cứu giải vấn đề phát luật kết hợp mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian tương ứng CSDL định lượng CSDL chuỗi định lượng có yếu tố thời gian Cụ thể luận án đề xuất nghiên cứu giải pháp giải toán sau: Đề xuất giải toán phát luật kết hợp có tính đến khoảng cách thời gian xảy giao dịch CSDL định lượng có yếu tố thời gian Các luật phát gọi luật kết hợp mờ với khoảng cách thời gian mờ Thuật toán FTQ NCS đề xuất nhằm phát luật Thuật toán sử dụng phương pháp mờ hóa thuộc tính định lượng sau thực dựa ý tưởng thuật toán Apriori Việc thực nghiệm cho thấy thuật tốn phù hợp với lý thuyết luật kết hợp, tính chất đóng xuống (hay tính chất Apriori tập phổ biến) Các luật phát cho thấy ý nghĩa ứng dụng thực tiễn chúng Đề xuất giải toán phát mẫu chuỗi có tính đến khoảng cách thời gian giao dịch CSDL chuỗi định lượng có yếu tố thời gian Các mẫu chuỗi gọi mẫu chuỗi mờ với khoảng cách thời gian mờ Thuật toán phát mẫu chuỗi mờ với khoảng cách thời gian mờ gọi FSPFTIM Thuật toán đắn đầy đủ Độ phức tạp tính tốn luận án Việc thực nghiệm thuật toán tập liệu thực cho thấy thuật toán phù hợp với lý thuyết tính chất đóng xuống mẫu phổ biến Các mẫu chuỗi phát phù hợp có ý nghĩa ứng dụng thực tiễn Đề xuất giải toán phát luật chuỗi chung có tính đến khoảng cách thời gian giao dịch CSDL chuỗi định lượng có yếu tố thời gian Các luật chuỗi phát gọi luật chuỗi chung mờ với khoảng cách thời gian mờ Thuật toán đề xuất để phát luật chuỗi chung gọi IFERMiner Thuật toán đắn đầy đủ Độ phức tạp tính tốn thuật toán đưa độ phức tạp đa thức Hƣớng nghiên cứu tƣơng lai: Các thuật toán phát luật kết hợp mờ mẫu chuỗi mờ với khoảng cách thời gian mờ tương ứng CSDL định lượng có yếu tố thờ gian CSDL chuỗi định lượng có yếu tố thời gian phát triển dựa thuật toán Apriori, thuật tốn đánh giá có hiệu mức trung bình so với thuật tốn phát luật kết hợp khác Một hướng nghiên cứu sau luận án phát triển thuật toán hiệu để phát luật kết hợp mờ mẫu chuỗi mờ với khoảng cách thời gian Các mẫu chuỗi luật chuỗi chung biểu diễn mối quan hệ giao dịch đối tượng thực hiện, hướng nghiên cứu khác ưu tiên nghiên cứu phát loại mẫu chuỗi loại luật chuỗi chung biểu diễn mối quan hệ giao địch thực đối tượng khác miễn giao dịch đứng trước mẫu chuỗi phần tiền đề luật phải xảy tương ứng trước giao địch đứng sau mẫu chuỗi phần hệ luật chuỗi chung 24 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ [CT1] Trương Đức Phương, Đỗ Văn Thành, “Phát luật chuỗi liên kết giao dịch từ sở liệu thời gian”, Kỷ yếu hội nghị khoa học công nghệ quốc gia lần thứ VII (FAIR „7), 2014, pp 488-495 [CT2] Trương Đức Phương, Đỗ Văn Thành, “Phát luật kết hợp liên kết chuỗi thời gian”, hội thảo quốc gia lần thứ 17: Một số vấn đề chọn lọc công nghệ thông tin truyền thông, 2014, pp 257-262 [CT3] Truong Duc Phuong, Do Van Thanh, Nguyen Duc Dung, “Mining fuzzy time-interval association rules from temporal quantitative databases”, International Conference on Information and Convergence Technology for Smart Society Vol.2 No.1, 2016, pp 5258 [CT4] Truong Duc Phuong, Do Van Thanh, Nguyen Duc Dung, “An Effective Algorithm for Association Rules Mining from Temporal Quantitative Databases”, Indian Journal of Science and Technology, Vol 9(17), 2016 (Scopus*) [CT5] Truong Duc Phuong, Do Van Thanh, Nguyen Duc Dung, "Mining Fuzzy Sequential Patterns with Fuzzy Time-Intervals in Quantitative Sequence Databases." Cybernetics and Information Technologies, Vol 18 (2), 2018, pp 3-19 (Scopus) [CT6] Trương Đức Phương, Đỗ Văn Thành, Nguyễn Đức Dũng “Phát mẫu chuỗi mờ với khoảng cách thời gian xác định từ sở liệu chuỗi định lượng”, hội thảo quốc gia lần thứ 21: Một số vấn đề chọn lọc công nghệ thông tin truyền thông, 2018, pp 280-287 (ch3) [CT7] Trương Đức Phương, “Xây dựng mơ hình dự báo số VN30 thị trường chứng khoán Việt Nam”, hội thảo quốc gia lần thứ 21: Một số vấn đề chọn lọc công nghệ thông tin truyền thông, 2018, pp 383-389 [CT8] Thanh Do Van, Phuong Truong Duc, “Fuzzy Common Sequential Rules Mining In Quantitative Sequence Databases”, Journal of Computer Science and Cybernetics, Vol 35(3), 2019, pp 217-232 [CT9] Thanh Do Van, Phuong Truong Duc, “Mining Fuzzy Common Sequential Rules with Fuzzy Time-Interval in quantitative sequence databases”, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, Vol 28 (6), 2020, pp 957 (SCIE) * https://www.scopus.com/authid/detail.uri?authorId=57189375549 25 ... tài ? ?Phát luật kết hợp luật chuỗi mờ sở liệu định lượng có yếu tố thời gian? ?? Cụ thể luận án đề xuất giải vấn đề phát luật kết hợp mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian. .. dịch có yếu tố thời gian, giải toán phát mẫu chuỗi mờ với khoảng cách thời gian xác định [CT6] CSDL chuỗi định lượng có yếu tố thời gian cuối phát mẫu chuỗi cổ điền mờ với khoảng cách thời gian mờ. .. gian CSDL chuỗi định lượng có yếu tố thời gian Chương 4: Phát luật chuỗi chung có tính đến khoảng cách thời gian CSDL chuỗi định lượng có yếu tố thời gian Phần kết luận: Trình bày số kết luận

Ngày đăng: 18/06/2021, 10:14

Tài liệu cùng người dùng

Tài liệu liên quan