Tóm tắt luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

14 19 0
Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục tiêu cụ thể của luận án là phát triển vấn đề và đề xuất thuật toán phát hiện luật kết hợp hiếm trên cả hai loại CSDL tác vụ và định lượng, đồng thời ứng dụng ban đầu một phần kết quả nghiên cứu lý thuyết đạt được trong xây dựng mô hình phân tích và dự báo một số vấn đề cụ thể do thực tiễn đặt ra.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ✩ I H✬C CÔNG NGH✮ -œ¯• - CÙ THU THỦY NGHIÊN CỨU PHÁT HIỆN LU✵T KẾT H✷P HIẾM VÀ ỨNG D✸NG Chuyên ngành: Hệ thống thông tin 62 48 05 01 Mã s✹: TÓM TẮT LUẬN ÁN TIẾN SỸ CƠNG NGHỆ THƠNG TIN HÀ N❀I - 2013 Cơng trình hồn thành tại: Trường Đại học Cơng nghệ - ĐH Quốc gia Hà nội NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đỗ Văn Thành PGS.TS Hà Quang Th y ❅ Phản biện 1: PGS.TS Nguyễn Đình Hóa Phản biện 2: PGS.TS Ngô Quốc Tạo Phản biện 3: PGS.TS Đỗ Trung Tuấn Luận án bảo vệ trước Hội đồng Đại học Quốc gia chấm luận án tiến sĩ họp tại: Trường Đại học Công Nghệ - ĐHQG Hà Nội Vào: ngày tháng năm 2013 Có thể tìm hiểu luận án thư viện: - Thư viện Quốc gia Việt nam - Trung tâm Thông tin – Thư viện, Đại học Quốc gia Hà nội DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ CĨ LIÊN QUAN ĐẾN LUẬN ÁN Cù Thu Thủy, Đỗ Văn Thành (2008), “Một giải pháp phân tích thị trường chứng khốn Việt Nam”, Tạp chí Tin học Điều khiển học Tập 24 (2), tr 107118 Cù Thu Thủy, Đỗ Văn Thành (2009), “Phát luật kết hợp với ràng buộc mục liệu âm”, Tạp chí Tin học Điều khiển học Tập 25 (4), tr 345-354 Cu Thu Thuy, Do Van Thanh (2010), “Mining Perfectly Sporadic Rules with Two Thresholds”, In Proceedings of MASS2010, Wuhan, China Cu Thu Thuy, Do Van Thanh (2010), “Mining Imperfectly Sporadic Rules with Two Thresholds”, International Journal of Computer Theory and Engineering Vol (5), pp 1793-8201 Cù Thu Thủy, Hà Quang Thụy (2010), “Phát luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ”, Kỷ yếu Hội thảo quốc gia lần thứ XIII Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông, Hưng Yên, tr 263-275 Cù Thu Thủy, Hà Quang Thụy (2011), “Phát tập mục Sporadic không tuyệt đối hai ngưỡng mờ”, Tạp chí Tin học Điều khiển học Tập 27 (2), tr 142-153 Do Van Thanh, Cu Thu Thuy, Pham Thi Thu Trang (2010), “Building CPI Forecasting Model by Combining the Smooth Transition Regression Model and Mining Association Rules.”, Journal on Information Technologies and Communications Vol E-1 (7), pp.16-27 Đỗ Văn Thành, Phạm Thị Thu Trang, Cù Thu Thủy (2009), “ Xây dựng mơ hình dự báo giá kết hợp mơ hình hồi quy chuyển tiếp trơn kỹ thuật phát luật kết hợp”, Kỷ yếu Hội thảo lần thứ hai khuôn khổ Nghị định thư Việt Nam - Thái Lan, Đại học Kinh tế Quốc dân, tr 308-322 24 MỞ ĐẦU Lý chọn đề tài Trong lĩnh vực khai phá liệu (data mining), luật kết hợp (association rule) dùng để mối quan hệ kiểu "điều kiện → hệ quả" phần tử liệu (chẳng hạn, xuất tập mặt hàng "kéo theo" xuất tập mặt hàng khác) tập bao gồm nhiều đối tượng liệu (chẳng hạn, giao dịch mua hàng) Phát luật kết hợp phát mối quan hệ phạm vi tập liệu cho Lý thuyết luật kết hợp Rakesh Agrawal cộng giới thiệu lần vào năm 1993 [13] nhanh chóng trở thành hướng nghiên cứu khai phá liệu quan trọng, đặc biệt năm gần Phát luật kết hợp ứng dụng thành công nhiều lĩnh vực kinh tế-xã hội khác thương mại, y tế, sinh học, tài chính-ngân hàng, [18, 23, 25, 44, 69, 86, 87] Hiện tại, nhiều khuynh hướng nghiên cứu ứng dụng liên quan đến phát luật kết hợp tiếp tục hình thành Một vấn đề phát luật kết hợp nhận nhiều quan tâm nhà nghiên cứu phát luật kết hợp [26, 47, 49, 50, 53, 58, 66, 68, 80] Luật kết hợp (còn gọi luật hiếm) luật kết hợp xảy Mặc dù tần suất xảy thấp, nhiều trường hợp, luật lại có giá trị Phần lớn thuật toán phát luật kết hợp thường thực tìm luật có độ hỗ trợ độ tin cậy cao Việc ứng dụng thuật tốn để tìm luật kết hợp (có độ hỗ trợ thấp, độ tin cậy cao) không hiệu phải đặt ngưỡng độ hỗ trợ cực tiểu nhỏ, nên số lượng tập phổ biến tìm lớn (trong có phần tập tìm có độ hỗ trợ nhỏ ngưỡng độ hỗ trợ cực tiểu minSup) chi phí cho việc tìm kiếm tăng lên Nhằm khắc phục khó khăn này, thuật toán phát luật kết hợp phát triển Hai khuynh hướng phát luật kết hợp quan tâm nhiều là: (i) Sử dụng ràng buộc phần hệ luật Các phương pháp đưa danh sách mục liệu xuất phần luật sử dụng làm điều kiện sinh luật Tuy nhiên, cách tiếp cận hiệu biết trước thông tin mục liệu, chẳng hạn phải xác định trước mục liệu xuất phần hệ luật [22, 56, 66] (ii) Sử dụng đường ranh giới để phân chia tập không phổ biến với tập phổ biến phát luật từ tập (được gọi tập hiếm) thuộc không gian tập không phổ biến [49, 50, 58, 75, 76, 80] Tuy đạt kết định hướng nghiên cứu nhiều hạn chế như: phải sinh tất tập khơng phổ biến phí cho khơng gian nhớ cao, xẩy tình trạng dư thừa nhiều luật kết hợp sinh từ tập tìm Cả hai hướng nghiên cứu nói tập trung chủ yếu vào vấn đề phát luật kết hợp CSDL tác vụ chưa giải triệt để Vấn đề phát luật kết hợp CSDL định lượng đề cập lần đầu [58] nhằm phát luật kết hợp từ tập chứa mục liệu không phổ biến Tuy nhiên, tập không gồm mục liệu khơng phổ biến mà cịn kết hợp số mục liệu không phổ biến với mục liệu phổ biến hay kết hợp mục liệu phổ biến Như vậy, vấn đề phát luật kết hợp CSDL định lượng chưa giải đầy đủ Luận án tiếp nối nghiên cứu trước nhằm giải hạn chế nêu ✁ ✺ ✻ M c tiêu cụ th ph m vi nghiên cứu Mục tiêu cụ thể luận án phát triển vấn đề đề xuất thuật toán phát luật kết hợp hai loại CSDL tác vụ định lượng, đồng thời ứng dụng ban đầu phần kết nghiên cứu lý thuyết đạt xây dựng mơ hình phân tích dự báo số vấn đề cụ thể thực tiễn đặt Phát luật kết hợp có phạm vi rộng nghiên cứu sinh tập trung giải giai đoạn tốn phát luật hiếm, đề xuất giải pháp hiệu tìm tập cho CSDL tác vụ định lượng ✂ Nh✄ng đóng góp c❂a lu❃n án V✫ nghiên cứu lý thuyết, luận án tập trung xác định số dạng luật kết hợp Sporadic CSDL tác vụ CSDL định lượng, đồng thời phát triển thuật toán tương ứng phát tập mục liệu cho dạng luật Đối với toán phát luật CSDL tác vụ, luận án theo hướng tiếp cận tìm tập khơng phổ biến đóng cho luật thay việc tìm tất tập không phổ biến nghiên cứu luật trước Hướng tiếp cận luận án phát triển dựa theo tư tưởng thuật tốn CHARM [94]; việc phải tìm tập đóng khơng hạn chế chi phí mà hạn chế luật dư thừa Luận án phát triển ba thuật tốn tìm tập cho ba dạng luật kết hợp CSDL tác vụ là: thuật toán MCPSI phát tập Sporadic tuyệt đối hai ngưỡng [32], thuật toán MCISI phát tập Sporadic khơng tuyệt đối hai ngưỡng [33] thuật tốn NC-CHARM phát tập liệu với ràng buộc mục liệu âm [2] Đối với toán phát luật CSDL định lượng, luận án theo hướng tiếp cận sử dụng lý thuyết tập mờ để chuyển CSDL định lượng CSDL mờ thực phát luật CSDL mờ Luận án đề xuất hai dạng luật kết hợp Sporadic cho CSDL định lượng (luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ [3], luật kết hợp Sporadic không tuyệt đối hai ngưỡng mờ [4]) phát triển hai thuật tốn tìm tập cho hai dạng luật Thuật toán MFPSI phát tập Sporadic tuyệt đối hai ngưỡng mờ [3] phát triển theo tư tưởng thuật toán Apriori [16], cịn thuật tốn MFISI phát tập Sporadic khơng tuyệt đối hai ngưỡng mờ [4] phát triển theo tư tưởng thuật tốn tìm tập cho luật Sporadic không tuyệt đối CSDL tác vụ tác giả luận án đề xuất [33] Về triển khai ứng dụng, luận án đề xuất kết hợp phát luật kết hợp mẫu âm mơ hình hồi quy chuyển tiếp trơn phi tuyến để xây dựng mơ hình phân tích dự báo số CPI số chứng khoán Việt Nam Kết dự báo kiểm định theo mơ hình xây dựng cho thấy chất lượng dự báo cải thiện rõ rệt, độ xác kết dự báo so với thực tiễn cao [1, 7, 36] 2 Góp phần giải toán phát luật kết hợp CSDL định lượng: - Đề xuất toán phát luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ giới thiệu thuật toán MFPSI (được phát triển từ tư tưởng thuật tốn Apriori) nhằm tìm tập mục cho luật - Đề xuất toán phát luật kết hợp Sporadic không tuyệt đối hai ngưỡng mờ giới thiệu thuật toán MFISI (được phát triển từ thuật tốn MCISI chúng tơi) nhằm tìm tập mục cho luật Đóng góp luận án phát triển khuynh hướng ứng dụng tập mờ việc phát luật kết hợp CSDL định lượng phát triển thuật tốn riêng để tìm tập mục mờ cho luật kết hợp Góp phần nghiên cứu ứng dụng luật kết hợp phân tích dự báo kinh tế, luận án đề xuất sử dụng luật kết hợp mẫu âm mô hình hồi quy chuyển tiếp trơn việc xây dựng mơ hình phân tích dự báo số chứng khoán, giá số giá tiêu dùng CPI Việt Nam Dự báo kiểm định mơ hình dự báo xây dựng cho thấy kết dự báo sát với giá trị thực tế thống kê Một hạn chế phần ứng dụng luận án chưa tiến hành triển khai phát luật kết hợp Sporadic lĩnh vực chứng khoán giá hàng hóa số CPI Hướng nghiên cứu tương lai Như phần Phát luật kết hợp với ràng buộc mục liệu âm khơng phải CSDL tác vụ có mục liệu âm chuyển tập mục liệu dương với ràng buộc mục liệu âm Nghiên cứu tìm điều kiện cần đủ để thực việc chuyển đổi biểu diễn Cả năm thuật tốn trình bầy luận án nhằm tìm tập phổ biến cho luật kết hợp hai loại CSDL tác vụ CSDL định lượng Cũng giống vấn đề phát luật kết hợp, nhiệm vụ nghiên cứu phải sinh luật có giá trị từ tập tìm Đây hướng nghiên cứu hay không dễ luật kết hợp có tính chất riêng Tiếp tục triển khai ứng dụng luật kết hợp với phương pháp khác xây dựng mơ hình phân tích dự báo kinh tế 23 ✪ D báo kiểm định chấp nhận mơ hình dự báo số CPI: Dữ liệu số CPI NB1 từ tuần thứ 95 đến tuần 103 tệp liệu thứ hai dùng để đánh giá mơ hình dự báo Dựa mơ hình dự báo xây dựng cho số CPI_d1 tính CPI_d1(t) với t=95 đến t=103 số CPI(t) tính tương ứng theo CPI-d1(t) Bảng 4.1 thể kết số CPI tính theo mơ hình xây dựng số CPI theo thống kê thực tế B ng 1: Ch số CPI tính theo mơ hình xây dựng thống kê ✴ ☎ ✠ Ngoài phần mở đầu kết luận, nội dung luận án bố cục thành chương Hình 0.1 trình bày phân bố chủ đề phát luật kết hợp đề cập chương nội dung luận án Các chủ đề nghiên cứu hình chữ nhật với đường biên kép kết đóng góp luận án ❄ Theo bảng ta thấy độ xác kết dự báo cao Hơn mơ hình dự báo khơng điều kiện, cụ thể CPI tương lai hoàn toàn tính từ trễ NB1 K T LU N Các kết qu luận án Luận án tập trung nghiên cứu, phát triển lý thuyết ứng dụng vấn đề phát luật kết hợp Qua phân tích kết đạt hạn chế nêu nghiên cứu trước luật kết hợp hiếm, luận án đề xuất số vấn đề luật kết hợp Sporadic đạt số kết quả: Góp phần giải tốn phát luật kết hợp CSDL tác vụ: - Mở rộng toán phát luật kết hợp Sporadic tuyệt đối hai ngưỡng luật kết hợp Sporadic không tuyệt đối hai ngưỡng Đề xuất hai thuật tốn MCPSI MCISI tìm tập mục cho hai luật kết hợp - Đề xuất toán phát luật kết hợp với ràng buộc mục liệu âm giới thiệu thuật tốn NC-CHARM nhằm tìm tập phổ biến cho luật Luận án sử dụng chiến lược tìm tập đóng thay tìm tất tập cho luật tiết kiệm chi phí hạn chế luật dư thừa Cả ba thuật toán MCPSI, MCISI NC-CHARM phát triển từ thuật toán CHARM [94] thuật toán phát luật kết hợp hiệu CSDL tác vụ ✞ ✟ 4.T chức lu n án ✆ ✝ 22 Hình 0.1 Phân bố chủ đề phát luật kết hợp luận án ✾✡ng PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT KẾT HỢP HIẾM Ch 1.1 Luật kết hợp phương pháp chung phát luật kết hợp ✳ 1.1.1 Bài toán phát luật kết hợp Mục đích tốn phát luật kết hợp tìm mối quan hệ tập mục liệu CSDL lớn Khái niệm luật kết hợp phát luật kết hợp R Agrawal cộng đề xuất lần vào năm 1993 nhằm phát mẫu có giá trị CSDL tác vụ siêu thị [13, 14, 16] Kí hiệu I ={i1, i2, , in} tập thuộc tính nhị phân (mỗi thuộc tính biểu diễn mặt hàng siêu thị gọi mục liệu, vậy, I tập tất mặt hàng có siêu thị); tập X ⊂ I gọi tập mục liệu tập mục (itemset); O ={t1, t2, , tm} tập định danh tác vụ (mỗi vụ mua hàng xem tác vụ) Quan hệ D ⊆ I×O gọi CSDL tác vụ Mỗi tác vụ t biểu diễn véc tơ nhị phân, t[k] = mặt hàng ik xuất t ngược lại t[k] = Cho tập mục X ⊆ I, độ hỗ trợ tập X, kí hiệu sup(X), định nghĩa số (hoặc phần trăm) tác vụ D chứa X Lu t kết hợp (association rule) định nghĩa hình thức biểu diễn dạng X → Y, X ⊆ I, Y ⊆ I, X∩Y = ∅ X gọi phần tiền đề (antecedent) Y gọi phần hệ (consequent) luật ☛ Độ hỗ trợ (support) luật X → Y, kí hiệu sup(X → Y) định nghĩa số (hoặc phần trăm) tác vụ D chứa X∪Y Theo R Agrawal cộng [13], luật kết hợp phát cần đáp ứng ràng buộc độ hỗ trợ, theo đó, độ hỗ trợ tập mục W = X∪Y phải vượt qua (không nhỏ thua) ngưỡng hỗ trợ tối thiểu người dùng đưa vào Mọi tập W có tính chất nói gọi tập phổ biến hay tập mục lớn Độ tin cậy (confidence) luật X → Y, kí hiệu conf(X → Y), định nghĩa số (hoặc phần trăm) tác vụ D chứa X chứa Y Luật kết hợp phát cần có tính tin cậy, theo cần có độ tin cậy khơng nhỏ thua ngưỡng tin cậy tối thiểu người dùng đưa vào Luật kết hợp có độ hỗ trợ độ tin cậy tương ứng không nhỏ thua ngưỡng hỗ trợ tối thiểu ngưỡng tin cậy tối thiểu gọi luật mạnh 1.1.2 Quy trình hai bước phát luật kết hợp Phần lớn thuật toán phát luật kết hợp chia thành hai giai đoạn sau: (1) Tìm tất tập phổ biến CSDL D (2) Với tập phổ biến I1 tìm giai đoạn 1, sinh tất luật mạnh có dạng I2→ I1 – I2, I2 ⊂ I1 Trong hai giai đoạn trên, giai đoạn khó khăn, phức tạp tốn nhiều chi phí ✳ ☞✳3.1 Dữ liệu phục vụ xây dựng mô hình dự báo số CPI Giá mặt hàng thu thập hàng tuần năm 2008 2009 CPI số sử dụng để đánh giá mức độ lạm phát nước ta Song số thu thập theo tháng, mặt hàng khác lại thu thập theo tuần Giải pháp khắc phục đề xuất sử dụng số giá tiêu dùng tháng để xác định số giá tiêu dùng cho tuần tháng 4.3.2 Phát mối quan hệ gi a giá hàng hóa số CPI Chọn độ hỗ trợ cực tiểu minSup = 10% độ tin cậy cực tiểu minConf = 90% phát 214 luật có 12 luật có số CPI phần hệ Trong 12 luật có luật số CPI tăng luật số CPI giảm Tất luật kết hợp luật kết hợp mẫu âm khó để giải thích mối quan hệ thể luật lý thuyết kinh tế 4.3.3 Xây dựng mơ hình dự báo số CPI Xây dựng mơ hình dự báo số CPI: Các luật kết hợp cho biết tương quan biến động giá số mặt hàng với số CPI, chưa cho biết ảnh hưởng đến mức độ Việc xây dựng mơ hình dự báo số CPI quan hệ giúp trả lời câu hỏi Giả sử cần xây dựng mơ hình dự báo số CPI dựa luật Rule 93: ✌ XB41; XA81;NB12 → CPI1 (13,725% 92,86% 14 13 12,745%) Luật 93 thể mối quan hệ số CPI giá nhập mặt hàng cotton Mỹ loại (NB1), giá xuất cao su SVR loại (XA8), giá xuất tôm loại 20-30 con/1kg (XB4) Luật cho biết có 14 số 103 tuần (chiếm 13,725%) năm 2008 2009 giá NB1 giảm giá XA8 XB4 tăng Chỉ có 13 103 tuần (chiếm 12,7455 %) giá nhập NB1 giảm giá xuất mặt hàng XA8, XB4 số CPI lại tăng Như độ hỗ trợ luật 93 12,745% độ tin cậy 92,96% Độ tin cậy luật giá NB1 giảm, giá XA8 XB4 tăng số CPI tăng với độ tin cậy 92,86% Để xây dựng mơ hình dự báo số CPI từ giá NB1, XA8 XB4 liệu số CPI giá NB1, XA8, XB4 chia thành tập Tập thứ bao gồm 94 tuần năm 2008 2009 dùng để xây dựng mơ hình dự báo số CPI Tập thứ gồm tuần tháng 11 tháng 12 năm 2009 dùng để kiểm định mơ hình Ứng dụng quy trình bước để xây dựng mơ hình hồi quy chuyển tiếp trơn logistic tập thứ việc sử dụng phần mềm JMULTI, ta nhận mơ hình dự báo số CPI sau: − 5,997 − ,096 CPI _ d 1(t − 1) + 7,347 CPI _ d 1(t − )  CPI _ d 1(t ) =  + − 6,267 CPI _ d 1(t − 3) − NB1 _ d 1(t − )  6,04 + ,46 CPI _ d 1(t − 1) − ,132 CPI _ d 1(t − 2)    + 5,582 CPI _ d 1(t − 3) + 0,018 NB1 _ d 1(t − 4)  + + exp {− 2,86 (CPI _ d 1(t − 3) + 0,803 )} 21 Phân tích mơ hình dự báo số HNX Mơ hình cho phép nghiên cứu, phân tích dự báo số HNX thơng qua việc nghiên cứu, phân tích dự báo mã cổ phiếu ACB PVI Dự báo ki m nghiệm ch p nhận mơ hình: Sử dụng mơ hình dự báo xây dựng để dự báo giá trị số HNX từ ngày 16/10/2009 đến hết ngày 31/11/2009, gồm 32 phiên giao dịch đối chiếu với giá trị thống kê thực tế số tập thứ hai, ta thấy có 17 32 phiên giao dịch (bằng 53,2%) có phần trăm sai số tuyệt đối kết dự báo so với giá trị thực tế số HNX không vượt 0,025%, có 20 phiên giao dịch (xấp xỉ 67%) có phần trăm sai số tuyệt đối khơng vượt q 0,03%, Như độ xác dự báo cao (hình 4.1) ✍ ✲ 1.2 Phát luật kết hợp từ CSDL tác vụ ✓ ❁ 1.2.1 Phát luật kết hợp với m t ngưỡng độ hỗ trợ Trong giai đoạn đầu tiên, toán phát luật kết hợp đề cập tới ngưỡng độ hỗ trợ chung (độ hỗ trợ cực tiểu) người sử dụng đưa vào Việc tìm tập phổ biến giải theo cách tiếp cận: - Tìm tất tập phổ biến - Tìm tất tập phổ biến đóng - Tìm tất tập phổ biến cực đại 1.2.2 Phát luật kết hợp với độ hỗ trợ khác Vai trò quan trọng khác mục liệu cho thấy việc sử dụng ngưỡng độ hỗ trợ chung không phù hợp Các nhà nghiên cứu đề xuất hướng phát luật kết hợp sau: - Phát luật kết hợp có ràng buộc mục liệu - Phát luật kết hợp với độ hỗ trợ nhiều mức - Phát luật kết hợp có trọng số - Phát luật kết hợp có ràng buộc độ hỗ trợ - Phát luật kết hợp không sử dụng độ hỗ trợ cực tiểu ✓ 1.3 Phát luật kết hợp từ CSDL định lượng ✎ Hình 1: Chỉ số HNX tính theo mơ hình xây dựng thực tế Dự báo tiên nghiệm số ch ng khoán HN : Việc dự báo tiên nghiệm số HNX thực thông qua dự báo giá cổ phiếu ACB PVI Cụ thể việc dự báo số HNX thời điểm t tính thơng qua giá trị dự báo sai phân cấp số HNX thời điểm HNX_d1(t) ✑❋ ✏ ❳ ✒ ng dụng lu t kết hợp mẫu âm mơ hình chuyển tiếp trơn phân tích liệu giá dự báo số CPI Chúng đề xuất cách kết hợp kỹ thuật phát luật kết hợp để tìm mối quan hệ số CPI giá mặt hàng thiết yếu đời sống dân sinh mặt hàng xuất nhập chủ đạo kinh tế; tiếp sau ứng dụng mơ hình hồi quy chuyển tiếp trơn để xây dựng mơ hình dự báo số CPI dựa mối quan hệ CPI số mặt hàng phát Quy trình xây dựng mơ hình dự báo số CPI thực qua giai đoạn nêu mục 4.2 Giai đoạn nhằm phát luật kết hợp biểu diễn mối tương quan số CPI với giá mặt hàng Giai đoạn nhằm xây dựng mơ hình dự báo số CPI dựa mơ hình hồi quy chuyển tiếp trơn phi tuyến số quan hệ phát giai đoạn 20 Hầu hết CSDL CSDL định lượng mà CSDL tác vụ Phát luật kết hợp từ CSDL định lượng (thuộc tính nhận giá trị số phân loại) có ý nghĩa ứng dụng lớn nhiều so với CSDL tác vụ Năm 1996, R Srikant R Agrawal [73] lần đầu đề cập tới toán Giải pháp tác giả đơn giản: đầu tiên, rời rạc hố thuộc tính định lượng để chuyển CSDL cho thành CSDL tác vụ, sau đó, áp dụng thuật toán phát luật kết hợp từ CSDL tác vụ biết Phương pháp rời rạc hố CSDL định lượng có số nhược điểm sau [2]: (i) Khi rời rạc hố CSDL định lượng, số thuộc tính tăng lên nhiều dẫn đến phình to CSDL tác vụ (ii) Nếu thuộc tính định lượng chia thành nhiều khoảng độ hỗ trợ thuộc tính khoảng đơn phân chia nhỏ (iii) Tại điểm “biên gãy” thuộc tính rời rạc hố thường thiếu tính tự nhiên giá trị gần (hoặc tương tự nhau) thuộc tính lại nằm hai khoảng chia khác Để giải hạn chế này, người ta đề xuất ứng dụng lý thuyết tập mờ để chuyển đổi CSDL định lượng ban đầu thành CSDL mờ thực phát luật kết hợp CSDL Từ hướng nghiên cứu phát luật kết hợp mờ đời phát triển ❊ ✔ 1.4 Phát hi n lu t kết hợp ✕ ✖ ✗ .1 Giới thiệu chung v phát luật kết hợp Phần lớn thuật toán phát luật kết hợp thường tìm luật có độ hỗ trợ độ tin cậy cao Việc ứng dụng thuật toán để tìm tập khơng hiệu phải đặt ngưỡng độ hỗ trợ cực tiểu nhỏ nên số lượng tập tìm lớn (trong có phần tập tìm tập không phổ biến theo ngưỡng độ hỗ trợ cực tiểu này), chi phí cho việc tìm kiếm tăng lên Nhằm khắc phục khó khăn này, thuật tốn riêng để tìm tập phát triển .2 t số hướng nghiên cứu phát luật kết hợp - Sử dụng ràng buộc phần hệ luật - Thiết lập đường biên phân chia tập phổ biến không phổ biến .3 Luật Sporadic Theo hướng tiếp cận đường biên phân chia tập phổ biến tập không phổ biến, luật Sporadic Y S Koh cộng đề xuất [49, 50] dạng luật thú vị luận án tập trung nghiên cứu Các tác giả chia luật Sporadic thành hai loại là: luật Sporadic tuyệt đối luật Sporadic không tuyệt đối ✕ ✖ ✘✙ ✕ Luật Sporadic tuyệt đối X → Y với độ hỗ trợ cực tiểu maxSup độ tin cậy cực tiểu minConf luật kết hợp thỏa mãn: (1.1) conf ( X → Y ) ≥ minConf,  sup(X ∪ Y) < maxSup, ∀x ∈X ∪ Y , sup( x) < max Sup  Độ hỗ trợ luật Sporadic tuyệt đối nhỏ maxSup (tính hiếm) mục liệu tập X∪Y có độ hỗ trợ nhỏ thua maxSup (tính "tuyệt đối") Dựa theo ý tưởng thuật toán Apriori, Y S Koh N Rountree phát triển thuật tốn Apriori-Inverse [49] để tìm tập Sporadic tuyệt đối Luật Sporadic không tuyệt độ hỗ trợ cực tiểu maxSup độ tin cậy cực tiểu minConf luật kết hợp dạng X → Y cho: (1.2) conf ( X → Y ) ≥ minConf,  sup(X ∪ Y) < maxSup, ∃x ∈X ∪ Y , sup ( x) ≥ max Sup  Khác với luật Sporadic tuyệt đối, luật Sporadic không tuyệt đối đảm bảo tính khơng địi hỏi tính "tuyệt đối" (tồn mục liệu tập X∪Y có độ hỗ trợ khơng nhỏ thua maxSup) Các tác giả chia luật kết hợp Sporadic không tuyệt đối thành dạng giới thiệu kỹ thuật để tìm luật Sporadic khơng tuyệt đối "thú vị" Đó luật có mục liệu phần tiền đề có độ hỗ trợ cao maxSup giao tập có độ hỗ trợ nhỏ maxSup phần hệ luật có độ hỗ trợ nhỏ maxSup Đây luật thuộc dạng thứ ba phân loại Thuật toán MIISR đề xuất nhằm tìm phần tiền đề cho luật dạng [50] vào bên phải mã số chứng khoán hay mã cổ phiếu đó; thêm chữ số ”2 ” số chứng khoán giá cổ phiếu giảm so với phiên trước 4.2.2 Phát mối quan hệ số chứng khoán c phiếu ✚ Với độ hỗ trợ 35% độ tin cậy 90%, thực phát luật kết hợp CSDL tác vụ có mẫu âm, thu 99 luật kết hợp Để xây dựng mơ hình dự báo số chứng khốn HNX HOSE mơ hình hồi quy chuyển tiếp trơn phi tuyến cần lựa chọn luật kết hợp có mục liệu liên quan đến HNX HOSE phần kết luật Trong trường hợp này, tất luật kết hợp phát mà phần kết có chứa số HNX HOSE chứa riêng số 4.2.3 Xây dựng mơ hình dự báo số chứng khốn Về ngun tắc, luật kết hợp có số HNX (hoặc số HOSE) phần kết cho phép ta xây dựng mơ hình dự báo cho số Chẳng hạn xét luật: PVI1; ACB1→HNX1 (38,037% 94,35% 124 117 35,890%) Luật cho biết: tổng số 350 ngày có 124 ngày chiếm 38,07% tổng số ngày giá cổ phiếu Tổng cơng ty cổ phần Bảo hiểm Dầu khí Việt Nam (PVI) Ngân hàng thương mại cổ phần Á Châu (ACB) tăng giá có 117 ngày 35,89% tổng số ngày giá cổ phiếu PVI, ACB HNX-index tăng giá, nói cách khác độ hỗ trợ luật 35,89% Luật có độ tin cậy 94,35% cho biết có đến 94,35% ngày mà PVI ACB tăng giá HNX tăng điểm Có thể nói tín hiệu để nhận biết HNX tăng điểm dựa vào tăng giá PVI ACB cao Xây dựng mơ hình dự báo số HNX: Xây dựng mơ hình dự báo số HNX Để xây dựng mơ hình dự báo số HNX dựa luật kết hợp, liệu số chứng khoán HNX giá mã cổ phiếu ACB, PVI thu thập theo phiên giao dịch chia thành hai tập Tập thứ bao gồm liệu phiên giao dịch từ ngày 2/6/2008 đến hết ngày 15/10/2009 tập thứ hai bao gồm liệu phiên giao dịch từ ngày 16/10/2009 đến ngày 31/11/2009 Tập thứ sử dụng để xây dựng mơ hình, tập thứ hai sử dụng để kiểm định chấp nhận mơ hình Ứng dụng phần mềm JMULTI [99] tập thứ để kiểm định tính chất tuyến tính, lựa chọn mơ hình, lựa chọn biến chuyển tiếp giá trị ban đầu mơ hình sau ước lượng tham số mơ hình Từ bảng ước lượng xây dựng mơ hình dự báo dạng: 18,87 + 13,44HNX _ d1(t −1) + 0,44ACB_ d1(t ) HNX _ d1(t ) =   +   − 29,40PVI _ d1(t ) − 5,0PVI _ d1(t − 3)  −18,84 −13,53HNX _ d1(t −1) + 1,5ACB_ d1(t)   *  + 29,38PVI _ d1(t) + 5,1PVI _ d1(t − 3)  1+ exp(−4,06*[ ACB_ d1(t) + 5,24]) 19 Bảng 3.2: Kết thử nghiệm thuật toán MFISI Kết thử nghiệm cho thấy số tập Sporadic không tuyệt đối hai ngưỡng mờ tìm khác chọn ngưỡng minSup maxSup thay đổi giá trị tham số chồng lấp ✛ ✥ Chương - NG DỤNG LUẬT ẾT HỢP MẪU ÂM VÀ MƠ HÌNH HỒI QUY CHUYỂN TIẾP TRƠN TRONG PHÂN TÍCH VÀ DỰ BÁO INH TẾ ✥ 4.1 Mơ hình hồi quy chuyển tiếp trơn ✜✢1.1✢ Phân tích h❆i quy ✜✢1.2✢ ✣ơ hình h❆i quy chuyển tiếp trơn logistic ✜✢1.3 Xây dựng mơ hình h❆i quy chuyển tiếp trơn logistic - Chỉ định mô hình - Ước lượng tham số mơ hình - Đánh giá- Kiểm định sai lầm định mơ hình 4.2 Ứng dụng luật kết hợp mẫu âm mô hình hồi quy chuyển tiếp trơn phân tích liệu chứng khoán Nội dung phần nghiên cứu ứng dụng luật kết hợp mơ hình hồi quy chuyển tiếp trơn logistic để xây dựng mơ hình dự báo số HNX HOSE theo số mã cổ phiếu blue chip thị trường chứng khoán Việt Nam Quy trình xây dựng mơ hình dự báo số chứng khoán thực qua giai đoạn Giai đoạn nhằm phát luật kết hợp biểu diễn mối tương quan số chứng khoán Việt Nam với giá cổ phiếu blue chip hai sàn giao dịch Hà Nội Thành phố Hồ Chí Minh Giai đoạn nhằm xây dựng mơ hình dự báo số chứng khốn dựa mơ hình hồi quy chuyển tiếp trơn phi tuyến số quan hệ phát Giai đoạn 4.2.1 Dữ liệu phục vụ xây dựng mơ hình Dữ liệu phục vụ việc phát luật kết hợp chứng khốn xây dựng mơ hình dự báo thu thập theo phiên giao dịch hai sàn chứng khoán Hà Nội Thành phố Hồ Chí Minh kể từ ngày 2/6/2008 đến ngày 31/11/2009 bao gồm thông tin sau: ngày giao dịch, giá trị hai số HNX, HOSE giá cổ phiếu Blue chip Các luật kết hợp phục vụ việc xây dựng mơ hình dự báo số chứng khốn phát từ CSDL tác vụ có mẫu âm Tập liệu xây dựng sau: xuất phát từ tập liệu biến động số chứng khoán biến động giá mã cổ phiếu blue chip, số chứng khoán giá cổ phiếu blue chip tăng giá so với phiên trước ta thêm chữ số ”1” 18 1.4.4 Khuynh hướng nghiên cứu luật Việc sinh tất luật hữu ích vấn đề khó Q trình bị giới hạn tính chất tự nhiên liệu.Việc phát triển kỹ thuật tương ứng dành cho phát luật kết hợp vấn đề mở theo vài hướng tiếp cận có ý nghĩa khác - Hướng thứ tìm cách phù hợp nhằm phát tập - Hướng tiếp cận thứ hai tìm luật cụ thể - Hướng thứ ba dựa việc phát triển thuật toán tiền xử lý, tức dựa độ đo giá trị để xác định luật ✥ Chương - PHÁT HIỆN LUẬT ẾT HỢP HIẾM TR N CƠ SỞ DỮ LIỆU TÁC VỤ ✃ 2.1 Luật kết hợp Sporadic tuyệt đối hai ngưỡng 2.1.1 Giới thiệu luật Sporadic tuyệt đối hai ngưỡng Chúng phát triển giải pháp hiệu việc phát luật Sporadic tuyệt đối cách đề xuất mở rộng toán phát luật kết hợp A → B: (2.1)  conf ( A → B ) ≥ m inConf,   minSup ≤ sup(A ∪ B) < maxSup,  ∀ x ∈A ∪ B , sup ( x ) < max Sup  đó: minConf, minSup, maxSup giá trị người sử dụng đưa vào trình thực phát luật, chúng tương ứng gọi độ tin cậy cực tiểu, độ hỗ trợ cận độ hỗ trợ cận (minSup < maxSup) luật Các luật gọi luật Sporadic tuyệt đối hai ngưỡng toán gọi toán phát luật kết hợp Sporadic tuyệt đối hai ngưỡng Khác với cách tiếp cận [49], thuật tốn tìm tập Sporadic tuyệt đối hai ngưỡng MCPSI nghiên cứu phát triển theo cách tiếp cận thuật toán CHARM [94] Thuật toán xây dựng dựa tính chất cấu trúc dàn Galois tập mục liệu đóng Khơng gian tìm kiếm tập Sporadic tuyệt đối hai ngưỡng đóng thuật tốn MCPSI thu hẹp, đồng thời số lượng tập Sporadic tuyệt đối hai ngưỡng đóng giảm dẫn đến loại bỏ nhiều luật Sporadic tuyệt đối hai ngưỡng dư thừa 2.1.2 Tập Sporadic tuyệt đối hai ngưỡng Định nghĩa 2.1: Tập X gọi tập Sporadic tuyệt đối hai ngưỡng nếu: minSup ≤ sup(X) < maxSup, ∀x X, sup(x) < maxSup Tập Sporadictuyệt đối hai ngưỡng X gọi tập Sporadic tuyệt đối hai ngưỡng cực đại không tồn tập Sporadic tuyệt đối hai ngưỡng chứa thực Định nghĩa 2.2: Ngữ cảnh khai phá liệu ba Dˆ = (O, INF, R), O tập tác vụ, INF tập tất mục liệu không phổ biến theo maxSup phổ biến theo minSup R⊆ INF×O quan hệ nhị phân Mỗi cặp (t,i) ∈R ký hiệu cho kiện đối tượng t∈O quan hệ với mục liệu i ∈INF Định nghĩa 2.3: (Kết nối Galois) Cho Dˆ = (O, INF, R) ngữ cảnh phát liệu Với O ⊆ O I ⊆ INF, xác định: f: 2O→ 2INF g: 2INF→ 2O f(O) = {I |i∈I; ∀t∈O; (t,i)∈R} g(I) = {t |t∈O; ∀i∈I; (t,i)∈R} f(O) tập mục liệu chung cho tất đối tượng O g(I) tập đối tượng quan hệ với tất mục liệu I Cặp ánh xạ (f,g) gọi kết nối Galois tập tập O tập tập INF Toán tử h = fog h’ = gof gọi tốn tử đóng Galois Định nghĩa 2.4: X tập Sporadic tuyệt đối hai ngưỡng, X gọi đóng h(X) = X, h phép kết nối Galois xác định ✤ Nh n xét 2.1: Khi ngưỡng minSup = O , với O tổng số tất tác vụ Dˆ tốn phát luật Sporadic tuyệt đối hai ngưỡng trở thành toán phát luật Sporadic tuyệt đối đề xuất [49] Còn minSup = minAS, ngưỡng xác định thuật tốn Apriori-Inverse tốn phát luật Sporadic tuyệt đối hai ngưỡng trở thành toán phát luật Sporadic tuyệt đối theo cách tiếp cận đề xuất Apriori-Inverse Tính chất 2.1: Các t p Sporadic t đối hai ngưỡng có tính chất Apriori tức tập tập Sporadic tuyệt đối hai ngưỡng tập Sporadic tuyệt đối hai ngưỡng Tính chất đối ngẫu tính chất tập chứa tập tập Sporadic tuyệt đối hai ngưỡng không tập Sporadic tuyệt đối hai ngưỡng Tính chất 2.2: Độ hỗ trợ tập Sporadic tuyệt đối hai ngưỡng X độ hỗ trợ bao đóng ức sup(X) = sup(h(X)) Tính chất 2.3: Nếu X tập Sporadic tuyệt đối hai ngưỡng cực đại X tập đóng Tính chất 2.4: Các luật kết hợp sinh t tập Sporadic tuyệt đối hai ngưỡng từ tập Sporadic tuyệt đối hai ngưỡng cực đại 1.3 Thuật tốn tìm tập Sporadic tuyệt đối hai ngưỡng đóng Thuật tốn MCPSI đề xuất nhằm tìm tập Sporadic tuyệt đối hai ngưỡng đóng Thuật toán MCPSI phát triển dựa tư tưởng thuật tốn CHARM Hình 2.1 minh họa giả ngơn ngữ thuật toán Độ phức tạp thuật toán MCPSI: Độ phức tạp thuật toán MCPSI O(l.|C|) với l độ dài trung bình định danh C tập Sporadic tuyệt đối hai ngưỡng đóng Mệnh đề 2.1: Thuật toán MCPSI đắn đầy đủ Kết thử nghiệm: Để đánh giá hiệu thực thuật tốn MCPSI, chúng tơi tiến hành thử nghiệm thuật toán thuật toán Apriori-Inverse [49] để tìm tập Sporadic tuyệt đối CSDL giả định số CSDL thực ✤ ✦ ✱ ✱✧ ❑ ✭★ ★ 3.3.3 Thuật tốn tìm tập Sporadic khơng tuyệt đối hai ngưỡng mờ Thuật tốn MFISI đề xuất nhằm tìm tập Sporadic khơng tuyệt đối hai ngưỡng mờ Thuật toán MFISI phát triển từ ý tưởng thuật tốn MCISI tìm tập Sporadic không tuyệt đối hai ngưỡng CSDL tác vụ Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic không tuyệt đối hai ngưỡng mờ FIS Bước 1: Chuyển CSDL D ⊆ I O ban đầu thành CSDL mờ DF ⊆ IF OF đó: IF tập thuộc tính DF, thuộc tính xj IF gắn với tập mờ Mỗi tập mờ có ngưỡng Bước 2: Từ tập thuộc tính ban đầu tách thành hai tập: FI = {, sup() ≥ maxSup; ∈IF} //FI tập thuộc tính phổ biến theo maxSup IFI = {, minSup ≤ sup() < maxSup; ∈IF} //IFI tập thuộc tính khơng phổ biến theo maxSup có độ hỗ trợ lớn minSup Bước 3: Tìm tập Sporadic khơng tuyệt đối hai ngưỡng mờ // Với thuộc tính FI khởi tạo khơng gian tìm kiếm sau: Kết hợp thuộc tính FI với thuộc tính khác bên phải thuộc tính xét FI với tất thuộc tính IFI Loại bỏ tập có độ hỗ trợ nhỏ minSup để tạo không gian tìm kiếm for each in FI begin Nodes={{,},∈ FI\ ∈IFI) Λ sup(,) ≥ minSup} MFISI-EXTEND(Nodes,C) //Hàm thực tìm tập Sporadic khơng tuyệt đối hai ngưỡng mờ khơng gian tìm kiếm khởi tạo FIS = FIS ∪ C end ✇❝ xj MFISI-EXTEND(Nodes, C): for each in Nodes begin NewN = ∅ ; X = 10 for each in Nodes 11 X = X ∪ 12 if NewN ≠ ∅ then MFISI-EXTEND(NewN, C) 13 if sup(X) < maxSup then 14 C=C∪X // if X is not subsumed 15 end Hình 3.2: Thuật toán MFISI Kết thử nghiệm: Để đánh giá hiệu thực thuật toán MFISI, tiến hành thử nghiệm CSDLthực Census Income từ nguồn [100] 17 ✯ Bảng 3.1: Kết thực MFPSI với tham số chồng lấp độ hỗ trợ minSup maxSup khác từ nguồn liệu [100] Phần thử nghiệm thực máy tính Lenovo-IBM Codual 2.0ghz, 2GB nhớ, cài đặt hệ điều hành Windows Vista Thuật tốn MCPSI phần mơ thuật tốn Apriori-Inverse lập trình ngơn ngữ C++ Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic tuyệt đối hai ngưỡng đóng C MCPSI ALGORITHM(D, minSup, maxSup): Nodes = {Ij × g(Ij) : Ij ∈I Λg(Ij)< maxSup Λg(Ij)≥ minSup} MCPSI-EXTEND(Nodes, C) Khi cố định độ hỗ trợ cận minSup = 0,1 thay đổi độ hỗ trợ cận maxSup 0,3, 0,4 0,5 nhận số tập Sporadic tuyệt đối hai ngưỡng mờ 10, 13 17 (với tham số chồng lấp 20%) Nếu chọn độ hỗ trợ cận minSup = 0,2 thay đổi độ hỗ trợ cận maxSup 0,3, 0,4 0,5 nhận số tập Sporadic tuyệt đối hai ngưỡng mờ 2, (với tham số chồng lấp 20%) Như vậy, cố định ngưỡng minSup lựa chọn tham số maxSup có giá trị tăng dần số tập Sporadic tuyệt đối hai ngưỡng mờ tăng, điều hoàn toàn phù hợp với quy luật phát luật kết hợp Số tập Sporadic tuyệt đối hai ngưỡng mờ tìm thay đổi chọn hai ngưỡng độ hỗ trợ minSup maxSup thay đổi tham số chồng lấp ✰ 3.3 Lu t kết hợp Sporadic không tuyệt đối hai ngưỡng mờ 3.3.1 Giới thiệu luật Sporadic không tuyệt đối hai ngưỡng mờ Chúng tơi đề xuất vấn đề tìm luật kết hợp mờ có dạng r ≡ X is A → Y is B cho: (3.2) conf ( r ) ≥ minConf,  minSup ≤ sup( < X ∪ Y, A ∪ B >) < maxSup, ∃x ∈< X ∪ Y ,A ∪ B >, sup ( x) ≥ max Sup  MCPSI-EXTEND(Nodes, C): for each Xi × g(Xi) in Nodes begin NewN = ∅ ; X = Xi for each Xj × g(Xj) in Nodes, with k(j) > k(i) begin X = X∪Xj ; Y = g(Xi)∩g(Xj) CHARM-PROPERTY(Nodes, NewN) end if NewN ≠ ∅ then MCPSI-EXTEND(NewN, C) 10 C = C∪X // if X is not subsumed 11 end Hàm CHARM-PROPERTY xây dựng [94] Hình 2.1: Thuật toán MCPSI Thử nghiệm CSDL giả nh: Bảng 2.1 kết thử nghiệm thuật toán MCPSI nhằm tìm tập Sporadic tuyệt đối hai ngưỡng đóng thuật tốn AprioriInverse nhằm tìm tập Sporadic tuyệt đối tập liệu với hai ngưỡng minSup maxSup, minSup chọn minAS Như biết minSup = minAS việc tìm tập Sporadic tuyệt đối hai ngưỡng trở thành việc tìm tập Sporadic tuyệt đối theo cách tiếp cận Apriori-Inverse Bảng 2.1: Kết thực MCPSI Apriori-Inverse CSDL giả định ✶✼ Các luật dạng gọi luật Sporadic khơng tuyệt đối hai ngưỡng mờ tốn gọi toán phát luật Sporadic khơng tuyệt đối hai ngưỡng mờ Phần trình bầy giải pháp tìm tập Sporadic khơng tuyệt đối mờ cho luật Sporadic không tuyệt đối mờ từ CSDL định lượng 3.3.2 Tập Sporadic khơng tuyệt đối hai ngưỡng mờ Định nghĩa 3.3: Tập gọi tập Sporadic không tuyệt đối hai ngưỡng mờ nếu: minSup ≤ sup() < maxSup, ∃x∈, sup(x) ≥ maxSup Định nghĩa 3.4: Tập Sporadic không tuyệt đối hai ngưỡng mờ gọi tập Y ⊆ X B ⊆ A 16 Kết thực hai thuật toán bảng 2.1 cho thấy thuật toán MCPSI hiệu thuật toán Apriori-Inverse không số lượng tập Sproradic tuyệt đối hai ngưỡng đóng tìm so với tập Sporadic tuyệt đối mà thời gian thực thuật toán nghiệm C DL thực: Dữ liệu thử nghiệm thuật toán tệp liệu lấy từ nguồn [100] Tệp ban đầu chuyển sang dạng CSDL tác vụ Thông tin CSDL, kết thực thuật toán MCPSI thuật toán Apriori-Inverse mơ tả hình 2.2 ❚✽ ❙ Hình 2.2: Số tập Sporadic tuyệt đối Sporadic tuyệt đối hai ngưỡng đóng CSDL thực 2.2 Lu✿t kết hợp Sporadic không tuyệt đối hai ngưỡng ❇❈❇❈1❈ Giới thiệu luật kết hợp ❙poradic không tuyệt đối hai ngưỡng Trong phần này, phát triển giải pháp hiệu cho việc tìm luật Sporadic khơng tuyệt đối đề xuất [50] Cụ thể nghiên cứu xây dựng thuật tốn tìm tập Sporadic khơng tuyệt đối cho luật kết hợp A → B cho: (2.2) conf ( A → B ) ≥ minConf,  minSup ≤ sup(A ∪ B) < maxSup, ∃x ∈A ∪ B, sup ( x ) ≥ max Sup  minSup, maxSup (minSup < maxSup) tương ứng gọi độ hỗ trợ cận dưới, cận minConf độ tin cậy cực tiểu luật Các luật kết hợp trường hợp gọi luật Sporadic không tuyệt đối hai ngưỡng Các tập Sporadic luật gọi tập Sporadic khơng tuyệt đối hai ngưỡng ập poradic không tuyệt đối hai ngưỡng Định nghĩa : Tập X gọi tập Sporadic không tuyệt đối hai ngưỡng nếu: minSup ≤ sup(X) < maxSup, ❇❈❇❈❇❈ ❚ ❙ ❉● ∃x ∈ X, sup(x) ≥ maxSup Định nghĩa : X tập Sporadic không tuyệt đối hai ngưỡng, X gọi tập Sporadic khơng tuyệt đối hai ngưỡng đóng tập đóng, tức h(X) = X Tính chất : Độ hỗ trợ tập Sporadic không tuyệt đối hai ngưỡng độ hỗ trợ bao đóng ức sup(X) = sup(h(X)) ❉❍ ❉● ■❏ 10 Định nghĩa 3.2: Tập Sporadic tuyệt đối hai ngưỡng mờ gọi tập Y ⊆ X B ⊆ A Tính chất 3.1: Các tập Sporadic tuyệt đối hai ngưỡng m có tính chất Apriori tức tập tập Sporadic tuyệt đối hai ngưỡng mờ tập Sporadic tuyệt đối hai ngưỡng mờ 3.2.3 Thuật tốn tìm tập Sporadic tuyệt đối hai ngưỡng mờ Ý tưởng thuật tốn: Q trình tìm tập Sporadic tuyệt đối hai ngưỡng mờ tiến hành tương tự việc tìm tập phổ biến mờ nói chung bao gồm bước sau: (a) Xây dựng tập mờ cho thuộc tính phân loại thuộc tính số (b) Chuyển CSDL ban đầu thành CSDL mờ (c) Tìm tập Sporadic tuyệt đối hai ngưỡng mờ Thuật tốn tìm tập Sporadic tuyệt đối hai ngưỡng mờ: € ■ Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic tuyệt đối hai ngưỡng mờ Bước 1: Chuyển CSDL D ⊆ I × O ban đầu thành CSDL mờ DF ⊆ IF × OF Bước sử dụng cách chia khoảng hàm thành viên mô tả phần 1.3.3 Trong đó: IF tập thuộc tính DF, thuộc tính xj ▼▲ IF gắn với tập mờ Mỗi tập mờ có ngưỡng x j Bước 2: Tìm tập Sporadic tuyệt đối hai ngưỡng mờ có kích cỡ 1: S1 = ∅ for each item xj ∈ IF begin if sup(xj) < maxSup and sup(xj) ≥ minSup then S1 = S1∪xj end Bước 3: Tìm tập Sporadic tuyệt đối hai ngưỡng mờ có kích cỡ k (k ≥ 2): for (k = 2; Sk-1 ≠ ∅; k++) begin Sk = ∅ for each xj ∈ Ck (Ck tập ứng cử viên sinh từ Sk-1) begin if sup(xj) ≥ minSup 10 then Sk = Sk∪xj 11 end 12 end 13 return US k k Hình 3.1: Thuật tốn MFPSI Kết thử nghiệm: Để đánh giá hiệu thực thuật tốn MFPSI, chúng tơi tiến hành thực nghiệm CSDL thực Census Income từ nguồn [100] 15 Thuật tốn tìm tập phổ biến đóng với ràng buộc mục liệu âm gọi NC-CHARM Hình 2.4 thể giả ngơn ngữ thuật toán Độ phức tạp thuật toán NC CHA : Độ phức tạp NC-CHARM O(l.| |).|C|) với l độ dài trung bình định danh, C tập mục phổ biến đóng | | số phần tử tập ràng buộc mục liệu âm Kết thử nghiệm: Thuật toán NC-CHARM thử nghiệm CSDL giả định với ngưỡng minSup = 0,01 Tập ràng buộc âm sinh ngẫu nhiên, bao gồm 100 điều kiện ràng buộc Mỗi điều kiện ràng buộc có số mục liệu chọn ngẫu nhiên không mục liệu Kết việc tìm tập phổ biến thỏa mãn điều kiện ràng buộc âm thể bảng 2.4 Bảng : Bảng kết thử nghiệm thuật toán NC-CHARM ◆ ❘❖ ◗ ❯ ❱ ❲❨ ❩ T H P HIẾM TRÊN CƠ SỞ DỮ LIỆU Chương - PHÁT HI N LU T ĐỊNH LƯỢNG 3.1 Giới thiệu phát luật kết hợp CSDL định lượng 3.2 Luật kết hợp Sporadic tuyệt đối hai ngưỡng mờ 3.2.1 Giới thiệu luật Sporadic tuyệt đối hai ngưỡng mờ Chúng tơi đề xuất tốn phát luật kết hợp mờ dạng r ≡ X is A → Y is B cho: (3.1) conf (r ) ≥ minConf,  minSup ≤ sup(< X ∪ Y, A ∪ B >) < maxSup, ∀x ∈< X ∪ Y ,A ∪ B >, minSup ≤ sup( x) < max Sup  đó: minConf, minSup, maxSup giá trị người sử dụng đưa vào trình thực phát luật, chúng tương ứng gọi độ tin cậy cực tiểu, độ hỗ trợ cận độ hỗ trợ cận (minSup < maxSup) luật Các luật dạng gọi luật Sporadic tuyệt đối hai ngưỡng mờ toán gọi toán phát luật Sporadic tuyệt đối hai ngưỡng mờ Luận án nghiên cứu đề xuất giải pháp tìm tập Sporadic tuyệt đối mờ cho luật Sporadic tuyệt đối mờ 3.2.2 Tập Sporadic tuyệt đối hai ngưỡng mờ Định nghĩa 3.1:Tập gọi tập Sporadictuyệt đối hai ngưỡng mờ nếu: minSup ≤ sup() < maxSup, ∀x ∈, sup(x) < maxSup 14 ❬❭ Tính chất : Tập tập Sporadic không tuyệt đối hai ngưỡng cực đại tập tập Sporadic khơng tuyệt đối hai ngưỡng đóng cực đại trùng Tính chất 2.7: Các luật kết hợp sinh từ tập Sporadic không tuyệt đối hai ngưỡng từ tập Sporadic không tuyệt đối hai ngưỡng cực đại Các tính chất 2.6, 2.7 sở để đề xuất thuật toán tìm tập Sporadic khơng tuyệt đối hai ngưỡng 2.2.3 Thuật tốn tìm tập Sporadic khơng tuyệt đối hai ngưỡng đóng Đầu vào: CSDL D, minSup, maxSup Kết quả: Tập tập Sporadic khơng tuyệt đối hai ngưỡng đóng CS MCISI ALGORITHM (D, minSup, maxSup): FI = {Ij × g(Ij) : Ij∈I Λg(Ij)≥ maxSup} IFI = {Kj × g(Kj) : Kj∈I Λg(Kj)< maxSup Λg(Kj)≥ minSup} for each Ij × g(Ij) in FI begin Nodes={Pj × g(Pj): Pj = Ij∪Mj , g(Pj) = g(Ij)∩g(Mj), Mj∈FI\{I1, ,Ij} or Mj ∈ IFI Λg(Pj)≥ minSup} /Kết hợp Ij với mục liệu lại bên phải mục xét FI mục liệu IFI MCISI-EXTEND(Nodes,C) CS = CS ∪ C end MCISI-EXTEND(Nodes, C): for each Xi × g(Xi) in Nodes begin NewN = ∅ ; X = Xi 10 for each Xj × g(Xj) in Nodes, with k(j) > k(i) begin 11 X = X ∪ Xj ; Y = g(Xi) ∩ g(Xj) 12 CHARM-PROPERTY(Nodes, NewN) 13 end 14 if NewN ≠ ∅ then MCISI-EXTEND(NewN, C) 15 if sup(X) < maxSup then 16 C = C ∪ X // if X is not subsumed 17 end Hình 2.3: Thuật tốn MCISI Độ phức tạp thuật toán MCISI: Độ phức tạp thuật toán MCISI O(|FI|.l.| C |), FI tập mục liệu phổ biến theo maxSup, l độ dài trung bình định danh | C | kích thước trung bình tập Sporadic khơng tuyệt đối hai ngưỡng đóng tìm Mệnh đề 2.2 Thuật toán MCISI đắn đầy đủ Kết thử nghiệm: a Thử nghiệm tập liệu giả định 11 Kết thử nghiệm thuật toán MCISI CSDL với hai ngưỡng minSup maxSup chọn phù hợp việc tìm tập thể bảng 2.2 Bảng 2.2: Bảng kết thử nghiệm CSDL giả định sup(A ∪ B) ≥ minSup; conf(A → B) ≥ minConf điều kiện tồn số ràng buộc mục liệu âm 2.3.2 Tập ph biến có ràng bu c m c liệu âm ❜ ❞ ❡ Ta gọi cặp (A, B ), A ⊆ I B ⊆ I cặp ràng buộc mục liệu âm mục liệu A xuất tác vụ mục liệu B, với A ∩ B = ∅, xuất tác vụ Giả sử D ⊆ I×O CSDL tác vụ gồm mục liệu dương Ký hiệu = {(Ai, B i ), i =1,2, …, k} tập tất cặp ràng buộc mục liệu âm cho trước Bảng 2.2 kết thử nghiệm thuật toán MCISI CSDL giả định với độ hỗ trợ cận minSup = 0,005 độ hỗ trợ cận maxSup = 0,05 Kết bảng 2.2 cho thấy thuật toán thực tệp liệu lớn với thời gian thực nhỏ b Thử nghiệm CSDL thực Bảng 2.3: Thông tin CSDL thực kết thử nghiệm Giả sử X tập I, ký hiệu Y = {x ∈I∪ I / x∈I x ∈ X x ∈ I tồn cặp (Ai, B i ) ∈ cho x ∈ B i Ai ⊆ X} Mệnh đề 2.3 Tập tác vụ hỗ trợ X Y xuất Mệnh đề 2.4 Bài tốn tìm tập phổ biến từ CSDL D với tập điều kiện ràng buộc mục liệu âm cho trước đưa tốn tìm tập phổ biến từ CSDL tác vụ có mục liệu âm thích hợp Ngược lại chưa Mệnh đề ả sử X Y xác định Mệnh đề 2.3 Nếu X tập phổ biến đóng cực đại CSDL tác vụ D thoả mãn tập ràng buộc mục liệu âm Y tập phổ biến đóng cực đại CSDL tác vụ có mục liệu âm D ➪ ➪ ❢❣ ❤✐ ❥ ❜ ❞ ❡ 2.3.3 Thuật tốn tìm tập ph biến với ràng bu c m c liệu âm Đầu vào: CSDL D, minSup, tập ràng buộc ℑ Kết quả: Tập tập phổ biến đóng với ràng buộc mục liệu âm C NC-CHARM ALGORITHM(D, minSup, ℑ): Nodes = {Ij × g(Ij) : Ij ∈I Λg(Ij)≥ minSup} NC-CHARM-EXTEND(Nodes, ℑ, C) 2.3 Lu❪t kết hợp với ràng buộc mục liệu âm ❫❴3.1 Giới thiệu luật kết hợp với ràng buộc mục liệu âm Giả sử I ={i1, i2,…, ij, , in}là tập mục liệu gọi tập mục liệu dương Ký hiệu -ij ký hiệu mục liệu âm mục liệu ij I ={-i1, -i2,…, -ij, …, -in} gọi tập mục liệu âm I, tập B ⊆ I ký hiệu tập mục liệu âm tập B ⊆ I Luật kết hợp mẫu âm quan tâm số cơng trình nghiên cứu có dạng tổng quát sau: A1 ∪ A2 → B1 ∪ B2 , A1, B1⊆ A2 , B2 ⊆ I Chẳng hạn luật A → B có nghĩa tập mục liệu A xuất tác vụ t mục liệu B không xuất tác vụ sup( A → B ) = sup(A B ) = sup(A) – sup(AB) ❵❛ Trong phần trình bầy dạng đặc biệt luật kết hợp mẫu âm, luật kết hợp với ràng buộc mục liệu âm Cụ thể luận án nghiên cứu giải toán sau đây: NC-CHARM-EXTEND(Nodes, ℑ, C): for each Xi × g(Xi) in Nodes begin NewN = ∅ ; X = Xi for each Xj × g(Xj) in Nodes, with k(j) > k(i) begin X = X ∪ Xj ; Y = g(Xi) ∩ g(Xj) CHARM-PROPERTY(Nodes, NewN) end if NewN ≠ ∅ then NC-CHARM-EXTEND(NewN, ℑ, C) 10 temp = X 11 for each (Ai, Bi ) ∈ ℑ 12 if Ai ⊆ X then X = X ∪ Bi 13 if X = temp then remove X × g(X) from Nodes 14 C=C∪X // if X is not subsumed 15 end ❦ Hình : Thuật tốn NC-CHARM Phát luật kết hợp A→B với: 12 13 ... đề phát luật kết hợp luận án ✾✡ng PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT KẾT HỢP HIẾM Ch 1.1 Luật kết hợp phương pháp chung phát luật kết hợp ✳ 1.1.1 Bài toán phát luật kết hợp Mục đích tốn phát luật kết. .. LU N Các kết qu luận án Luận án tập trung nghiên cứu, phát triển lý thuyết ứng dụng vấn đề phát luật kết hợp Qua phân tích kết đạt hạn chế nêu nghiên cứu trước luật kết hợp hiếm, luận án đề xuất... cứu ứng dụng liên quan đến phát luật kết hợp tiếp tục hình thành Một vấn đề phát luật kết hợp nhận nhiều quan tâm nhà nghiên cứu phát luật kết hợp [26, 47, 49, 50, 53, 58, 66, 68, 80] Luật kết hợp

Ngày đăng: 02/11/2020, 10:37

Hình ảnh liên quan

hai được dùng để đánh giá mô hình dự báọ D ựa trên mô hình dự báo đã xây dựng cho  chỉ  số  CPI_d1  tính  CPI_d1(t)  với  t=95 đến  t=103  và  chỉ  số  CPI(t) được  tính  tương ứng  theo  CPI-d1(t) - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

hai.

được dùng để đánh giá mô hình dự báọ D ựa trên mô hình dự báo đã xây dựng cho chỉ số CPI_d1 tính CPI_d1(t) với t=95 đến t=103 và chỉ số CPI(t) được tính tương ứng theo CPI-d1(t) Xem tại trang 5 của tài liệu.
D % báo kiểm định chấp nhận mô hình dự báo chỉ số CPI: - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

b.

áo kiểm định chấp nhận mô hình dự báo chỉ số CPI: Xem tại trang 5 của tài liệu.
Hình 3.2: Thuật toán MFISI Kết quả thử nghiệm:  - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Hình 3.2.

Thuật toán MFISI Kết quả thử nghiệm: Xem tại trang 10 của tài liệu.
Bảng 3.1: Kết quả thực hiện MFPSI với tham số chồng lấp và độ hỗ trợ minSup * - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Bảng 3.1.

Kết quả thực hiện MFPSI với tham số chồng lấp và độ hỗ trợ minSup * Xem tại trang 11 của tài liệu.
Hình 2.1: Thuật toán MCPSI - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Hình 2.1.

Thuật toán MCPSI Xem tại trang 11 của tài liệu.
Hình 3.1: Thuật toán MFPSI - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Hình 3.1.

Thuật toán MFPSI Xem tại trang 12 của tài liệu.
Hình 2.2: Số tập Sporadictuyệt đối và Sporadictuyệt đối hai ngưỡng đóng trên các CSDL thực  - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Hình 2.2.

Số tập Sporadictuyệt đối và Sporadictuyệt đối hai ngưỡng đóng trên các CSDL thực Xem tại trang 12 của tài liệu.
Bảng 2. Q: Bảng kết quả thử nghiệm thuật toán NC-CHARM - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Bảng 2..

Q: Bảng kết quả thử nghiệm thuật toán NC-CHARM Xem tại trang 13 của tài liệu.
Hình 2.3: Thuật toán MCISI - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Hình 2.3.

Thuật toán MCISI Xem tại trang 13 của tài liệu.
Bảng 2.3: Thông tin về CSDLthực và kết quả thử nghiệm - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Bảng 2.3.

Thông tin về CSDLthực và kết quả thử nghiệm Xem tại trang 14 của tài liệu.
Bảng 2.2: Bảng kết quả thử nghiệm trên CSDL giả định - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Bảng 2.2.

Bảng kết quả thử nghiệm trên CSDL giả định Xem tại trang 14 của tài liệu.
Bảng 2.2 là kết quả thử nghiệm thuật toán MCISI trên các CSDL giả định với độ - Tóm tắt luận án Tiến sĩ  Hệ thống thông tin: Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Bảng 2.2.

là kết quả thử nghiệm thuật toán MCISI trên các CSDL giả định với độ Xem tại trang 14 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan