PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN

MỤC LỤC

Tính cấp thiết của luận án và động lực nghiên cứu

Luật chuỗi chung được phát hiện trong các CSDL chuỗi giao dịch biểu diễn mối quan hệ của 2 tập mục, ở đó các mục ở các phần tiền đề (bên trái) và hệ quả (bên phải) của luật không cần sắp thứ tự mà chỉ cần thỏa mãn điều kiện các mục ở phần tiền đề phải được xảy ra trước các mục ở phần hệ quả. Luận án thực sự có đóng góp mới về mặt lý thuyết, cung cấp các giải pháp cho những vấn đề chưa được giải quyết trong hướng nghiên cứu về phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung tương ứng trong CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian.

Mục tiêu, đối tƣợng và phạm vi nghiên cứu của luận án 1. Mục tiêu của luận án

Trong luận án, NCS tập trung vào nghiên cứu đề xuất các thuật toán mới để phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung; đánh giá tính đúng đắn và tính đầy đủ, tính độ phức tạp tính toán của thuật toán; thử nghiệm và phân tích ý nghĩa của các luật kết hợp, các mẫu chuỗi và luật chuỗi chung phát hiện được; so sánh kết quả thử nghiệm với phương pháp chia khoảng. Vấn đề đặt ra trong luận án là mới, chưa có nghiên cứu tương tự trước đó nên việc đánh giá và so sánh với các nghiên cứu trước đó sẽ được thực hiện bằng cách chỉ ra rằng các luật kết hợp và mẫu chuỗi, luật chuỗi chung tìm được trong các nghiên cứu trước đó chỉ là dạng riêng tương ứng của luật kết hợp và mẫu chuỗi, luật chuỗi chung được phát hiện bởi các thuật toán được đề xuất trong luận án này.

Phương pháp nghiên cứu

Đối tượng nghiên cứu: là các thuật toán phát hiện các luật kết hợp, và các mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian. Phương pháp phân tích cũng thường được sử dụng khi đề xuất các khái niệm mới liên quan đến vấn đề nghiên cứu của luận án sao cho những khái niệm mới được phát triển dựa trên nhiều nhất có thể các khái niệm đã có liên quan.

Các đóng góp chính của luận án

• Phương pháp tổng hợp, phân tích: được sử dụng để tổng hợp và phân tích các nghiên cứu về những vấn đề liên quan để phát hiện các khoảng trống nghiên cứu và xác định vấn đề nghiên cứu mà luận án cần giải quyết. • Đề xuất vấn đề và thuật toán phát hiện luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian cũng được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT9].

Bố cục luận án

Chương này đề xuất vấn đề và thuật toán phát hiện luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. Tính đúng đắn và tính đầy đủ, độ phức tạp tính toán của thuật toán, việc thực nghiệm thuật toán trên tập dữ liệu thực, ý nghĩa của các luật chuỗi chung phát hiện được và so sánh với luật chuỗi chung được phát hiện bởi các thuật toán trước đó cũng được trình bày trong Chương.

PHÁT HIỆN LUẬT KẾT HỢP Cể TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL ĐỊNH LƢỢNG Cể

Giới thiệu

Tuy nhiên nghiên cứu [63] chỉ đề cập đến việc mẫu chuỗi với khoảng cách thời gian đối với CSDL chuỗi giao dịch mà các thuộc tính ở đó không phải là thuộc tính định lượng mà không áp dụng được đối với CSDL định lượng, tức là chỉ có thể phát hiện các luật có dạng “Nếu một khách hàng mua a và mua b sau thời gian Short thì khách hàng đó sẽ mua c sau thời gian Long”. Thuật toán FITARM sử dụng cửa sổ trượt thời gian (sliding windows) để chuyển CSDL có yếu tố thời gian thành CSDL không có yếu tố thời gian, mờ hóa các thuộc tính định lượng, mở rộng thuật toán CHARM [9] để phát hiện các tập phổ biến đóng làm cơ sở để tìm luật đã đề xuất.

Một số khái niệm cơ bản

Ví dụ 2.2: Cho tập mờ được định nghĩa như trong [54] với K=3 đối với tất cả các thuộc tính trong Ví dụ 2.1, trong trường hợp thuộc tính định lượng có giá trị lớn nhất và nhỏ nhất trong D bằng nhau thì hàm thành viên của tập mờ thứ nhất ( ) = 1 còn các hàm thành viên khác của thuộc tính đó đều nhận giá trị 0, trong các trường hợp còn lại, các thuộc tính định lượng có. • Với thuộc tính định lượng h, ta có giá trị lớn nhất và nhỏ nhất của h trong CSDL D bằng nhau và đều nhận giá trị là 5 nên giá trị mờ của tập mờ thứ nhất tương ứng của thuộc tính h là �h (5) = 1, các tập mờ còn lại.

Trong Bảng 2.1, I={a, b, c, d, e, g, h, i, j, k} là tập các thuộc tính; Xét

Thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ 1. Bài toán đặt ra

Hơn nữa, theo dòng lệnh 7 của thuật toán sinh luật Generating_rules() thì độ tin cậy của r thỏa mãn min_conf. b) Tính đầy đủ: Ta cần chứng minh rằng với mọi luật kết hợp mờ với khoảng cách thời gian mờ r có độ hỗ trợ và độ tin cậy thỏa mãn min_sup và min_conf đều được sinh ra bởi thuật toán FTQ. Luật kết hợp sẽ trở thành luật kết hợp mờ dạng �ÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍ, �_ì_ì_ì_ì_ì_ì_ì_ì_ì_ì_ì_ì_ì_ì_ ìgℎ → �eeeeeeeeeeeeeeeℎie� với là các thuộc tính mờ �ÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍ, �_ì_ì_ì_ì_ì_ì_ì_ì_ì_ ìg ℎ_ì_ì_ì_ì_ì , �ℎie�eeeeeeeeeeeeeee xảy ra trên cùng giao dịch.

Thử nghiệm thuật toán 1. Dữ liệu thử nghiệm

Mỗi thuộc tính định lượng được phân hoạch với số phân hoạch là 3 và có các hàm thành viên như công thức (2.1). Đối với tập dữ liệu VNINDEX. Các tập mờ đối với thuộc tính định lượng. • Thuộc tính định lượng về Tỉ lệ thay đổi của các mã chứng khoán được phân hoạch thành các tập mờ là {RHigh, RNormal, RLow, ILow, INormal, IHigh} và các hàm thành viên biểu diễn tỉ lệ này được định nghĩa như Hình 2.1. RHigh RNormal RLow 1 ILow INormal IHigh. DHigh DNormal DLow 1 ILow INormal IHigh. Short Medium Long. Các hàm thành viên của các tập mờ ứng với tỉ lệ tăng/giảm của các mã chứng khoán. • Tỉ lệ thay đổi của chỉ số VN30 cũng được phân hoạch thành 3 tập mờ giống như các tập mờ của các mã chứng khoán {RHigh, RNormal, RLow, ILow, INormal, IHigh}. Các hàm thành viên tương ứng với các tập mở của tỉ lệ thay đổi chỉ số VN30 được định nghĩa như Hình 2.2. Các hàm thành viên của các tập mờ của Tỉ lệ thay đổi chỉ số VN30 Các tập mờ đối với khoảng cách thời gian. • Khoảng cách thời gian giữa các giao dịch được phân hoạch thành 3 tập mờ {Short, Medium, Long} và các hàm thành viên tương ứng với các tập mờ về khoảng cách thời gian được định nghĩa như Hình 2.3. Các hàm thành viên của các tập mờ thời gian. Kết quả thử nghiệm. a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE. Hơn nữa khi CSDL định lượng có yếu tố thời gian suy biến thành CSDL giao dịch có yếu tố thời gian, khi đó mỗi thuộc tính được mờ hóa thành 1 tập mờ tương ứng và các hàm thành viên chỉ nhận các giá trị là 1 hoặc 0, thuật toán này trở thành thuật toán phát hiện luật kết hợp với khoảng cách thời gian mờ.

Hình 2.1. Các hàm thành viên của các tập mờ ứng với tỉ lệ tăng/giảm của các mã chứng khốn

PHÁT HIỆN MẪU CHUỖI Cể TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƢỢNG Cể

Giới thiệu

Nhằm khắc phục hiện tượng “sắc nét” của việc chia khoảng thời gian (time range) tại các điểm gần ranh giới các khoảng chia như trong [61], nghiên cứu [63] đã đề xuất và giải quyết vấn đề phát hiện các mẫu chuỗi với khoảng cách thời gian mờ từ các CSDL chuỗi giao dịch dựa trên việc chuyển khoảng cách thời gian thành các tập mờ. Ý tưởng chính của thuật toán FSPFTIM được đề xuất trong chương này là sử dụng lý thuyết mờ để chuyển đổi các thuộc tính định lượng, khoảng cách thời gian thành các khái niệm mờ; tìm chuỗi có độ dài k bằng cách liên kết 2 chuỗi phổ biến có độ dài k-1 theo cách giống như thuật toán Apriori [2], [63] , từ đó tìm ra tất cả các mẫu chuỗi mờ với khoảng cách thời gian mờ.

Một số khái niệm cơ bản

Thuật toán FSPFTI sử dụng cửa sổ trượt thời gian (sliding windows) để chuyển CSDL chuỗi định lượng có yếu tố thời gian thành CSDL chuỗi định lượng không có yếu tố thời gian, mờ hóa các thuộc tính định lượng, dựa trên ý tưởng thuật toán CHARM [9] để phát hiện các mẫu chuỗi đề xuất. Ví dụ 3.2: Cho tập mờ được định nghĩa như trong [54] với K=3 đối với tất cả các thuộc tính đối với CSDL QSD trong Ví dụ 3.1, trong trường hợp thuộc tính định lượng �� có giá trị lớn nhất và nhỏ nhất trong QSD bằng nhau thì hàm thành viên của tập mờ thứ nhất �Xm(val) = 1 còn các hàm thành viên khác của thuộc tính đó đều nhận giá trị 0, trong các trường hợp còn lại, các thuộc tính định lượng có giá trị lớn nhất và nhỏ nhất khác nhau, các hàm thành viên của các tập mờ đều được định nghĩa theo công thức (2.1).

Bảng 3.2. CSDL chuỗi mờ có yếu tố thời gian FSD

Thuật toán phát hiện mẫu chuỗi mờ với khoảng cách thời gian mờ 1. Bài toán đặt ra

Khi đó P được sinh ra bởi dòng lệnh 12 trong thuật toán fuzzy_apriori_gen(), tức P là một chuỗi mờ với khoảng cách thời gian mờ. Mặt khác theo dòng lệnh 20 và dòng lệnh 24 trong thuật toán FSPFTIM thì P là phổ biến. Vậy P là chuỗi mờ với khoảng cách thời gian mờ phổ biến. b).Tính đầy đủ: Ta cần chứng minh rằng với mọi chuỗi mờ với khoảng cách thời gian mờ phổ biến đều được sinh ra bởi thuật toán FSPFTIM. �� * ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ2〉, ở đây ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒi (i =1, 2) là các tập mờ và ltd là một khoảng cách thời gian mờ, thỡ rừ ràng rằng P cú thể được sinh ra bởi cỏc dũng lệnh từ dũng lệnh 5 đến.

Thử nghiệm thuật toán

Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup và giữa thời gian chạy của thuật toán với min_sup trong trường hợp số phân hoạch thuộc tính định lượng khác nhau đối với tập dữ liệu S100I1000T3D341K được mô tả lần lượt trong các Hình 3.2.a và Hình 3.2.b; đối với tập dữ liệu Online Retail_France được miêu tả lần lượt trong các Hình 3.3.a và Hình 3.3.b. Từ các hình vẽ thu được, ta thấy mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup và giữa thời gian chạy của thuật toán với min_sup trong trường hợp số phân hoạch khoảng cách thời gian khác nhau khi số lượng phân hoạch theo thuộc tính không đổi thì thời gian thực hiện cũng giống với các mối quan hệ đó trong mục 3.4.2.1 phần này.

Từ các hình vẽ, ta nhận thấy khi số lượng các phân hoạch không đổi, số lượng các mẫu chuỗi mờ với khoảng cách thời gian mờ thu được và thời gian thực hiện thuật toán tỉ lệ nghịch với độ hỗ trợ cực tiểu min_sup

PHÁT HIỆN LUẬT CHUỖI CHUNG Cể TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH

Giới thiệu

Mục đích của chương này đề xuất và phát hiện luật chuỗi chung dạng tổng quát đó là luật chuỗi chung có tính đến khoảng cách thời gian trong CSDL chuỗi định lượng có yếu tố thời gian, gọi là luật chuỗi chung mờ với khoảng cách thời gian mờ. Trong thuật toán IFERMiner, lý thuyết mờ được sử dụng để mờ hóa các thuộc tính định lượng cũng như khoảng cách thời gian và dựa trên ý tưởng của thuật toán ERMiner [72]: sử dụng các lớp tương đương và tạo ra các luật chuỗi chung bằng cách hợp nhất 2 luật chuỗi chung đã tìm được.

Một số khái niệm cơ bản

, �〉 là chuỗi giao dịch mờ được viết gọn của chuỗi fs, tập thuộc tính mờ X xuất hiện hoặc được chứa trong chuỗi giao dịch mờ fs nếu X ≤ ��. Định nghĩa 4.8 (các lớp tương đương mờ trái/phải và các phép hợp nhất trái/phải): Cho CSDL chuỗi mờ FSD, � là tập tất cả các luật FCSI phổ biến, s tập tất cả các thuộc tính mờ của các thuộc tính trong FSD, LT là tập các tập mờ gắn với khoảng cách thời gian. Một lớp tương đương mờ trái với khoảng. tương tự một lớp tương đương mờ phải với khoảng thời gian mờ lt trên �, được kí hiệu là �G�� =. Một cách tương tự giả sử hai luật FCSI. Một cách tương tự nếu. Chứng minh: Xét trường hợp thứ nhất, giả sử fs là chuỗi giao dịch mờ và. Kết luận, �1 là luật FCSI phổ biến. Việc chứng minh được làm tương tự cho trường hợp 2□. Một cách tương tự, mọi luật FCSI mờ phổ. đều là FCSI phổ biến. Từ hai tính chất trên, ta có nhận xét sau:. 2) Nếu độ hỗ trợ của luật FCSI r nhỏ hơn min_sup thì luật này không thể tham gia hợp nhất để tạo ra luật FCSI phổ biến mới.

Thuật toán phát hiện luật chuỗi chung mờ với khoảng cách thời gian mờ

Hai lý do không sử dụng cấu trúc SCM trong thuật toán IFERMiner là: thứ nhất, việc tính độ hỗ trợ của luật FCSI trong CSDL chuỗi mờ là khác với tính độ hỗ trợ của luật chuỗi chung trong CSDL chuỗi giao dịch; thứ hai, việc tính toán này phải được thực hiện trong bối cảnh có tính đến khoảng cách thời gian mờ giữa hai tập thuộc tính mờ trong các phần của luật. Định lý 4.2: Độ phức tạp tính toán của thuật toán IFERMiner là đa thức phụ thuộc vào N: tổng số chuỗi trong CSDL chuỗi định lượng có yếu tố thời gian QSD, m: số lượng giao dịch trung bình của một chuỗi, d: độ dài trung bình của giao dịch trong QSD, h: số lượng tập mờ trung bình được liên kết với thuộc tính định lượng trong QSD và |LT|: số lượng tập mờ của các khoảng thời gian trong LT.

Thử nghiệm thuật toán 1. Dữ liệu thử nghiệm

Các thuật toán phát hiện các luật kết hợp mờ và mẫu chuỗi mờ với khoảng cách thời gian mờ tương ứng trong các CSDL định lượng có yếu tố thờ gian và CSDL chuỗi định lượng có yếu tố thời gian đều được phát triển dựa trên thuật toán Apriori, một thuật toán được đánh giá có hiệu quả ở mức trung bình so với các thuật toán phát hiện luật kết hợp khác. Các mẫu chuỗi cũng như các luật chuỗi chung chỉ biểu diễn mối quan hệ của các giao dịch do một đối tượng thực hiện, một hướng nghiên cứu khác được chúng tôi ưu tiên hơn là nghiên cứu phát hiện một loại mẫu chuỗi mới cũng như loại luật chuỗi chung mới có thể biểu diễn được mối quan hệ giữa các giao địch được thực hiện bởi các đối tượng khác nhau miễn là các giao dịch đứng trước trong mẫu chuỗi hoặc trong phần tiền đề của luật phải được xảy ra tương ứng trước các giao địch đứng sau trong mẫu chuỗi hoặc phần hệ quả của luật chuỗi chung.

Bảng 4.1. Dữ liệu thử nghiệm thuật toán IFERMiner