Tổng quan về luật kết hợp
Khái niệm luật kết hợp
1.2.1.1 Định nghĩa Để đơn giản hóa, chúng ta có thể hiểu luật kết hợp như sau: luật kết hợp là luật chỉ ra mối quan hệ của hai hay nhiều đối tượng (đối tượng chúng ta đang xét ở đây là các mặt hàng)
Cấu trúc của luật như sau: A=>B (sup, conf) Có nghĩa là luật có A thì kéo theo B với độ hỗ trợ sup và độ tin cậy conf
- sup= support (độ hỗ trợ): là tỉ lệ giao dịch chứa cả hai mặt hàng A và B trên tổng số giao dịch
- conf= confidence (độ tin cậy): là tỉ lệ giao dịch chứa mặt hàng B trong các giao dịch chứa mặt hàng A
Nếu nhìn nhận luật kết hợp theo lý thuyết tập hợp thì chúng ta có thể định nghĩa như
Cho một tập I = { I1, I2,…, I m } các tập m mục, một giao dịch T được định nghĩa như một tập con của các khoản mục trong I (T I)
Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh duy nhất
Một giao dịch T D hỗ trợ một tập X I nếu nó chứa tất cả các mục của tập X, được ký hiệu là T(X) Ký hiệu support(X) (hoặc sup(X), s(X)) thể hiện tỷ lệ phần trăm các giao dịch hỗ trợ X trên tổng số giao dịch trong D, với công thức sup(X) = (1) Độ hỗ trợ tối thiểu minsup là giá trị do người sử dụng xác định Nếu tập mục X có sup(X) ≥ minsup, thì X được coi là một tập các mục phổ biến Các phần sau sẽ sử dụng các cụm từ như “X có độ hỗ trợ tối thiểu” hoặc “X không có độ hỗ trợ tối thiểu” để chỉ ra rằng X thỏa mãn hay không thỏa mãn điều kiện support(X) ≥ minsup.
Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục; X, Y I và X Y
Luật kết hợp X => Y có độ tin cậy c, được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Độ tin cậy c được xác định bằng công thức: conf(X => Y) = p(Y | X) Quá trình khai phá luật kết hợp cần thực hiện qua hai bước.
Bước đầu tiên là xác định tất cả các tập mục có độ hỗ trợ lớn hơn mức độ hỗ trợ tối thiểu mà người dùng đã chỉ định Những tập mục đáp ứng tiêu chí này được gọi là các tập mục phổ biến.
Bước 2: Sử dụng các tập mục phổ biến để tạo ra các luật mong muốn Cụ thể, nếu chúng ta xem ABCD và AB là các tập mục phổ biến, thì có thể xác định luật AB => CD với tỷ lệ độ tin cậy.
Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến)
Một ứng dụng quan trọng của luật kết hợp là phân tích thị trường, trong đó việc nghiên cứu thói quen mua sắm của khách hàng giúp xác định mối liên hệ giữa các sản phẩm khác nhau trong cùng một giao dịch.
Trong quá trình mua sắm tại siêu thị, khách hàng thường có xu hướng mua các mặt hàng đi kèm như bánh mì và sữa, hoặc lựa chọn máy tính xách tay thay vì máy tính để bàn Việc nhận diện những sản phẩm thường được mua chung giúp người bán tối ưu hóa cách sắp xếp hàng hóa, ví dụ như đặt sữa gần bánh mì để khuyến khích khách hàng mua cả hai Điều này không chỉ tạo ra sự thuận tiện cho người tiêu dùng mà còn góp phần tăng doanh thu cho người bán hàng.
Khai thác luật kết hợp là phương pháp giúp phát hiện những mối liên kết và quan hệ tương quan quan trọng trong một tập dữ liệu lớn Trong lĩnh vực giao dịch thương mại, việc khám phá các mối quan hệ giữa nhiều giao dịch có thể hỗ trợ các nhà kinh doanh trong việc giải quyết các vấn đề, chẳng hạn như thiết kế catalog quảng cáo hiệu quả.
Giải thuật Apriori để sinh các luật kết hợp
Để hiểu rõ hơn về các giai đoạn trong quá trình phát hiện luật kết hợp, chúng ta sẽ tìm hiểu giải thuật Apriori, một phương pháp hiệu quả để phát hiện luật kết hợp từ cơ sở dữ liệu tác vụ.
1.2.2.1 Tư tưởng chính của thuật toán Apriori a Tìm tất cả các tập phổ biến (frequent itemsets):
- k-itemset (itemsets gồm k items) được dùng để tìm (k+1)- itemset
Đầu tiên, xác định 1-itemset (ký hiệu L1), từ đó tìm ra 2-itemsets (L2) Tiếp tục quá trình này để tìm 3-itemsets (L3) và các k-itemsets cho đến khi không còn tập nào được phát hiện Cuối cùng, từ các tập phổ biến, sinh ra các luật kết hợp mạnh, đảm bảo thỏa mãn hai tham số min_sup và min_conf.
1.2.2.2 Giải thuật Apriori a Duyệt (Scan) toàn bộ cơ sở dữ liệu giao dịch để có được độ hỗ trợ (support) S của 1-itemset, so sánh S với độ hỗ trợ tối thiểu min_sup, để có được 1-itemset (L1) b Sử dụng L k-1 nối (join) Lk-1 để sinh ra candidate k-itemset Loại bỏ các itemsets không phải là tập phổ biến thu được k-itemset ( bước cắt tỉa) c Tiếp tục duyệt cơ sở dữ liệu giao dịch để có được độ hỗ trợ S của mỗi candidate k-itemset, so sánh S với min_sup để thu được tập phổ biến k –itemset (Lk) d Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy tập phổ biến) e Với mỗi tập phổ biến I, sinh tất cả các tập con s không rỗng của I f Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin cậy (Confidence) của nó > =min_conf
1.2.2.3 Ví dụ minh họa Giả sử có cơ sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau:
1 Beer, Diaper, Baby Powder, Bread, Umbrella
Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau:
Beer, Baby Powder 0/5 Beer, Milk 2/5
Beer, Milk 2/5 Diaper, Baby Powder 2/5
Empty (Stop) Beer, Diaper, Baby Powder 1/5
Diaper, Milk, Baby Powder 0/5 Bear, Milk, Baby Powder 0/5
Bước 4: min-sup@%, min_confp%
Kết quả ta có các luật kết hợp sau (với min_sup= 40%, min_confp%) R1: Beer => Diaper (support `%, confidence = 75%)
R2: Diaper =>Beer (support `%,confidence = 75%) R3: Milk =>Beer (support @%, confidence = 100%) R4: Baby Powder => Diaper (support @%,confidence = 100%)
Dựa trên kết quả từ các luật được hình thành qua giao dịch bán hàng, chúng ta nhận thấy có những luật đáng tin cậy như mối liên hệ giữa Baby Powder và Diaper, trong khi một số luật khác như Milk cần được phân tích thêm để hiểu rõ hơn.
=>Beer và có luật có vẻ khó tin như Diaper =>Beer
Ví dụ này sinh ra các luật có thể không thực tế vì dữ liệu dùng để phân tích (transaction database) hay còn gọi là tranining data rất nhỏ.
Luật kết hợp mẫu âm
Khái niệm luật kết hợp mẫu âm
Trước khi xem xét khái niệm về luật kết hợp mẫu âm, chúng ta xem xét một ví dụ cụ thể dưới đây :
- Bảng dưới là thông tin về các khách hàng mua sắm phương tiện giao thông :
Giả thiết đầu tiên xác định độ hỗ trợ tối thiểu (minsup) là 30% và độ tin cậy (minconf) là 70% Giả thiết thứ hai phân loại thuộc tính tuổi thành hai nhóm: trên 30 tuổi và dưới 30 tuổi.
- Với thông tin và hai giả thiết trên ta có được các tập phổ biến :
Bảng trên cho thấy rằng luật "Age < 30 → Coupe" có độ tin cậy 75%, trong khi luật "Age > 30 → Not purchase Coupe" (những người trên 30 tuổi sẽ không mua Coupe) có độ tin cậy cao hơn là 83.33% Điều này cho thấy luật về độ tuổi trên 30 không mua Coupe, được gọi là luật kết hợp mẫu âm, cũng rất đáng chú ý.
Qua ví dụ trên cho thấy, ý nghĩa thực tế của luật kết hợp mẫu âm cũng quan trọng không kém luật kết hợp dương
Tuy nhiên việc sinh luật kết hợp mẫu âm gặp hai vấn đề khó khăn :
Việc lựa chọn giá trị ngưỡng minsup và minconf không phải là điều đơn giản, vì chúng cần phải phù hợp với cả luật kết hợp âm và luật kết hợp dương.
Trong một cơ sở dữ liệu thực tế, có hàng ngàn mục, nhưng trong các giao dịch, nhiều mục lại không xuất hiện hoặc chỉ xuất hiện rất ít.
1.3.1.2 Định nghĩa luật kết hợp mẫu âm
Các luật kết hợp mẫu âm được định nghĩa là những quy tắc có chứa sự phủ định của một mục, tức là nguồn gốc hoặc kết quả của chúng có thể được xác lập thông qua sự kết hợp giữa sự hiện diện và vắng mặt của các điều kiện Ví dụ về sự kết hợp này sẽ được trình bày sau đây.
Cụ thể hơn, chúng ta có thể xem xét khái niệm luật kết hợp mẫu âm dưới hình thức tập hợp như sau :
Giả sử I = i1, i2,…, i j , , in , một giao dịch T được định nghĩa như một tập con của các khoản mục trong I (T I)
CSDL D chứa n giao dịch, mỗi giao dịch được gán một định danh duy nhất Một giao dịch T trong D được xem là hỗ trợ cho tập hợp X I và Y I nếu nó bao gồm tất cả các mục trong cả hai tập này.
Với luật kết hợp dương có dạng R: X Y, trong đó X, Y là tập các mục, X, Y I và
X Y = X được gọi là tiên đề và Y được gọi là hệ quả của luật
Với luật kết hợp mẫu õm sẽ cú dạng R‟: X ơY
Bây giờ chúng ta xem xét độ hỗ trợ và độ tin cậy trong luật kết hợp mẫu âm
Luật kết hợp X → Y cho thấy mối quan hệ giữa hai mục, với độ hỗ trợ s% Nếu có s% giao dịch trong tập hợp X mà không có mục Y, thì độ tin cậy của luật này, giả sử U là tập hợp các giao dịch có mặt của X, là c% Điều này có nghĩa là c% giao dịch trong U không chứa mục Y.
Tương tự như cách tính độ tin cậy trong luật kết hợp dương, độ tin cậy trong luật kết hợp âm có thể được tính như sau:
Trong bài viết trước, chúng ta đã phân tích thuật toán xác định luật kết hợp dương thông qua việc tính toán các mục xuất hiện trong các giao dịch Ngược lại, việc xác định luật kết hợp âm gặp nhiều khó khăn do tính phức tạp trong việc nhận diện các mục không xuất hiện trong các giao dịch.
Thay vì chỉ xác định các mục không có mặt trong các giao dịch, chúng ta nên tập trung vào việc tính toán các mục xuất hiện trong giao dịch Điều này có nghĩa là chúng ta xác định luật kết hợp âm dựa trên các luật kết hợp dương.
Đối với mỗi luật kết hợp XY, chúng ta có thể xác định độ hỗ trợ Supp(XY) và độ tin cậy Conf(XY) Tiếp theo, chúng ta sẽ tính toán độ hỗ trợ và độ tin cậy của luật kết hợp mẫu õm (XơY) dựa trên các giá trị này.
Conf(XơY) = Supp(XơY)/ Supp(X) = (Supp(X) - Supp(XY) )/Supp(X)
Các giai đoạn phát hiện luật kết hợp mẫu âm
Để xác định luật kết hợp mẫu âm, cần phải thông qua luật kết hợp dương với độ hỗ trợ và độ tin cậy lớn Nếu độ hỗ trợ và độ tin cậy quá nhỏ, việc tìm ra các luật kết hợp dương mong muốn sẽ trở nên khó khăn Do đó, chúng ta phải chấp nhận rằng các luật kết hợp âm tìm thấy sẽ có độ hỗ trợ và độ tin cậy thấp Việc loại bỏ những luật không mong muốn chỉ có thể thực hiện bằng cách sử dụng các miền tri thức trong kho dữ liệu, giúp dự đoán và loại bỏ chúng, từ đó tạo ra tập hợp các luật kết hợp mẫu âm khả thi.
Chúng ta xem xét sự phân loại sau:
Tập hợp T bao gồm các loại mặt hàng được biểu diễn bằng các đỉnh và các cạnh, trong đó mỗi đỉnh tương ứng với một lớp như Hardware, Computers, Electronics, v.v Những đỉnh không có đỉnh con (hoặc có độ sâu bằng 0) được xem là các mặt hàng thực tế Hai đỉnh kết nối với nhau qua các cạnh, tạo thành một miền tri thức (domain Knowledge) phong phú và đa dạng.
Trong phân loại mối quan hệ, có hai loại quan trọng: quan hệ theo chiều dọc và quan hệ theo chiều ngang Quan hệ theo chiều dọc thể hiện mối quan hệ cha – con, trong khi quan hệ theo chiều ngang phản ánh mối quan hệ anh – em.
Mối quan hệ anh – em được gọi là mối quan hệ địa phương (Locality Of Similarity – LOS), trong đó các mục cùng LOS có xu hướng tham gia vào cùng một luật kết hợp Chẳng hạn, trong một cơ sở dữ liệu bán lẻ, các mục cùng LOS thường xuất hiện trong các giao dịch của khách hàng Khi bán hàng, nếu người bán không đưa ra những tham khảo hợp lý, khách hàng sẽ gặp khó khăn trong việc lựa chọn sản phẩm Do đó, việc đưa ra tham khảo theo LOS sẽ giúp khách hàng dễ dàng chọn lựa những món hàng mà họ mong muốn.
Khi khách hàng tìm mua máy tính để bàn, họ có thể dễ dàng so sánh hai mẫu máy như IBM Aptiva và Compaq Deskpro, thay vì phải phân vân giữa nhiều loại sản phẩm khác như Notebook hay các thiết bị điện tử khác.
LOS được hiểu là mối quan hệ anh – em, ví dụ như [„IBM Aptiva‟,„Compaq Deskpro‟] Tuy nhiên, LOS có thể được mở rộng ở cấp độ cao hơn, cho phép chúng ta nhóm „IBM Aptiva‟, „Compaq Deskpro‟, Notebook và Parks trong cùng một LOS khi xem xét cơ sở dữ liệu từ góc độ tổng quát hơn (Computers).
Bây giờ chúng ta xem xét các luật liên quan tới LOS
Với giả thiết: a) Các tập X = { i1, i2,…, ih,…, im }, Y = { j1, j2,…, jl } và X, Y I, X Y b) h I, ik X, thỏa mãn [ih , ik] và supp(ih) ≥ minsup, supp(ik) ≥ minsup
Nếu (r: XY) (luật r, tiền đề X, kết quả Y) thỏa mãn Supp(XY) ≥minsup, Conf(XY) ≥minconf
Khi có khả năng Conf(X'→Y) ≥ minconf, với X'={i1, i2,…, ik,…, im} tương tự như X nhưng với ih thay thế cho ik, chúng ta gọi luật X'→Y là r' Luật r và r' được xem là luật anh em.
1.3.2.2 Quá trình phát hiện luật kết hợp mẫu âm
LOS cung cấp khả năng xác định luật âm, với điều kiện ih và ik là thành viên của một LOS thỏa mãn [ih,ik] Nếu luật r: X→Y đúng và ih thuộc X, thì sẽ xuất hiện luật anh em r’: X’→Y Tuy nhiên, nếu luật này không hỗ trợ, tức là Y không có mối quan hệ với X’, thì sự kết hợp âm có thể tồn tại Để phát hiện luật kết hợp mẫu âm, cần xác định độ lệch giữa các đội tin cậy.
Trong đó conf(r’) là độ tin cậy của r‟ được tính toán theo công thức (4)
E(conf(r’)) là dự báo độ tin cậy của r‟, được định nghĩa bằng độ tin cậy của r dựa trên các giả thiết tương tự
Nếu giỏ trị SM lớn thỡ khi đú luật X‟ Y là sai, và khi đú luật X‟ ơY đỳng
Giá trị SM càng lớn thì lượng thông tin càng phong phú Các ứng viên luật kết hợp âm tạo ra cần đáp ứng hai tiêu chí quan trọng: độ hỗ trợ và độ tin cậy, để được giữ lại.
Trên thực tế để đủ điều kiện là một luật kết hợp âm thì phải thỏa mãn hai điều kiện:
- Có độ lệch lớn giữa độ tin cậy thực tế và độ tin cậy dự báo
- Có độ hỗ trợ và độ tin cậy lớn hơn cực tiểu
Trong quá trình khai phá luật kết hợp mẫu âm, việc sử dụng quá trình dự đoán có thể dẫn đến sự xuất hiện của một số luật không mong muốn Do đó, một trong những nhiệm vụ quan trọng trong việc phát hiện luật kết hợp mẫu âm là loại bỏ những luật này để đảm bảo tính chính xác và hiệu quả của kết quả.
Ví dụ về việc loại bỏ luật dư thừa có thể thấy qua hai luật "Female → Buy Hat" và "Male → Buy Hat" Trong miền thuộc tính giới tính, nếu chỉ có hai giá trị là Male và Female, thì Male cũng được coi là Female Do đó, trong hai luật này, chỉ cần giữ lại một luật duy nhất.
Như vậy, quá trình khai phá luật kết hợp mẫu âm có thể chia làm 3 giai đoạn:
1 Xác định một tập các luật kết hợp dương
2 Sinh các luật kết hợp âm dựa vào luật kết hợp dương đã có ở bước 1 và miền tri thức đã có
3 Loại các luật dư thừa.
Thuật toán phát hiện luật kết hợp âm
Phân tích các giai đoạn trong quá trình phát hiện luật kết hợp âm cho phép chúng ta xem xét một giải thuật cụ thể để tìm kiếm các luật này.
//Tìm tất cả các luật dương:
FreqSet1 = {frequent1 – itemsets}; k=2; while (FreqSetk-1 ) for all trấnctions g DataSet
CandidateSet1 = subset (CandidateSetk , g); for all candidates c CandidateSet1 c.count = c.count + 1; endfor endfor
FreqSetk = {c CandidateSet1 | c.count ≥ minsup}; k = k + 1; endwhile // Sinh các luật dương với giải thuật Apriori postiveRule = genRule(FreqSetk);
Delete all items t from the taxonomy, t FreqSet1
For all rules r postiveRule tmpRuleSets = genNegCand(r); for all rules tr tmpRuleSets if SM(tr.conf, t.conf) > confDeviate
Rule = {Rule, Neg(tr) | Neg(tr).supp>minsup, Neg(tr).conf
// Loại bỏ các luật dư thừa:
If all members of LOS have common itemset that form {r1, r2,…, rn} Rule delete rk, where rk falls in the categories endif
Xác định bài toán ứng dụng phát hiện luật kết hợp mẫu âm
Bài toán Error! Bookmark not defined
Trong những năm gần đây, công tác điều hành thương mại đã cho thấy rằng khi nhà nước cho phép nhập khẩu một số mặt hàng, thường đi kèm với việc cấm nhập khẩu các mặt hàng khác Bên cạnh đó, trong việc xây dựng các dòng thuế cho các ngành hàng, việc điều chỉnh thuế suất của một số mặt hàng thường phải gắn liền với việc không cho phép điều chỉnh thuế suất của các mặt hàng khác.
Trong y học, các tình huống liên quan đến triệu chứng bệnh lý thường xảy ra, cho thấy rằng một bệnh nhân không thể có triệu chứng của nhiều căn bệnh khác nhau cùng lúc Tương tự, sự biến động giá cả của các mặt hàng cũng cho thấy mối liên hệ giữa chúng; khi một nhóm mặt hàng tăng giá, có thể dẫn đến sự tăng giá của nhóm khác hoặc sự giảm giá của một số mặt hàng khác Để xác định mối quan hệ này, việc thu thập dữ liệu chính xác và đầy đủ về giá cả là rất quan trọng, và đây sẽ là nội dung chính của chương 2 trong luận văn.
Trong bối cảnh nền kinh tế đang trải qua lạm phát cao và giá cả hàng hóa liên tục biến động, câu hỏi đặt ra là liệu có sự liên quan giữa các mặt hàng hay không Việc xác định mối quan hệ này là cần thiết để hiểu rõ hơn về sự biến động giá cả Đây là nội dung chính mà luận văn sẽ tập trung làm rõ.
Theo Viện Nghiên cứu giá cả thị trường Bộ Tài Chính và Trung tâm Thông tin Công nghiệp và Thương mại Bộ Công Thương, các cơ quan này theo dõi biến động giá của hàng hóa nhập khẩu, xuất khẩu, hàng hóa dân sinh, giá một số mặt hàng toàn cầu và chỉ số giá tiêu dùng (CPI) Mặc dù thị trường có hàng nghìn mặt hàng, nhưng những mặt hàng được chọn đã chiếm hơn 90% tổng lượng hàng hóa lưu thông Do đó, kết quả nghiên cứu biến động giá của các mặt hàng này phản ánh chính xác tình hình giá cả trên toàn thị trường Dữ liệu giá cả được thu thập hàng tuần trong 2 năm 2008, 2009 và quý 1 năm 2010, chi tiết có trong phụ lục 1.
Giá cả của các sản phẩm xuất, nhập khẩu được thu thập từ Tổng cục Hải quan và tính trung bình theo tuần Đối với các sản phẩm thiết yếu của đời sống dân sinh, giá cả được thu thập tại địa bàn Hà Nội từ ngày 3/1/2008 đến hết ngày 31/03/2010 vào các ngày thứ hai, thứ tư và thứ sáu hàng tuần, sau đó tính giá trung bình của 3 ngày này làm giá cả của sản phẩm đó trong tuần.
Khi phân tích dữ liệu, nếu phát hiện biên độ giao động giá của một số mặt hàng rất nhỏ hoặc chỉ thay đổi vài tháng một lần (bao gồm 14 mặt hàng do Chính phủ thực hiện bình ổn giá), luận văn sẽ loại trừ những mặt hàng này khỏi nghiên cứu Đối với các mặt hàng không thu thập được dữ liệu đầy đủ trong thời gian nghiên cứu (từ 3/1/2008 đến 31/3/2010), sẽ có phương án xử lý cụ thể.
- Với những mặt hàng khụng thu thập được giỏ cả cho ớt nhất ắ của 120 tuần trở lên, tức là trên 90 tuần, sẽ bị loại bỏ
Đối với các mặt hàng còn lại, trong những tuần không thu thập được dữ liệu, chúng tôi sẽ áp dụng phương pháp trung bình trượt bậc 4 hoặc bậc 5, hoặc sử dụng phương pháp phân tích tương tự để bổ sung dữ liệu bị thiếu.
Quá trình thu thập số liệu
Mục tiêu của luận văn là nghiên cứu mối quan hệ giữa biến động giá cả và các yếu tố tác động đến chúng Để đạt được điều này, luận văn sẽ khảo sát giá cả của các mặt hàng thiết yếu trong đời sống và các sản phẩm xuất, nhập khẩu chủ đạo của nền kinh tế, nhằm cung cấp cái nhìn rõ ràng hơn về những yếu tố ảnh hưởng đến giá cả.
Số liệu thống kê về giá cả hàng hóa được thu thập thống nhất theo kỳ thời gian theo tuần, cụ thể như sau:
Bài viết này đề cập đến việc thu thập dữ liệu giá cả các mặt hàng thiết yếu như gạo tẻ thường, gạo tẻ ngon và gạo nếp tại Hà Nội trong khoảng thời gian từ ngày 3/1/2008 đến 31/3/2010 Dữ liệu được ghi nhận theo ngày và sẽ được tính toán trung bình theo tuần (120 tuần) để phục vụ cho việc phân tích Thông tin chi tiết về giá cả được trình bày trong phụ lục 1.
2.2.1.1 Nhóm lương thực Đây là nhóm mặt hàng quan trọng bậc nhất trong nền kinh tế của nước ta Bây giờ chúng ta sẽ đi phân tích số liệu cụ thể của các loại mặt hàng thuộc nhóm mặt hàng lương thực này
Trong giai đoạn 10 tuần đầu năm 2008, giá gạo tẻ thường và gạo tẻ ngon gần như ổn định, không có sự biến động lớn Tuy nhiên, trong 40 tuần tiếp theo, giá của các mặt hàng này đã liên tục tăng, mặc dù mức tăng chỉ ở mức chậm Cụ thể, giá gạo tẻ thường tăng từ 7.500đ/Kg lên 8.500đ/Kg, trong khi gạo tẻ ngon giữ nguyên ở mức 11.500đ/Kg.
Từ năm 2009, giá lương thực, đặc biệt là gạo tẻ thường, đã có sự biến động mạnh, tăng từ 8.500 đ/Kg lên 11.000 đ/Kg trong 24 tuần đầu năm Sau đó, giá ổn định ở mức 10.000 đ/Kg cho gạo tẻ thường và 12.500 đ/Kg cho gạo tẻ ngon Đến đầu năm 2010, giá tiếp tục tăng mạnh, đạt 13.000 đ/Kg cho gạo tẻ thường và 16.800 đ/Kg cho gạo tẻ ngon, duy trì mức cao ổn định trong 15 tuần đầu năm Xu hướng tăng giá này phản ánh tình hình chung của các mặt hàng lương thực như gạo, bột mì, ngô và mì ăn liền.
2.2.1.2 Nhóm mặt hàng liên quan tới thịt, trứng, cá
Trong nhóm mặt hàng liên quan đến thịt và trứng, sự biến động giá có sự khác biệt so với lương thực Cụ thể, giá thịt lợn mông sấn năm 2008 dao động khoảng 63.000 đ/Kg, trong khi thịt bò loại 1 tăng từ 90.000 đ/Kg trong 10 tuần đầu lên 115.000 đ/Kg vào cuối năm Sang năm 2009, giá thịt lợn giảm và ổn định ở mức 55.000 đ/Kg, trong khi thịt bò tăng mạnh lên 130.000 đ/Kg và 140.000 đ/Kg vào cuối quý 1/2010 Sự biến động giá của các mặt hàng như thịt, trứng, tôm, cá cũng không đồng nhất như trường hợp thịt lợn và thịt bò đã nêu.
2.2.1.3 Nhóm mặt hàng rau, củ, quả
Trong năm 2008, giá rau bắp cải và rau muống đã có sự biến động rõ rệt Từ đầu năm đến tuần 43, giá bắp cải giảm từ 6.000 đ/Kg xuống 4.500 đ/Kg và rau muống từ 4.000 đ/mớ xuống 3.500 đ/mớ, sau đó ổn định ở mức 5.000 đ/Kg và 3.500 đ/mớ Tuy nhiên, trong khoảng thời gian từ tuần 44 đến tuần 46, giá rau bắp cải tăng mạnh lên đến 18.000 đ/Kg và rau muống lên tới 18.000 đ/mớ do ảnh hưởng của trận mưa lụt lịch sử tại Hà Nội Sau đó, giá rau củ đã điều chỉnh giảm và ổn định ở mức 7.000 đ/Kg cho bắp cải và 6.000 đ/Kg cho rau muống.
Trong năm 2009, giá các mặt hàng rau, củ, quả đã có sự điều chỉnh đáng kể Trong hơn 20 tuần đầu, giá rau bắp cải giảm từ 7.000 đ/Kg xuống 4.000 đ/Kg, trong khi xoài cũng giảm từ 30.000 đ/Kg xuống 23.500 đ/Kg Tuy nhiên, đến cuối năm, giá rau bắp cải đã tăng trở lại lên 7.000 đ/Kg, trong khi giá xoài giữ ổn định ở mức 23.000 đ/Kg.
Sang đến quý 1/2010 tình hình giá của các mặt hàng rau, củ, quả bắt đầu có hiện tượng giảm giá và đi vào ổn định
2.2.1.4 Nhóm mặt hàng đường, sữa, cafe
Tiếp đến chúng ta đi phân tích giá các mặt hàng liên quan tới đường, sữa, café
Vào năm 2008, giá café giữ ổn định ở mức 76.000 đ/Kg, trong khi giá sữa 900g tăng từ 118.000 đ/Kg đầu năm lên 127.000 đ/Kg vào cuối năm Ngược lại, giá đường trắng nội không ổn định, có tuần tăng và tuần giảm, nhưng tổng thể chỉ tăng nhẹ từ 10.500 đ/Kg đầu năm lên 11.000 đ/Kg cuối năm.
Năm 2009, giá café có sự biến động mạnh mẽ, bắt đầu với mức 85.000 đ/Kg, sau đó giảm xuống 80.000 đ/Kg Cuối năm, giá café lại tăng dần và kết thúc ở mức 104.800 đ/Kg.
Năm 2009, giá sữa loại 900g tiếp tục tăng đều từ 127.000 đ/Kg lên 142.000 đ/Kg, tương tự như năm 2008 Bên cạnh đó, giá đường trắng nội cũng ghi nhận sự tăng trưởng ổn định từ 11.000 đ/Kg đến 19.600 đ/Kg vào cuối năm.
Sang đến những tuần đầu năm 2010, các loại mặt hàng này đều có sự tăng giá đều đặn
2.2.1.5 Nhóm mặt hàng rượu, bia, thuốc lá
Mặc dù được xem là hàng xa xỉ, nhưng tại các thành phố lớn như Hà Nội, nhu cầu tiêu thụ các mặt hàng này lại rất cao.
Theo số liệu trong phụ lục 1, giá các mặt hàng như rượu vodka và thuốc lá thường rất ổn định qua các năm Những mặt hàng này thường có xu hướng tăng giá vào đầu năm và hiếm khi giảm giá, ngoại trừ bia Tiger, có ghi nhận giảm giá trong một số tuần của năm 2009.
2.2.1.6 Nhóm mặt hàng vải bông, vải tổng hợp Đây cũng là nhóm mặt hàng có thế mạnh xuất khẩu của cả nước, các mặt hàng vải bông, vải tổng hợp có sự ổn định giá trong năm 2008 Cụ thể trong cả năm 2008 giá vải bông luôn là 48.000 đ/m, vải tổng hợp luôn là 30.000 đ/m Tuy nhiên sang đến năm 2009 vải bông vẫn giữ được sự ổn định giá, mặc dù cũng có vài tuần thay đổi giảm nhưng hầu hết các tuần trong năm 2009 giá cũng vẫn ở mức 48.000 đ/m, trong khi vải tổng hợp giảm giá từ 30.000 đ/m cuối năm 2008 xuống còn 20.000 đ/m vào thời điểm cuối năm 2009
Sang đến quý 1 năm 2010 thì tình hình lại ngược lại, trong khi vải tổng hợp tăng giá lên 22.000 đ/m thì vải bông lại giảm giá xuống còn 45.000 đ/m
2.2.1.7 Nhóm mặt hàng liên quan tới vật liệu xây dựng Đó là các mặt hàng như xi măng, gạch, sắt, thép,…Trong thời kỳ từ năm 2008 đến hết quý 1 năm 2010, các loại mặt hàng này có sự thay đổi giá không ổn định và không giống nhau
Phần mềm sử dụng để phát hiện luật kết hợp - phần mềm CBA
Hiện nay, nhiều nhóm nghiên cứu về luật kết hợp đang phát triển các thuật toán tìm tập phổ biến khác nhau, dẫn đến sự ra đời của nhiều phần mềm tìm luật kết hợp từ các cơ sở dữ liệu (CSDL) tác vụ khác nhau, mặc dù hầu hết chưa trở thành sản phẩm thương mại Luận văn này sử dụng phần mềm CBA (Classification Based on Associations) do Đại học Quốc gia Singapore phát triển, ứng dụng thuật toán Apriori do R Agrawal và cộng sự nghiên cứu, mở ra hướng nghiên cứu và ứng dụng về luật kết hợp Thuật toán Apriori có độ phức tạp tính toán trung bình, trong khi CBA hỗ trợ phát hiện luật kết hợp từ các CSDL quan hệ và CSDL tác vụ với nhiều mức độ hỗ trợ tối thiểu khác nhau.
Một luật kết hợp tìm được qua phần mềm CBA có dạng:
Trong bài viết này, A và B đại diện cho các tập mặt hàng, với A = Y nghĩa là tất cả mặt hàng trong A đều xảy ra Bài viết đề cập đến năm thông số của luật: Cover%, Conf%, CoverCount, SupCount và Sup% Cover% thể hiện tỷ lệ phần trăm các tuần so với tổng số tuần thu thập dữ liệu về biến động giá của mặt hàng trong A Conf% là độ tin cậy của luật, được tính bằng công thức SupCount/CoverCount CoverCount cho biết số tuần có sự biến động giá của các mặt hàng trong A, trong khi SupCount cho biết số tuần thu thập dữ liệu về biến động giá của các mặt hàng trong cả hai tập A và B Cuối cùng, Sup% là độ hỗ trợ của luật, phản ánh tỷ lệ phần trăm các tuần thu thập thông tin về biến động giá của mặt hàng khi cả hai tập A và B đều có biến động giá.
Luật kết hợp này không khác biệt so với luật kết hợp tổng quát trong CSDL tác vụ, vì hai thông số Sup% và Conf% đại diện cho độ hỗ trợ và độ tin cậy, đã được giới thiệu trong chương 1 Ba thông số còn lại chỉ nhằm làm rõ hơn về hai thông số này.
Phần mềm CBA cho phép trình bày các luật kết hợp dưới nhiều hình thức khác nhau, bao gồm liệt kê tuần tự, biểu diễn dưới dạng cây, và lưu trữ dưới dạng tệp văn bản, giúp người dùng dễ dàng đọc và sử dụng các luật đã được phát hiện.
2.3.2 Xử lý file dữ liệu để xác định luật kết hợp trong CBA
Trong CBA, dữ liệu có thể được lưu trữ dưới các loại file khác nhau, bao gồm file *.data và *.name cho dữ liệu dạng bảng, và file *.tra cho dữ liệu dạng giao dịch Để phân tích sự biến động giá cả các mặt hàng theo tuần, luận văn này sẽ chọn lưu trữ dữ liệu dưới dạng file giao dịch.
Để đơn giản hóa việc tạo file tra, bạn chỉ cần lưu dữ liệu dưới dạng file *.txt Sau đó, mở file *.txt và chọn "Save as" để lưu dưới định dạng *.tra Trong file dữ liệu, cần tuân thủ cấu trúc nhất định.
- Mỗi một tuần thể hiện sự biến động giá cả của tất cả mặt hàng và lưu dữ liệu trên một dòng
- Với dữ liệu của 120 tuần (từ năm 2008 tới quý 1/2010) thì sẽ được thể hiện trên
2.3.3 Xác định luật kết hợp trong CBA
Trước hết chúng ta xem xét giao diện chung của phần mềm CBA:
Phần mềm CBA hỗ trợ hai loại khai phá dữ liệu chính: phân lớp dữ liệu và khai phá luật kết hợp Mỗi loại khai phá này yêu cầu các định dạng dữ liệu đầu vào khác nhau, bao gồm bảng dữ liệu quan hệ và dữ liệu giao dịch Đặc biệt, dữ liệu phục vụ cho phân lớp có hai định dạng cụ thể.
- Theo bảng: dữ liệu lưu tại hai file, file *.names, file *.data
- Theo giao dịch: dữ liệu lưu ở một file , file *.trc (transaction classification) Đối với dữ liệu cho việc khai phá luật kết hợp cũng có 2 định dạng:
- Theo bảng: dữ liệu lưu tại hai file, file *.names, file *.data
- Theo giao dịch: dữ liệu lưu ở một file , file *.tra (transaction association)
Với mục tiêu phát hiện luật kết hợp trong luận văn, nên chúng ta sẽ dùng dữ liệu ở dạng giao dịch (file *.tra)
Sau khi xác định file dữ liệu đầu vào, chọn nút “Mine: Single Sup” để bắt đầu quá trình phát hiện Trước khi thực hiện, hệ thống cho phép thiết lập các tham số như minSup và minConf.
Giải thích một số tham số chính của phần mềm CBA khi sử dụng thuật toán Apriori sinh luật kết hợp:
MinSupport: Cận dưới của độ hỗ trợ
Min Confidence: Cận dưới của độ tin cậy
Số lượng luật tối đa cần tìm được phụ thuộc vào khả năng xử lý của phần cứng máy tính, vì quá trình phát hiện luật kết hợp gia tăng theo cấp số nhân Do đó, việc xác định số luật tối đa phù hợp với giới hạn bộ nhớ máy tính là rất quan trọng.
Sau khi sử dụng phần mềm phân tích để tạo ra các luật, người dùng có thể nhấn nút "View Assoc Rules" để xem danh sách các luật đã được phát hiện Để đảm bảo số lượng luật đủ lớn cho phân tích, trong nhiều trường hợp, cần điều chỉnh độ hỗ trợ và độ tin cậy xuống mức thấp hơn.
Trong chương này, luận văn đã phân tích chi tiết bài toán xác định mối quan hệ giữa sự biến đổi giá của các mặt hàng trong đời sống dân sinh Đồng thời, dữ liệu đầy đủ và chính xác về giá của các mặt hàng từ 3/1/2008 đến 31/3/2010 đã được thu thập, với giá được thể hiện theo tuần để phục vụ cho bài toán nghiên cứu.
Chương 2 này cũng đã giới thiệu cơ bản về phần mềm phát hiện luật kết hợp – phần mềm CBA, làm công cụ cho quá trình phát hiện môi quan hệ về sự biến đổi giá cả của các mặt hàng trong chương tiếp theo
Chương 3 Phát hiện mối quan hệ về sự biến động giá của các mặt hàng dân sinh
Mở đầu chương
Trong chương này, luận văn sẽ sử dụng phần mềm CBA để khám phá mối quan hệ giữa sự biến động giá của các mặt hàng dân sinh, dựa trên dữ liệu đã thu thập và phân tích từ 3/1/2008 đến 31/3/2010 Sau khi xác định được các mối quan hệ thông qua các luật kết hợp, luận văn sẽ tiến hành phân tích các kết quả thu được.
Chuyển đổi biểu diễn dữ liệu
Luật kết hợp nhị phân được phát hiện trong luận văn này thể hiện mối quan hệ giữa sự tăng, giảm giá của nhóm mặt hàng này so với nhóm mặt hàng khác trong tuần trước Để thực hiện điều này, cần có tập dữ liệu nhị phân, được tạo ra từ tập dữ liệu gốc về sự biến động giá các mặt hàng đã được trình bày trong chương 2.
3.2.1 Bước 1: đánh ký hiệu từng mặt hàng
Mục đích của việc đánh ký hiệu cho từng mặt hàng là nhằm đơn giản hóa và làm gọn quá trình nghiên cứu, phân tích mối quan hệ về biến động giá cả Danh sách các mặt hàng cụ thể có thể được tham khảo trong phụ lục 1.
Quá trình đánh ký hiệu mặt hàng sử dụng ba ký tự và được phân chia thành các nhóm khác nhau Nhóm dân sinh được ký hiệu bằng chữ D, nhóm xuất khẩu bắt đầu bằng chữ X, nhóm nhập khẩu dùng chữ N, nhóm mặt hàng thế giới ký hiệu bằng chữ W, và chỉ số giá tiêu dùng được ký hiệu là CPI.
1 Hàng hoá dân sinh 1 Gạo tẻ thường (đ/kg) DA1
2 Gạo tẻ ngon (đ/kg) DA2
6 Mì ăn liền (đ/gói) DA6
7 Thịt lợn mông sấn (đ/kg) DA7
8 Thịt bò loại 1 (đ/kg) DA8
9 Gà mái ta còn sống (đ/kg) DA9
10 Thịt gà công nghiệp (đ/kg) DB1
16 Cá quả loại 2 con/kg (đ/kg) DB7
17 Tôm biển loại 20-30 con/kg (đ/kg) DB8
18 Cá thu hấp dầu loại 85g/hộp (đ/hộp) DB9
20 Lạc nhân loại 1 (đ/kg) DC2
21 Cải bắp loại 1 (đ/kg) DC3
25 Bột ngọt Ajinomoto 453g (đ/gói) DC7
27 Đường trắng nội (đ/kg) DC9
28 Rs đường cát vàng (đ/kg) DD1
42 Xi măng đen 50 kg (đ/kg) DE6
43 Thép tròn phi 6 (đ/kg) DE7
52 Đèn Điện Quang 1,2m; 36W (đ/bóng) DF7
53 Bếp ga Rinnai đôi âm (đ/cái) DF8
62 Omo loại 1kg (đ/kg) DG8
63 Kem đánh răng P/S 110g (đ/tuýp) DG9
64 Pin Con thỏ 1,5V (đ/đôi) DH1
68 Xe dream VN (đ/chiếc) DH5
69 Xăng RON 92 không chì (đ/lít) DH6
77 Phí DV Internet (đ/giờ) DK5
78 Vàng miếng SJC 99.99% (đ/chỉ) DK6
79 USD loại 50-100 đôla (đ/USD) DK7
2 Hàng hoá nhập khẩu 1 Phôi thép TQ (USD/tấn) NA1
2 Sắt TQ ỉ 6 (USD/tấn) NA2
3 Xăng RON 92 (USD/tấn) NA3
4 Dầu DO 0,05%S (USD/tấn) NA4
5 Dầu FO (USD/tấn) NA5
6 Urê bao TQ (USD/tấn) NA6
7 DAP bao TQ (USD/tấn) NA7
8 Nhựa PVC TQ (USD/tấn) NA8
9 Nhựa DOP Malaysia (USD/tấn) NA9
10 Bông Mỹ loại 1 (USD/tấn) NB1
11 Clinke loại 1 (USD/tấn) NB2
12 Sữa bột loại 1(USD/tấn) NB3
13 Bột Amoxycilline (USD/kg) NB4
14 Bột Ampicilin (USD/kg) NB5
15 Bột Vitamin B1 (USD/kg) NB6
16 Linh kiện xe máy Dream II (USD/bộ) NB7
3 Hàng hoá xuất khẩu 1 Dầu thô (USD/tấn) XA1
2 Than cục 3A (USD/tấn) XA2
3 Giày da nam (USD/đôi) XA3
4 Áo Jắc két nam (USD/chiếc) XA4
5 Gạo tẻ 5% (USD/tấn) XA5
6 Gạo tẻ 25% (USD/tấn) XA6
7 Cà phê Robusta (USD/tấn) XA7
8 Cao su SVR loại 1 (USD/tấn) XA8
9 Hạt điều nhân W320 (USD/tấn) XA9
10 Hạt tiêu đen loại 1 (USD/tấn) XB1
11 Chè POB loại 1 (USD/tấn) XB2
12 Cá thu loại 1 con/kg (USD/kg) XB3
13 Tôm thẻ loại 20-30con/kg (USD/kg) XB4
4 Giá thế giới 1 Dầu thô Brent IPE tại London (USD/thùng) WA1
2 Dầu thô nhẹ tại New York (USD/thùng) WA2
3 Gasoline, 92 RON tại Singapore (USD/thùng) WA3
4 Đồng tại New York (UScents/Lb) WA4
5 Gạo Thái Lan 5% tấm (USD/tấn) WA5
6 Lúa mỳ tại Chicago (UScents/bushel) WA6
7 Ngô tại Chicago (UScents/bushel) WA7
8 Đường thô tại Thái Lan (UScents/Lb) WA8
9 Cà phê Robusta tại London (USD/tấn) WA9
10 Cao su RSS2 tại Singapore (SGcents/kg) WB1
11 Bông New York (UScents/Lb) WB2
4 CPI CPI (tháng trước = 100) CPI
3.2.2 Bước 2: đánh ký hiệu từng sự biến đổi giá của các mặt hàng
Quá trình đánh ký hiệu biến đổi giá hàng hóa hàng tuần được thực hiện theo nguyên tắc: nếu giá tuần này cao hơn tuần trước, thêm chữ "1" vào mã hàng; nếu giá thấp hơn, thêm chữ "2"; và nếu giá không thay đổi, thêm chữ "0".
Chẳng hạn, như trong bảng ký hiệu với gạo tẻ thường được đánh ký hiệu là DA1
Trong tuần thứ 2, giá gạo tẻ thường giữ nguyên so với tuần 1, do đó, ký hiệu cho sự biến đổi giá gạo tẻ trong tuần này sẽ là DA10.
Trong tuần thứ 26, giá gạo tẻ thường giảm xuống còn 9.500 đ/Kg, thấp hơn giá 11.500 đ/Kg của tuần thứ 25, đánh dấu sự biến đổi giá với ký hiệu DA12 Sang tuần thứ 27, giá gạo tẻ thường tăng nhẹ lên 10.000 đ/Kg.
26 là 9.500 đ/Kg, do vậy ký hiệu của sự biến đổi giá gạo tẻ thường ở tuần thứ 27 sẽ là DA11
3.2.3 Bước 3: chuyển toàn bộ dữ liệu đã đánh vào file *.tra
Sau khi đánh giá toàn bộ ký hiệu mặt hàng và sự biến đổi giá của các mặt hàng trong 120 tuần, dữ liệu sẽ được chuyển vào file *.tra.
- Mỗi một tuần thể hiện sự biến động giá cả của tất cả mặt hàng và lưu dữ liệu trên một dòng và cách nhau bởi dấu “,”
- Với dữ liệu của 120 tuần (từ năm 2008 tới quý 1/2010) thì sẽ được thể hiện trên
120 dòng Sau 3 bước này thì chúng ta sẽ có tập dữ liệu phục vụ phát hiện luật kết hợp được lưu vào file *.tra có nội dung như sau:
Thực hiện chạy phần mềm CBA để phát hiện luật kết hợp
Sau khi nhận được file dữ liệu về sự biến động giá của các mặt hàng dân sinh, chúng ta sử dụng phần mềm CBA để tải file Tiếp theo, chúng ta thiết lập các tham số MinSupport và Min.
Sự tự tin, quy định giới hạn hợp lý và thực hiện chạy chương trình là những yếu tố quan trọng Sau khi hoàn tất quá trình phân tích, hệ thống sẽ cung cấp cho chúng ta danh sách các luật kết hợp đã được phát hiện.
Tiếp theo đây chúng ta sẽ đi phân tích các luật kết hợp được theo các tiêu chí.
Xác định mối quan hệ giá bằng phát hiện luật kết hợp
Phần mềm CBA sử dụng dữ liệu gốc để phát hiện các luật kết hợp khác nhau Mỗi tiêu chí sẽ dẫn đến những luật kết hợp riêng, và phần tiếp theo của luận văn sẽ phân tích chi tiết một số luật kết hợp này.
3.4.1 Luật kết hợp của 120 mặt hàng với đầy đủ các trạng thái : tăng giá, giảm giá, giữ nguyên giá
Phần mềm CBA đã được chạy trên tập dữ liệu nhằm phát hiện luật kết hợp với độ hỗ trợ tối thiểu minSup = 0,90 (90%) và độ tin cậy tối thiểu minConf = 0,8 (80%) Kết quả thu được là 82 luật kết hợp, trong đó 5 luật có độ hỗ trợ cao nhất sẽ được trình bày dưới đây (chi tiết xem Phụ lục 2, mục 1).
Rule 1: DF10 = Y -> DE90 = Y (Điện ->Nước)
Luật này cho thấy rằng trong 82.203% các tuần từ năm 2008 đến quý 1/2010, giá điện (DF1) giữ nguyên mức giá, trong khi giá nước (DE9) cũng không thay đổi, với độ tin cậy đạt 100% và độ hỗ trợ là 82.203%.
Rule 30: DE90 = Y -> DD60 = Y (Nước ->Lavie )
Theo quy định này, khi giá nước không tăng, giá nước đóng chai Lavie cũng sẽ giữ nguyên, với độ tin cậy đạt 97.94% Điều này dễ hiểu vì nước là nguyên liệu chính trong sản xuất nước đóng chai.
Rule 80: DF50 = Y->DF90 = Y (Máy giặt-> Nồi cơm)
Trong nhóm mặt hàng điện dân dụng, sự biến động giá cả như tăng, giảm hay giữ ổn định đều diễn ra đồng loạt Luật 80 cho thấy rằng khi giá máy giặt không thay đổi, thì giá nồi cơm điện cũng sẽ không tăng.
Phân tích các luật cho thấy nhiều luật phản ánh đúng tình hình thực tế; tuy nhiên, cũng có một số luật khó giải thích mối quan hệ kinh tế giữa các mặt hàng.
Rule 12: DA50 = Y->DK40 = Y (Ngô-> Đĩa CD)
Các luật kết hợp thể hiện mối quan hệ giữ nguyên giá của các mặt hàng, cho thấy hiện tượng này diễn ra phổ biến trong vài tuần Khi giảm độ hỗ trợ, chúng ta có thể thu thập nhiều luật hơn, bao gồm các hiện tượng như tăng giá, giảm giá và giữ nguyên giá Tuy nhiên, số lượng luật sẽ tăng lên đáng kể Ví dụ, với độ hỗ trợ 50% và độ tin cậy 80%, chúng tôi đã thu được hàng nghìn luật.
Nhận xét cuối đã gợi ý rằng nên loại bỏ hiện tượng giữ nguyên giá khi nghiên cứu mối quan hệ về biến động giá giữa 120 mặt hàng
3.4.2 Luật kết hợp của 120 mặt hàng khi không tính đến trạng thái giữ nguyên giá Để phát hiện những luật đó, tập dữ liệu đầu vào cần phải hiệu chỉnh bằng cách loại bỏ đi tất cả các thông tin giữ nguyên giá của mỗi mặt hàng so với tuần trước đó Như vậy ở mỗi tuần, chỉ có những mặt hàng tăng hoặc giảm giá thực sự so với tuần trước mới được đưa vào tập dữ liệu đầu vào
Với MINSUP đạt 30% và MICONF là 81%, đã xác định được 24 luật kết hợp cho 120 mặt hàng, trong đó giá không thay đổi so với tuần trước Chi tiết các luật này được trình bày trong Phụ lục 2 - Mục 2.
Phân tích các luật này cho thấy hầu hết các luật đều phản ánh tương đối trực quan quan hệ kinh tế
Chẳng hạn các luật sau là ví dụ cho các nhận xét này:
Theo luật này, trong khoảng thời gian 2 năm từ 2008 đến quý 1/2010, có 53.782% số tuần giá vàng miếng SJC (DK6) tăng thì đồng đô la Mỹ (DK7) cũng tăng, với độ tin cậy đạt 80.81%.
Trong hai năm qua, chỉ số CPI có mối liên hệ chặt chẽ với giá vàng, với 51.261% các tuần có sự gia tăng của CPI cũng đồng thời chứng kiến giá vàng tăng, đạt độ tin cậy 89.02%.
Các mặt hàng nhập khẩu cũng được phản ánh thông qua luật 36 này : Rule 36:
NA41 = Y -> NA31 = Y (44.538% 79.81% 53 42 31.092%) Trong luật 36 chỉ rõ, nếu Dầu DO nhập khẩu tăng giá thì Xăng RON 92 nhập khẩu cũng tăng giá với độ tin cậy là trên 79%
Biến động giá thế giới của các nguyên liệu cơ bản như dầu, gas và đồng có ảnh hưởng lớn đến giá của các mặt hàng trao đổi quốc tế như vàng và giá USD Các quy luật kinh tế cho thấy mối quan hệ chặt chẽ giữa những biến động này, phản ánh sự tương tác giữa thị trường nguyên liệu và các tài sản tài chính toàn cầu.
Theo các luật 3 và 11, trong hơn 50% các tuần của hai năm 2008, 2009 và quý 1/2010, khi giá Dầu thô Brent IPE tại London hoặc giá Đồng tại New York tăng, giá vàng trong nước cũng tăng với độ tin cậy trên 80%.
Các luật có độ hỗ trợ và độ tin cậy cao thường liên quan đến nguyên liệu cơ bản Nếu giảm hai giá trị về độ hỗ trợ, số lượng luật sẽ tăng lên đáng kể Điều này cho thấy từ năm 2008 đến đầu năm 2010, giá thế giới của một số nguyên liệu cơ bản đã biến động mạnh Ngoài ra, để thuận lợi cho việc nghiên cứu sâu hơn các loại mặt hàng khác, nên xem xét loại bỏ các mặt hàng nguyên liệu cơ bản.
3.4.3 Luật kết hợp theo cho nhóm mặt hàng dân sinh
Chúng ta sẽ xem xét nhóm mặt hàng dân sinh để phân tích mối quan hệ biến động giá trong 2 năm qua Tập dữ liệu cho việc phát hiện luật kết hợp sẽ được xây dựng từ dữ liệu ban đầu, loại bỏ các mặt hàng không thuộc nhóm dân sinh, và chỉ tập trung vào các mặt hàng dân sinh có sự thay đổi giá so với tuần trước.
Kết luận chương
Trong chương cuối của luận văn, việc chuyển đổi dữ liệu thực tế thành định dạng phù hợp cho phần mềm phát hiện luật kết hợp CBA đã được thực hiện thành công Chương này cũng đã phân tích một số kết quả quan trọng, làm rõ mối quan hệ giữa sự biến động giá của các mặt hàng dân sinh trong nước, hàng nhập khẩu, xuất khẩu, và một số mặt hàng tiêu biểu trên thế giới.