1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET luật kết hợp âm dương và ứng dụng trong công tác bình ổn giá

87 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luật kết hợp âm dương và ứng dụng trong công tác bình ổn giá
Tác giả Nguyễn Hữu Hoàng
Người hướng dẫn PGS.TS. Đỗ Văn Thành
Trường học Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ
Chuyên ngành Công nghệ Thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2011
Thành phố Hà Nội
Định dạng
Số trang 87
Dung lượng 1,74 MB

Cấu trúc

  • Chương 1 Giới thiệu luật kết hợp, luật kết hợp mẫu âm (8)
    • 1.1 Lời mở đầu (8)
    • 1.2 Tổng quan về luật kết hợp (8)
      • 1.2.1 Khái niệm luật kết hợp (8)
      • 1.2.2 Giải thuật Apriori để sinh các luật kết hợp (11)
    • 1.3 Luật kết hợp mẫu âm (15)
      • 1.3.1 Khái niệm luật kết hợp mẫu âm (15)
      • 1.3.2 Các giai đoạn phát hiện luật kết hợp mẫu âm (19)
      • 1.3.3 Thuật toán phát hiện luật kết hợp âm (23)
    • 1.4 Kết luận chương (25)
  • Chương 2 Xác định bài toán ứng dụng phát hiện luật kết hợp mẫu âm (26)
    • 2.1 Bài toán ..........................................................Error! Bookmark not defined (26)
    • 2.2 Quá trình thu thập số liệu (28)
      • 2.2.1 Nhóm dân sinh (28)
      • 2.2.2 Nhóm nhập khẩu (35)
      • 2.2.3 Nhóm xuất khẩu (37)
      • 2.2.4 Nhóm các mặt hàng cơ bản trên thế giới (38)
    • 2.3 Phần mềm sử dụng để phát hiện luật kết hợp - phần mềm CBA (39)
      • 2.3.1 Giới thiệu phần mềm CBA (39)
      • 2.3.2 Xử lý file dữ liệu để xác định luật kết hợp trong CBA (41)
      • 2.3.3 Xác định luật kết hợp trong CBA (42)
    • 2.4 Kết luận chương (46)
  • Chương 3 Phát hiện mối quan hệ về sự biến động giá của các mặt hàng dân sinh (47)
    • 3.1 Mở đầu chương (47)
    • 3.2 Chuyển đổi biểu diễn dữ liệu (47)
      • 3.2.1 Bước 1: đánh ký hiệu từng mặt hàng (47)
      • 3.2.2 Bước 2: đánh ký hiệu từng sự biến đổi giá của các mặt hàng (51)
      • 3.2.3 Bước 3: chuyển toàn bộ dữ liệu đã đánh vào file *.tra (51)
    • 3.3 Thực hiện chạy phần mềm CBA để phát hiện luật kết hợp (52)
    • 3.4 Xác định mối quan hệ giá bằng phát hiện luật kết hợp (53)
      • 3.4.1 Luật kết hợp của 120 mặt hàng với đầy đủ các trạng thái : tăng giá, giảm giá, giữ nguyên giá (53)
      • 3.4.2 Luật kết hợp của 120 mặt hàng khi không tính đến trạng thái giữ nguyên giá (54)
      • 3.4.3 Luật kết hợp theo cho nhóm mặt hàng dân sinh (56)
      • 3.4.4 Luật kết hợp cho các mặt hàng dân sinh trong nước và các mặt hàng nhập khẩu (58)
      • 3.4.5 Luật kết hợp cho các mặt hàng nhập khẩu, xuất khẩu và một số mặt hàng trên thế giới (60)
    • 3.5 Kết luận chương (61)
  • Kết luận (62)
  • Tài liệu tham khảo (63)
  • Phụ lục (64)

Nội dung

Giới thiệu luật kết hợp, luật kết hợp mẫu âm

Lời mở đầu

Trong các giao dịch mua bán, chúng ta nhận thấy rằng chủng loại các mặt hàng là rất lớn và số lượng giao dịch có chứa đồng thời một số mặt hàng xác định chiếm một tỉ lệ đáng quan tâm Trên thực tế chúng ta không biết người mua là ai, do đó vấn đề đặt ra là sự trùng lặp đó có ngẫu nhiên hay có một qui luật cũng như một căn cứ nào hay không? Đó là tiền đề cho sự ra đời của luật kết hợp.

Tổng quan về luật kết hợp

1.2.1 Khái niệm luật kết hợp

1.2.1.1 Định nghĩa Để đơn giản hóa, chúng ta có thể hiểu luật kết hợp như sau: luật kết hợp là luật chỉ ra mối quan hệ của hai hay nhiều đối tượng (đối tượng chúng ta đang xét ở đây là các mặt hàng)

Cấu trúc của luật như sau: A=>B (sup, conf) Có nghĩa là luật có A thì kéo theo B với độ hỗ trợ sup và độ tin cậy conf

- sup= support (độ hỗ trợ): là tỉ lệ giao dịch chứa cả hai mặt hàng A và B trên tổng số giao dịch

- conf= confidence (độ tin cậy): là tỉ lệ giao dịch chứa mặt hàng B trong các giao dịch chứa mặt hàng A

Nếu nhìn nhận luật kết hợp theo lý thuyết tập hợp thì chúng ta có thể định nghĩa như

Cho một tập I = { I 1 , I 2 ,…, Im } các tập m mục, một giao dịch T được định nghĩa như một tập con của các khoản mục trong I (T I)

Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh duy nhất

Nói rằng, một giao dịch T D hỗ trợ một tập X I nếu nó chứa tất cả các mục của tập X, điều này có nghĩa là X T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là: sup(X)= (1) Độ hỗ trợ tối thiểu minsup là một giá trị cho trước bởi người sử dụng Nếu tập mục X có sup(X) minsup thì ta nói X là một tập các mục phổ biến Các phần sau sẽ sử dụng những cụm từ khác như “X có độ hỗ trợ tối thiểu”, hay “X không có độ hỗ trợ tối thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏa mãn support(X) minsup

Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục; X, Y I và X Y

= Luật X => Y tồn tại một độ tin cậy c Độ tin cậy c được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Công thức để xác định độ tin cậy c như sau: conf(X =>Y) = p(Y I | X I ) = (2) Qua định nghĩa trên cho thấy quá trình khai phá luật kết hợp phải được thực hiện thông qua hai bước:

Bước 1 : Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến

Bước 2 : Dùng các tập mục phổ biến để sinh ra các luật mong muốn Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:

Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến)

Một ứng dụng quan trọng của luật kết hợp là phân tích thị trường Đó là việc phân tích thói quen mua hàng của khách để tìm sự kết hợp giữa các mặt hàng khác nhau trong một lần mua hàng của họ

Thực tế, trong mỗi lần mua hàng tại siêu thị nếu khách hàng mua bánh mì, thường thì họ sẽ mua sữa Hoặc trong những lần người mua hàng mua máy tính xách tay thì sẽ không mua máy tính để bàn…Thông tin như thế có thể chỉ dẫn người bán lựa chọn mặt hàng để sắp xếp chúng trên giá hàng, người bán có thể đặt sữa và bánh mì trong phạm vi gần kề để gây tác động tích cực tới việc mua của khách cho cả hai mặt hàng này

Việc nhận ra những mặt hàng nào thường được mua cùng nhau, còn những mặt hàng nào thường không được mua cùng nhau giúp người bán hàng có thể bán được nhiều hàng hơn do đó tăng doanh thu

Khai thác luật kết hợp nhằm tìm ra những mối liên kết đáng quan tâm hoặc những quan hệ tương quan trong một tập lớn các đối tượng Trong giao dịch thương mại khám phá mối quan hệ trong số lượng lớn các giao dịch có thể giúp nhiều nhà kinh doanh xử lí giải quyết các vấn đề như: thiết kế catalog để quảng cáo như thế nào?

1.2.2 Giải thuật Apriori để sinh các luật kết hợp Để hình dung rõ hơn các giai đoạn trong quá trình phát hiện luật kết hợp, chúng ta sẽ xem xét giải thuật Apriori phát hiện luật kết hợp từ cơ sở dữ liệu tác vụ

1.2.2.1 Tư tưởng chính của thuật toán Apriori a Tìm tất cả các tập phổ biến (frequent itemsets):

- k-itemset (itemsets gồm k items) được dùng để tìm (k+1)- itemset

- Đầu tiên tìm 1-itemset (ký hiệu L1) L 1 được dùng để tìm L 2 (2-itemsets) L 2 được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi không có k-itemset được tìm thấy b Từ tất cả các tập phổ biến sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa mãn 2 tham số min_sup và min_conf)

1.2.2.2 Giải thuật Apriori a Duyệt (Scan) toàn bộ cơ sở dữ liệu giao dịch để có được độ hỗ trợ (support) S của 1-itemset, so sánh S với độ hỗ trợ tối thiểu min_sup, để có được 1-itemset (L1) b Sử dụng Lk-1 nối (join) L k-1 để sinh ra candidate k-itemset Loại bỏ các itemsets không phải là tập phổ biến thu được k-itemset ( bước cắt tỉa) c Tiếp tục duyệt cơ sở dữ liệu giao dịch để có được độ hỗ trợ S của mỗi candidate k-itemset, so sánh S với min_sup để thu được tập phổ biến k –itemset (L k ) d Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy tập phổ biến) e Với mỗi tập phổ biến I, sinh tất cả các tập con s không rỗng của I f Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin cậy (Confidence) của nó > =min_conf

1.2.2.3 Ví dụ minh họa Giả sử có cơ sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau:

1 Beer, Diaper, Baby Powder, Bread, Umbrella

Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau:

Beer, Baby Powder 0/5 Beer, Milk 2/5

Beer, Milk 2/5 Diaper, Baby Powder 2/5

Empty (Stop) Beer, Diaper, Baby Powder 1/5

Diaper, Milk, Baby Powder 0/5 Bear, Milk, Baby Powder 0/5

Bước 4: min-sup@%, min_confp%

Kết quả ta có các luật kết hợp sau (với min_sup= 40%, min_confp%) R1: Beer => Diaper (support `%, confidence = 75%)

R2: Diaper =>Beer (support `%,confidence = 75%) R3: Milk =>Beer (support @%, confidence = 100%) R4: Baby Powder => Diaper (support @%,confidence = 100%)

Từ kết quả các luật được sinh ra bởi giao dịch bán hàng trên, ta thấy rằng có luật có thể tin được (hợp lý) như Baby Powder => Diaper, có luật cần phải phân tích thêm như Milk

=>Beer và có luật có vẻ khó tin như Diaper =>Beer

Ví dụ này sinh ra các luật có thể không thực tế vì dữ liệu dùng để phân tích (transaction database) hay còn gọi là tranining data rất nhỏ.

Luật kết hợp mẫu âm

1.3.1 Khái niệm luật kết hợp mẫu âm

Trước khi xem xét khái niệm về luật kết hợp mẫu âm, chúng ta xem xét một ví dụ cụ thể dưới đây :

- Bảng dưới là thông tin về các khách hàng mua sắm phương tiện giao thông :

- Với giả thiết : o Giả thiết 1 : độ hỗ trợ tối thiểu (minsup) là 30%, độ tin cậy (minconf) là 70% o Giả thiết 2 : thuộc tính tuổi được phân ra làm 2 nhóm trên 30 và dưới 30 tuổi

- Với thông tin và hai giả thiết trên ta có được các tập phổ biến :

- Qua bảng trên cho thấy : o Luật „ Age30  Not purchar Coupe‟ (những người trên 30 tuổi sẽ không sử dụng phương tiện Coupe) có độ tin cậy là 83.33% cũng rất được quan tâm o Luật „Age>30  Not purchar Coupe‟ sau này được gọi là luật kết hợp mẫu âm

Qua ví dụ trên cho thấy, ý nghĩa thực tế của luật kết hợp mẫu âm cũng quan trọng không kém luật kết hợp dương

Tuy nhiên việc sinh luật kết hợp mẫu âm gặp hai vấn đề khó khăn :

- Thứ nhất : chúng ta không dễ dàng chọn được giá trị ngưỡng minsup và minconf để đảm bảo phù hợp cho cả luật kết hợp âm và luật kết hợp dương

- Thứ hai : trong một cơ sở dữ liệu thực tế có hàng ngàn mục Mà trong các giao dịch nhiều mục lại không xuất hiện hoặc xuất hiện rất ít

1.3.1.2 Định nghĩa luật kết hợp mẫu âm

Chúng ta định nghĩa một cách tổng quát các luật kết hợp mẫu âm, là một luật mà chứa một phủ định của một mục (tức là một luật mà nguồn gốc hay kết quả của nó có thể được thành lập bởi sự kết hợp giữa sự có mặt và vắng mặt của các điều kiện) Một ví dụ cho sự kết hợp này như sau:

Cụ thể hơn, chúng ta có thể xem xét khái niệm luật kết hợp mẫu âm dưới hình thức tập hợp như sau :

Giả sử I = i 1 , i 2 ,…, ij, , i n , một giao dịch T được định nghĩa như một tập con của các khoản mục trong I (T I)

Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh duy nhất Nói rằng, một giao dịch T D hỗ trợ một tập X I và một tập Y I nếu nó chứa tất cả các item của X và Y

Với luật kết hợp dương có dạng R: X  Y, trong đó X, Y là tập các mục, X, Y I và

X Y = X được gọi là tiên đề và Y được gọi là hệ quả của luật

Với luật kết hợp mẫu õm sẽ cú dạng R‟: X ơY

Bây giờ chúng ta xem xét độ hỗ trợ và độ tin cậy trong luật kết hợp mẫu âm

Luật kết hợp X ơY, cú độ hỗ trợ s%, nếu cú s% giao dịch trong T cú mặt X, mà không có mặt của mục Y Độ tin cậy, giả sử U là tập cỏc giao dịch cú mặt của X, luật kết hợp X ơY, cú độ tin cậy c%, nếu c% giao dịch trong trong U không có mặt mục Y

Tương tự như cách tính độ tin cậy trong luật kết hợp dương, độ tin cậy trong luật kết hợp âm có thể được tính như sau:

Trong phần trước, chúng ta đã xem xét giải thuật xác định luật kết hợp dương, bằng cách tính toán các mục xuất hiện trong các giao dịch Tuy nhiên với luật kết hợp âm, rất khó để xác định các mục không xuất hiện trong các giao dịch

Bởi vậy, thay vì xác định các mục không xuất hiện trong các giao dịch, chúng ta tính toán các mục xuất hiện trong các giao dịch, hay chính là chúng ta xác định luật kết hợp âm thông qua luật kết hợp dương

Với mỗi luật XY, chúng ta xác định được độ hỗ trợ Supp(XY) và độ tin cậy Conf(XY) Khi đó chúng ta xác định độ hỗ trợ và độ tin cậy của luật kết hợp mẫu õm (XơY) như sau:

Conf(XơY) = Supp(XơY)/ Supp(X) = (Supp(X) - Supp(XY) )/Supp(X)

1.3.2 Các giai đoạn phát hiện luật kết hợp mẫu âm

Do việc xác định luật kết hợp mẫu âm phải thông qua luật kết hợp dương, nếu chúng ta để độ hỗ trợ và độ tin cậy nhỏ thì sẽ rất khó để xác định các luật kết hợp dương mong muốn, bởi vậy chúng ta phải chấp nhận để độ hỗ trợ và độ tin cậy dương đủ lớn để dễ cho việc xác định luật kết hợp dương và khi đó các luật kết hợp âm tìm thấy sẽ có độ hỗ trợ và độ tin cậy thấp Lúc này chúng ta phải chấp nhận một số kết quả tìm kiếm được sẽ không như mong muốn Việc loại bỏ các luật không như mong muốn này chúng ta chỉ có thể sử dụng những miền tri thức trong kho dữ liệu để dự đoán và loại bỏ chúng để cuối cùng có tập các luật kết hợp mẫu âm khả thi

Chúng ta xem xét sự phân loại sau:

Giả sử T là tập các loại mặt hàng như hình trên, gồm các đỉnh và các cạnh Mỗi đỉnh biểu diễn một lớp (Hardware, Computers, Electronics, ), đỉnh mà không có đỉnh con(hay có độ sâu bằng 0) thì được coi là các mặt hàng Hai đỉnh được kết nối với nhau thông qua một cạnh Các đỉnh, cành này sẽ tạo ra một miền tri thức (domain Knowledge)

Trong sự phân loại trên, có hai mối quan hệ quan trọng đó là quan hệ theo chiều dọc và quan hệ theo chiểu ngang Mối quan hệ theo chiều dọc là mối quan hệ cha – con, mối quan hệ theo chiều ngang là mối quan hệ anh – em

Chúng ta gọi mối quan hệ anh – em là mối quan hệ địa phương (Locality Of Similarity – LOS) Các mục cùng LOS sẽ có xu hướng tham gia vào cùng một luật kết hợp Ví dụ trong một cơ sở dữ liệu bán lẻ, các mục cùng LOS sẽ có nhiều khả năng cùng được tham gia vào các giao dịch của khách hàng Do vậy trong quá trình bán hàng, người bán hàng không đưa ra những tham khảo hợp lý thì người mua hàng rất khó có thể chọn một món hàng mà họ muốn.Thay vào đó chúng ta có thể đưa ra một tham khảo theo LOS, để khách hàng có thể chọn một số món hàng mà họ muốn

Trong hình ví dụ trên, chúng ta để „IBM Aptiva‟ và „Compaq Deskpro‟ cùng cấp và cùng thuộc dòng máy tính để bàn, khi đó khách hàng muốn mua máy tính để bàn có thể xem máy IBM Aptive hay Compaq Deskpro, thay vì khách hàng phải loay hoay với các loại như Notebook, Parks, Electronics…

Kết luận chương

Như vậy qua chương đầu tiên, luận văn đã đưa ra được những vấn đề cơ bản của luật kết hợp, luật kết hợp mẫu âm Ý nghĩa thực tế của việc khai phá luật kết hợp mẫu âm

Và cũng đã phân tích được các bước cơ bản để phát hiện luật kết hợp, luật kết hợp mẫu âm Một số thuật toán phổ biến trong khai phá luật kết hợp, luật kết hợp mẫu âm cũng đã được trình bày trong chương này

Với những vấn đề cơ bản của luật kết hợp, luật kết hợp mẫu âm như vậy, trong chương tiếp theo, luận văn sẽ đi vào xem xét bài toán cụ thể cần phải giải quyết đó là dựa vào luật kết hợp mẫu âm để xác định sự biến động giá cả dựa trên thông tin về giá cả hàng hóa trong 2 năm qua.

Xác định bài toán ứng dụng phát hiện luật kết hợp mẫu âm

Bài toán Error! Bookmark not defined

Những năm gần đây, trong công tác điều hành các hoạt động thương mại cho thấy trong rất nhiều trường hợp nhà nước cho phép nhập khẩu nhóm mặt hàng này, thì đồng thời phải cấm nhập khẩu nhóm mặt hàng khác; hoặc khi xây dựng các dòng thuế cho các nhóm ngành hàng, vẫn thường xẩy ra trường hợp việc cho phép tăng, giảm thuế một số mặt hàng trong nhóm phải được gắn liền với việc không cho phép tăng, giảm thuế của một số mặt hàng khác

Trong y học thì những tình huống như vậy là khá phổ biến, ở đó khi người bệnh có một số triệu chứng biểu hiện của một căn bệnh nào đó thì chắc chắn người đó không thể có một số triệu chứng biểu hiện cho một số căn bệnh khác, … Đặc biệt sự biến động giá cả của các mặt hàng cho thấy trong rất nhiều trường hợp, nhóm mặt hàng này tăng thì sẽ có một số mặt hàng khác tăng, và cũng có thể sẽ kéo theo một số mặt hàng khác giảm Tuy nhiên để xác định được mối quan hệ này thì trước hết phải thu thập được dữ liệu chính xác và đầy đủ về giá cả của các mặt hàng cần quan tâm và đây chính là vấn đề mà chương 2 của luận văn sẽ đề cập tới

Với nền kinh tế lạm phát cao, giá cả mặt hàng biến động liên tục Bài toán đặt ra là trong sự biến động của các mặt hàng phải chăng có sự liên quan giữa các mặt hàng hay không? Và làm cách nào để xác định sự liên quan này? Đây là nội dung cơ bản mà luận văn sẽ phải làm rõ

Theo kinh nghiệm của Viện Nghiên cứu giá cả thị trường Bộ Tài Chính và Trung tâm Thông tin Công nghiệp và Thương mại Bộ Công Thương, các cơ quan này thường theo dõi biến động giá cả của những mặt hàng thuộc các nhóm: hàng hóa nhập khẩu, hàng hóa xuất khẩu, hàng hóa dân sinh, giá của một số mặt hàng trên thế giới và chỉ số giá tiêu dùng(CPI) Mặc dụ trên thị trường có hàng nghìn mặt hàng được lưu thông, tuy nhiên các mặt hàng được lựa chọn này đã chiếm tỉ trọng lớn, trên 90% tổng số lượng mặt hàng lưu thông Do vậy kết quả của việc nghiên cứu biến động giá cả trên các mặt hàng này cũng đảm bảo tương đối chính xác cho tình hình biến động giá cả trên toàn thị trường Giá cả của những mặt hàng này được thu thập theo tất cả các tuần trong 2 năm 2008, 2009 và quý 1 năm 2010 Chi tiết được thể hiện trong phụ lục 1

Giá cả của các sản phẩm xuất, nhập khẩu chủ yếu được thu thập từ Tổng cục Hải quan và tính trung bình theo tuần, trong khi giá cả của các sản phẩm thiết yếu của đời sống dân sinh được thu thập từ 3/1/2008 đến hết ngày 31/03/2010 ở địa bàn Hà Nội vào thứ hai, thứ tư, thứ sáu và giá trung bình của 3 ngày này được lấy làm giá cả của sản phẩm đó trong tuần

Khi phân tích dữ liệu thu thập nếu nhận thấy biên độ giao động của giá cả một số mặt hàng rất nhỏ hoặc thay đổi vài tháng một lần (bao gồm 14 mặt hàng Chính phủ thực hiện bình ổn giá), luận văn sẽ loại bỏ những mặt hàng này ra khỏi phạm vi nghiên cứu

Với các mặt hàng không thể thu thập được dữ liệu đầy đủ cho thời giàn nghiên cứu (3/1/2008 – 31/3/2010) thì sẽ xử lý như sau:

- Với những mặt hàng khụng thu thập được giỏ cả cho ớt nhất ắ của 120 tuần trở lên, tức là trên 90 tuần, sẽ bị loại bỏ

- Với những mặt hàng còn lại, với những tuần không thu thập được dữ liệu thì sẽ sử dụng phương pháp trung bình trượt (bậc 4 hoặc bậc 5) hoặc phương pháp phân tích tương tự để bổ sung dữ liệu khuyết thiếu.

Quá trình thu thập số liệu

Mục tiêu của luận là văn tập trung nghiên cứu làm rõ mối quan hệ về biến động giá cả, tạo điều kiện thuận lợi hơn cho việc nhận diện được một số yếu tố tác động đến biến động giá cả Bởi vậy luận văn sẽ khảo sát giá cả của những mặt hàng thiết yếu của đời sống dân sinh, những sản phẩm xuất, nhập khẩu chủ đạo của nền kinh tế

Số liệu thống kê về giá cả hàng hóa được thu thập thống nhất theo kỳ thời gian theo tuần, cụ thể như sau:

Với những mặt hàng thiết yếu của đời sống dân sinh như gạo tẻ thường, gạo tẻ ngon, gạo nếp,…được thu thập theo từng ngày một trên địa bàn Hà Nội Bắt đầu từ ngày 3/1/2008 và kết thúc là ngày 31/3/2010 Với số liệu của bài toán đặt ra cần phải quan tâm theo tuần (120 tuần), do vậy sau khi có số liệu giá cả các mặt hàng dân sinh theo ngày sẽ được tình giá trung bình của tuần, từ đó có số liệu theo tuần Số liệu cụ thể được thể hiện trong phụ lục 1

2.2.1.1 Nhóm lương thực Đây là nhóm mặt hàng quan trọng bậc nhất trong nền kinh tế của nước ta Bây giờ chúng ta sẽ đi phân tích số liệu cụ thể của các loại mặt hàng thuộc nhóm mặt hàng lương thực này

Qua số liệu cho thấy, với nhóm gạo, ngô,… đại diện cho nhóm lương thực cụ thể là gạo tẻ thường, gạo tẻ ngon trong khoảng 10 tuần đầu tiên của năm 2008 (từ tuần 1 đến tuần 11) gần như không có sự biến động về giá, tuy nhiên khoảng 40 tuần tiếp theo ( từ tuần 12 đến tuần 52) giá của các mặt hàng này liên tục có sự thay đổi theo chiều hướng tăng giá, nhưng vẫn ở mức độ tăng chậm chỉ từ 7.500đ/Kg tăng lên 8.500đ/Kg với gạo tẻ thường, từ 11.500đ/Kg đến 11.500 đ/Kg với gạo tẻ ngon

Bắt đầu từ năm 2009 (tuần 53 với khoảng thời gian thực hiện thu thập số liệu), giá của những mặt hàng lương thực có sự biến động với biên độ tăng cao, cụ thể từ 8.500 đ/Kg tăng lên 11.000đ/Kg với gạo tẻ thường Tuy nhiên mức giá này chỉ cao ổn định trong khoản 24 tuần đầu của năm 2009 (từ tuần 53 đến tuần 76), sau đó bắt đầu giảm và đi vào ổn định ở mức giá 10.000đ/Kg đối với gạo tẻ thường và 12.500đ/Kg với gạo tẻ ngon Đến đầu năm 2010 (tuần 105 đến tuần 120), giá của các mặt hàng lương thực tăng mạnh từ 10.500 đ/Kg lên 13.000 đ/Kg với gạo tẻ thường và 12.500 đ/Kg lên 16.800 đ/Kg với gạo tẻ ngon Và trong cả 15 tuần đầu của năm 2010 này thì mức giá này luôn cao “ổn định” Quá trình tăng giá đều của nhóm mặt hàng gạo cũng gần như đại diện cho các mặt hàng lương thực: gạo, bột mì, ngô, mì ăn liền

2.2.1.2 Nhóm mặt hàng liên quan tới thịt, trứng, cá

Với nhóm nhóm mặt hàng liên quan tới thịt, trứng thì sự biến động giá có đôi chút khác so với các mặt hàng lương thực, trong khi thịt lợn mông sấn trong năm 2008 dao động ở mức giá 63.000 đ/Kg tuy nhiên thịt bò loại 1 dao động từ 90.000 đ/Kg ở trong khoảng 10 tuần đầu lên tới 115.000 đ/Kg trong những tuần cuối năm 2008 Và đặc biệt bước sang năm 2009, thị lợn có sự giảm giá và ổn định ở mức giá 55.000 đ/Kg thì thị bò đã tăng giá một cách phi mã lên tới 130.000 đ/Kg rồi 140.000 đ/Kg vào những tuần cuối quý 1/2010 Sự biến động giá của nhóm mặt hàng thịt, trứng, tôm, cá,… cũng thể hiện không giống nhau như thịt lơn và thịt bò loại 1 mà đã phân tích ở trên

2.2.1.3 Nhóm mặt hàng rau, củ, quả

Tiếp tục, chúng ta đi phân tích nhóm mặt hàng rau, củ, quả mà đại diện ở đây là bắp cải và rau muống Trong khoảng 25 tuần đầu tiên của năm 2008, thì 2 loại rau này có sự biến đổi giảm từ 6.000 đ/Kg xuống còn 4.500 đ/Kg đối với rau bắp cải và từ 4.000 đ/mớ xuống còn 3.500 đ/mớ với rau muống, sau đó ổn định ở mức 5.000 đ/Kg với rau bắp cải và 3.500 đ/mớ với rau muống Tuy nhiên trong 3 tuần từ tuần 44 đến tuần 46 (khoảng tháng 10 đến tháng 11 năm 2008) thì các mặt hàng rau, củ, quả có sự tăng đột biến Cụ thể: rau bắp cải từ 5.000 đ/Kg lên đến 15.000 đ/Kg có tuần lên đến 18.000 đ/Kg, rau muống tăng từ 3.500 đ/mớ lên đến 14.000 đ/mớ và có tuần lên đến 18.000 đ/mớ, điều này cũng dễ hiểu bởi tại thời điểm này Hà Nội gặp trận mưa lụt lịch sử nên đã đẩy giá cả của các mặt hàng rau củ quả lên cao trong mấy tuần này, các mặt hàng thực phẩm như bột ngọt, muối, đường vẫn được giữ ổn định Tuy nhiên ngay sau đó các mặt hàng rau, củ quả đã được điều chỉnh giảm ở mức ổn định rau bắp cải 7.000 đ/Kg, rau muống 6.000 đ/Kg

Sang đến năm 2009, trong khoảng hơn 20 tuần đầu tiên của năm 2009 các mặt hàng rau, củ, quả có sự điều chỉnh giá theo chiều hướng giảm Cụ thể rau bắp cải từ 7.000 đ/Kg xuống còn khoảng 4.000 đ/Kg, xoài từ khoảng 30.000 đ/Kg xuống còn 23.500 đ/Kg Đến cuối năm 2009, trong khi các loại rau tăng giá thì các loại củ, quả giá ổn định, cụ thể: rau bắp cải tăng từ 4.000 đ/Kg lại tăng giá lên đến 7.000 đ/Kg, còn xoài thì vẫn giữ giá ở mức 23.000 đ/Kg

Sang đến quý 1/2010 tình hình giá của các mặt hàng rau, củ, quả bắt đầu có hiện tượng giảm giá và đi vào ổn định

2.2.1.4 Nhóm mặt hàng đường, sữa, cafe

Tiếp đến chúng ta đi phân tích giá các mặt hàng liên quan tới đường, sữa, café

Tại thời điểm năm 2008, trong khi café luôn ổn định ở mức giá 76.000 đ/Kg thì sữa loại 900g lại có giá tăng dần đều từ 118.000 đ/Kg trong những tuần đầu năm 2008 tăng lên 121.000 đ/Kg rồi tăng lên 127.000 đ/Kg vào những tuần cuối năm 2008 Khác với café và sữa thì đường trắng nội lại có sự thay đổi giá không ổn đinh, có những tuần tăng giá và có những tuần giảm giá, tựu chung lại quá trình thay đổi giá diễn ra chậm chỉ từ mức 10.500 đ/Kg tại thời điểm đầu năm lên mức 11.000 đ/Kg vào thời điểm cuối năm 2008

Sang đến năm 2009, giống như sự thay đổi giả của đường trắng nội năm 2008, trong năm 2009 sự thay đổi giá của café cũng có sự không ổn định, đầu năm tăng lên 85.000 đ/Kg sau đó lại giảm giá xuống 80.000 đ/Kg và vào giai đoạn cuối năm lại có sự thay đổi giá theo chiều hướng tăng dần và kết thúc ở mức 104.800 đ/Kg vào thời điểm tuần

104 Cũng như năm 2008, năm 2009 sữa loại 900g cũng lại tiếp tục có sự tăng giá đều đặn từ 127.000 đ/Kg lên đến 142.000 đ/Kg Tương tự vậy đường trắng nội cũng có sự tăng đều từ 11.000 đ/Kg đến 19.600 đ/Kg vào cuối năm

Sang đến những tuần đầu năm 2010, các loại mặt hàng này đều có sự tăng giá đều đặn

2.2.1.5 Nhóm mặt hàng rượu, bia, thuốc lá

Mặc dù đây được coi là nhóm mặt hàng xa sỉ, nhưng trên thị trường các thành phố lớn đặc biệt là Hà Nội thì số lượng của những mặt hàng này lại được tiêu thụ với số lượng rất lớn

Và nhìn vào số liệu thu thập được qua phụ lục 1, chúng ta có thể thấy giá của các mặt hàng này thường rất ổn định trong từng năm đặc biệt là rượu vodka và thuốc lá

Thường tăng giá vào đầu mỗi năm và ít thấy có sự giảm giá, chỉ riêng bia tigger trong năm 2009 một số tuần có sự giảm giá

2.2.1.6 Nhóm mặt hàng vải bông, vải tổng hợp Đây cũng là nhóm mặt hàng có thế mạnh xuất khẩu của cả nước, các mặt hàng vải bông, vải tổng hợp có sự ổn định giá trong năm 2008 Cụ thể trong cả năm 2008 giá vải bông luôn là 48.000 đ/m, vải tổng hợp luôn là 30.000 đ/m Tuy nhiên sang đến năm 2009 vải bông vẫn giữ được sự ổn định giá, mặc dù cũng có vài tuần thay đổi giảm nhưng hầu hết các tuần trong năm 2009 giá cũng vẫn ở mức 48.000 đ/m, trong khi vải tổng hợp giảm giá từ 30.000 đ/m cuối năm 2008 xuống còn 20.000 đ/m vào thời điểm cuối năm 2009

Sang đến quý 1 năm 2010 thì tình hình lại ngược lại, trong khi vải tổng hợp tăng giá lên 22.000 đ/m thì vải bông lại giảm giá xuống còn 45.000 đ/m

2.2.1.7 Nhóm mặt hàng liên quan tới vật liệu xây dựng Đó là các mặt hàng như xi măng, gạch, sắt, thép,…Trong thời kỳ từ năm 2008 đến hết quý 1 năm 2010, các loại mặt hàng này có sự thay đổi giá không ổn định và không giống nhau

Phần mềm sử dụng để phát hiện luật kết hợp - phần mềm CBA

2.3.1 Giới thiệu phần mềm CBA

Hiện có khá nhiều nhóm nghiên cứu về luật kết hợp theo các cách tiếp cận xây dựng thuật toán tìm tập phổ biến khác nhau và do đó cũng có nhiều phần mềm tìm luật kết hợp từ các CSDL tác vụ khác nhau Hầu hết các phần mềm đó chưa được trở thành sản phẩm thương mại Luận văn này sử dụng phần mềm CBA (Classification Based on Associations) do trường Đại học Quốc gia Xinhgapor phát triển Phần mềm CBA đã sử dụng thuật toán tìm tập phổ biến Apriori do R Agrawal và cộng sự thực hiện, đó là những người đầu tiên mở hướng nghiên cứu và ứng dụng về luật kết hợp Thuật toán Apriori được đánh giá ở mức trung bình về độ phức tạp tính toán CBA có thể hỗ trợ để phát hiện luật kết hợp từ các CSDL quan hệ và CSDL tác vụ; hỗ trợ phát hiện luật kết hợp với nhiều độ hỗ trợ cực tiểu khác nhau

Một luật kết hợp tìm được qua phần mềm CBA có dạng:

A = Y → B = Y (Cover%, Conf%, CoverCount, SupCount, Sup%) Ở đây A, B là tập các mặt hàng, A = Y có nghĩa là tất cả các mặt hàng trong A xẩy ra;

Cover%, Conf%, CoverCount, SupCount, Sup% là 5 thông số của luật, trong đó: ÷ Cover%: cho biết số phần trăm các tuần so với tổng số các tuần thu thập thông tin dữ liệu về biến động giá của các mặt hàng trong A ÷ Conf% gọi là độ tin cậy của luật được tính bằng công thức SupCount/CoverCount với SupCount và CoverCount là các thông số được định nghĩa ở dưới ÷ CoverCount: cho biết số tuần có sự biến động giá (tăng hoặc giảm giá) của các mặt hàng trong A ÷ SupCount: cho biết số tuần thu thập thông tin dữ liệu về biến động giá của các mặt hàng có sự biến động giá của các mặt hàng trong cả 2 tập A, B ÷ Sup%, gọi là độ hỗ trợ của luật, đó là số phần trăm các tuần thu thập thông tin dữ liệu biến động giá của các mặt hàng so với tổng số ở đó các mặt hàng trong cả 2 tập A và B đều biến động giá

Về bản chất luật này không khác biệt so với luật kết hợp tổng quát được phát hiện từ CSDL tác vụ bởi trong 5 thông số trên, 2 thông số Sup%, Conf% tương ứng là độ hỗ trợ và độ tin cậy của luật kết hợp đã được giới thiệu trong chương 1; 3 thông số còn lại thực ra chỉ nhằm để làm rõ hơn về 2 thông số vừa nêu

Các luật kết hợp tìm được bởi phần mềm CBA có thể được trình bày dưới nhiều hình thức như liệt kê tuần tự, thể hiện dưới dạng cây, có thể được lưu ở dạng tệp văn bản,… do đó dễ dàng đọc và sử dụng các luật được phát hiện

2.3.2 Xử lý file dữ liệu để xác định luật kết hợp trong CBA

File dữ liệu dùng trong CBA có thể là một trong các loại file: file *.data, *.name đối với dữ liệu trình bày dưới dạng bảng (table), file *.tra đối với dữ liệu trình bày dưới dạng giao dịch (transaction) Coi sự biến động giá cả các mặt hàng qua các tuần như là các giao dịch nên trong phạm vi luận văn này sẽ chọn cách lưu dữ liệu dưới dạng fle

*.tra Để đơn giản trong việc tạo file tra, chúng ta lưu dữ liệu dưới dạng file *.txt Sau đó mở file *.txt, chọn Save as lưu dưới dạng *.tra Trong file dữ liệu cần có cấu trúc như sau:

- Mỗi một tuần thể hiện sự biến động giá cả của tất cả mặt hàng và lưu dữ liệu trên một dòng

- Với dữ liệu của 120 tuần (từ năm 2008 tới quý 1/2010) thì sẽ được thể hiện trên

2.3.3 Xác định luật kết hợp trong CBA

Trước hết chúng ta xem xét giao diện chung của phần mềm CBA:

Phần mềm CBA hỗ trợ hai loại khai phá dữ liệu đó là: phân lớp dữ liệu và khai phá luật kết hợp Tương ứng với hai loại khai phá dữ liệu này thì sẽ có một số loại định dạng dữ liệu đầu vào: bảng dữ liệu quan hệ và dữ liệu ở dưới dạng giao dịch Đối với dữ liệu cho việc phân lớp dữ liệu có 2 định dạng:

- Theo bảng: dữ liệu lưu tại hai file, file *.names, file *.data

- Theo giao dịch: dữ liệu lưu ở một file , file *.trc (transaction classification) Đối với dữ liệu cho việc khai phá luật kết hợp cũng có 2 định dạng:

- Theo bảng: dữ liệu lưu tại hai file, file *.names, file *.data

- Theo giao dịch: dữ liệu lưu ở một file , file *.tra (transaction association)

Với mục tiêu phát hiện luật kết hợp trong luận văn, nên chúng ta sẽ dùng dữ liệu ở dạng giao dịch (file *.tra)

Sau khi xác định được file dữ liệu đầu vào, chúng ta chọn nút “Mine: Single Sup”, trước khi thực hiện phát hiện, hệ thống cho chúng ta thiết lập các tham số: minSup, minConf, …

Giải thích một số tham số chính của phần mềm CBA khi sử dụng thuật toán Apriori sinh luật kết hợp:

MinSupport: Cận dưới của độ hỗ trợ

Min Confidence: Cận dưới của độ tin cậy

Rule limit: Số các luật tối đa cần tìm được, do quá trình phát hiện luật kết hợp tăng theo cấp số nhân, trong khi bộ nhớ máy tính hạn chế nên cần phải chọn số luật tối đa cần tìm phù hợp với phần cứng máy tính hiện có

Sau khi chạy phần mềm phân tích để sinh ra luật, thì có thể bấm nút View Assoc Rules để phần mềm hiển thị danh sách các luật tìm được Lưu ý, để đảm bảo tìm được số lượng luật đủ lớn đáp ứng yêu cầu phân tích, trong nhiều trường hợp chúng ta phải chọn độ hỗ trợ và độ tin cậy đủ nhỏ

Kết luận chương

Như vậy trong chương này luận văn đã phân tích chi tiết bài toán cần phải thực hiện đó là xác định mối quan hệ về sự biến đổi giá của các mặt hàng trong đời sống dân sinh Đồng thời cũng đã thực hiện thu thập được dữ liệu đầy đủ, chính xác đó là giá của các mặt hàng trong thời gian từ 3/1/2008 đến 31/3/2010, giá của các mặt hàng được thể hiện theo tuần để phục vụ bài toán đặt ra

Chương 2 này cũng đã giới thiệu cơ bản về phần mềm phát hiện luật kết hợp – phần mềm CBA, làm công cụ cho quá trình phát hiện môi quan hệ về sự biến đổi giá cả của các mặt hàng trong chương tiếp theo.

Phát hiện mối quan hệ về sự biến động giá của các mặt hàng dân sinh

Mở đầu chương

Trong chương trước luận văn đã thu thập và phân tích sự biến động giá của các mặt hàng dân sinh theo tuần từ 3/1/2008 đến 31/3/2010, trong chương này luận văn sẽ sử dụng phần mềm CBA để phát hiện mối quan hệ về sự biến động giá của các mặt hàng

Sau khi có các mối quan hệ được thể hiện bằng các luật kết hợp, luận văn sẽ phân tích các kết quả thu được.

Chuyển đổi biểu diễn dữ liệu

Các luật kết hợp được phát hiện trong luận văn này thực chất sẽ là các luật kết hợp nhị phân biểu diễn mối quan hệ về việc tăng, giảm giá so với tuần ngay trước đó của nhóm mặt hàng này với nhóm mặt hàng khác Để làm được điều đó chúng ta cần phải có tập dữ liệu nhị phân Tập dữ liệu nhị phân được tạo ra từ tập dữ liệu gốc (sự biến động giá các mặt hàng đã trình trong chương 2) theo các bước sau :

3.2.1 Bước 1: đánh ký hiệu từng mặt hàng

Mục đích đánh ký hiệu cho từng mặt hàng để làm cho các nghiên cứu, phân tích mối quan hệ về biến động giá cả các mặt hàng được đơn giản và gọn hơn Danh sách các mặt hàng được lấy trong phụ lục 1

Quá trình đánh ký hiệu như sau : các loại mặt hàng được đánh ký hiệu bằng 3 ký tự, việc đánh ký hiệu mặt hàng sẽ chia làm các nhóm Nhóm dân sinh bắt đầu bằng chữ D, nhóm Xuất khấu bắt đầu bằng chữ cái X, nhóm Nhập khẩu bắt đầu bằng chữ cái N, nhóm mặt hàng thế giới bắt đầu bằng chữ W và cuối cùng là chỉ số giá tiêu dùng ký hiệu là CPI Cụ thể được thể hiện như bảng dưới :

1 Hàng hoá dân sinh 1 Gạo tẻ thường (đ/kg) DA1

2 Gạo tẻ ngon (đ/kg) DA2

6 Mì ăn liền (đ/gói) DA6

7 Thịt lợn mông sấn (đ/kg) DA7

8 Thịt bò loại 1 (đ/kg) DA8

9 Gà mái ta còn sống (đ/kg) DA9

10 Thịt gà công nghiệp (đ/kg) DB1

16 Cá quả loại 2 con/kg (đ/kg) DB7

17 Tôm biển loại 20-30 con/kg (đ/kg) DB8

18 Cá thu hấp dầu loại 85g/hộp (đ/hộp) DB9

20 Lạc nhân loại 1 (đ/kg) DC2

21 Cải bắp loại 1 (đ/kg) DC3

25 Bột ngọt Ajinomoto 453g (đ/gói) DC7

27 Đường trắng nội (đ/kg) DC9

28 Rs đường cát vàng (đ/kg) DD1

42 Xi măng đen 50 kg (đ/kg) DE6

43 Thép tròn phi 6 (đ/kg) DE7

52 Đèn Điện Quang 1,2m; 36W (đ/bóng) DF7

53 Bếp ga Rinnai đôi âm (đ/cái) DF8

62 Omo loại 1kg (đ/kg) DG8

63 Kem đánh răng P/S 110g (đ/tuýp) DG9

64 Pin Con thỏ 1,5V (đ/đôi) DH1

68 Xe dream VN (đ/chiếc) DH5

69 Xăng RON 92 không chì (đ/lít) DH6

77 Phí DV Internet (đ/giờ) DK5

78 Vàng miếng SJC 99.99% (đ/chỉ) DK6

79 USD loại 50-100 đôla (đ/USD) DK7

2 Hàng hoá nhập khẩu 1 Phôi thép TQ (USD/tấn) NA1

2 Sắt TQ ỉ 6 (USD/tấn) NA2

3 Xăng RON 92 (USD/tấn) NA3

4 Dầu DO 0,05%S (USD/tấn) NA4

5 Dầu FO (USD/tấn) NA5

6 Urê bao TQ (USD/tấn) NA6

7 DAP bao TQ (USD/tấn) NA7

8 Nhựa PVC TQ (USD/tấn) NA8

9 Nhựa DOP Malaysia (USD/tấn) NA9

10 Bông Mỹ loại 1 (USD/tấn) NB1

11 Clinke loại 1 (USD/tấn) NB2

12 Sữa bột loại 1(USD/tấn) NB3

13 Bột Amoxycilline (USD/kg) NB4

14 Bột Ampicilin (USD/kg) NB5

15 Bột Vitamin B1 (USD/kg) NB6

16 Linh kiện xe máy Dream II (USD/bộ) NB7

3 Hàng hoá xuất khẩu 1 Dầu thô (USD/tấn) XA1

2 Than cục 3A (USD/tấn) XA2

3 Giày da nam (USD/đôi) XA3

4 Áo Jắc két nam (USD/chiếc) XA4

5 Gạo tẻ 5% (USD/tấn) XA5

6 Gạo tẻ 25% (USD/tấn) XA6

7 Cà phê Robusta (USD/tấn) XA7

8 Cao su SVR loại 1 (USD/tấn) XA8

9 Hạt điều nhân W320 (USD/tấn) XA9

10 Hạt tiêu đen loại 1 (USD/tấn) XB1

11 Chè POB loại 1 (USD/tấn) XB2

12 Cá thu loại 1 con/kg (USD/kg) XB3

13 Tôm thẻ loại 20-30con/kg (USD/kg) XB4

4 Giá thế giới 1 Dầu thô Brent IPE tại London (USD/thùng) WA1

2 Dầu thô nhẹ tại New York (USD/thùng) WA2

3 Gasoline, 92 RON tại Singapore (USD/thùng) WA3

4 Đồng tại New York (UScents/Lb) WA4

5 Gạo Thái Lan 5% tấm (USD/tấn) WA5

6 Lúa mỳ tại Chicago (UScents/bushel) WA6

7 Ngô tại Chicago (UScents/bushel) WA7

8 Đường thô tại Thái Lan (UScents/Lb) WA8

9 Cà phê Robusta tại London (USD/tấn) WA9

10 Cao su RSS2 tại Singapore (SGcents/kg) WB1

11 Bông New York (UScents/Lb) WB2

4 CPI CPI (tháng trước = 100) CPI

3.2.2 Bước 2: đánh ký hiệu từng sự biến đổi giá của các mặt hàng

Quá trình đánh ký hiệu cho từng sự biến đổi giá của mỗi mặt hàng ở mỗi tuần theo nguyên tắc sau: Nếu giá một hàng hoá của tuần này cao hơn tuần trước đó (giá tăng) thì thêm chữ số ”1” vào bên phải của mã giá hàng hoá, thêm chữ số ”2 ” nếu giá tuần này thấp hơn (giá giảm) và thêm chữ số ”0 ” nếu giá tuần này bằng giá tuần trước (giá không thay đổi)

Chẳng hạn, như trong bảng ký hiệu với gạo tẻ thường được đánh ký hiệu là DA1

Trong tuần thứ 2 giá gạo tẻ thường không thay đổi so với tuần 1, do vậy ký hiệu của sự biến đổi giá gạo tẻ thường ở tuần thứ 2 sẽ là DA10

Tương tự vậy, đến tuần thứ 26 giá gạo tẻ thường là 9.500 đ/Kg thấp hơn giá gạo tẻ thường tuần thứ 25 là 11.500 đ/Kg, do vậy ký hiệu của sự biến đổi giá gạo tẻ thường ở tuần thứ 26 sẽ là DA12 Đến tuần thứ 27, giá gạo tẻ thường là 10.000 đ/Kg cao hơn giá gạo tẻ thường tuần thứ

26 là 9.500 đ/Kg, do vậy ký hiệu của sự biến đổi giá gạo tẻ thường ở tuần thứ 27 sẽ là DA11

3.2.3 Bước 3: chuyển toàn bộ dữ liệu đã đánh vào file *.tra

Sau khi thực hiện đánh toàn bộ ký hiệu mặt hàng và ký hiệu sự biến đổi giá của các mặt hàng trong 120 tuần, thì sẽ thực hiện chuyển dữ liệu (ký hiệu) vào trong file *.tra bằng cách:

- Mỗi một tuần thể hiện sự biến động giá cả của tất cả mặt hàng và lưu dữ liệu trên một dòng và cách nhau bởi dấu “,”

- Với dữ liệu của 120 tuần (từ năm 2008 tới quý 1/2010) thì sẽ được thể hiện trên

120 dòng Sau 3 bước này thì chúng ta sẽ có tập dữ liệu phục vụ phát hiện luật kết hợp được lưu vào file *.tra có nội dung như sau:

Thực hiện chạy phần mềm CBA để phát hiện luật kết hợp

Sau khi có file dữ liệu về sự biến động giá của các mặt hàng dân sinh, chúng ta dùng phần mềm CBA để load file, sau đó chúng ta chọn các tham số MinSupport, Min

Confidence, Rule limit hợp lý và thực hiện chạy chương trình Kết thúc quá trình phân tích, hệ thống sẽ trả ra cho chúng ta danh sách các luật kết hợp đã phát hiện được

Tiếp theo đây chúng ta sẽ đi phân tích các luật kết hợp được theo các tiêu chí.

Xác định mối quan hệ giá bằng phát hiện luật kết hợp

Với dữ liệu gốc ban đầu đã có, phần mềm CBA giúp phát hiện các luật kết hợp

Với những tiêu chí khác nhau sẽ có các luật kết hợp khác nhau, phần tiếp theo của luận văn sẽ đi vào phân tích cụ thể một số luật kết hợp này

3.4.1 Luật kết hợp của 120 mặt hàng với đầy đủ các trạng thái : tăng giá, giảm giá, giữ nguyên giá

Chạy phần mềm CBA trên tập dữ liệu phục vụ phát hiện luật kết hợp với việc lựa chọn độ hỗ trợ cực tiểu minSup = 0,90 (hay 90%) và độ tin cậy cực tiểu minConf 0,8 (80%), đã nhận được 82 luật kết hợp (chi tiết xem Phụ lục 2, mục 1), trong đó 5 luật có độ hỗ trợ cao nhất được trình bầy ở dưới :

Rule 1: DF10 = Y -> DE90 = Y (Điện ->Nước)

Luật này chỉ ra rằng 82.203% các tuần trong 2 năm (từ 2008 đến quý 1/2010), giá điện (DF1) giữa nguyên giá thì Nước (DE9) cũng giữ nguyên giá với độ tin cậy là 100%, độ hỗ trợ 82.203%

Rule 30: DE90 = Y -> DD60 = Y (Nước ->Lavie )

(82.203% 97.94% 97 95 80.508%) Với luật này thì khi nước không tăng giá kéo theo nước đóng trai Lavie cũng không tăng giá theo với độ tin cậy 97.94%, đây cũng là điều dễ hiểu bởi nước là nguyên liệu chính của nước đóng chai

Rule 80: DF50 = Y->DF90 = Y (Máy giặt-> Nồi cơm)

(84.746% 95.00% 100 95 80.508%) Thực tế, trong nhóm mặt hàng điện dân dụng thì rõ ràng việc tăng giá, giảm giá hay giữ ổn định giá đều được thể hiện đồng loạt trên các mặt hàng, và luật 80 ở trên thể hiện điều này Khi máy giặt không tăng giá thì nồi cơm điện cũng ko tăng giá

Phân tích các luật cho thấy nhiều luật phản ánh đúng tình hình thực tế, tuy nhiên cũng có một số luật khó có thể giải thích được quan hệ kinh tế giữa các mặt hàng, chẳng hạn:

Rule 12: DA50 = Y->DK40 = Y (Ngô-> Đĩa CD)

Các luật kết hợp đều biểu diễn mối quan hệ giữ nguyên giá của các mặt hàng, điều đó nói lên rằng hiện tượng giữ nguyên giá trong một vài tuần của mỗi mặt hàng là khá phổ biến (do độ hỗ trợ và độ tin cậy của luật là rất cao) Nếu hạ thấp độ hỗ trợ chúng ta sẽ nhận được nhiều luật ở đó trong phần tiền đề cũng như hệ quả của luật đều có đầy đủ các hiện tượng như: có mặt hàng tăng giá, có mặt hàng giảm giá, có mặt hàng giữ nguyên giá Tuy nhiên khi đó số lượng các luật là khá lớn Chẳng hạn với độ hỗ trợ là 50%, độ tin cậy là 80% chúng tôi đã thu được hàng nghìn luật

Nhận xét cuối đã gợi ý rằng nên loại bỏ hiện tượng giữ nguyên giá khi nghiên cứu mối quan hệ về biến động giá giữa 120 mặt hàng

3.4.2 Luật kết hợp của 120 mặt hàng khi không tính đến trạng thái giữ nguyên giá Để phát hiện những luật đó, tập dữ liệu đầu vào cần phải hiệu chỉnh bằng cách loại bỏ đi tất cả các thông tin giữ nguyên giá của mỗi mặt hàng so với tuần trước đó Như vậy ở mỗi tuần, chỉ có những mặt hàng tăng hoặc giảm giá thực sự so với tuần trước mới được đưa vào tập dữ liệu đầu vào

Với MINSUP = 30% và MICONF = 81% đã tìm được 24 luật kết hợp cho 120 mặt hàng không gồm các thông tin mà giá không thay đổi so với tuần trước đó (chi tiết các luật được nêu ở Phụ lục 2- Mục 2)

Phân tích các luật này cho thấy hầu hết các luật đều phản ánh tương đối trực quan quan hệ kinh tế

Chẳng hạn các luật sau là ví dụ cho các nhận xét này:

Luật này chỉ ra rằng 53.782% các tuần trong 2 năm (từ 2008 đến quý 1/2010), giá vàng miếng SJC (DK6) tăng giá thì đồng đô la mỹ (DK7) cũng tăng giá với độ tin cậy là 80.81%

Cho thấy rằng chỉ số CPI trong 2 năm luôn có quan hệ mật thiết với giá vàng, cụ thể trong luật trên thì thấy có tới 51.261% các tuần trong 2 năm CPI tăng thì giá vàng cũng tăng với độ tin cậy 89.02%

Các mặt hàng nhập khẩu cũng được phản ánh thông qua luật 36 này : Rule 36:

NA41 = Y -> NA31 = Y (44.538% 79.81% 53 42 31.092%) Trong luật 36 chỉ rõ, nếu Dầu DO nhập khẩu tăng giá thì Xăng RON 92 nhập khẩu cũng tăng giá với độ tin cậy là trên 79%

- Biến động giá thế giới của các nguyên liệu cơ bản (dầu, gas, đồng) có liên quan nhiều đến biến động giá của một số mặt hàng có tính trao đổi quốc tế cao như: vàng, giá USD, … các luật dưới thể hiện rõ điều này :

Các luật 3, 11 chỉ rõ rằng trên 50% các tuần trong 2 năm 2008, 2009 và quý 1/2010 mà giá Dầu thô Brent IPE tại London hay giá Đồng tại New York mà tăng giá thì giá vàng trong nước cũng tăng giá với độ tin cậy trên 80%

- Các luật có độ hỗ trợ và độ tin cậy cao thường lại là các luật liên quan đến các mặt hàng nguyên liệu cơ bản Nếu hạ thấp hai giá trị về độ hỗ trợ thì số luật rất lớn Điều đó nói lên rằng trong khoảng thời gian từ năm 2008 đến đầu năm 2010 giá thế giới của một số nguyên liệu cơ bản như nêu trên là biến động rất mạnh, đồng thời nó cũng gợi ý là nếu muốn thuận lợi cho việc nghiên cứu sâu hơn các loại mặt hàng khác thì nên loại bỏ các mặt hàng nguyên liệu cơ bản

3.4.3 Luật kết hợp theo cho nhóm mặt hàng dân sinh

Tiếp theo chúng ta sẽ đi xem xét riêng nhóm mặt hàng dân sinh để tìm hiểu mối quan hệ biến động về giá của các mặt hàng dân sinh trong 2 năm qua Tập dữ liệu phục vụ phát hiện luật kết hợp cho nhóm mặt hàng dân sinh sẽ được xây dựng từ tập dữ liệu ban đầu sau đó loại bỏ đi các mặt hàng không phải là nhóm dân sinh, và cũng chỉ xem xét các mặt dân sinh tăng giá hoặc giảm giá so với tuần trước đó

Kết luận chương

Trong chương cuối này luận văn đã thực hiện được việc chuyển đổi biểu diễn dữ liệu từ thực tế thu thập được thành dữ liệu có định dạng để phần mềm phát hiện luật kết hợp CBA có thể sử dụng được Cũng trong chương này, luận văn đã phân tích được một số kết quả chính nhằm làm rõ mối quan hệ về sự biến động giá của một số mặt hàng dân sinh trong nước, mặt hàng nhập khẩu, xuất khẩu và một số mặt hàng điển hỉnh trên thế giới.

Ngày đăng: 05/12/2022, 15:43

HÌNH ẢNH LIÊN QUAN

- Qua bảng trên cho thấy: - Luận văn thạc sĩ VNU UET luật kết hợp âm dương và ứng dụng trong công tác bình ổn giá
ua bảng trên cho thấy: (Trang 17)
Giả sử T là tập các loại mặt hàng như hình trên, gồm các đỉnh và các cạnh. Mỗi đỉnh biểu  diễn  một  lớp  (Hardware,  Computers,  Electronics,..),  đỉnh  mà  khơng  có  đỉnh  con(hay  có  độ  sâu  bằng  0)  thì  được  coi  là  các  mặt  hàng - Luận văn thạc sĩ VNU UET luật kết hợp âm dương và ứng dụng trong công tác bình ổn giá
i ả sử T là tập các loại mặt hàng như hình trên, gồm các đỉnh và các cạnh. Mỗi đỉnh biểu diễn một lớp (Hardware, Computers, Electronics,..), đỉnh mà khơng có đỉnh con(hay có độ sâu bằng 0) thì được coi là các mặt hàng (Trang 20)
- Theo bảng: dữ liệu lưu tại hai file, file *.names, file *.data - Luận văn thạc sĩ VNU UET luật kết hợp âm dương và ứng dụng trong công tác bình ổn giá
heo bảng: dữ liệu lưu tại hai file, file *.names, file *.data (Trang 43)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w