D trên cơ sở dựa vào việc cải tiến và phát triển thuật toán CHARM.
4.1.3.1.Chỉ định mô hình
4.3.1. Dữ liệu phục vụ xây dựng mô hình dự báo chỉ số CP
Giá của các mặt hàng được thu thập hàng tuần trong năm 2008 và 2009. Giá cả các sản phẩm xuất, nhập khẩu chủ yếu được thu thập từ Tổng cục Hải quan và tính trung bình theo tuần, trong khi giá cả của các sản phẩm thiết yếu của đời sống dân sinh được thu thập từ 3/1/2008 đến hết ngày 31/12/2009 ở địa bàn Hà Nội vào thứ hai, thứ tư, thứ sáu và giá trung bình của 3 ngày này được lấy làm giá cả của sản phẩm đó trong tuần.
Khi phân tích dữ liệu thu thập chúng tôi nhận thấy biên độ giao động của giá cả một số mặt hàng rất nhỏ hoặc thay đổi vài tháng một lần (bao gồm 14 mặt hàng Chính phủ thực hiện bình ổn giá). Chúng tôi đã loại bỏ những mặt hàng này ra khỏi phạm vi nghiên cứu. Cuối cùng dữ liệu thu thập được đưa vào nghiên cứu giá của các mặt hàng còn lại trong 103 tuần.
CPI là chỉ sốđược sử dụng để đánh giá mức độ lạm phát ở nước ta. Song chỉ
số này chỉ được thu thập theo tháng, trong khi các mặt hàng khác lại thu thập theo tuần. Giải pháp khắc phục được đề xuất là sử dụng chỉ số giá tiêu dùng của tháng để
xác định chỉ số giá tiêu dùng cho 4 tuần trong tháng theo cách CPI trung bình cả 4 tuần là CPI của tháng và theo các trường hợp sau:
- Khi CPI của tháng này tăng hơn so với tháng trước và thấp hơn so với tháng sau đó thì CPI của 4 tuần được chọn theo thứ tự tăng dần tuy nó khác nhau rất nhỏ
114
- Nếu CPI của tháng đó giảm so với tháng trước và tháng sau lại giảm hơn so với tháng đó thì CPI của 4 tuần trong tháng được chọn theo hướng giảm dần.
- Nếu CPI của tháng đó giảm (cao) so với tháng trước và giảm (cao) hơn so với tháng sau thì CPI của 4 tuần trong tháng được chọn sao cho 2 tuần đầu giảm (tăng) dần và 2 tuần sau tăng (giảm) dần.
Với mỗi mặt hàng chúng tôi đều gắn mã để tiện cho việc nghiên cứu. Kết quả
thu được tập dữ liệu về giá của 121 mặt hàng (CPI cũng được xem như là một mặt hàng). Trong đó có 13 mặt hàng xuất khẩu (có mã từ XA1 đến XA9, và XB1 đến XB4); 16 mặt hàng nhập khẩu (có mã từ NA1 đến NA9 và NB1 đến NB7); 80 mặt hàng thiết yếu của đời sống dân sinh (có mã từ DA1 đến DA9, từ DB1 đến BD9,..., từ DK1 đến DK9); và chỉ số CPI.
Các luật kết hợp được phát hiện trong nghiên cứu này cũng là luật kết hợp nhị
phân biểu diễn mối quan hệ về việc tăng, giảm giá so với tuần ngay trước đó của nhóm mặt hàng này với nhóm mặt hàng khác. Để làm được điều đó cần có CSDL tác vụ. CSDL tác vụ được tạo ra từ tập dữ liệu gốc bằng cách: Nếu giá một hàng hoá của tuần này cao hơn tuần trước đó (giá tăng) thì thêm chữ số ”1” vào bên phải của mã giá hàng hoá và thêm chữ số ”2 ” nếu giá tuần này thấp hơn (giá giảm).
Theo quy tắc này, thì tập dữ liệu về giá của các mặt hàng có thể được biểu diễn nhưở hình 4.4 và được gọi là CSDL tác vụ với mục dữ liệu âm về biến động giá.
Hình 4.4: CSDL về giá của các mặt hàng