1. Cơ sở dữ liệu trạng thái
1.1. Cơ sở dữ liệu thời gian
Cơ sở dữ liệu là hệ thống tích hợp các quan hệ dữ liệu đƣợc tổ chức và lƣu trữ trên máy tính. Thực tế dữ liệu đƣợc lƣu trữ trong cơ sở dữ liệu thể hiện trạng thái của cở sở dữ liệu tại một thời gian nhất định. Bởi vì nội dung của cơ sở dữ liệu thay đổi khi thông tin đƣợc cập nhật hoặc bị xóa từ cơ sở dữ liệu, chúng ta có thể định nghĩa một cơ sở dữ liệu với một tập các đối tƣợng dữ liệu, mỗi tập dữ liệu là một biến thay đổi theo thời gian và một trạng thái của cơ sở dữ liệu tại một thời điểm t là một giá trị của các biến cho các đối tƣợng dữ liệu tại thời điểm t. Mỗi cơ sở dữ liệu thƣờng kết hợp với một tập các ràng buộc toàn vẹn mà dữ liệu trong cơ sở dữ liệu phải thỏa mãn. Các giá trị của dữ liệu đƣợc phép lƣu trữ trong cơ sở dữ liệu chỉ khi chúng không vi phạm các ràng buộc toàn vẹn tƣơng ứng. Các ràng buộc dữ liệu đó thƣờng đƣợc thể hiện nhƣ các công thức logic trên các đối tƣợng dữ liệu.
Hình 3.1: Mô hình cơ sở dữ liệu thời gian thực
Thiết bị vật lý
Giao tác suy diễn
CƠ SỞ DỮ LIỆU Sensor Sensor Giao tác USER TM DOS DM Đối tƣợng dữ
liệu liên tục Đối tƣợng dữ liệu rời rạc
Bộ điều khiển
TM- Tran saction Manager DOS- Data Operator System DM- Data manager
67
Một cơ sở dữ liệu thời gian thực bao gồm hệ quản trị cơ sở dữ liệu truyền thống và hệ thống thời gian thực. Trong cơ sở dữ liệu thời gian thực, các giao tác không chỉ thỏa mãn điểm tới hạn mà chúng còn phải sử dụng dữ liệu hợp lệ trong khi thực hiện. Trong hệ thống cơ sở dữ liệu thời gian thực các đối tƣợng dữ liệu đƣợc chia thành các đối tƣợng dữ liệu liên tục và các đối tƣợng dữ liệu rời rạc. Mô hình hệ thống cơ sở dữ liệu đƣợc mô tả trong hình 3.1.
Một giá trị của đối tƣợng dữ liệu liên tục phản ánh trạng thái của đối tƣợng này trong cơ sở dữ liệu thời gian thực. Một giá trị của đối tƣợng liên tục có thể không hợp lệ trong khoảng thời gian đã trôi qua. Các đối tƣợng dữ liệu rời rạc là tĩnh và giá trị của nó không phụ thuộc vào thời gian. Các đối tƣợng dữ liệu liên tục có thể chia thành các đối tƣợng dữ liệu cơ sở và các đối tƣợng dữ liệu suy diễn. Giá trị của một đối tƣợng dữ liệu cơ sở có thể đƣợc nhận trực tiếp từ các sensor, trong khi giá trị của đối tƣợng suy diễn đƣợc tính toán từ tập giá trị của đối tƣợng cơ sở.
Trong cơ sở dữ liệu thời gian thực các giao tác phải thực hiện trƣớc điểm tới hạn của chúng. Điểm hạn của một giao tác có thể là điểm hạn cứng, điểm hạn vững chắc hay điểm hạn mềm, độc lập yêu cầu chức năng của nó. Việc hoàn thành thực hiện của một giao tác thời gian thực có thể tạo ra một giá trị cho hệ thống. Quan hệ giữa các giá trị của một giao tác thời gian thực với thời gian hoàn thành thực hiện của chúng có thể xem nhƣ là một hàm giá trị thời gian
Hình 3.2: Quan hệ giữa các giá trị của một giao tác thời gian thực với thời gian
Một giao tác có điểm tới hạn cứng bị vi phạm dẫn đến sự cố xảy ra nghĩa là sẽ có giá trị âm khi điểm hạn cứng bị vi phạm.
Một giao tác có điểm tới hạn mềm thì giá trị của nó giảm với thời gian và bằng 0 tại thời điểm sau điểm tới hạn.
Một giao tác có điểm tới hạn vững chắc sẽ không còn giá trị khi kết thúc điểm hạn. Điểm hạn mềm và điểm hạn vững chắc thƣờng xuất hiện trong các
Hàm giá trị Thời gian Điểm hạn Điểm hạn cứng Hàm giá trị Thời gian Điểm hạn Điểm hạn mềm Hàm giá trị Thời gian Điểm hạn Điểm hạn vững chắc
68
ứng dụng thời gian thực có yêu cầu về mức độ an toàn thấp. Ví dụ nhƣ hệ thống chuyển mạch điện thoại hay chƣơng trình chứng khoán v.v…
Trong hệ thống cơ sở dữ liệu thời gian thực ngoài tính logic nhƣ trong cơ sở dữ liệu truyền thống, dữ liệu phải thỏa mãn tính nhất quán thời gian. Có hai thể hiện khác nhau của các đối tƣợng dữ liệu là thể hiện bên ngoài (trong thế giới thực) và thể hiện bên trong (trong cơ sở dữ liệu). Hai thể hiện này có quan hệ với nhau và quan hệ này gọi là quan hệ nhất quán thời gian. Có hai kiểu nhất quán thời gian của dữ liệu là: nhất quán tuyệt đối và nhất quán tƣơng đối. Mối quan hệ giữa các kiểu nhất quán tuyệt đối và tƣơng đối của dữ liệu đƣợc mô tả nhƣ hình 3.3
Hình 3.3: Mối quan hệ giữa các kiểu nhất quán tuyệt đối và tƣơng đối của dữ liệu
Nhất quán tuyệt đối: thể hiện bên trong của dữ liệu gần nhau hơn so với thể hiện bên ngoài của dữ liệu tại mọi thời điểm thời gian.
Nhất quán tương đối: Tồn tại giá trị của tập các đối tƣợng dữ liệu có thể đƣợc sử dụng dù khi chúng đƣợc sinh ra đủ gần nhau.
Định nghĩa 3.1: Một dơn vị dữ liệu trong cơ sở dữ liệu thời gian thực được ký hiệu là d(value,avi,timestamp). Trong đó dvalue là giá trị hiện tại của d, dtimestamp là thời điểm quan sát khi tạo ra d, davi là khoảng hợp lệ tuyệt đối của d. Ký hiệu R là một tập nhất quán tương đối nghĩa là một tập các đối tượng dữ liệu nhận được từ một đơn vị dữ liệu mới. Mỗi tập R kết hợp với một khoảng hợp lệ tương đối ký hiệu là
rvi
R , Giả thiết dR, d có trạng thái đúng khi và chỉ khi:
1) dvalue là nhất quán logic và thỏa mãn tất cả các ràng buộc toàn vẹn
Thể hiện ngoài (x) Thể hiện ngoài (y)
Cơ sở dữ liệu
Nhất quán tƣơng đối
69
2) d là nhất quán thời gian
Tuyệt đối: (dcurrenttime dtimestamp)davi
Tương đối d'R |dtimestampd'timestamp)Rrvi
Trong đó dcurrenttime là thời điểm quan sát hiện tại.
1.2. Cơ sở dữ liệu trạng thái
Trong này chúng tôi đề cập đến một dạng sơ khai của cơ sở dữ liệu thời gian thực thông qua 3 trạng thái của dữ liệu, đó là: Dạng tƣơng lai (số liệu dự báo), dạng hiện tại (số liệu thực) và dạng quá khứ (số liệu đã quyết toán).
Để biểu diễn trạng thái của dữ liệu, trong cơ sở dữ liệu chúng tôi sử dụng thêm trƣờng trạng thái, mỗi bản ghi sẽ có trạng thái tƣơng ứng. Dữ liệu tƣơng lai trƣờng trạng thái sẽ có giá trị là dự báo (C), dạng hiện tại với số liệu thực đƣợc cập nhật, trƣờng trạng thái có giá trị thực (A), ứng với dữ liệu đã đƣợc quyết toán thì trƣờng trạng thái sẽ có giá trị quá khứ (S).
Dữ liệu dự báo sẽ đƣợc sinh ra khi ta chủ động thực hiện lệnh tạo ra hoặc khi thực hiện việc truy xuất dữ liệu cho các báo cáo tại thời điểm dự báo trong tƣơng lai. Các dữ liệu sẽ đƣợc tự động sinh ra nhờ các thuật toán ngoại suy dữ liệu. Do đó, dữ liệu tại thời điểm tƣơng lai chỉ có một giá trị dự báo và ứng với nó là trƣờng trạng thái có giá trị là C. Với thời điểm hiện tại, dữ liệu sẽ có 2 giá trị là giá trị dự báo và giá trị thực tế và trƣờng trạng thái ứng với nó sẽ có giá trị A. Đối với thời điểm quá khứ, dữ liệu đã đƣợc quyết toán có 3 giá trị là giá trị dự báo, giá trị thực tế và giá trị quyết toán và trƣờng trạng thái ứng với nó là S.
Một cách mặc định khi thao tác với cơ sở dữ liệu trạng thái tại thời điểm tƣơng lai dữ liệu sẽ có giá trị tƣơng ứng với trạng thái C, thời điểm hiện tại là giá trị tƣơng ứng với trạng thái A và thời điểm quá khứ sẽ có giá trị S. Tuy nhiên, ta cũng có thể chủ động lựa chọn giá trị của dữ liệu cho các thời điểm ứng với các trạng thái.
2. ỨNG DỤNG 2.1. Bài toán 2.1. Bài toán
Telstra là một trong những công ty viễn thông hàng đầu thế giới của Australia. Công ty Telstra đã có một thời gian dài cho VNPT thuê các kênh truyền
70
quốc tế nhƣ vệ tinh, cáp biển v.v.. Để tính toán đƣợc lợi nhuận thì cần phải có sự thanh toán khấu trừ quốc tế. Chẳng hạn, khi cuộc gọi điện từ Việt Nam sang Mỹ thì Việt Nam thu tiền còn Mỹ thì chịu các chi phí về đƣờng dây đảm bảo cho cuộc gọi. Ngƣợc lại, khi có cuộc điện thoại gọi từ Mỹ về Việt Nam thì Mỹ lại là nơi thu tiền còn Việt Nam lại phải chịu các phí tổn về đƣờng dây. Lợi nhuận sẽ đƣợc xây dựng trên cơ sở có sự khấu trừ giữa các cuộc gọi đi và các cuộc gọi đến. Nhƣng thực tế để có đƣợc các thông tin khấu trừ xác nhận của các đối tác thƣờng rất chậm trễ. Thông thƣờng việc có đƣợc các số liệu thực phải chậm hàng tháng, còn việc thanh toán thì lại chậm hàng quý.
Bài toán thực tế đƣợc đặt ra tại thời điểm hiện tại, mặc dù các số liệu thực chƣa có đƣợc thì ta có thể có các báo cáo liên quan không. Điều đó có nghĩa là phải ra đƣợc các báo cáo có tính chất dự báo.
Công việc này là một công việc nặng nhọc tại công ty Telstra chi nhánh tại Việt Nam, có địa chỉ tại tầng 6, toà nhà 17 Ngô Quyền, Hà Nội. Hàng tháng, đến thời điểm cần có báo cáo, thƣờng có 5 đến 6 nhân viên phải làm các công việc này một cách cật lực trên các bảng tính Excel theo cách thức dự báo của các nhà lập kế hoạch, nhƣ ở các phòng kế hoạch trong các cơ quan của ta.
2.2. Ngoại suy dựa vào chuỗi thời gian
Để xây dựng dữ liệu ngoại suy chúng tôi sử dụng chuỗi thời gian. Nhƣ đã nói ở trên, mặc dù các công thức cho việc nhận dạng chuỗi thời gian là khá rõ ràng.Tuy vậy dãy số liệu mà chúng ta có lại chỉ là thể hiện của một chuỗi thời gian. Việc dùng các đặc trƣng mẫu trong tính toán không thể đảm bảo tính chính xác cho mô hình, hơn nữa việc lựa chọn các tham số cho mô hình thƣờng đòi hỏi ít nhiều những ý kiến chuyên gia. Vì vậy sau khi đã đã tìm hiểu về chuỗi thời gian, chúng tôi đã cố gắng xây dựng một công cụ cho phép phân tích và nhận dạng chuỗi thời gian một cách trực quan hơn.
Trong hình 3.3 thể hiện hình ảnh chuỗi số đầu vào với 28 dữ liệu. Sau khi thấy đƣợc hình ảnh về chuỗi số liệu ban đầu, có thể thực hiện dự báo tự động bằng cách bấm chuột vào "du bao" (ở phía dƣới của màn hình). Có nghĩa là chƣơng trình sẽ thực hiện dò tìm bậc sai phân d, bậc hồi quy p, bậc trung bình trƣợt q sao cho sai số là nhỏ nhất. Ngay sau đó bên phải nút dự báo sẽ là các hệ số (p, d, q) tìm đƣợc và bên trái sẽ là các hệ số (a1,a2,...,b1,b2,...) cho công thức dự báo.
... ... 1 1 2 2 2 2 1 1 t t t t t a X a X b b X
71
Để hiển thị kết quả trực quan cho chuỗi mô phỏng cùng kết quả dự báo ta bấm chuột vào nút "MoPhong". Kết quả thu đƣợc hình ảnh chuỗi ban đầu sau khi đã lấy sai phân lần 1 (màu đen) và hình ảnh chuỗi mô phỏng (có đƣợc từ công thức)
a) Chuỗi số liệu b) Chuỗi số liệu và chuỗi mô phỏng
Hình 3.4: Hình ảnh chuỗi số liệu thật và chuỗi mô phỏng
Ta có thể là thí nghiệm dự báo bằng cách điều chỉnh bậc dự báo giả sử lấy bậc 1 (có nghĩa là phát sinh chuỗi mô phỏng sau khi đã cắt bỏ đi 1 số liệu cuối của chuỗi ban đầu) sau đó nhấn chuột vào nút mp bandau ta có chuỗi mô phỏng
Hình 3.5: Hình ảnh chuỗi số liệu thật và chuỗi mô phỏng bậc 1
Tƣơng tự ta điều chỉnh bậc dự báo giả sử lấy bậc 2 (có nghĩa là phát sinh chuỗi mô phỏng sau khi đã cắt bỏ đi 2 số liệu cuối của chuỗi ban đầu) sau đó nhấn chuột vào nút mp bandau ta có chuỗi mô phỏng
72
Hình 3.6: Hình ảnh chuỗi số liệu thật và chuỗi mô phỏng bậc 2
Tiếp theo ta thí nhiệm với bậc dự báo là 3 (có nghĩa là phát sinh chuỗi mô phỏng sau khi đã cắt bỏ đi 3 số liệu cuối của chuỗi ban đầu) sau đó nhấn chuột vào nút mp bandau ta có chuỗi mô phỏng
Hình 3.7: Hình ảnh chuỗi số liệu thật và chuỗi mô phỏng bậc 3
Có thể dự báo bằng cách tự chọn các bậc (p,d,q) một cách chủ quan dựa trên hình ảnh về các giá trị tự tƣơng quan và tự tƣơng quan riêng cho mỗi bậc sai phân có đƣợc bằng cách nhấn chuột vào các nút TuTuongQuan, TuongQuanRieng tƣơng ứng. Có thể lựa chọn bộ ba (p,d,q) cho đến khi có đƣợc một mô hình phù hợp (nhờ
73
sự cung cấp hình ảnh trực quan về chuỗi số liệu ban đầu và chỗi mô phỏng của bộ ba (p,d,q) tƣong ứng) thì dựng lại và thực hiện dự báo nhƣ đã làm ở trên.
2.3. Chƣơng trình quản trị cơ sở dữ liệu International Revenue
Chúng tôi đã cài đặt thuật toán ngoại suy dữ liệu vào chƣơng trình quản trị cơ sở dữ liệu International Revenue của công ty viễn thông Telstra của Úc tại toà nhà 17 Ngô Quyền
Hình 3.8: Giao diện đăng nhập vào chƣơng trình quản trị cơ sở dữ liệu International Revenue
Hình 3.9: Giao diện nhập dữ liệu dịch vụ điện thoại trong chƣơng trình quản trị cơ sở dữ liệu International Revenue
74
Hình 3.10: Báo cáo về dữ liệu dự báo tính đến tháng 11 năm 2006 trong chƣơng trình quản trị cơ sở dữ liệu International Revenue
75
KẾT LUẬN
Dự báo đóng vai trò cực kỳ quan trọng trong việc hoạch định các chính sách kinh tế-xã hội cho hoạt động của các tập đoàn, các công ty nhỏ, vừa, lớn và thậm chí cả những quốc gia hùng mạnh. Việc đánh giá các diễn biến tƣơng lai của đối tƣợng phải dựa trên các số liệu thực tế trong các chu kỳ thời gian trƣớc đó và hiện tại. Nhƣng trong nhiều trƣờng hợp các số liệu chƣa thể cập nhật đến thời điểm hiện thời, song nhu cầu bắt buộc lại cần kết quả để đánh giá quá trình hoạt động .
Việc dự báo cho các mục tiêu đơn và cụ thể đã đƣợc thực hiện nhiều song việc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy dựa trên các dữ liệu đã thu thập trong quá khứ, hiện tại và tổ chức thành một cơ sở dữ liệu gọi là cơ sở dữ liệu “ngoại suy” thì ít và có thể nói là chƣa có tài liệu nào đề cập đến.
Mục tiêu của luận văn là nghiên cứu các phƣơng pháp ngoại suy dữ liệu, trên cơ sở đó đề xuất một giải pháp cho việc xây dựng cơ sở dữ liệu cho các giá trị ngoại suy, dựa trên các mô hình toán học tính học và giải quyết một vấn đề thực tế nhờ ứng dụng mô hình đề xuất này. Cụ thể luận văn đã đạt đƣợc các kết quả sau:
Trình bày một cách tổng quan về dự báo và cơ sở dữ liệu
Trình bày các phƣơng pháp ngoại suy dữ liệu dựa trên các mô hình toán học. Xây dựng chƣơng trình ứng dụng thực tế sử dụng phƣơng pháp ngoại suy
dựa trên lý thuyết chuỗi thời gian. Áp dụng cho bài toán quản lý các cuộc gọi đi và gọi đến tại công ty viễn thông Telstra của Úc.
76
TÀI LIỆU THAM KHẢO
[1] Anderson O.D Time Series Analysis & Forecacting. The Box – Jenkins Approach, Butterwworths, London 1976
[2] Box G.E.P Jenkins G.M Time Series Analysis- Forecasting And Control. Holden –Day 1970.
[3] Brockwell P.J & David R.A “Time Series:Theory And Method” Springer – Verlag, New York, 1991
[4] Durbin C. & Levinson M (1991), Algorithm For Fitting Autoregressive Model Biometrika 90.1973
[5] Đinh Văn Gắng. Lý Thuyết Xác Suất Thống Kê
[6] Lý Hoàng Tú (2001), Phân Tích Chuỗi Thời Gian Mô Hình Hoá Và Dự Báo Chuỗi Thời Gian Trong Kinh Doanh Và Quốc Tế - Nxb ĐHQG Tp.