Phương pháp DTW: Cho hai chuỗi thời gian X = (x1, x2, …, xn), và Y = (y1, y2, …, ym). Ta đi xây dựng một ma trận cĩ kích thước m*n, trong đĩ phần tử (i, j) là khoảng cách giữa xi và yj.
Một wraping path W là một tập các phần tử của ma trận kế tiếp nhau, xác định một ánh xạ giữa X và Y. Phần tử thứ k: wkchính là (i, j)k. Ta cĩ:
W = w1, w2, …, wk; max (m, n) < k < m+n-1 W thoả mãn các điều kiện sau:
1. w1 = (1, 1) và wk = (m, n)
2. Nếu wk = (a, b) và wk-1 = (a’, b’) thì a-a’ ≤ 1 và b-b’ ≤ 1 3. Nếu wk = (a’, b’) và wk-1 = (a, b) thì a-a’ ≥ 1 và b-b’ ≥ 1
Để xem xét độ tương đồng của hai chuỗi thời gian, ta quan tâm đến warping path W cĩ giá trị nhỏ nhất, khoảng cách DTW được xác định DTW (X, Y) = min { ( }. Đặt D (i, j) là khoảng cách DTW giữa hai dãy con x1, x2, …, xi và y1, y2, …, yj khi đĩ: D (i, j) = |xi- yj| + min{D (i-1, j), D (i-1, j-1), D (i, j-1)}
Ưu điểm lớn nhất của phương pháp DTW là cĩ thể so sánh hai chuỗi thời gian cĩ độ dài khác nhau. Điều này đặc biệt hữu ích khi cần so sánh độ tương đồng của nhiều chuỗi thời gian cĩ độ dài khác nhau.
Việc tìm kiếm những chuỗi con truy vấn cĩ xuất hiện trong cơ sở dữ liệu chuỗi thời gian là một cơng việc rất cần thiết. Sự truy tìm dựa vào độ tương tự như vậy là một mơ đun căn bản trong nhiều cơng tác khai phá dữ liệu chuỗi thời gian như gom cụm, phân lớp, tìm mơ típ, phát hiện mẫu bất thường, khám phá luật kết hợp và trực
49
quan hĩa dữ liệu. Mặc dù cĩ nhiều cách tiếp cận khác nhau đã được đề xuất, hầu hết các cách tiếp cận đều dựa trên một tiền đề chung là các phương pháp thu giảm số chiều và các cấu trúc chỉ mục khơng gian
2.3.2 Tìm kiếm tồn bộ và tìm kiếm chuỗi con
Mặc dù cĩ nhiều loại khác nhau, nhưng các yêu cầu truy vấn trên dữ liệu chuỗi thời gian cĩ thể chia làm 2 loại:
So trùng tồn bộ: Đối với những truy vấn so trùng tồn bộ thì chiều dài của chuỗi dữ liệu truy vấn và chiều dài chuỗi dữ liệu ban đầu là bằng nhau. Bài tốn này ta thường được dùng trong việc gom cụm, hay phân loại dữ liệu chuỗi thời gian.
So trùng chuỗi con: Trong trường hợp so trùng chuỗi con thì chiều dài của dữ liệu truy vấn ngắn hơn rất nhiều so với chiều dài của dữ liệu ban đầu. Vì vậy, nhiệm vụ chính là tìm những đoạn trong dữ liệu ban đầu tương tự với dữ liệu truy vấn. Một số ứng dụng của bài tốn này là tìm những mẫu dữ liệu quan trọng hay những thay đổi bất thường trong dãy con dữ liệu ban đầu.
Bài tốn so trùng chuỗi con là bài tốn rất căn bản của lĩnh vực nghiên cứu về dữ liệu chuỗi thời gian. Từ bài tốn so trùng chuỗi con trên dữ liệu chuỗi thời gian ta cĩ thể mở rộng thành so trùng tồn bộ.
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG THƠNG TIN DỰ ĐỐN TÌNH HÌNH CƠNG NỢ, TỔN THẤT PHỤC VỤ LÃNH ĐẠO
NGÀNH ĐIỆN
3.1. Hệ thống quản lý thơng tin khách hàng trong ngành điện
Hệ thống quản lý thơng tin khách hàng, viết tắt là hệ thống CMIS, do Tập đồn điện lực Việt Nam (EVN) thiết kế và xây dựng nhằm mục đích sau:
Thống nhất quy trình xử lý nghiệp vụ kinh doanh trên máy tính ở tất cả các cơng ty điện lực trên cơ sở quy trinh kinh doanh điện năng mới của EVN đã ban hành ngày 01/08/2003.
Tích hợp thơng tin quản lý khách hàng trên một cơ sở dữ liệu dùng chung, đảm bảo tính chính xác, nhất quán của thơng tin; đáp ứng đầy đủ các yêu cầu nghiệp vụ và quản lý kinh doanh điện năng của các đơn vị hiện nay và một số yêu cầu mới phát sinh về sau .
Cĩ thể tích hợp được với hệ thống khác như kế tốn tài chính, thu tiền điện tại quầy (QMS), ghi chỉ số qua thiết bị cầm tay (HHU), thanh tốn tiền điện qua thẻ ATM...
Cĩ thể đáp ứng nhanh các thay đổi, nhất là việc thay đổi giá bán điện.
Hệ thống CMIS được xây dựng trên nền tảng cơng nghệ mạng và cở sở dữ liệu hiện đại, đáp ứng được yêu cầu phát triển trong tương lai. Máy chủ sử dụng hệ quản trị cơ sở dữ liệu Oracle 9i. Mơ hình xử lý Client/Server; Cơng cụ phát triển Designer2000, VB.NET, Crystal Report 9, PL/SQL; Font tiếng Việt Unicode theo tiêu chuẩn TCVN6090. Máy trạm hệ điều hành Window2000/XP.
Màn hình giao diện chính của hệ thống CMIS như trong hình vẽ dưới đây.