Lược đồ kết hợp
Là kết hợp giữa lược đồ hình sao dựa trên bảng sự kiện và những bảng chiều khơng chuẩn hĩa theo các chuẩn 1, 2, 3 và lược đồ bơng tuyết. Trong đĩ tất cả các bảng chiều đều đã được chuẩn hĩa. Trong lược đồ loại này, chỉ những bảng chiều lớn là được chuẩn hĩa cịn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa được chuẩn hĩa. Một vài CSDL và các cơng cụ truy vấn của người sử dụng, nhất là các cơng cụ xử lý phân tích trực tuyến địi hỏi mơ hình dữ liệu phải là lược đồ hình sao bởi vì nĩ là một mơ hình dữ liệu quan hệ nhưng lại được thiết kế để hỗ trợ mơ hình dữ liệu đa chiều, là điểm cốt lõi của phân tích dữ liệu trực tuyến.
1.3. Phân tích dữ liệu trực tuyến
1.3.1 Khái niệm về phân tích dữ liệu trực tuyến
Phân tích dữ liệu trực tuyến (OLAP) là một mục trong các phần mềm cơ sở dữ liệu cung cấp giao diện qua đĩ người sử dụng cĩ thể biến đổi hoặc giới hạn các dữ liệu sơ khai tuỳ theo các hàm đã định nghĩa hoặc do chính người sử dụng định nghĩa, sau đĩ nhanh chĩng kiểm tra các kết quả trong các chiều khác nhau của dữ liệu.
OLAP trước hết bao gồm việc tập hợp một số lượng khổng lồ các dữ liệu hết sức đa dạng, cĩ thể là hàng triệu mục dữ liệu trong các mối quan hệ phức tạp. Mục tiêu của OLAP là phân tích các mối quan hệ đĩ và tìm kiếm các mơ hình, xu hướng, và các ngoại lệ. OLAP cũng được định nghĩa là hình thức phân tích nhanh thơng tin đa chiều được chia sẻ giữa những người sử dụng, hỗ trợ xử lý các kết quả theo logic và nguyên tắc thống kê, thực hiện các yêu cầu về bảo mật và các yêu cầu về cập nhật đồng thời. Hệ thống phải cung cấp dữ liệu dưới nhiều gĩc độ (tính đa chiều), kể cả khả năng hỗ trợ đa cấp (multi hierarchies).
1.3.2 Kiến trúc khối của OLAP
Trong mơ hình dữ liệu OLAP, thơng tin được định nghĩa như các khối (cubes), một sự biểu diễn đa chiều của dữ liệu chi tiết và tổng thể. Một khối bao gồm một bảng sự kiện, một hoặc nhiều bảng chiều, các đơn vị đo và các phân hoạch. Ta cĩ thể thiết kế các khối dựa trên cơ sở các yêu cầu phân tích của người sử dụng với các chiều (các mục mơ tả) và các đơn vị đo (các giá trị lượng hố). Với mơ hình dữ liệu đa chiều, người sử dụng cĩ thể dễ dàng lập những truy vấn phức tạp, sắp xếp dữ liệu trên một báo cáo, chuyển từ giản lược sang dữ liệu chi tiết, lọc và phân tách dữ liệu thành các tập hợp phụ.
Một mơ hình OLAP cĩ thể hỗ trợ nhiều khối khác nhau. Ví dụ: Xem việc tính số lượng khách hàng nợ tiền điện là các khối cĩ các chiều được gán nhãn tương ứng với các cạnh của khối: loại khách hàng, mục đích sử dụng điện, đơn vị địa chính. Các điểm bên trong khối là giao điểm của các cạnh. Các điểm này xác định một khách hàng nào đĩ cĩ nợ tiền điện hay khơng?
27
Một khối dữ liệu khơng nhất thiết phải cĩ cấu trúc 3 chiều(3-D), nhưng về cơ bản là cĩ thể cĩ N chiều (N-D). Ví dụ, để xác định khách hàng nợ tiền điện hay khơng cĩ rất nhiều chiều: loại khách hàng, trạm điện của khách hàng, thu ngân thu tiền, mục đích sử dụng điện của khách hàng, loại hố đơn khách hàng….
Dữ liệu nguồn: Dữ liệu nguồn của một khối chỉ ra nơi chứa kho dữ liệu cung cấp dữ liệu cho khối.
Khối: Khối là phần tử chính trong xử lý phân tích trực tuyến, cho phép truy cập nhanh tới dữ liệu trong kho dữ liệu. Các khối cung cấp cơ chế truy vấn dữ liệu với thời gian trả lời nhanh và khơng phụ thuộc vào số lượng dữ liệu trong khối hoặc sự phức tạp của truy vấn. Cũng cĩ thể hiểu khối là tập con (Subset) dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều.
Khối ảo: Khối ảo là một khung nhìn logic của một hoặc nhiều khối. Một khối ảo cĩ thể được sử dụng để kết nối các khối khác nhau để chia sẻ một chiều chung nào đĩ; cung. Khối ảo cung cấp truy cập tới dữ liệu trong các khối kết hợp mà khơng địi hỏi xây dựng một khối mới, nĩ cho phép ta duy trì thiết kế tốt nhất cho mỗi khối riêng biệt.
Các chiều: Các chiều (dimension) là cách mơ tả chủng loại mà theo đĩ các dữ liệu số trong khối được phân chia để phân tích. Ví dụ: nếu một đơn vị đo lường của khối là tổng số tiền nợ và các chiều của nĩ là thời gian, đơn vị địa chính, loại khách hàng, phương thức thanh tốn thì người dùng khối cĩ thể phân chia tổng số tiền nợ theo thời gian, đơn vị địa chính, loại khách hàng, phương thức thanh tốn. Một chiều cĩ thể được dùng bởi nhiều khối khác và được gọi là một chiều dùng chung. Nĩi chung, các khối cần chia xẻ một hay nhiều hơn các chiều. Ví dụ như ta cĩ hai khối: “CƠNG_NỢ” và “TỔN_THẤT”, Hai khối này chia xẻ hai chiều chung: “Đơn vị địa chính” và “Thời gian”.
Chiều ảo: Chiều ảo là một kiểu đặc biệt, nĩ ánh xạ các thuộc tính của các thành phần trong các chiều khác vào trong một chiều mà sau đĩ cĩ thể được dùng ở trong các khối. Các chiều ảo và thuộc tính thành phần được đánh giá là cần thiết cho các yêu cầu và chúng khơng địi hỏi lưu trữ khối vật lý.
Các đơn vị đo: các đơn vị đo của khối là các cột trong bảng sự kiện. Các đơn vị đo lường xác định những giá trị số từ bảng sự kiện được tổng hợp phân tích như định giá, trị giá hoặc số lượng. Ví dụ: trong bảng sự kiện “CƠNG NỢ” cĩ các đơn vị đo như số tiền thu, số tiền phát sinh, số tiền cuối kỳ.
Các phân hoạch: Các phân hoạch lưu trữ dữ liệu đa chiều của khối. Mỗi khối chứa ít nhất một phân hoạch, và dữ liệu của khối cĩ thể kết hợp từ nhiều phân hoạch. Mỗi phân hoạch cĩ thể lấy dữ liệu một nguồn dữ liệu khác nhau và cĩ thể lưu trong một vị trí riêng biệt. Dữ liệu của một phân hoạch cĩ thể được cập nhật độc lập với các phân hoạch khác trong một khối. Các phân hoạch của một khối cĩ thể được lưu trữ độc lập trong các cách thức khác nhau với các mức độ tổng kết khác nhau. Các phân hoạch khơng thể hiện đối với người dùng, đối với họ một khối là một đối tượng đơn, và chúng cung cấp các tuỳ chọn đa dạng để quản lý dữ liệu OLAP.
1.3.3. Vai trị của phân tích dữ liệu trực tuyến
Hiện nay, đã cĩ rất nhiều phần mềm cung cấp cho người sử dụng những khả năng truy vấn và lập các báo cáo thơng tin, đặc biệt là các hệ quản trị cơ sở dữ liệu quan hệ. Tuy nhiên, CSDL quan hệ, với cấu trúc hai chiều (dịng và cột), đã khơng được thiết kế để cung cấp các quan điểm đa chiều trên dữ liệu đầu vào của các phân tích phức tạp. Sử dụng các hệ thống này, chúng ta sẽ gặp rất nhiều khĩ khăn và bất tiện trong việc tổ chức dữ liệu đa chiều vào các bảng hai chiều. Hệ thống khơng thể triển khai dữ liệu phân tích với số lượng lớn, cơng cụ phân tích để tạo ra các dữ liệu quyết định khơng mạnh, thuận tiện, linh hoạt, nhanh chĩng. Hệ thống khơng dễ dàng để sử dụng đối với các nhà quản lý, những người ra quyết định.
Để cĩ khả năng cung cấp những dữ liệu quyết định cho những người ra quyết định, cần sử dụng một cách lưu trữ dữ liệu cho phép họ quản lý, khai thác dữ liệu dễ dàng hơn. Cách lưu trữ dữ liệu này là kho dữ liệu. Một kho dữ liệu là một CSDL được thiết kế để trả lời các câu hỏi của tổ chức. Nĩ là nơi chứa nhiều loại dữ liệu tổ chức từ các nguồn khác nhau (các hệ thống xử lý tác vụ). Dữ liệu từ những nguồn này được chuyển dịch vào trong kho dữ liệu, được đánh chỉ mục, và được kết nối lại để cĩ thể được truy xuất nhanh chĩng và dễ dàng hơn, phục vụ cho các ứng dụng trợ giúp ra quyết định. Và một khi dữ liệu đã được thu thập, người sử dụng cịn cần cĩ một cách tốt để dễ dàng khai thác chúng, nhằm truy xuất được các mẫu dữ liệu mà họ quan tâm. Hệ thống OLAP giúp cho họ làm điều này.
Hệ thống OLAP là một hệ thống quản lý dữ liệu giàu năng lực. Nĩ cho phép người sử dụng phân tích dữ liệu qua việc cắt dữ liệu theo nhiều khía cạnh khác nhau, khoan xuống mức chi tiết hơn hay cuộn lên mức tổng hợp hơn của dữ liệu. Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu hoặc từ kho dữ liệu chủ đề sau đĩ được chuyển thành mơ hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều.
Trong khi kho dữ liệu và kho dữ liệu chủ đề lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng máy khách truy xuất hiệu quả dữ liệu này. OLAP cung cấp nhiều lợi ích cho người phân tích:
29
Cung cấp mơ hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu.
Cung cấp một ngơn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp.
Dữ liệu được tính tốn trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt.
1.3.4. Giới thiệu các mơ hình OLAP
1.3.3.1 MOLAP
Cách tiếp cận này kết hợp kho dữ liệu đa chiều và các dịch vụ của OLAP trên cùng một máy chủ, gọi là MOLAP. Nĩ thường được coi là cơ sở dữ liệu đa chiều. Như đã nĩi, cơ sở dữ liệu đa chiều là một cấu trúc tối ưu cho việc lưu trữ các sự kiện đã phân loại và cùng với nĩ là các chiều. Dữ liệu được tổ chức theo khung nhìn dữ liệu và được lưu trữ trong một biểu mẫu được kết hợp và tổng hợp. File chỉ mục nhỏ hơn khiến cho trả lời những truy vấn phức tạp rất nhanh. Vì dữ liệu được lưu trữ trong các mảng, việc cập nhật các giá trị khơng ảnh hưởng nhiều tới file chỉ mục. Điều này khiến cho việc cài đặt những ứng dụng cập nhật hoặc đọc-ghi như dự báo và điều chỉnh ngân sách trở nên dễ dàng.
Các cơng cụ của MOLAP cho phép truy cập vào dữ liệu chi tiết trong hệ quản trị cơ sở dữ liệu quan hệ như sau:
Hình 1.9 Kiến trúc của MOLAP.
MOLAP là sự lựa chọn tốt nhất cho những ứng dụng cĩ đặc điểm: (i) Yêu cầu tốc độ truy vấn cao; (ii) Cĩ khả năng phân tích dữ liệu phức hợp. MOLAP cung cấp mơi trường phân tích mạnh hơn ROLAP; và (iii) Dễ sử dụng: Lý do bởi dữ liệu đã được tổng hợp từ trước và được lưu trong kho dữ liệu đa chiều. Tất cả những gì
người sử dụng cần làm là xác định các chiều và các nhĩm nằm trong các chiều đĩ. Trong khi đĩ ROLAP lại yêu cầu người sử dụng phải hiểu được ánh xạ tới các CSDL tác nghiệp.
1.3.3.2 ROLAP
Phương pháp tiếp cận này bao gồm các dịch vụ của OLAP và cơ sở dữ liệu quan hệ. Các dữ liệu được lưu trữ trong những bảng quan hệ và cĩ thể cĩ kích thước hàng trăm Gigabyte. Những hệ ROLAP cung cấp các mơ tơ truy vấn cực kỳ linh động bằng việc “chuẩn bị sẵn sàng” tất cả dữ liệu tác nghiệp cho người sử dụng đầu cuối, dễ dàng trích và tổng hợp dữ liệu theo yêu cầu. Những cơng cụ ROLAP cĩ thể trích dữ liệu từ rất nhiều nguồn CSDL quan hệ khác nhau.
Hình 1.10 Kiến trúc của ROLAP
Theo cách tiếp cận này, các khối dữ liệu con (Subcube) sẽ được tính tốn trước khi đưa vào bảng tổng hợp (summary table). Đối với những khối dữ liệu lớn thì khơng thể xử lý mọi thứ trước được mà chỉ xử lý trước những dữ liệu nào cĩ liên quan chặt chẽ đến các câu truy vấn.
1.3.3.3 HOLAP
Mơ hình OLAP lai (HOLAP) là sự kết hợp giữa MOLAP và ROLAP. Lưu trữ các khối trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở.
Lợi ích của việc lưu trữ trong cấu trúc HOLAP là:
Lấy dữ liệu trong khối nhanh hơn bằng cách sử dụng truy vấn tốc độ cao của MOLAP.
Tiêu thụ ít khơng gian lưu trữ hơn MOLAP. Tránh trùng lắp dữ liệu.
31
Kỹ thuật HOLAP đã giải quyết một số thách thức của việc thực thi MOLAP. Kỹ thuật này là một phương pháp ghép, trong đĩ các tập hợp ở mức cao hơn mà đã được truy cập thì thường được lưu trữ ở máy chủ và nhiều thơng tin cĩ thể chia tách thì được lưu trữ ở trong kho dữ liệu. Kỹ thuật này đã được phát triển để tăng cường việc xác định các khối lớn hơn mà khơng ảnh hưởng đến thời gian xây dựng nĩ. Việc thiết kế khối cĩ thể bổ sung các chi tiết hoặc chiều vào trong khối mà khơng làm tăng chi phí tổng thể của MOLAP.
CHƢƠNG 2. CÁC KỸ THUẬT DỰ BÁO CƠNG NỢ, TỔN THẤT
2.1 Giới thiệu về chuỗi thời gian
Một chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị số biểu diễn một giá trị đo tại những thời điểm cách đều nhau, diễn ra một cách tuần tự. Trên thực tế, cĩ rất nhiều đối tượng biến đổi theo thời gian. Tập hợp các giá trị biến đổi của đối tượng cấu thành chuỗi thời gian. Ví dụ: sản lượng thương phẩm điện bán cho khách hàng, số khách hàng nợ tiền hằng tháng, giá cổ phiếu đĩng cửa là các hình ảnh cụ thể về chuỗi thời gian. Tập dữ liệu chuỗi thời gian xuất hiện trong hầu hết các lĩnh vực như kỹ thuật, kinh tế, tài chính, y học, v.v…
Trong một chuỗi thời gian, thơng thường, giá trị của đối tượng tại thời điểm xem xét cĩ liên quan tới các giá trị tại các thời điểm phía trước. Ví dụ: số khách hàng nợ tiền điện tháng 10 liên quan tới số khách hàng nợ tiền điện tháng 9 và tháng 8.
Bước thời gian trong Timeseries cĩ thể là rời rạc hay liên tục. Chúng ta chỉ nghiên cứu chuỗi thời gian cĩ chiều thời gian tăng rời rạc, trong khi giá trị quan sát trong chuỗi cĩ thể là rời rạc hay liên tục. Giá cổ phiếu, doanh thu tiền điện, sản lượng điện thương phẩm, dịng lợi nhuận của cơng ty điện lực là những quan sát liên tục. Chuỗi thời gian dự báo thời tiết với các giá trị như nắng, mây, mưa là các quan sát rời rạc.
Mục đích chính của việc thu thập các dữ liệu chuỗi thời gian là nhằm mục đích dự báo hoặc dự đốn về các giá trị trong tương lai. Ví dụ, nhà máy thuỷ điện cần dự đốn nhu cầu điện tiêu dùng để tính tốn lượng nước hồ chứa, lên kế hoạch sản xuất điện cho năm tới, từng mùa trong năm…Cơng ty điện lực cần dự đốn biểu đồ phụ tải để phân tải điện năng theo các giờ cao điểm trong ngày… Dự đốn chính là cơng việc khai phá dữ liệu thơng dụng nhất. Bất kỳ một ứng dụng CRM hoặc ERP nào cũng cĩ thể thu được lợi ích từ các chuỗi thời gian dự đốn giá trị trong tương lai.
33
2.1.1. Một số khái niệm về chuỗi thời gian
Định nghĩa 1: Chuỗi thời gian X = (x1, x2, ..., xn) là một tập n giá trị xi được ghi nhận trên các khoảng thời gian bằng nhau của một biến thực và được sắp thứ tự theo thời gian.
Cơ sở dữ liệu chuỗi thời gian là tập hợp các chuỗi thời gian, trong đĩ mỗi bản ghi là một chuỗi thời gian T = {Xi}ni = 1
Chuỗi thời gian cĩ thể biểu diễn các đối tượng khác nhau, trong các lĩnh vực khác nhau nhưng chúng đều cĩ điểm chung là cĩ 2 chiều: một chiều là thời gian,