TỔNG QUAN VỀ KHO DỮ LIỆU
Các khái niệm
1.1.1 Kho dữ liệu Định nghĩa: kho dữ liệu (Data Warehouse - DW) là tuyển tập các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể [1]
Kho dữ liệu có nhiều định nghĩa khác nhau, nhưng tất cả đều nhằm mục đích hỗ trợ cho chức năng ra quyết định.
Kho dữ liệu không chỉ chứa đựng một cơ sở dữ liệu quan hệ mà còn bao gồm các bước tích hợp dữ liệu, công nghệ OLAP, công cụ phân tích, và ứng dụng để thu thập và cung cấp dữ liệu cho người sử dụng.
1.1.2 Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các vấn đề cơ bản sau:
Tích hợp dữ liệu từ nhiều nguồn khác nhau;
Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định;
Sử dụng cho các hệ thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt
1.1.3 Đặc tính của kho dữ liệu
Kho dữ liệu có các đặc tính như Hình 1.1, gồm bốn đặc tính sau:
Hình 1.1 Đặc tính của kho dữ liệu
Tính lịch sử hay có biến thời gian
Kho dữ liệu được cấu trúc theo các chủ đề chính như khách hàng, tài chính, bán hàng và mua hàng, nhằm mục đích mô hình hóa và phân tích dữ liệu phục vụ cho những người ra quyết định, thay vì tập trung vào các hoạt động xử lý giao dịch hàng ngày.
Nội dung dữ liệu được lưu trữ trong kho dữ liệu và CSDL tác nghiệp cũng khác nhau:
Kho dữ liệu không lưu trữ thông tin chi tiết mà chỉ lưu giữ dữ liệu tổng hợp, phục vụ chủ yếu cho quá trình phân tích và hỗ trợ ra quyết định.
CSDL tác nghiệp yêu cầu dữ liệu chi tiết để đáp ứng trực tiếp các yêu cầu xử lý theo chức năng của lĩnh vực ứng dụng hiện tại.
Do vậy mối quan hệ của dữ liệu trong những hệ thống này cũng khác, đòi hỏi phải có tính chính xác và có tính thời sự
Tính tích hợp dữ liệu là quá trình kết hợp thông tin từ các nguồn dữ liệu đa dạng, yêu cầu áp dụng các kỹ thuật làm sạch và tích hợp để đảm bảo sự đồng nhất về quy ước tên, cấu trúc mã hóa và đơn vị đo thuộc tính Kho dữ liệu cần chuyển đổi các dữ liệu từ nhiều nguồn khác nhau về định dạng đồng nhất, đồng thời giải quyết các vấn đề như xung đột tên và mâu thuẫn giữa các đơn vị đo.
Tính ổn định của kho dữ liệu được thể hiện qua việc dữ liệu chỉ có thể được đọc và khai thác, mà không bị sửa đổi bởi người sử dụng cuối Kho dữ liệu này chỉ cho phép thực hiện hai thao tác cơ bản.
Nạp dữ liệu vào kho dữ liệu Truy cập dữ liệu từ kho dữ liệu
Thông tin trong kho dữ liệu được cập nhật sau khi hoàn tất các giao dịch trong hệ thống tác nghiệp Tính không biến động của kho dữ liệu cho phép lưu trữ thông tin lâu dài, giữ nguyên dữ liệu cũ dù có thêm dữ liệu mới Điều này giúp cung cấp thông tin về một khoảng thời gian dài, đáp ứng đủ số liệu cần thiết cho các mô hình phân tích và dự báo nghiệp vụ.
Trong thực tế, khi các bảng dữ liệu có kích thước lớn, cần có kế hoạch lưu trữ dữ liệu cũ sau 5-10 năm tùy theo yêu cầu báo cáo Việc lưu trữ dữ liệu cũ giúp giảm dung lượng lưu trữ và tăng tốc độ truy cập, cho phép xóa hoặc chuyển dữ liệu sang nơi khác.
Yếu tố thời gian là một phần quan trọng trong kho dữ liệu, nơi lưu trữ một khối lượng lớn dữ liệu lịch sử Dữ liệu được tổ chức thành các bản chụp ảnh, mỗi bản ghi thể hiện giá trị dữ liệu tại một thời điểm cụ thể Điều này cho phép người dùng truy xuất và so sánh dữ liệu qua các giai đoạn khác nhau Thời gian không chỉ đảm bảo tính duy nhất của mỗi hàng mà còn cung cấp thông tin đặc trưng về thời gian cho dữ liệu.
1.1.4 Phân biệt kho dữ liệu với cơ sở dữ liệu tác nghiệp
Trên cơ sở các đặc trưng của kho dữ liệu thì có thể phân biệt kho dữ liệu với những CSDL tác nghiệp như sau:
Kho dữ liệu được xây dựng theo hướng chủ đề, nó được thực hiện theo ý đồ của người sử dụng đầu cuối
Kho dữ liệu thường quản lý một khối lượng lớn thông tin hơn so với CSDL tác nghiệp
Kho dữ liệu lưu trữ thông tin tổng hợp theo các chủ đề nghiệp vụ, giúp cung cấp dữ liệu hiệu quả cho người dùng trong việc phân tích.
Kho dữ liệu thường lưu trữ thông tin lịch sử kết nối qua nhiều năm, khác với dữ liệu trong cơ sở dữ liệu tác nghiệp, thường chỉ chứa thông tin mới và có tính thời sự trong khoảng thời gian ngắn.
Kho dữ liệu là nơi lưu trữ các dữ liệu quan trọng từ cơ sở dữ liệu tác nghiệp, được chắt lọc và tổng hợp Nó chỉ bao gồm những thông tin cần thiết phục vụ cho công tác quản lý và hỗ trợ quyết định.
Kiến trúc kho dữ liệu
Kiến trúc đầy đủ của kho dữ liệu bao gồm năm tầng như Hình 1.2 bên dưới
Trong thực tế, không phải lúc nào cũng cần thiết phải có đủ cả năm tầng trong kiến trúc dữ liệu Tầng Staging Area và Data Mart có thể được loại bỏ tùy thuộc vào yêu cầu cụ thể của từng dự án.
Hình 1.2 Kiến trúc kho dữ liệu
Nguồn dữ liệu cho kho dữ liệu có thể một trong các dạng sau:
CSDL của các phần mềm ứng dụng hoặc của các hệ thống tác nghiệp được lưu trữ bởi một hệ quản trị CSDL như Oracle, SQL Server, Access, DB2…
Các tập tin phẳng, các tập tin nhật ký, bảng tính Excel…
Kho dữ liệu, hay còn gọi là kho dữ liệu mức doanh nghiệp, là một thành phần quan trọng lưu trữ dữ liệu lịch sử từ nhiều chủ đề khác nhau Nó bao gồm cả dữ liệu thô và dữ liệu đã được tổng hợp ở mức thấp, phục vụ cho việc phân tích và ra quyết định trong doanh nghiệp.
Dữ liệu thô là tập hợp toàn bộ thông tin chi tiết được thu thập từ nguồn dữ liệu, sau khi đã loại bỏ các thông tin không cần thiết và thực hiện các biến đổi Trong phần này, dữ liệu thường được tổ chức theo chuẩn 3NF (Third Normal Form).
Dữ liệu tổng hợp là phần chứa thông tin được nhóm theo các chiều khác nhau, phục vụ cho mục đích cụ thể của từng tổ chức Các bảng dữ liệu tổng hợp thường không theo chuẩn và được sử dụng cho phân tích báo cáo cũng như làm đầu vào cho việc xây dựng các kho dữ liệu chuyên biệt.
1.2.3 Kho dữ liệu chuyên biệt
Kho dữ liệu chuyên biệt là thành phần lưu trữ dữ liệu theo chủ đề như bán hàng, tồn kho và thu nợ, giúp truy vấn, báo cáo và phân tích dữ liệu nhanh chóng và hiệu quả Mô hình dữ liệu trong kho này thường được tổ chức dưới dạng lược đồ hình sao, với bảng sự kiện nằm ở trung tâm và các bảng chiều thống kê xung quanh.
Ví dụ: lược đồ hình sao về bán hàng như Hình 1.3 ở dưới
Hình 1.3 Ví dụ về lược đồ hình sao
Kho siêu dữ liệu là thành phần quan trọng chứa thông tin về cấu trúc của kho dữ liệu, định nghĩa các công việc tích hợp, và dữ liệu người sử dụng cùng quyền hạn Nó có thể được lưu trữ trong cơ sở dữ liệu quan hệ hoặc dưới dạng hệ thống tập tin có cấu trúc.
Vùng chứa tạm là thành phần lưu trữ dữ liệu trung gian, giúp tối ưu hóa quá trình tích hợp dữ liệu mà không mang lại ý nghĩa cho người dùng cuối Dữ liệu tạm thời có thể được lưu trữ trong cơ sở dữ liệu quan hệ hoặc dưới dạng hệ thống tập tin phẳng.
Người dùng có thể sử dụng các công cụ khai thác kho dữ liệu trên nền web hoặc desktop để thực hiện các công việc như truy vấn, phân tích, báo cáo và khai phá dữ liệu Phân tích số liệu có thể được thực hiện theo các ví dụ minh họa.
Hình 1.4 Ví dụ phân tích dữ liệu bởi người dùng
Qui trình xây dựng kho dữ liệu
1.3.1 Qui trình xây dựng kho dữ liệu
Việc xây dựng và phát triển kho dữ liệu là một quá trình phức tạp, đòi hỏi phương pháp tiếp cận phù hợp Hiện nay, có nhiều cách tiếp cận khác nhau, nhưng tất cả đều dựa trên ba kiểu cơ bản.
Có ba phương pháp tiếp cận chính: tiếp cận theo hướng tăng dần, tiếp cận theo hướng từ trên xuống và tiếp cận theo hướng từ dưới lên Mỗi phương pháp này đều có những ưu và nhược điểm riêng Hình 1.5 dưới đây minh họa một trong những phương pháp tiếp cận phổ biến hiện nay.
Hình 1.5 Qui trình xây dựng kho dữ liệu
Như vậy, để xây dựng và phát triển kho dữ liệu cần phải thực hiện các công việc cơ bản sau:
Lập kế hoạch xây dựng kho dữ liệu là bước quan trọng, nhằm xác định các yêu cầu cần thiết cho việc xây dựng kho dữ liệu và thiết lập kế hoạch thực hiện hiệu quả.
Phân tích yêu cầu người sử dụng: để tập hợp được tất cả các yêu cầu của người sử dụng
Xây dựng mô hình kho dữ liệu: định nghĩa mô hình nghiệp vụ, tạo mô hình logic và tạo mô hình dữ liệu vật lý
Lập kế hoạch cài đặt vật lý là bước quan trọng trong việc lựa chọn kiến trúc tính toán cho hệ thống máy chủ phục vụ kho dữ liệu, đồng thời cũng bao gồm việc lập kế hoạch lưu trữ dữ liệu hiệu quả.
Xây dựng quy trình tích hợp cho kho dữ liệu là việc thiết lập các bước cần thiết để thực hiện tích hợp dữ liệu từ các nguồn khác nhau vào kho dữ liệu một cách hiệu quả Điều này bao gồm việc xác định nguồn dữ liệu, thiết lập các công cụ và phương pháp tích hợp, cũng như đảm bảo tính chính xác và nhất quán của dữ liệu trong kho Việc thực hiện quy trình này không chỉ giúp tối ưu hóa việc quản lý dữ liệu mà còn nâng cao khả năng phân tích và ra quyết định cho doanh nghiệp.
Quản trị kho dữ liệu: cài đặt đưa vào sử dụng kho dữ liệu, quản lý khai thác và cập nhật dữ liệu liên tục cho kho dữ liệu
1.3.2 Chi tiết các bước xây dựng kho dữ liệu
1.3.2.1 Lập kế hoạch xây dựng kho dữ liệu
Việc lập kế hoạch xây dựng kho dữ liệu bao gồm các nội dung cơ bản sau:
Lập kế hoạch tài chính là bước quan trọng trong việc xây dựng và phát triển kho dữ liệu, bao gồm việc ước lượng tổng chi phí cần đầu tư và xác định ai sẽ là người cung cấp cũng như quản lý các chi phí này.
Lập kế hoạch nghiệp vụ là bước quan trọng, trong đó cần xác định rõ các mục đích mà kho dữ liệu sẽ đạt được Đồng thời, việc định nghĩa các chủ đề mà kho dữ liệu sẽ tập trung vào cũng là yếu tố then chốt để đảm bảo tính hiệu quả và phù hợp với nhu cầu sử dụng.
Lập kế hoạch kỹ thuật cho kho dữ liệu là bước quan trọng, bao gồm việc xác định yêu cầu kỹ thuật cần thiết Điều này bao gồm thiết kế kiến trúc tổng thể, mô tả chức năng của từng thành phần, và yêu cầu cụ thể về phần mềm, phần cứng cùng tài nguyên mạng Ngoài ra, việc ước lượng hiệu năng và kích cỡ của hệ thống cũng cần được thực hiện để đảm bảo kho dữ liệu hoạt động hiệu quả.
1.3.2.2 Xác định các yêu cầu khai thác thông tin từ kho dữ liệu
Mục đích xây dựng kho dữ liệu là phục vụ nhu cầu khai thác thông tin của người dùng, do đó, việc xác định yêu cầu khai thác thông tin là rất quan trọng Đây là căn cứ để đánh giá mức độ thành công của kho dữ liệu, bao gồm các nội dung cơ bản liên quan đến nhu cầu và mục tiêu sử dụng.
Trong kho dữ liệu, có bốn dạng người sử dụng chính, bao gồm lãnh đạo, quản lý phòng ban, chuyên viên phân tích và cán bộ tin học Mỗi nhóm người sử dụng này đóng vai trò quan trọng trong việc khai thác và phân tích dữ liệu để đưa ra quyết định hiệu quả.
Xác định tập hợp các yêu cầu của người sử dụng: xác định các nghiệp vụ, các thuộc tính các phân cấp mà nguời dùng cần khai thác
Xác định yêu cầu khai thác thông tin của người sử dụng là bước quan trọng, bao gồm việc phân loại các mức độ yêu cầu phân tích như tổng hợp, chi tiết và bất thường Đồng thời, cần xác định phương pháp khai thác thông tin hiệu quả để đáp ứng nhu cầu của người dùng.
Quản lý công việc khai thác thông tin của người sử dụng là rất quan trọng, yêu cầu truy cập và khai thác cần được quản lý để đảm bảo tính dễ dàng cho người dùng, đồng thời vẫn bảo vệ an toàn và bảo mật cho hệ thống.
1.3.2.3 Xây dựng mô hình kho dữ liệu
Việc xây dựng mô hình kho dữ liệu sẽ được thực hiện qua bốn bước cơ bản sau:
Xác định mô hình nghiệp vụ;
Tạo mô hình mức tổng hợp;
Tạo mô hình vật lý
Tuần tự các bước được thể hiện trong Hình 1.6 bên dưới
Hình 1.6 Các bước xây dựng mô hình kho dữ liệu
Việc xác định mô hình nghiệp vụ dựa trên các bước sau:
Xác định các yêu cầu nghiệp vụ
Xác định các đại lượng tính toán như số lượng, thành tiền, khuyến mãi
Xác định các chiều dữ liệu như hàng hoá, khách hàng, kênh bán hàng, vùng miền, thời gian
Xác định các định nghĩa nghiệp vụ và các qui tắc nghiệp vụ
Xác định nguồn dữ liệu chính: nguồn dữ liệu có liên quan đến các nghiệp vụ cần thiết cho kho dữ liệu
Xác định nguồn dữ liệu khác: nguồn dữ liệu từ bên ngoài, dữ liệu không phải dạng CSDL quan hệ
Sau khi xác định các chủ đề cho kho dữ liệu, bước tiếp theo là tạo mô hình logic cho kho dữ liệu Có ba loại mô hình phổ biến được sử dụng: mô hình chuẩn hóa, mô hình phi chuẩn hóa và mô hình hình sao Mỗi loại mô hình này có những đặc điểm riêng biệt và ứng dụng khác nhau trong việc tổ chức và quản lý dữ liệu hiệu quả.
Mô hình chuẩn hoá: tức là dữ liệu được tổ chức theo chuẩn, thường là theo chuẩn 3NF giống như khi tổ chức dữ liệu trong OLTP
Mô hình phi chuẩn là phương pháp lưu trữ dữ liệu trong các bảng, nhằm mục đích phi chuẩn hóa để tích hợp nhiều cột truy cập vào một bảng chung Điều này giúp tránh việc kết hợp các bảng, từ đó tăng tốc độ truy vấn và đơn giản hóa quy trình thực hiện các truy vấn.
Mô hình hình sao là một cấu trúc dữ liệu tổ chức thông tin thành các sơ đồ với một bảng sự kiện ở trung tâm và các bảng chiều xung quanh Bảng sự kiện chứa các đại lượng tính toán cùng với các trường tham chiếu tới các bảng chiều, giúp tối ưu hóa quá trình truy vấn và phân tích dữ liệu.
Tạo mô hình mức tổng hợp: mô hình này chứa các loại bảng dữ liệu sau:
Bảng tổng hợp: chứa dữ liệu tổng hợp ở mức cao thường là tổng hợp dữ liệu từ bảng sự kiện theo một hoặc vài chiều
Tổng kết chương
Chương này tóm tắt những nội dung cơ bản về kho dữ liệu, nhằm cung cấp nền tảng cho các chương sau Nội dung bao gồm khái niệm, đặc tính, kiến trúc tổng thể và quy trình xây dựng kho dữ liệu.
CÔNG NGHỆ KHO DỮ LIỆU TRONG SQL SERVER
Lý do sử dụng công nghệ kho dữ liệu của Microsoft
Để xây dựng kho dữ liệu hiệu quả, có thể sử dụng nhiều công cụ từ các hãng lớn như Oracle, IBM, Microsoft, SAP, Business Objects và SAS Mỗi hãng cung cấp giải pháp và bộ công cụ riêng, với những ưu điểm và nhược điểm khác nhau Do đó, việc lựa chọn giải pháp phù hợp cần dựa vào điều kiện cụ thể của từng dự án.
Luận văn này tập trung vào việc ứng dụng công nghệ của Microsoft, với nền tảng SQL Server 2008, trong việc xây dựng kho dữ liệu Dưới đây là một số ưu điểm nổi bật của công nghệ Microsoft trong lĩnh vực này.
Tính toàn diện của bộ công cụ phần mềm Microsoft cho phép người dùng xây dựng kho dữ liệu và giải pháp trí tuệ doanh nghiệp hoàn chỉnh, bao gồm hệ điều hành, hệ quản trị CSDL, môi trường phát triển, cổng chia sẻ thông tin và bộ công cụ hỗ trợ văn phòng như Excel Tất cả các công cụ này hoàn toàn tương thích và hoạt động hiệu quả, đảm bảo cung cấp đầy đủ các tính năng cần thiết cho người dùng.
Chi phí đầu tư cho hệ quản trị CSDL SQL Server của Microsoft thường thấp hơn so với các hãng khác, bao gồm chi phí bản quyền, hỗ trợ kỹ thuật, đào tạo, phát triển và vận hành hệ thống Việc quản trị SQL Server dễ dàng hơn giúp giảm thiểu nhân lực và thời gian đào tạo Hơn nữa, công nghệ lập trình Net kết hợp với CSDL SQL Server đang ngày càng phổ biến trong doanh nghiệp, cho phép tận dụng nguồn nhân lực sẵn có để tiếp nhận và mở rộng kho dữ liệu.
Tính mở của kho dữ liệu cho phép sử dụng các công cụ của Microsoft, nhưng cũng có thể thay thế bằng các công cụ từ nhà phát triển thứ ba.
Kho dữ liệu của Microsoft hiện nay có khả năng mở rộng và hiệu năng cao, đáp ứng nhu cầu lưu trữ lớn và xử lý dữ liệu hiệu quả.
Kho dữ liệu 10 terabytes đang trở nên phổ biến, với một số kho dữ liệu đã đạt dung lượng lên đến 50 terabytes Microsoft đang mở rộng các sản phẩm SQL Server của mình để hỗ trợ xử lý song song, nhằm đáp ứng nhu cầu cho kho dữ liệu có dung lượng lên đến hàng trăm terabytes.
Microsoft đã tăng cường đầu tư vào trí tuệ doanh nghiệp, và SQL Server 2008 đã tích hợp đầy đủ các công cụ phát triển ứng dụng trong lĩnh vực này, bao gồm tích hợp dữ liệu, lập báo cáo, phân tích số liệu và quản lý.
Giải pháp tổng thể kho dữ liệu của Microsoft
Trong những năm gần đây, Microsoft đã chú trọng phát triển các giải pháp trí tuệ doanh nghiệp, đặc biệt là trong lĩnh vực kho dữ liệu Hãng xác định đây là một trong những hướng đi chiến lược chính mà họ sẽ tiếp tục theo đuổi Giải pháp tổng thể của Microsoft cho DW/BI được minh họa trong hình 2.1 dưới đây.
Hình 2.1 Giải pháp DW/BI của Microsoft
Tầng dữ liệu nguồn là phần quan trọng trong kho dữ liệu, nơi lưu trữ dữ liệu từ nhiều ứng dụng khác nhau như Microsoft Dynamics, Siebel, SAP, cũng như từ các hệ quản trị cơ sở dữ liệu đa dạng như Oracle, DB2 và Informix.
Tầng nền tảng: là tầng chứa toàn bộ công cụ nền tảng cho trí tuệ doanh nghiệp Tầng này bao gồm các công cụ và dịch vụ sau:
Dịch vụ tích hợp dữ liệu SSIS là nền tảng quan trọng để phát triển các giải pháp tích hợp dữ liệu, cho phép tạo ra các gói nhằm thực hiện quy trình trích xuất, biến đổi và nạp dữ liệu vào các đích mong muốn.
Hệ quản trị cơ sở dữ liệu SQL Server là nền tảng chính cho việc lưu trữ, xử lý và bảo vệ an ninh dữ liệu Nó cung cấp khả năng kiểm soát truy cập hiệu quả và xử lý giao dịch nhanh chóng, đáp ứng hầu hết các yêu cầu liên quan đến dữ liệu.
Dịch vụ báo cáo SSRS cho phép người dùng tạo báo cáo từ nhiều nguồn dữ liệu khác nhau, xuất bản báo cáo với các định dạng đa dạng và quản lý việc sử dụng báo cáo một cách tập trung.
Dịch vụ phân tích SSAS cung cấp công nghệ OLAP, hỗ trợ việc tạo, khai thác và quản lý các khối dữ liệu đa chiều từ nhiều nguồn khác nhau Nó cũng cho phép thiết kế và trình bày trực quan các mô hình khai phá dữ liệu, được xây dựng từ các nguồn dữ liệu đa dạng thông qua nhiều thuật toán khai phá chuẩn.
Tầng khai thác là nơi cung cấp các công cụ cho người dùng cuối để thực hiện việc khai thác kho dữ liệu, bao gồm việc sử dụng Excel và PerformancePoint để tạo bảng tính, báo cáo, bảng điều khiển và thẻ tính điểm Tầng này cũng đóng vai trò quan trọng trong việc phân phối và chia sẻ các bảng tính, báo cáo và bảng điều khiển đến người dùng cuối qua mạng Intranet hoặc Internet thông qua phần mềm.
Cải tiến cho kho dữ liệu trong SQL Server 2008
SQL Server 2008 đã có những cải tiến đáng kể cho kho dữ liệu, với khả năng đáp ứng 95% các yêu cầu của thị trường hiện nay Dưới đây là một số thay đổi quan trọng của SQL Server 2008 dành cho kho dữ liệu.
Cho phép tạo các bảng sự kiện với kích thước rất lớn lên tới 100 tỷ hàng
Câu lệnh thao tác gộp cho phép thực hiện nhiều thao tác trên các bảng dữ liệu với hiệu suất cao, đồng thời kết hợp các thao tác thêm mới, sửa và xóa vào một câu lệnh duy nhất, giúp việc viết câu lệnh trở nên rõ ràng và nhanh chóng hơn.
Cải thiện câu lệnh chèn dữ liệu vào bảng bằng cách sử dụng câu lệnh chọn sẽ giúp tăng tốc độ thực hiện và giảm thiểu bộ nhớ làm việc.
Hỗ trợ tính năng Change Data Capture (CDC) cho cơ sở dữ liệu trên SQL Server 2008 cho phép tự động đánh dấu sự thay đổi của bảng theo thời gian Tính năng này giúp người dùng dễ dàng lấy ra tập dữ liệu đã thay đổi trong khoảng thời gian xác định, đặc biệt hữu ích cho các bảng dữ liệu nguồn không có cột ghi lại sự thay đổi dữ liệu theo thời gian.
Cải tiến công cụ tra cứu dùng cho tích hợp, cho phép sử dụng bộ nhớ đệm một cách tối đa tại máy chủ tích hợp
Cho phép nén dữ liệu lưu trữ cho các bảng sự kiện giúp có thể giảm dung lượng lưu trữ xuống được từ 2-7 lần
Cải tiến công nghệ phân vùng và xử lý song song giúp có thể đáp ứng câu truy vấn nhanh hơn 3-5 lần so với phiên bản 2005
Cải tiến hiệu suất thực thi câu lệnh truy vấn cho giản đồ hình sao đã đạt được kết quả ấn tượng nhờ áp dụng công nghệ chỉ mục Bitmap, giúp rút ngắn thời gian thực thi đáng kể.
Tính năng sao lưu nén trong SQL Server 2008 giúp giảm đáng kể kích thước và thời gian thực hiện so với sao lưu thông thường, cho phép sao lưu cơ sở dữ liệu lên đến 200GB thông qua câu lệnh tích hợp sẵn.
Cải thiện khả năng quản lý tài nguyên như bộ nhớ, bộ vi xử lý và các tiến trình là rất quan trọng Điều này cho phép cấu hình tài nguyên cho từng người dùng, ứng dụng và phiên làm việc một cách hiệu quả.
Các công cụ cho kho dữ liệu trong SQL Server 2008
SQL Server 2008 không chỉ là một hệ quản trị cơ sở dữ liệu (RDBMS) dành cho các ứng dụng tác nghiệp, mà còn là một bộ công cụ toàn diện hỗ trợ xây dựng kho dữ liệu Nó cung cấp các công cụ và dịch vụ cần thiết cho việc phát triển và quản lý kho dữ liệu hiệu quả.
Hệ quản trị CSDL quan hệ: dùng để cài đặt CSDL quan hệ cho kho dữ liệu
Dịch vụ tích hợp dữ liệu: sử dụng để tạo các gói để tích hợp dữ liệu
Dịch vụ báo cáo: sử dụng cho việc cài đặt, quản lý và trình bày các báo cáo
Dịch vụ phân tích: sử dụng cho việc thiết kế cài đặt các khối dữ liệu, dùng cho việc phân tích dữ liệu theo đa chiều
Công cụ quản lý là phần mềm giúp theo dõi và quản lý toàn bộ dịch vụ, bao gồm việc tạo và thiết lập lịch biểu cho các công việc tự động Ngoài SSMS, công cụ này còn cho phép người dùng theo dõi và điều khiển các công việc một cách hiệu quả.
Công cụ phát triển BI của SQL Server là một thành phần trong bộ công cụ phát triển ứng dụng Visual Studio 2008 của Microsoft, hỗ trợ phát triển ứng dụng BI và kho dữ liệu.
Trong các phần tiếp theo, chúng tôi sẽ trình bày chi tiết về kiến trúc và các tính năng cơ bản của các dịch vụ chính được sử dụng để xây dựng và quản lý kho dữ liệu.
2.4.1 Dịch vụ tích hợp dữ liệu
SSIS là nền tảng tích hợp dữ liệu hiệu quả, giúp phát triển quy trình tích hợp nhanh chóng cho kho dữ liệu Với giao diện phát triển đồ họa, người dùng có thể dễ dàng kéo và thả các đối tượng, đồng thời kết hợp lập trình mã lệnh trong giao diện soạn thảo.
Kiến trúc của dịch vụ tích hợp SSIS như Hình 2.2 sau đây
Hình 2.2 Kiến trúc dịch vụ tích hợp SSIS
Kiến trúc của SSIS chứa bốn thành phần cơ bản:
Lõi thời gian chạy và các thực thi thời gian chạy của SSIS;
Luồng dữ liệu và các thành phần của luồng dữ liệu;
Người sử dụng đầu cuối SSIS
Dịch vụ SSIS là một thành phần của Windows, được cài đặt khi cài đặt SSIS trong SQL Server 2008, có nhiệm vụ theo dõi và quản lý quá trình thực thi của các gói.
Lõi thời gian chạy và các chương trình hỗ trợ sẽ thực thi các gói tích hợp SSIS, đảm bảo quản lý, ghi nhật ký, gỡ rối và cấu hình kết nối Ngoài ra, nó còn quản lý các sự kiện phát sinh trong quá trình chạy, thực hiện việc gửi email và ghi nhật ký.
Gói trong SSIS là thành phần chính, tương tự như một chương trình thực thi trên hệ điều hành Windows Nó bao gồm tập hợp các nhiệm vụ được thực hiện theo trình tự cụ thể Gói có thể được lưu trữ trong cơ sở dữ liệu MSDB, là cơ sở dữ liệu hệ thống mặc định của SQL Server, hoặc được xuất ra dưới dạng tệp có đuôi dtsx.
Tác vụ là đơn vị công việc trong một gói, tương tự như phương thức trong ngôn ngữ lập trình Các tác vụ có thể bao gồm việc di chuyển tập tin, nạp nội dung tập tin và cơ sở dữ liệu, hoặc gửi thư điện tử Mặc dù SSIS cung cấp nhiều tác vụ sẵn có, người dùng cũng có khả năng tạo ra các tác vụ riêng thông qua ngôn ngữ lập trình.
C# hoặc VB.net dựa trên mô hình đối tượng của SSIS Một số tác vụ phổ biến được cung cấp sẵn trong SSIS như sau:
Bulk Insert Task: nạp dữ liệu vào một bảng sử dụng câu lệnh BULK
Data Flow Task: đây là tác vụ đặc biệt dùng để lấy dữ liệu từ nguồn, biến đổi và nạp vào đích
Execute Package Task: cho phép thưc thi một gói trong gói hiện hành, tạo cho gói SSIS có tính mô đun hóa
Thực hiện Nhiệm vụ Quy trình: cho phép chạy một chương trình bên ngoài cho một nhiệm vụ cụ thể, chẳng hạn như chia nhỏ một tệp thành nhiều tệp con để xử lý từng tệp con một cách hiệu quả.
Thực hiện tác vụ Execute SQL Task để chạy câu lệnh SQL hoặc thủ tục lưu trữ Sử dụng File System Task để thao tác với tệp và thư mục, bao gồm các chức năng như tạo mới, đổi tên, sao chép hoặc xóa.
FTP Task: gửi nhận tập tin thông qua một dịch vụ truyền tập tin
Script Task: chạy một đoạn mã nguồn bằng VB.NET hoặc C#
Send Mail Task: thực hiện gửi thư điện tử
Analysis Services Processing Task: thực hiện các thao tác cho các khối dữ liệu
Web Service Task: thực hiện một phương thức nào đấy của một dịch vụ web
XML Task là quá trình thực thi các tác vụ liên quan đến tập tin XML, bao gồm phân tích và xử lý nội dung của nó Các tác vụ này có thể bao gồm việc ghép, chia tách hoặc định dạng lại tập tin XML để đáp ứng nhu cầu sử dụng khác nhau.
Khi tạo tác vụ luồng dữ liệu trong BIDS, các phần tử luồng dữ liệu sẽ được hiển thị để hỗ trợ thiết kế Thẻ luồng điều khiển chứa các luồng chính của gói, trong khi thẻ luồng dữ liệu bao gồm các bước biến đổi dữ liệu Nhiều luồng dữ liệu có thể được tạo trong thẻ luồng điều khiển, và khi chọn một luồng dữ liệu cụ thể, thẻ luồng điều khiển sẽ hiển thị tất cả các bước biến đổi liên quan Hình 2.3 dưới đây minh họa nội dung của một luồng dữ liệu.
Hình 2.3 Ví dụ về một luồng dữ liệu
Nguồn trong SSIS chỉ ra vị trí của dữ liệu trước khi xử lý, thường là kết nối của gói SSIS Một số nguồn phổ biến được sử dụng trong SSIS bao gồm:
OLE DB: kết nối đến một nguồn dữ liệu OLE DB như SQL Server,
Excel là một công cụ mạnh mẽ cho việc quản lý bảng tính, cho phép người dùng thực hiện các câu lệnh truy vấn SQL để trích xuất dữ liệu cần thiết từ bảng tính.
Flat File: kết nối đến tập tin mà các các cột dữ liệu được phân cách bởi các dấu phân cách hoặc chiều dài các cột là cố định
XML: lấy dữ liệu từ một tập tin XML
Qui trình xây dựng kho dữ liệu của Microsoft
Xây dựng kho dữ liệu là một quá trình phức tạp, đòi hỏi nhiều công đoạn và phương pháp, vì vậy cần đơn giản hóa hệ thống để giảm bớt sự phức tạp Microsoft đề xuất vòng đời của kho dữ liệu gồm 13 bước chính, mỗi bước như một hộp, quyết định sự thành công của việc xây dựng kho dữ liệu Các bước này được minh họa trong Hình 2.9 bên dưới.
Qui trình xây dựng kho dữ liệu của Microsoft bắt đầu với việc xác định yêu cầu nghiệp vụ, được đặt ở vị trí trung tâm, tạo nền tảng cho ba khối tiếp theo Đồng thời, mũi tên chỉ ngược về hộp kế hoạch dự án cho thấy rằng có thể cần điều chỉnh kế hoạch dự án khi có sự hiểu biết sâu hơn về yêu cầu nghiệp vụ và thứ tự ưu tiên.
Tiếp đến là ba khối ở giữa vòng đời tập trung cho ba nội dung công việc riêng biệt sau:
Khối trên cùng liên quan đến kỹ thuật, bao gồm việc lập kế hoạch lựa chọn các công cụ công nghệ Microsoft cho dự án và thực hiện cài đặt cũng như cấu hình các công cụ này.
Khối trung tâm của quá trình liên quan đến dữ liệu bao gồm thiết kế mô hình đa chiều, thiết kế vật lý và phát triển quy trình tích hợp Các bước này là cần thiết để xây dựng kho dữ liệu hiệu quả, tuy nhiên, kho dữ liệu sẽ không đạt được thành công nếu thiếu các bước quan trọng khác.
Khối cuối cùng liên quan đến ứng dụng BI, tức gồm việc thiết kế và phát triển ứng dụng BI cho người dùng nghiệp vụ
Khi triển khai hệ thống, các khối sẽ được kết hợp lại, tạo cơ hội quan trọng để tạo ấn tượng tốt đầu tiên cho khách hàng Sau khi hoàn tất triển khai, việc bảo trì DW/BI sẽ được thực hiện bởi cả con người và công cụ Giai đoạn tăng trưởng của dự án quay trở lại giai đoạn đầu, nhấn mạnh rằng phương pháp tiếp cận gia tăng là yếu tố cốt lõi trong việc cung cấp giá trị doanh nghiệp.
Hộp quản lý dự án là yếu tố quan trọng nhất trong toàn bộ vòng đời dự án, với một quản lý dự án chịu trách nhiệm cao nhất về tiến độ và kết quả Các trưởng nhóm cần có khả năng giao tiếp hiệu quả giữa các kỹ sư công nghệ và các nhà kinh doanh, bao gồm cả các giám đốc điều hành cấp cao trong doanh nghiệp.
Tổng kết chương
Chương này tập trung vào kiến trúc và công nghệ kho dữ liệu của SQL Server 2008, với ba tầng chính trong kiến trúc DW/BI của Microsoft: tầng dữ liệu nguồn hỗ trợ nhiều loại cơ sở dữ liệu khác nhau, tầng nền tảng bao gồm các công cụ và dịch vụ của SQL Server giúp xây dựng kho dữ liệu, và tầng khai thác với các công cụ tạo và chia sẻ báo cáo Bên cạnh đó, chương cũng cung cấp kiến thức tổng quát về các dịch vụ và công cụ sử dụng trong việc xây dựng thử nghiệm kho dữ liệu siêu thị.
XÂY DỰNG KHO DỮ LIỆU SIÊU THỊ
Giới thiệu về siêu thị
Siêu thị này tọa lạc tại Hà Nội, thuộc quy mô vừa, chuyên cung cấp thực phẩm và đồ dùng thiết yếu hàng ngày Với sáu quầy thu ngân, siêu thị hiện đang bán khoảng 37 nghìn mã hàng hóa, được phân loại thành nhiều nhóm sản phẩm khác nhau.
Dệt kim, điện gia dụng, điện tử điện lạnh, đồ chơi giải trí, đồ gia dụng, đồ uống, gốm sứ, hóa mỹ phẩm, nội thất, thời trang, thực phẩm, trang trí, lưu niệm, văn hóa phẩm và văn phòng phẩm là những lĩnh vực đa dạng trong ngành thương mại, mỗi lĩnh vực đều có vai trò quan trọng trong đời sống hàng ngày và góp phần nâng cao chất lượng cuộc sống.
Hình 3.1 Mô hình hoạt động của phềm mềm quản lý siêu thị
Siêu thị đã triển khai phần mềm quản lý và bán hàng, cho phép khách hàng thực hiện thanh toán trực tiếp tại quầy thu ngân Dữ liệu khách hàng được tập trung và lưu trữ trên máy chủ SQL Server 2008 Hệ thống phần mềm hiện tại được bố trí theo sơ đồ hoạt động như hình 3.1.
Khách hàng chủ yếu của siêu thị là người dân địa phương sống gần đó, họ thường mua sắm trực tiếp bằng tiền mặt Mặc dù siêu thị có một số lượng khách hàng đăng ký thẻ, nhưng con số này vẫn còn hạn chế, chỉ hơn một nghìn khách hàng.
Yêu cầu xây dựng kho dữ liệu
Phần mềm quản lý siêu thị hiện tại hoạt động ổn định với dữ liệu lưu trữ nhiều năm, nhưng vẫn thiếu khả năng tạo báo cáo động và phân tích số liệu đa chiều, đặc biệt là dữ liệu bán hàng Do đó, siêu thị cần xây dựng một kho dữ liệu để đáp ứng các yêu cầu báo cáo và phân tích hiệu quả hơn.
1 Lưu trữ tất cả các dữ liệu thô trong vòng 5-10 năm để có thể thực hiện tra cứu đối chiếu số liệu sau này Kể cả cho việc mở rộng việc khai phá dữ liệu trong tương lai gần
2 Cho phép phân tích số liệu bán hàng theo các chiều sau:
Ngày bán được phân cấp theo năm, quý, tháng và ngày Mặt hàng được phân loại theo loại hàng, nhóm hàng và hàng cụ thể Khách hàng được phân cấp theo loại khách hàng và từng khách hàng riêng lẻ Phương thức thanh toán cũng được xác định rõ ràng.
Loại tiền tệ thanh toán Quầy thu ngân
3 Cho phép phân tích số liệu đặt và mua hàng từ nhà cung cấp
Ngày đặt và ngày nhận hàng được phân cấp theo năm, quý, tháng và ngày Mặt hàng được phân loại theo loại hàng, nhóm hàng và hàng cụ thể Thông tin về nhà cung cấp cũng cần được ghi rõ để đảm bảo quản lý hiệu quả.
Phương thức thanh toán Loại tiền tệ thanh toán
4 Cho phép phân tích tồn kho hàng theo các tiêu chí:
Ngày báo cáo: theo phân cấp năm → quí → tháng → ngày Mặt hàng: theo phân cấp loại hàng → nhóm hàng → hàng Kho
5 Cho phép phân tích tình hình tài chính theo các tiêu chí:
Ngày báo cáo: theo phân cấp năm → quí → tháng → ngày Khách hàng: theo phân cấp loại khách hàng → khách hàng Nhà cung cấp
Loại tiền tệ Phương thức thanh toán
6 Cho phép sử dụng Excel để thực hiện phân tích và báo cáo
7 Cho phép thực hiện việc phân tích và báo cáo từ xa qua qua giao diện dựa trên nền web
Nhu cầu của siêu thị cần được xây dựng dựa trên bốn chủ đề chính, mỗi chủ đề sẽ được phân tích từ nhiều góc độ khác nhau Chi tiết về các khía cạnh của từng chủ đề được thể hiện trong Hình 3.2 bên dưới.
Hình 3.2 Các chiều phân tích theo các chủ đề
3.3 Phạm vi thực hiện trong luận văn
Theo yêu cầu của siêu thị, kho dữ liệu cần xây dựng phải bao gồm bốn chủ đề: bán hàng, mua hàng, kho và tài chính, trong đó chủ đề bán hàng là quan trọng nhất Bán hàng là đầu ra chính của siêu thị, ảnh hưởng trực tiếp đến doanh thu Việc phát triển chủ đề bán hàng giúp quản lý nắm bắt thông tin liên quan, như xu hướng bán hàng theo tháng, giờ cao điểm của khách hàng, và các mặt hàng bán chạy vào những dịp đặc biệt Những thông tin này hỗ trợ quản lý lập kế hoạch nhập hàng, sắp xếp sản phẩm và bố trí nhân viên hiệu quả hơn Do đó, luận văn tập trung vào chủ đề bán hàng, nhưng thiết kế kho dữ liệu vẫn tuân theo cấu trúc tổng thể để dễ dàng mở rộng cho các chủ đề khác trong tương lai.
Xây dựng kho dữ liệu doanh nghiệp bao gồm các chiều dữ liệu chung như thời gian, mặt hàng, khách hàng, quầy thu ngân, kho, loại tiền tệ và phương thức thanh toán Ngoài ra, cần tích hợp tất cả dữ liệu thô từ phần mềm quản lý bán siêu thị liên quan đến hoạt động bán hàng.
Xây dựng kho dữ liệu chuyên biệt: chỉ tập trung cho chủ đề bán hàng
Xây dựng quy trình tích hợp dữ liệu cho kho dữ liệu là bước quan trọng để chuyển dữ liệu từ phần mềm quản lý siêu thị vào kho dữ liệu doanh nghiệp Sau đó, dữ liệu sẽ được chuyển tiếp vào kho dữ liệu chuyên biệt dành cho bán hàng.
Xây dựng khối dữ liệu bán hàng nhằm mục đích sử dụng cho việc phân tích số liệu bán hàng
Sử dụng chức năng PivotTable trong Excel 2007 để tạo một số mẫu phân tích phổ biến nhất cho người dùng dựa trên khối dữ liệu
Tạo mẫu báo cáo và phân tích trên cổng thông tin quản lý giúp người dùng dễ dàng khai thác dữ liệu từ xa thông qua giao diện web.
Cài đặt lịch tự động cho việc tích hợp dữ liệu và cập nhật khối dữ liệu bán hàng hàng ngày vào buổi trưa và buổi tối.
3.4 Dữ liệu nguồn cho kho dữ liệu
Dữ liệu nguồn cho kho dữ liệu chủ yếu được lấy từ cơ sở dữ liệu của phần mềm quản lý siêu thị đang được áp dụng Dưới đây là bảng 3.1 liệt kê các bảng dữ liệu nguồn sử dụng cho kho dữ liệu.
Bảng 3.1 Danh sách các bảng trong kho dữ liệu SieuThi_SRC
STT Tên bảng Diễn giải
Bảng tb_T_Transaction lưu trữ thông tin cơ bản về các giao dịch bán hàng, bao gồm bán lẻ, bán buôn, trao đổi và khuyến mại, nhưng chủ yếu tập trung vào bán lẻ Thông tin quan trọng nhất cần lưu ý trong bảng này là ngày giờ của từng giao dịch.
Bảng 2 tb_T_POSRetail cung cấp thông tin cơ bản về giao dịch bán lẻ qua hệ thống POS, bao gồm các yếu tố quan trọng như khách hàng, phương thức thanh toán và quầy thu ngân.
Bảng 3 tb_T_POSRetail_Detail lưu trữ thông tin chi tiết về các giao dịch bán lẻ qua hệ thống POS Các thông tin quan trọng bao gồm mã hàng, đơn giá, số lượng và thành tiền của từng mục hàng trong mỗi giao dịch.
4 tb_M_CustomerType Lưu danh sách loại khách hàng
5 tb_M_Customer Lưu danh sách khách hàng
6 tb_M_Tax Lưu danh sách loại thuế VAT
7 tb_M_PaymentMethod Lưu danh sách phương thức thanh toán (tiền mặt, chuyển khoản, thẻ…)
8 tb_M_Store Lưu danh sách các kho hàng hóa
9 tb_M_Category Lưu danh sách loại hàng theo phân cấp Trong CSDL này thì loại hàng được phân cấp thành loại hàng và nhóm hàng
10 tb_M_Product Lưu danh sách hàng hóa được bày bán trong siêu thị
11 tb_M_CashDesk Lưu danh sách quầy thu ngân
12 tb_M_Currency Lưu danh sách các loại tiền tệ
Hình 3.3 sau đây là sơ đồ quan hệ các bảng dữ liệu nguồn
Hình 3.3 Sơ đồ quan hệ các bảng dữ liệu nguồn
3.5 Xây dựng kho dữ liệu siêu thị
3.5.1 Kiến trúc tổng thể kho dữ liệu
Kho dữ liệu siêu thị sẽ được tổ chức theo kiến trúc như Hình 3.4 bên dưới
Hình 3.4 Kiến trúc tổng thể kho dữ liệu siêu thị
Kiến trúc kho dữ liệu bao gồm các thành phần như sau:
SieuThi_SRC: là nguồn dữ liệu của kho dữ liệu, chính là CSDL tác nghiệp của phần mềm quản lý siêu thị
SieuThi_STG là cơ sở dữ liệu tạm thời được sử dụng để tích hợp dữ liệu cho kho dữ liệu Nó bao gồm các bảng tạm tương ứng với các bảng cần lấy từ cơ sở dữ liệu nguồn, các bảng siêu dữ liệu và một số thủ tục hỗ trợ trong quá trình tích hợp dữ liệu.
Tổng kết chương
Chương này trình bày quá trình xây dựng kho dữ liệu thử nghiệm cho siêu thị T-Mart, bao gồm cấu trúc cơ sở dữ liệu của kho dữ liệu SieuThi_DW và kho dữ liệu chuyên biệt SieuThi_DM Nó cũng đề cập đến các gói tích hợp dữ liệu, khối dữ liệu, và các mẫu báo cáo phân tích dựa trên khối dữ liệu Cuối cùng, chương còn nêu lịch thực hiện tự động cho các gói tích hợp và làm mới khối dữ liệu.
KẾT QUẢ CÀI ĐẶT THỬ NGHIỆM
Môi trường cài đặt
Tất cả các CSDL, các gói tích hợp và báo cáo đều được cài đặt trong trong máy xách tay với cấu hình như sau:
CPU: Core Duo 2.1 GHz RAM: 3GB, HDD: 320 GB
Sử dụng hệ quản trị CSDL SQL Server 2008, phiên bản cụ thể như sau:
Microsoft SQL Server 2008 (RTM) - 10.0.1600.22 (Intel X86) Jul 9 2008 14:43:34 Copyright (c) 1988-2008 Microsoft Corporation Enterprise Edition on Windows NT 5.1 (Build 2600: Service Pack 3)
Công cụ phân tích: sử dụng chức năng PivotTable của Excel 2007.
Dữ liệu thử nghiệm
Thực hiện thử nghiệm dữ liệu thật của siêu thị trong vòng hơn 2 năm từ 08/2008 đến 10/2010 Số bản ghi của các bảng trong CSDL nguồn như Bảng 4.1 dưới đây
Bảng 4.1 Số bản ghi của các bảng trong SieuThi_SRC
STT Tên Bảng Số bản ghi
Chi tiết số bản ghi của các bảng trong kho dữ liệu doanh nghiệp SieuThi_DW như Bảng 4.2 sau đây
Bảng 4.2 Số bản ghi của các bảng trong SieuThi_DW
STT Tên Bảng Số bản ghi
Chi tiết số bản ghi của các bảng trong kho dữ liệu chuyên biệt SieuThi_DM như bảng sau:
Bảng 4.3 Số bản ghi của các bảng trong SieuThi_DM
STT Tên Bảng Số bản ghi
Kết quả chạy thử nghiệm
4.3.1 Thời gian chạy tích hợp dữ liệu
Thời gian khi chạy khởi tạo dữ liệu lần đầu tiên là:
Gói PKG_STG_Controller: 53 giây Gói PKG_DW_Controller: 1 phút 21 giây
Gói PKG_DM_Controller: 1 phút 51 giây Thời gian khi chạy cho một ngày dữ liệu phát sinh:
Gói PKG_STG_Controller: 5 giây Gói PKG_DW_Controller: 35 giây Gói PKG_DM_Controller: 12 giây
4.3.2 Thời gian cập nhật khối dữ liệu
Thời gian cập nhật khối dữ liệu như sau:
Thời gian cập nhập khối lần đầu tiên: 40 giây Thời gian cập nhập thay đổi khối hằng ngày: 32 giây
Ghi chú: Hình 4.1 sau đây là màn hình thể hiện thời gian chạy của công việc gồm tích hợp dữ liệu và cập nhật khối
Hình 4.1 Màn hình lịch sử chạy Job_SieuThi_01
4.3.3 Thời gian phân tích số liệu
Sử dụng các mẫu phân tích trong Excel mang lại kết quả nhanh chóng nhờ vào việc xử lý dữ liệu từ khối lượng lớn Hầu hết các thao tác đều hoàn thành trong thời gian dưới năm giây.
Một số mẫu phân tích và báo cáo
Các báo cáo được tạo ra thông qua công cụ Report Designer và được phân phối qua cổng quản lý báo cáo Report Manager Chúng có khả năng truy xuất dữ liệu từ khối hoặc kho dữ liệu chuyên biệt Hình 4.2 dưới đây trình bày danh sách mẫu các báo cáo đã được thử nghiệm.
Hình 4.2 Danh sách các báo cáo
Chi tiết báo cáo “BC01-Doanh thu bán hàng” như Hình 4.3 sau đây
Hình 4.3 Báo cáo “BC01 - Doanh thu bán hàng theo các năm”
Hoặc chi tiết báo cáo “BC11-Top 10 mặt hàng doanh số cao trong tháng” như
Hình 4.4 Báo cáo “BC11 - Top 10 mặt hàng doanh số cao trong tháng”
Các mẫu phân tích đều được tạo trong tập tin Excel, sử dụng chức năng
PivotTable là công cụ hữu ích để phân tích dữ liệu, với nguồn dữ liệu từ khối Cube_POSRetail Dưới đây là một số mẫu phân tích đã được thiết lập sẵn.
Hình 4.5 là mẫu phân tích số lượng bán theo hàng hóa và thời gian
Hình 4.5 Mẫu phân tích số lượng bán theo hàng hóa và thời gian
Hình 4.6 là mẫu phân tích doanh thu theo tháng giữa các năm
Hình 4.6 Mẫu phân tích doanh thu theo tháng giữa các năm
Tổng kết chương
Chương này tóm tắt môi trường cài đặt, dữ liệu thử nghiệm, kết quả chạy thử nghiệm và các mẫu báo cáo phân tích đã được thiết lập Nội dung chủ yếu bao gồm các số liệu và hình vẽ, giúp trình bày ngắn gọn các kết quả đạt được trong luận văn.