Nói chung quy trình thiết kế Nhà kho dữ liệu bao gồm các bước sau - Xác định yêu cầu của người dùng
- Hướng dẫn người dùng hiểu về công nghệ DWH - Định nghĩa mô hình kinh doanh
- Mô hình hóa các chiều - Chọn mô hình lưu trữ
Trong đó trung tâm là phần Mô hình hóa các chiều.
4.1 Quy trình mô hình hóa theo chiều
4.1.1 Bƣớc 1: Khảo sát quy trình nghiệp vụ của tổ chức
Các quy trình nghiệp vụ thường chứa các chất liệu như đơn đặt hàng, đơn hàng, chuyển hàng, hóa đơn,…
Chú ý là khảo sát quy trình nghiệp vụ chứ không phải chú tâm vào những phòng ban chức năng riêng rẽ. Nếu chúng ta lạc sang hướng này thì sẽ có kết quả là những hệ mô hình chiều riêng rẽ dẫn đến sự trùng lặp dữ liệu thực tế nhưng trên giấy tờ lại mang những nhãn hiệu khác nhau dẫn đến việc dữ liệu không nhất quán
4.1.2 Bƣớc 2: Xác định mức độ chi tiết hay các độ thô (grain)
Khai báo độ thô của quy trình nghiệp vụ, ở đây chính xác là chỉ ra mỗi một hàng trên bảng sự kiện sẽ chứa đến thông tin nào. Nó cung cấp câu trả lời cho câu hỏi “bạn mô tả một hàng trên bảng sự kiện như thế nào”
Các ví dụ về phép khai báo độ thô trong các bảng sự kiện:
- Một dòng trên bảng kê của khách hàng được tích lũy bởi thiết bị quét - Một dòng trên hóa đơn
- Một hình chụp hàng ngày của các cấp kiểm kho cho mỗi sản phẩm trong mỗi kho - Một hình chụp theo tháng cho mỗi tài khoản ngân hàng
Chú ý: các nhóm làm DWH thường bỏ qua hoặc không coi trọng bước này, đó thực sự là một sai lầm. Việc xác định sai mức độ chi tiết sẽ dẫn đến sai tiếp theo trong bước 3 và 4.
4.1.3 Bƣớc 3: Thiết kế các chiều
Chọn các chiều để áp vào mỗi hàng sự kiện. Để phát hiện ra các chiều thì đội ngũ xây dựng DWH cần trả lời câu hỏi : những người tham gia nghiệp vụ mô tả dữ liệu sự kiện là kết quả từ quy trình nghiệp vụ như thế nào. Nếu ở bước 2, độ thô được xác định rõ ràng thì tạo điều kiện thực hiện bước này dễ dàng. Với mỗi lựa chọn chiều chung tôi liệt kê tất cả cả các thược tính có giá trị rời rạc, hoặc thuộc tính text mà sẽ bổ sung cho mỗi bảng chiều. Một ví dụ về các chiều thông dụng là date, sản phẩm, khách hàng, kiểu giao dịch, trạng thái
4.1.4 Bƣớc 4: Xác định các dữ kiện là số
Các dữ kiện số sẽ nằm tại mỗi hàng bảng sự kiện. Thực hiện trả lời câu hỏi “Chúng ta sẽ đo cái gì” để chỉ ra các trường nào được phân tích thống kkee.
4.2 Thực hiện thông qua ví dụ tiêu biểu về bài toán bán lẻ
4.2.1 Khung cảnh thực tế
Một dây chuyền các cửa hàng tạp phẩm nằm rãi rác 3 thành phố lớn tại Việt Nam là Hà Nội, Hồ Chí Minh và Đà Nẵng.
Dây chuyền này bao gồm các kho: các siêu thị với các cửa hàng như tạp phẩm, bơ sữa, thịt, thức ăn lạnh, bánh mỳ, đồ uống, … Mỗi kho có chứa tổng số lượng sản phẩm vào khoảng 60.000.
4.2.2 Cơ sở
- Xây dựng kho DL:
o Mô hình các tiến trình kinh doanh nào ?
o Định nghĩa độ thô của dữ liệu để phù hợp với DWH
o Mô hình hoá cấu trúc DWH
o Biến đổi dữ liệu theo cấu trúc DWH
o Tính toán các tổng hợp và các dữ kiện suy dẫn
4.2.3 Các bảng dữ liệu của hệ thống điều hành tác nghiệp
- Point of sales (POS) data: Dữ liệu bán hàng - Dữ liệu nhà cung cấp
- Dữ liệu kế toán - Dữ liệu khách hàng - Sự quảng cáo
4.2.4 Xác định độ thô của dữ liệu:
Sự quyết định độ thô nào phụ thuộc vào tiến trình kinh doanh và các câu hỏi cần trả lời - Lấy đơn vị theo từng khách hàng từng sản phẩm tại từng kho
- theo từng khách hàng từng sản phẩm tại từng kho - theo nhóm hàng ngày theo từng kho từng sản phẩm - theo nhóm hàng tuần theo từng kho từng sản phẩm - theo nhóm hàng ngày từng sản phẩm tại từng vùng Một số phân tích:
- Dữ kiện theo từng khách hàng từng sản phẩm tại từng kho không phù hợp cho việc phân tích thị trường
- Dữ kiện theo từng tuần, hay tháng cũng không phù hợp vì sẽ không phân tích được sự khác nhau giữa các ngày
4.2.5 Tóm lƣợc
- Chọn các tiến trình kinh doanh cho mô hình
o Sales
- Chọn cấp độ của tiến trình kinh doanh
o SKU by Store by Promotion by Day
o Chọn độ thô - Chọn các chiều
o Thời gian, kho, đợt khuyến mãi, sản phẩm - Chọn các dữ kiện đo lường
o Doanh số, số lượng khách hàng
4.2.7 Ƣớc lƣợng dung lƣợng lƣu trữ
- Chiều thời gian: 2 năm = 730 ngày - Chiều kho: 300 kho
- Chiều sản phẩm: 30,000 sản phẩm, trong đó có khoảng 3000 loại được bán mỗi ngày - Khuyến mãi: 5000 đợt, một sản phẩm chỉ được xuất hiện trong một đợt hàng ngày - Số bản ghi sự kiện: 730*300*3000*1 = 657,000,000
- Số các trường: 4 key + 4 fact = 8 fields
- Kích thước CSDL: 657,000,000 * 8 fields * 4 bytes = 21 GB
a. Chọn lƣợc đồ cho DTW
- Lược đồ bông tuyết có độ chuẩn hóa cao - Sử dụng ít không gian đĩa hơn
- Việc truy cập các bảng phức tạp hơn bởi phải tham chiếu đến nhiều bảng - Lược đồ hình sao dễ quản trị hơn, và đáp ứng yêu cầu trả lời nhanh câu hỏi Chọn luợc đồ hình sao cho DWH
CHƢƠNG IV: QUÁ TRÌNH TRÍCH TÁCH DỮ LIỆU TỪ CÁC HỆ THỐNG NGUỒN VÀO DWH