3.3 ĐÔI NÉT VỀ CÔNG CỤ THỰC HIỆN
3.4.2 PHÂN TÍCH HỆ THỐNG KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ
Mục tiêu của giai đoạn này là phân tích những yêu cầu của bài toán để xác định các chiều thông tin, dữ liệu mà kho dữ liệu sẽ chứa đựng, những yêu
cầu cụ thể của người sử dụng đầu cuối để xác định dữ liệu được lưu trong kho sẽ sử dụng như thế nào.
Các bước phân tích bao gồm:
- Phân tích nghiệp vụ bài toán
- Xác định các nguồn dữ liệu cũng như nội dung dữ liệu sẽ được lưu trong kho dữ liệu
- Phân tích được dữ liệu phát sinh hàng tháng, năm và lượng dữ liệu cần lưu trữ
- Phân tích lớp người sử dụng
- Xác định nhiệm vụ của kho dữ liệu thương mại điện tử
Giai đoạn phân tích hệ thống sẽ tập trung vào phân tích hệ thống về chức năng và phân tích về dữ liệu.
3.4.2.1 Phân tích các chức năng
Chức năng chính của kho dữ liệu là thu thập, tổng hợp, lưu trữ, xử lý và cung cấp thông tin về nghiệp vụ thương mại điện tử như:
- Thông tin về việc quản lý bán hàng hữu hình.
- Thông tin về việc quản lý bán hàng phi vật thể.
- Thông tin về việc quản lý đặt phòng khách sạn.
- Thông tin về việc quản lý đặt vé máy bay.
- Thông tin về việc quản lý các dịch vụ du lịch.
Đồng thời sử dụng công cụ trợ giúp cho việc phân tích số liệu hỗ trợ ra quyết định.
Kho dữ liệu thương mại điện tử chứa đựng nhiều thông tin tổng hợp từ các hệ tác nghiệp khác nhau phục vụ cho công tác nghiệp vụ thương mại điện tử.
Các dữ liệu chi tiết phục vụ cho các chức năng chính của hệ thống tác nghiệp không được lưu trong kho. Kho dữ liệu TMĐT được thiết lập để thu thập, tổng hợp, lưu trữ, xử lý và cung cấp thông tin một cách tổng thể, đồng nhất phục vụ việc ra quyết định của ban lãnh đạo, đồng thời cung cấp thông tin chi tiết và
(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10
Để thực hiện được các chức năng trên kho cần lưu trữ các bảng phân loại, các bảng danh mục nghiệp vụ:
- Danh mục sản phẩm - Danh mục nhà cung cấp - Danh mục khách hàng
- Danh mục hình thức thanh toán - Danh mục mức ưu đãi
- Danh mục các tour du lịch - Danh mục chuyến bay - Danh mục khách sạn
Kho dữ liệu TMĐT là một kho dữ liệu chủ đề có nhiệm vụ thu thập thông tin từ các CSDL hệ thống tác nghiệp khác nhau sau khi đã đựơc xử lý bởi các hệ thống tác nghiệp đó hoặc từ các hệ thống bên ngoài, sau đó tổ chức lưu trữ và thiết lập mô hình khai thác. Sau khi khảo sát, các yêu cầu khai thác dữ liệu của các đối tượng sử dụng bao gồm khai thác theo các chiều khác nhau, đồng thời muốn tạo báo cáo động theo những chỉ tiêu tổng hợp theo các chiều đó. Hệ thống cung cấp cơ chế: số liệu các báo cáo được tổng hợp tự động theo các công thức tương ứng với từng chỉ tiêu. Như vậy, việc tạo các báo cáo theo các chỉ tiêu do người sử dụng lựa chọn được thực hiện tự động đáp ứng cho chức năng khai thác thông tin của kho dữ liệu TMĐT.
Chức năng chính của kho dữ liệu TMĐT cần phải thực hiện là:
- Trích lọc, làm sạch và tải dữ liệu từ nguồn vào CSDL của kho dữ liệu - Chuyển đổi số liệu theo mã thống nhất.
- Các dữ liệu bán hàng, đặt dịch vụ, danh mục khách hàng, sản phẩm, nhà cung cấp,... được chuyển đổi và tải vào CSDL thông qua công cụ trợ giúp Enterprise Manager, Query English.
Sau khi được tải vào trong kho dữ liệu, dữ liệu sẽ tiếp tục được tổng hợp theo các chỉ tiêu, lưu trữ trong kho để sẵn sàng phục vụ cho công việc khai thác thông tin qua các công cụ.
Công việc khai thác dữ liệu bao gồm:
- Tạo các báo cáo cố định bao gồm các thông tin gần giống với các biểu mẫu định sẵn như ở hệ thống tác nghiệp.
- Tạo báo cáo khai phá theo một số chiều cần thiết.
- Tạo báo cáo theo chỉ tiêu tổng hợp: các chỉ tiêu này không cố định theo từng thời kỳ, từng năm mà thay đổi tuỳ thuộc nhu cầu của người sử dụng. Do vậy, cần có cơ chế thêm bớt và cập nhật các chỉ tiêu cũng như các báo cáo theo các chỉ tiêu đó. Số liệu tạo ra không những phải tổng hợp theo nhiều chiều mà còn phải dựa trên nhiều công thức nên khá phức tạp. Do đó, các thực thể liên quan phải được thiết kế một cách logic để có thể tạo ra một cơ chế sản sinh ra các báo cáo một cách chặt chẽ.
* Nội dung thông tin cần khai thác:
Kho dữ liệu cho phép khai thác thông tin từ chi tiết đến tổng hợp, theo nhiều chiều, đặc biệt là khai thác theo chiều sâu, các chiều bao gồm:
- Khách hàng (loại khách, thành phần kinh tế, độ tuổi, giới tính) - Thời gian (ngày, tuần, tháng, qúy, năm)
- Địa bàn (phường (xã), quận (huỵên), tỉnh, thành phố) - Sản phẩm (loại sản phẩm, hãng sản xuất)
- Nhà cung cấp
- Phương thức thanh toán - Mức ưu đãi
- Khách sạn - Tour du lịch
3.4.2.2 Phân tích về dữ liệu
Nguồn dữ liệu: được lấy từ hệ thống thông tin tác nghiệp thương mại điện tử:
- Thông tin về giao dịch trên mạng
- Thông tin về quyết toán theo tháng, năm
(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10
- Thông tin về dữ liệu từ các nhà cung cấp
Các nguồn dữ liệu này sẽ được trích chọn và tải vào kho dữ liệu từ những ứng dụng hiện tại đang được khai thác, sử dụng tại hệ thống thương mại điện tử qua các bộ chuyển đổi dữ liệu vào kho dữ liệu.
Dạng dữ liệu: dữ liệu nguồn chủ yếu được lấy từ CSDL SQL Server (có dạng bảng) hay các tệp text có cấu trúc.
3.4.2.3 Xác định các bảng sự kiện (Fact Table -FT) và các bảng chiều (Dimension table) của kho dữ liệu
Để xây dựng thành công một kho dữ liệu chủ đề thì việc xác định các chiều và các FT cho chính xác và hợp lý là một khâu rất quan trọng. Việc này phụ thuộc vào thông tin được lưu trữ và nhu cầu khai thác thông tin của người sử dụng.
Các chiều của kho dữ liệu được dùng để xác định, phân biệt các bản ghi nên các chiều của kho sẽ là các chiều về sản phẩm, khách hàng, thời gian, ...
Việc xác định các FT đòi hỏi thoả mãn yêu cầu: các FT không được có kích thước quá to hay quá nhỏ để đảm bảo tốc độ truy vấn. Có một số cách để phân chia các FT, tuy nhiên theo sự phân tích kho dữ liệu thương mại điện tử thì phương án chia theo các dịch vụ (dịch vụ mua bán hàng hoá hữu hình và phi vật thể, dịch vụ đặt phòng khách sạn, dịch vụ đặt vé máy bay và dịch vụ đặt tour du lịch) là phương án tối ưu nhất và sẽ được chọn là phương án thực hiện của quá trình xây dựng kho dữ liệu. Mặc dù có thể tách dịch vụ mua bán hàng hoá hữu hình và phi vật thể thành hai FT riêng biệt; tuy nhiên hai dịch vụ này có các dữ liệu phần lớn tương tự nhau, cách quản lý cũng gần giống nhau nên ta sẽ gộp chung hai loại hình dịch vụ này vào trong cùng một bảng FT.
Như vậy, kho dữ liệu TMĐT sẽ là tập hợp của các kho dữ liệu chủ đề (DM) sau:
- DM về dịch vụ mua bán hàng hoá hữu hình và phi vật thể - DM về dịch vụ đặt phòng khách sạn
- DM về dịch vụ đặt vé máy bay - DM về dịch vụ đặt tour du lịch