CHƯƠNG 1 KHO DỮ LIỆU
2.5 SỰ PHÂN LOẠI OLAP
Kiến trúc của OLAP làm nổi lên vấn đề là các dịch vụ OLAP được đặt ở đâu. Hai cách tiếp cận khác nhau đã hình thành nên hai loại OLAP điển hình là OLAP đa chiều (MOLAP) và OLAP quan hệ (ROLAP). Hai loại này tuy là trong suốt (nghĩa là, những mặt trước và dạng thức hỗ trợ quyết định của những công cụ này là như nhau) đối với người sử dụng đầu cuối nhưng có những khác biệt quan trọng giữa ROLAP và MOLAP [1].
2.5.1 MOLAP (Multidimensional OLAP)
MOLAP là dạng OLAP nguyên thuỷ, đôi khi còn được gọi tắt là OLAP. MOLAP kết hợp kho dữ liệu đa chiều và các dịch vụ của OLAP trên cùng một Server. MOLAP thường được coi là cơ sở dữ liệu đa chiều (MultiDimension
DB- MDDB). MDDB là một cấu trúc tối ưu cho việc lưu trữ các sự kiện đã phân loại và cùng với nó là các chiều. Dữ liệu được tổ chức theo khung nhìn dữ liệu và được lưu trữ trong một biểu mẫu được kết hợp và tổng hợp.
Các công cụ của MOLAP cho phép truy cập vào dữ liệu chi tiết trong hệ quản trị RDBMS như sau:
Hình 2.4 Kiến trúc của MOLAP
MOLAP là sự lựa chọn tốt nhất cho những ứng dụng có đặc điểm: - Yêu cầu tốc độ truy vấn cao
- Có khả năng phân tích dữ liệu phức hợp
- Dễ sử dụng: vì dữ liệu đã được tổng hợp từ trước và được lưu trong kho dữ liệu đa chiều. Người sử dụng chỉ cần xác định các chiều và các nhóm nằm trong các chiều đó.
Thiết kế MOLAP bao gồm những bƣớc cơ bản nhƣ sau:
Chọn chức năng công việc
Xác định những giá trị số, những đại lượng đo để lưu trữ
Xác định các chiều và đơn vị của mỗi chiều như thời gian thì theo tháng và quý, vị trí địa lý thì theo quốc gia hay tỉnh, huyện.
SQL Máy chủ CSDL RDBM S M¸y chñ MOLAP Siêu dữ liệu, xử lý truy vấn Các công cụ người dùng cuối Tải về Kết quả Yêu cầu truy vấn Kết quả
Định nghĩa mô hình logic và tải vào kho dữ liệu đa chiều hoặc trực tiếp từ các nguồn dữ liệu hoặc thông qua việc lọc và kết hợp những nội dung được lựa chọn của DW hoặc DM.
Quản trị và quản lí hệ thống với cách thức này đòi hỏi:
Mô hình dữ liệu khởi tạo phải chọn đúng các chiều và đơn vị của chúng, thấy trước được dữ liệu sẽ được truy nhập như thế nào và việc lựa chọn những phép lọc thích đáng để tải dữ liệu vào từ DW là những vấn đề quan trọng đáng quan tâm.
Truyền dữ liệu định kì và cập nhật nhiều dữ liệu cùng lúc bởi vì trong khi cơ sở dữ liệu đang được sử dụng thì số lần cập nhật cần phải hạn chế.
Sự kết hợp, tổng kết và tính toán trước trong quá trình tải dữ liệu vào.
Đào tạo một công nghệ khác và cách sử dụng những kĩ năng mới này.
Viết những ứng dụng mới với một ngôn ngữ độc quyền để mở rộng và cải thiện chuẩn đầu cuối (giao diện với người sử dụng đầu cuối) của cơ sở dữ liệu.
Một số vấn đề cần quan tâm khi sử dụng cách tiếp cận này:
Kích cỡ của cơ sở dữ liệu đa chiều được hỗ trợ nhỏ hơn so với một cơ sở dữ liệu quan hệ. Công nghệ sử dụng ma trận thưa được sử dụng để tiết kiệm không gian nhớ.
Không thể khoan sâu dữ liệu tới mức chi tiết do ảnh hưởng phụ của việc lưu trữ dữ liệu ở mức thô (như những dữ liệu tổng, những dữ liệu được tính toán trước và những dữ liệu kết xuất từ những dữ liệu khác)
Truy nhập và an toàn là có sẵn cho các mức cao; không có những ưu tiên dựa trên việc sử dụng hoặc những kiểm soát truy nhập ở các mức con.
Những thay đổi trong cấu trúc đa chiều đòi hỏi cơ sở dữ liệu đa chiều được tổ chức lại; những phương tiện lưu trữ và sao lưu có sẵn bị hạn chế.
Cần những ứng dụng đầu cuối đặc biệt hạn chế những khả năng lựa chọn. Các mở rộng ở những ứng dụng đầu cuối của một cơ sở dữ liệu đa chiều không thể được dùng cho một cơ sở dữ liệu đa chiều khác.
2.5.2 ROLAP (Relational OLAP)
ROLAP thao tác trực tiếp với cơ sở dữ liệu quan hệ. Dữ liệu cơ bản và các bảng chiều được lưu trữ dưới dạng các bảng quan hệ và những bảng mới sẽ được tạo để lưu trữ những thông tin tổng hợp, tuỳ thuộc vào mô hình thiết kế được chuyên biệt hoá.
Phương pháp tiếp cận này bao gồm các dịch vụ của OLAP và cơ sở dữ liệu quan hệ. Các dữ liệu được lưu trữ trong những bảng quan hệ và có thể có kích thước hàng trăm Gigabyte. Những hệ ROLAP cung cấp các mô tơ truy vấn cực kỳ linh động bằng việc “chuẩn bị sẵn sàng” tất cả dữ liệu tác nghiệp cho người sử dụng đầu cuối, dễ dàng trích và tổng hợp dữ liệu theo yêu cầu. Những công cụ ROLAP có thể trích dữ liệu từ rất nhiều nguồn CSDL quan hệ khác nhau.
Hình 2.5 Kiến trúc của ROLAP
Theo cách tiếp cận này, các khối dữ liệu con sẽ được tính toán trước khi đưa vào bảng tổng hợp (summary table). Đối với những khối dữ liệu lớn thì không thể xử lý mọi thứ trước được mà chỉ xử lý trước những dữ liệu nào có liên quan chặt chẽ đến các câu truy vấn.
2.5.3 HOLAP (Hybrid OLAP)
Không có sự phân tách rõ ràng để xác định HOLAP trừ khi một cơ sở Máy chủ CSDL RDBM S Máy chủ ROLAP Siêu dữ liệu, xử lý truy vấn Các công cụ người dùng cuối SQL Kết quả Yêu cầu truy vấn Kết quả
dữ liệu chuyên biệt. Lấy ví dụ, đối với một số đại lý, một cơ sở dữ liệu HOLAP sẽ sử dụng các bảng quan hệ để lưu trữ khối lượng lớn các dữ liệu chi tiết và sử dụng kho chuyên biệt cho một số ít những dữ liệu đã được tích hợp và kết hợp [17,18].
Xu hướng hiện nay là cung cấp những dịch vụ OLAP kết hợp với Server OLAP ở một đầu (kho dữ liệu đa chiều được nhúng vào những dữ liệu thô) và một kho dữ liệu quan hệ ở đầu kia (với những dữ liệu chi tiết đã được làm sạch). Trong thực tế đã có một số công ty bắt đầu với một kho dữ liệu quan hệ sau đó tạo thêm một kho dữ liệu đa chiều khi cần thiết.
Trong cấu hình kiến trúc này, thông tin được truy nhập và những câu truy vấn một cách thường xuyên được tính toán trước, được tổng kết và kết hợp sau đó được lưu trữ trong kho dữ liệu đa chiều của OLAP Server. Nó có thể được thực hiện trong lần tải đầu tiên từ kho dữ liệu quan hệ DW hoặc DM. Những truy vấn phức tạp, tập trung nhiều vào tính toán hoặc những dữ liệu phức tạp được tính toán ra từ những dữ liệu khác cũng được xử lí truớc và lưu trữ. Điều này làm cho tốc độ thực hiện rất nhanh. Còn những dữ liệu được truy nhập không thường xuyên hoặc những giá trị được tính toán từ một số ít thành phần các chiều chỉ được tính khi nhận được một truy vấn. Những dữ liệu không được truy nhập thường xuyên thì không được lưu trong kho dữ liệu đa chiều và có thể được OLAP server lấy ra từ kho dữ liệu quan hệ chỉ khi cần thiết.
Chức năng giám sát có thể lưu trữ dữ liệu (được truy nhập không thường xuyên trước đó) hoặc những kết quả của một câu truy vấn không truy nhập thường xuyên trong kho dữ liệu đa chiều cho những yêu cầu sau đó. Điều này làm tăng đáng kể công suất thực hiện. Cấu hình kết hợp 2 loại này cũng cho phép khoan sâu dữ liệu tới mức chi tiết nhất, những dữ liệu chi tiết không có sẵn trong kho dữ liệu đa chiều, bằng cách tạo ra một yêu cầu và lấy những dữ liệu chi tiết trong kho dữ liệu quan hệ.
Một số loại OLAP dưới đây đôi khi cũng được sử dụng nhưng không được phổ biến như các loại đã nêu trên:
- WOLAP – Web-base OLAP - DOLAP- Desktop OLAP
2.6 KẾT LUẬN CHƢƠNG 2
Khai phá dữ liệu là kỹ thuật khai thác kho dữ liệu theo chiều sâu. Nó có thể hiểu là quá trình tìm kiếm, khám phá, xem xét dữ liệu dưới nhiều mức độ nhằm tìm ra mối liên hệ giữa các thành phần dữ liệu và phát hiện ra những xu hướng, hình mẫu và những kinh nghiệm quá khứ tiềm ẩn trong kho dữ liệu vì vậy rất phù hợp với mục đích phân tích dữ liệu hỗ trợ cho công việc điều hành và ra quyết định. Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm được những mẫu thông tin chưa biết và bất ngờ từ kho dữ liệu lớn và phức tạp.
OLAP là một công nghệ xử lý phân tích trực tuyến các thông tin mới được tạo ra từ những dữ liệu đang tồn tại, thông qua một tập những chuyển đổi và các tính toán số. Về bản chất, một hệ OLAP là hệ thống lưu trữ những thông tin tổng hợp và cho phép thể hiện thông tin tổng hợp đó dưới dạng bảng 2 chiều.
Chương hai đã trình bày những khái niệm cơ bản xung quanh vấn đề về xử lý phân tích trực tuyến OLAP: định nghĩa OLAP, mô hình dữ liệu dạng khối, kiến trúc khối OLAP và phân biệt một số loại OLAP phổ biến như MOLAP, ROLAP và HOLAP.
Dựa trên những kiến thức thu được trong chương này, kết hợp với những kiến thức đã thu được trong chương một, chúng ta sẽ tiếp tục phân tích, thiết kế và xây dựng kho dữ liệu thương mại điện tử để trợ giúp các nhà lãnh đạo, các nhà quản lý thương mại điện tử đưa ra những quyết định chiến lược đúng đắn, kịp thời nhằm đem lại hiệu quả kinh doanh một cách tốt nhất. Công việc này sẽ được thể hiện trong các chương tiếp theo.
CHƢƠNG 3
PHÂN TÍCH THIẾT KẾ
KHO DỮ LIỆU THƢƠNG MẠI ĐIỆN TỬ
3.1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THƢƠNG MẠI ĐIỆN TỬ 3.1.1 Tổng quan
Sự “lan rộng” của Internet và sự phát triển nhanh chóng của thương mại điện tử (TMĐT) đã làm thay đổi mô hình họat động kinh tế của các quốc gia và các doanh nghiệp. Nền kinh tế toàn cầu đã bắt đầu chuyển dần sang nền kinh tế số hoá, tổng giá trị trao đổi mua bán trong thương mại điện tử được dự đoán đạt 7 tỷ USD trong năm 2004 so với 430 triệu USD trong năm 2000. Cũng theo ước tính, tổng số lượng người dùng Internet thế giới đạt tới 750 triệu trong năm 2008, trong đó 50% là mua hàng trên mạng,....
Thương mại điện tử, hay còn gọi là E-commerce là hình thức thực hiện thương mại bằng phương pháp điện tử [9]. Thương mại điện tử là một thị trường trực tuyến (Online), trong đó người mua và người bán có thể trao đổi hàng hóa, dịch vụ, thông tin qua mạng Internet và qua các dịch vụ trực tuyến khác. Tùy thuộc vào các hình thức và các đối tượng giao dịch hay tương tác, TMĐT được chia làm nhiều loại hình khác nhau trong đó hai loại hình TMĐT chính là Business-to-business (B2B), business-to-consumer (B2C).
3.1.2 Các thành phần chính của hệ thống thƣơng mại điện tử
Thương mại điện tử thực chất là các giao dịch thương mại, được thực hiện với sự hỗ trợ của các công cụ điện tử. Từ cách nhìn nhận trên, hệ thống thương mại điện tử cũng sẽ bao gồm các đối tượng của một hệ thống thương mại truyền thống, thêm vào đó là các công cụ điện tử để hỗ trợ.
Hệ thống thương mại điện tử bao gồm các thành phần chính như sau:
a. Bên bán hàng: là những đối tượng có hàng hoá. Hàng hoá ở đây được hiểu theo nghĩa rộng và bao gồm 3 loại hình:
+ Hàng hoá hữu hình: là các loại hàng có thể nhìn thấy, cầm được như các loại hàng bày bán trong các chợ, các siêu thị,... Các nhà cung cấp và các siêu thị sẽ đưa hàng hoá của mình lên mạng theo các chủng loại được hệ thống qui định thống nhất.
+ Hàng hoá phi vật thể: Là các loại hàng không có đầy đủ các tính chất như các hàng hoá hữu hình và người sử dụng có thể cảm nhận trực tiếp bằng các giác quan khi tiếp xúc, ví dụ: sách, truyện, các tác phẩm hội hoạ,v.v..
+ Hàng hoá dịch vụ: Dịch vụ cũng là một đối tượng của thương mại. Hiện tại, hệ thống cung cấp một số dịch vụ du lịch với các sản phẩm dịch vụ cụ thể là mua bán tour du lịch, đặt vé máy bay, đặt phòng khách sạn, v.v..
b. Bên mua hàng: Mọi khách hàng sau khi đăng kí là khách thành viên của hệ thống đều có thể thực hiện các giao dịch mua hàng.
c. Thanh toán:
Trên thế giới, việc sử dụng các thẻ thanh toán đối với các nước tiên tiến là hết sức thông dụng. Vì vậy, phần lớn các site TMĐT có các lựa chọn cho phép sử dụng các loại thẻ thông dụng như Visa Card, Master Card. Ngoài ra, các web site còn sử dụng một số phương thức thanh toán khác như thanh toán trực tiếp qua một số ngân hàng hoặc qua những ngân hàng thương mại trung gian, thanh toán tiền mặt khi giao hàng, hoặc cũng có thể thanh toán quan một địa chỉ trung gian nổi tiếng,...
Hệ thống TMĐT có 2 sự lựa chọn cho các giải pháp thanh toán trực tuyến: 1. Thanh toán qua cổng thanh toán của Công ty phát triển phần mềm VASC
thuộc Tổng công ty Bưu chính viễn thông Việt Nam. Công ty VASC đã xây dựng cổng thanh toán này với sự phối hợp của một số ngân hàng hoạt động tại Việt Nam (ngân hàng Ngoại thương Việt Nam, ngân hàng Techcombank, ngân hàng ACB...). Cổng thanh toán này có chức năng nhận các dữ liệu từ các máy chủ của hệ thống, chuyển đến các máy chủ của các ngân hàng tương ứng. Tại các ngân hàng, từng ngân hàng sẽ tự xử lý dữ liệu và gửi trả lại kết quả thanh toán về cổng thanh toán. Từ đây, dữ liệu lại được gửi về lại các máy chủ ban đầu, kèm thêm thông tin về tình trạng thanh toán của từng giao dịch.
2. Thanh toán trực tiếp qua dịch vụ Internet banking của Ngân hàng Công Thương Việt Nam.
Hệ thống TMĐT được xây dựng qua các giao diện web, trên nền tảng các công nghệ của Microsoft: Hệ điều hành Windows 2000 Advanced Server, hệ quản trị cơ sở dữ liệu MS SQL 2000, IIS Webserver, công nghệ phát triển ứng dụng: ASP, .NET, C#.
3.2. PHƢƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU 3.2.1 Phƣơng pháp luận chung
Kho dữ liệu thiết kế cho thương mại điện tử được hợp nhất từ nhiều nguồn khác nhau thành một nguồn, được đặt tập trung, do vậy, sẽ dễ dàng được bảo trì, bảo mật và tiện lợi cho việc vận hành kho dữ liệu. Mô hình kho dữ liệu sẽ sử dụng tất cả các thông tin để cải thiện tốc độ, tự động báo cáo, hỗ trợ ra quyết định và quản lý đối với thương mại điện tử.
Kho dữ liệu được thực thi trên SQL Server 2000, chạy trên nền tảng WinNT/2000 và các máy trạm chạy trên nền Windows có thể chạy được SQL Server 2000.
Xây dựng kho dữ liệu thương mại điện tử sử dụng phương pháp phân tích hệ thống có cấu trúc làm phương pháp luận để tiếp cận tới quá trình phân tích và thiết kế kho dữ liệu. Quá trình phân tích thiết kế có kết hợp với làm bản mẫu. Kho dữ liệu thương mại điện tử được xây dựng trên hệ quản trị CSDL SQL Server với công cụ trợ giúp Enterprise Manager và Analysis Manager.
Quá trình thiết kế kho dữ liệu sử dụng phương pháp thiết kế dựa trên phân tích có cấu trúc. Do đó, trước hết, ta cần nhắc lại một vài nét điển hình của phương pháp thiết kế truyền thống.
3.2.2 Phƣơng pháp thiết kế truyền thống
Chu trình của phương pháp thiết kế truyền thống được chia làm nhiều pha, bao gồm: khảo sát, phân tích, thiết kế, cài đặt và triển khai. Trong mỗi pha lại chia ra làm các giai đoạn nhỏ hơn và một pha chỉ có thể được thực hiện khi công việc của pha trước đó đã hoàn thành tức là một pha phải được kết thúc