CHIỀU (DIMENSION)

Một phần của tài liệu Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu (Trang 39)

Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân chia để phân tích. Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các bảng liên kết (bảng chiều). Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn. Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất. Ví dụ: chiều thời gian (Time) được tạo ra từ các cột năm, qúy, tháng, ngày.

Mỗi cột trong chiều góp phần vào một cấp độ cho chiều. Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down). Ví dụ: chiều thời gian được miêu tả ở trên cho phép người dùng khối đào sâu (drill_down) từ năm tới qúy, từ qúy tới tháng và từ tháng tới ngày. Mỗi drill_down cung cấp nét đặc trưng hơn.

Chiều có phân cấp

Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được. Phần lớn các chiều đều có một cấu trúc đa mức hay phân cấp. Nếu chúng ta làm những quyết định về giá sản phẩm để tối đa doanh thu thì chúng ta cần quan sát ở những dữ liệu về doanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng ta đã thực hiện một cách gộp. Khi cần làm những quyết định khác thì chúng ta cần thực hiện những phép gộp tương ứng khác. Như vậy có thể có quá nhiều tiến trình gộp. Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để có thể hỗ trợ những phân tích không hoạch định trước. Điều này có thể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu.

Dựa trên phân cấp theo chiều, từ một mức dưới, chúng ta có thể cuộn lên (Roll up) các mức trên, thực hiện một phép gộp, để có được kết qủa tổng hợp hơn. Và từ một mức trên, có thể khoan sâu xuống (Drill down) các mức dưới, để có các kết quả chi tiết hơn.

2.4.3 Các đơn vị đo lƣờng

Các đơn vị đo của khối là các cột trong bảng Fact. Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân tích như định giá, trị giá hoặc số lượng bán.

2.4.4 Các phân hoạch (Partitions)

Tất cả các khối đều có tối thiểu một phân hoạch để chứa dữ liệu của nó. Một phân hoạch đơn được tự động tạo ra khi khối được định nghĩa. Khi ta tạo một phân hoạch mới cho một khối, phân hoạch mới này được thêm vào trong tập hợp các phân hoạch đã tồn tại đối với khối. Khối phản ánh dữ liệu đã được kết nối có trong tất cả các phân hoạch của nó. Một bảng phân hoạch của khối là trong suốt đối với người dùng.

Các phân hoạch tiêu biểu cho một công cụ mạnh, mềm dẻo cho việc quản trị các khối OLAP, đặc biệt là các khối lớn. Các bảng phân hoạch có thể được lưu trữ với các sự lựa chọn kết hợp khác nhau theo phương thức lưu trữ, định vị dữ liệu nguồn và thiết kế kết hợp. Tính mềm dẻo này cho phép ta thiết kế các chiến lược lưu trữ khối phù hợp với các yêu cầu của ta.

2.5 SỰ PHÂN LOẠI OLAP

Kiến trúc của OLAP làm nổi lên vấn đề là các dịch vụ OLAP được đặt ở đâu. Hai cách tiếp cận khác nhau đã hình thành nên hai loại OLAP điển hình là OLAP đa chiều (MOLAP) và OLAP quan hệ (ROLAP). Hai loại này tuy là trong suốt (nghĩa là, những mặt trước và dạng thức hỗ trợ quyết định của những công cụ này là như nhau) đối với người sử dụng đầu cuối nhưng có những khác biệt quan trọng giữa ROLAP và MOLAP [1].

2.5.1 MOLAP (Multidimensional OLAP)

MOLAP là dạng OLAP nguyên thuỷ, đôi khi còn được gọi tắt là OLAP. MOLAP kết hợp kho dữ liệu đa chiều và các dịch vụ của OLAP trên cùng một Server. MOLAP thường được coi là cơ sở dữ liệu đa chiều (MultiDimension

DB- MDDB). MDDB là một cấu trúc tối ưu cho việc lưu trữ các sự kiện đã phân loại và cùng với nó là các chiều. Dữ liệu được tổ chức theo khung nhìn dữ liệu và được lưu trữ trong một biểu mẫu được kết hợp và tổng hợp.

Các công cụ của MOLAP cho phép truy cập vào dữ liệu chi tiết trong hệ quản trị RDBMS như sau:

Hình 2.4 Kiến trúc của MOLAP

MOLAP là sự lựa chọn tốt nhất cho những ứng dụng có đặc điểm: - Yêu cầu tốc độ truy vấn cao

- Có khả năng phân tích dữ liệu phức hợp

- Dễ sử dụng: vì dữ liệu đã được tổng hợp từ trước và được lưu trong kho dữ liệu đa chiều. Người sử dụng chỉ cần xác định các chiều và các nhóm nằm trong các chiều đó.

Thiết kế MOLAP bao gồm những bƣớc cơ bản nhƣ sau:

 Chọn chức năng công việc

 Xác định những giá trị số, những đại lượng đo để lưu trữ

 Xác định các chiều và đơn vị của mỗi chiều như thời gian thì theo tháng và quý, vị trí địa lý thì theo quốc gia hay tỉnh, huyện.

SQL Máy chủ CSDL RDBM S M¸y chñ MOLAP Siêu dữ liệu, xử lý truy vấn Các công cụ người dùng cuối Tải về Kết quả Yêu cầu truy vấn Kết quả

 Định nghĩa mô hình logic và tải vào kho dữ liệu đa chiều hoặc trực tiếp từ các nguồn dữ liệu hoặc thông qua việc lọc và kết hợp những nội dung được lựa chọn của DW hoặc DM.

Quản trị và quản lí hệ thống với cách thức này đòi hỏi:

 Mô hình dữ liệu khởi tạo phải chọn đúng các chiều và đơn vị của chúng, thấy trước được dữ liệu sẽ được truy nhập như thế nào và việc lựa chọn những phép lọc thích đáng để tải dữ liệu vào từ DW là những vấn đề quan trọng đáng quan tâm.

 Truyền dữ liệu định kì và cập nhật nhiều dữ liệu cùng lúc bởi vì trong khi cơ sở dữ liệu đang được sử dụng thì số lần cập nhật cần phải hạn chế.

 Sự kết hợp, tổng kết và tính toán trước trong quá trình tải dữ liệu vào.

 Đào tạo một công nghệ khác và cách sử dụng những kĩ năng mới này.

 Viết những ứng dụng mới với một ngôn ngữ độc quyền để mở rộng và cải thiện chuẩn đầu cuối (giao diện với người sử dụng đầu cuối) của cơ sở dữ liệu.

Một số vấn đề cần quan tâm khi sử dụng cách tiếp cận này:

 Kích cỡ của cơ sở dữ liệu đa chiều được hỗ trợ nhỏ hơn so với một cơ sở dữ liệu quan hệ. Công nghệ sử dụng ma trận thưa được sử dụng để tiết kiệm không gian nhớ.

 Không thể khoan sâu dữ liệu tới mức chi tiết do ảnh hưởng phụ của việc lưu trữ dữ liệu ở mức thô (như những dữ liệu tổng, những dữ liệu được tính toán trước và những dữ liệu kết xuất từ những dữ liệu khác)

 Truy nhập và an toàn là có sẵn cho các mức cao; không có những ưu tiên dựa trên việc sử dụng hoặc những kiểm soát truy nhập ở các mức con.

 Những thay đổi trong cấu trúc đa chiều đòi hỏi cơ sở dữ liệu đa chiều được tổ chức lại; những phương tiện lưu trữ và sao lưu có sẵn bị hạn chế.

 Cần những ứng dụng đầu cuối đặc biệt hạn chế những khả năng lựa chọn. Các mở rộng ở những ứng dụng đầu cuối của một cơ sở dữ liệu đa chiều không thể được dùng cho một cơ sở dữ liệu đa chiều khác.

2.5.2 ROLAP (Relational OLAP)

ROLAP thao tác trực tiếp với cơ sở dữ liệu quan hệ. Dữ liệu cơ bản và các bảng chiều được lưu trữ dưới dạng các bảng quan hệ và những bảng mới sẽ được tạo để lưu trữ những thông tin tổng hợp, tuỳ thuộc vào mô hình thiết kế được chuyên biệt hoá.

Phương pháp tiếp cận này bao gồm các dịch vụ của OLAP và cơ sở dữ liệu quan hệ. Các dữ liệu được lưu trữ trong những bảng quan hệ và có thể có kích thước hàng trăm Gigabyte. Những hệ ROLAP cung cấp các mô tơ truy vấn cực kỳ linh động bằng việc “chuẩn bị sẵn sàng” tất cả dữ liệu tác nghiệp cho người sử dụng đầu cuối, dễ dàng trích và tổng hợp dữ liệu theo yêu cầu. Những công cụ ROLAP có thể trích dữ liệu từ rất nhiều nguồn CSDL quan hệ khác nhau.

Hình 2.5 Kiến trúc của ROLAP

Theo cách tiếp cận này, các khối dữ liệu con sẽ được tính toán trước khi đưa vào bảng tổng hợp (summary table). Đối với những khối dữ liệu lớn thì không thể xử lý mọi thứ trước được mà chỉ xử lý trước những dữ liệu nào có liên quan chặt chẽ đến các câu truy vấn.

2.5.3 HOLAP (Hybrid OLAP)

Không có sự phân tách rõ ràng để xác định HOLAP trừ khi một cơ sở dữ liệu được phân chia thành hai loại kho lưu trữ dữ liệu quan hệ và kho lưu trữ

Máy chủ CSDL RDBM S Máy chủ ROLAP Siêu dữ liệu, xử lý truy vấn Các công cụ người dùng cuối SQL Kết quả Yêu cầu truy vấn Kết quả

dữ liệu chuyên biệt. Lấy ví dụ, đối với một số đại lý, một cơ sở dữ liệu HOLAP sẽ sử dụng các bảng quan hệ để lưu trữ khối lượng lớn các dữ liệu chi tiết và sử dụng kho chuyên biệt cho một số ít những dữ liệu đã được tích hợp và kết hợp [17,18].

Xu hướng hiện nay là cung cấp những dịch vụ OLAP kết hợp với Server OLAP ở một đầu (kho dữ liệu đa chiều được nhúng vào những dữ liệu thô) và một kho dữ liệu quan hệ ở đầu kia (với những dữ liệu chi tiết đã được làm sạch). Trong thực tế đã có một số công ty bắt đầu với một kho dữ liệu quan hệ sau đó tạo thêm một kho dữ liệu đa chiều khi cần thiết.

Trong cấu hình kiến trúc này, thông tin được truy nhập và những câu truy vấn một cách thường xuyên được tính toán trước, được tổng kết và kết hợp sau đó được lưu trữ trong kho dữ liệu đa chiều của OLAP Server. Nó có thể được thực hiện trong lần tải đầu tiên từ kho dữ liệu quan hệ DW hoặc DM. Những truy vấn phức tạp, tập trung nhiều vào tính toán hoặc những dữ liệu phức tạp được tính toán ra từ những dữ liệu khác cũng được xử lí truớc và lưu trữ. Điều này làm cho tốc độ thực hiện rất nhanh. Còn những dữ liệu được truy nhập không thường xuyên hoặc những giá trị được tính toán từ một số ít thành phần các chiều chỉ được tính khi nhận được một truy vấn. Những dữ liệu không được truy nhập thường xuyên thì không được lưu trong kho dữ liệu đa chiều và có thể được OLAP server lấy ra từ kho dữ liệu quan hệ chỉ khi cần thiết.

Chức năng giám sát có thể lưu trữ dữ liệu (được truy nhập không thường xuyên trước đó) hoặc những kết quả của một câu truy vấn không truy nhập thường xuyên trong kho dữ liệu đa chiều cho những yêu cầu sau đó. Điều này làm tăng đáng kể công suất thực hiện. Cấu hình kết hợp 2 loại này cũng cho phép khoan sâu dữ liệu tới mức chi tiết nhất, những dữ liệu chi tiết không có sẵn trong kho dữ liệu đa chiều, bằng cách tạo ra một yêu cầu và lấy những dữ liệu chi tiết trong kho dữ liệu quan hệ.

Một số loại OLAP dưới đây đôi khi cũng được sử dụng nhưng không được phổ biến như các loại đã nêu trên:

- WOLAP – Web-base OLAP - DOLAP- Desktop OLAP

2.6 KẾT LUẬN CHƢƠNG 2

Khai phá dữ liệu là kỹ thuật khai thác kho dữ liệu theo chiều sâu. Nó có thể hiểu là quá trình tìm kiếm, khám phá, xem xét dữ liệu dưới nhiều mức độ nhằm tìm ra mối liên hệ giữa các thành phần dữ liệu và phát hiện ra những xu hướng, hình mẫu và những kinh nghiệm quá khứ tiềm ẩn trong kho dữ liệu vì vậy rất phù hợp với mục đích phân tích dữ liệu hỗ trợ cho công việc điều hành và ra quyết định. Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm được những mẫu thông tin chưa biết và bất ngờ từ kho dữ liệu lớn và phức tạp.

OLAP là một công nghệ xử lý phân tích trực tuyến các thông tin mới được tạo ra từ những dữ liệu đang tồn tại, thông qua một tập những chuyển đổi và các tính toán số. Về bản chất, một hệ OLAP là hệ thống lưu trữ những thông tin tổng hợp và cho phép thể hiện thông tin tổng hợp đó dưới dạng bảng 2 chiều.

Chương hai đã trình bày những khái niệm cơ bản xung quanh vấn đề về xử lý phân tích trực tuyến OLAP: định nghĩa OLAP, mô hình dữ liệu dạng khối, kiến trúc khối OLAP và phân biệt một số loại OLAP phổ biến như MOLAP, ROLAP và HOLAP.

Dựa trên những kiến thức thu được trong chương này, kết hợp với những kiến thức đã thu được trong chương một, chúng ta sẽ tiếp tục phân tích, thiết kế và xây dựng kho dữ liệu thương mại điện tử để trợ giúp các nhà lãnh đạo, các nhà quản lý thương mại điện tử đưa ra những quyết định chiến lược đúng đắn, kịp thời nhằm đem lại hiệu quả kinh doanh một cách tốt nhất. Công việc này sẽ được thể hiện trong các chương tiếp theo.

CHƢƠNG 3

PHÂN TÍCH THIẾT KẾ

KHO DỮ LIỆU THƢƠNG MẠI ĐIỆN TỬ

3.1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THƢƠNG MẠI ĐIỆN TỬ 3.1.1 Tổng quan

Sự “lan rộng” của Internet và sự phát triển nhanh chóng của thương mại điện tử (TMĐT) đã làm thay đổi mô hình họat động kinh tế của các quốc gia và các doanh nghiệp. Nền kinh tế toàn cầu đã bắt đầu chuyển dần sang nền kinh tế số hoá, tổng giá trị trao đổi mua bán trong thương mại điện tử được dự đoán đạt 7 tỷ USD trong năm 2004 so với 430 triệu USD trong năm 2000. Cũng theo ước tính, tổng số lượng người dùng Internet thế giới đạt tới 750 triệu trong năm 2008, trong đó 50% là mua hàng trên mạng,....

Thương mại điện tử, hay còn gọi là E-commerce là hình thức thực hiện thương mại bằng phương pháp điện tử [9]. Thương mại điện tử là một thị trường trực tuyến (Online), trong đó người mua và người bán có thể trao đổi hàng hóa, dịch vụ, thông tin qua mạng Internet và qua các dịch vụ trực tuyến khác. Tùy thuộc vào các hình thức và các đối tượng giao dịch hay tương tác, TMĐT được chia làm nhiều loại hình khác nhau trong đó hai loại hình TMĐT chính là Business-to-business (B2B), business-to-consumer (B2C).

3.1.2 Các thành phần chính của hệ thống thƣơng mại điện tử

Thương mại điện tử thực chất là các giao dịch thương mại, được thực hiện với sự hỗ trợ của các công cụ điện tử. Từ cách nhìn nhận trên, hệ thống thương mại điện tử cũng sẽ bao gồm các đối tượng của một hệ thống thương mại truyền thống, thêm vào đó là các công cụ điện tử để hỗ trợ.

Hệ thống thương mại điện tử bao gồm các thành phần chính như sau:

a. Bên bán hàng: là những đối tượng có hàng hoá. Hàng hoá ở đây được hiểu theo nghĩa rộng và bao gồm 3 loại hình:

+ Hàng hoá hữu hình: là các loại hàng có thể nhìn thấy, cầm được như các loại hàng bày bán trong các chợ, các siêu thị,... Các nhà cung cấp và các siêu thị sẽ đưa hàng hoá của mình lên mạng theo các chủng loại được hệ thống qui định thống nhất.

+ Hàng hoá phi vật thể: Là các loại hàng không có đầy đủ các tính chất như các hàng hoá hữu hình và người sử dụng có thể cảm nhận trực tiếp bằng các giác quan khi tiếp xúc, ví dụ: sách, truyện, các tác phẩm hội hoạ,v.v..

+ Hàng hoá dịch vụ: Dịch vụ cũng là một đối tượng của thương mại. Hiện tại, hệ thống cung cấp một số dịch vụ du lịch với các sản phẩm dịch vụ cụ thể là mua bán tour du lịch, đặt vé máy bay, đặt phòng khách sạn, v.v..

Một phần của tài liệu Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu (Trang 39)