1. Trang chủ
  2. » Luận Văn - Báo Cáo

THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ

34 1,1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 4 MB

Nội dung

●Thương mại điện tử cung cấp việc chia sẻ thông tin kinh doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao dịch kinh doanh dựa trên các mạng truyền thông●Một kho dữ liệu là nơi ch

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Giảng viên: PGS, TS Hà Quang Thụy Học viên: Lê Duy Tiến

Bùi Xuân Trọng Nguyễn Quốc Thắng

Hà Nội, ngày 10 tháng 8 năm 2011

Báo cáo Tiểu luận

THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ

Trang 2

GiỚI THIỆU VỀ KHO DỮ LIỆU VÀ PHƯƠNG PHÁP LUẬN THIẾT KẾ

Trang 3

●Thương mại điện tử cung cấp việc chia sẻ thông tin kinh doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao dịch kinh doanh dựa trên các mạng truyền thông

●Một kho dữ liệu là nơi chứa dữ liệu tích hợp có tính lịch

sử của một công ty với mục đích hỗ trợ việc xử lý và đưa

ra quyết định.

●Từ áp lực kinh doanh, cả từ bên trong và bên ngoài, bắt buộc các dự án kho dữ liệu phải thể hiện sự hữu ích của chúng tới công việc kinh doanh một cách nhanh chóng.

Trang 4

●Mục tiêu của thiết kế kho dữ liệu là tạo ra một lược đồ

được tối ưu hóa để xử lý hỗ trợ việc đưa ra quyết định kinh doanh Các hệ thống OLTP chủ yếu được thiết kế dựa trên thông qua phát triển các biểu đồ thực thể - liên kết (ERD)

●Lược đồ dữ liệu dành cho một kho dữ liệu phải đủ đơn

giản để những nhà phân tích kinh doanh hiểu Dữ liệu

trong kho dữ liệu phải sạch, nhất quán, và chính xác Lược

đồ dữ liệu cũng cần phải hỗ trợ xử lý truy vấn nhanh

Trang 5

Phương pháp luận để xây dựng mô hình đa chiều bao gồm 4 bước sau đây:

1 Chọn dữ liệu chuyên đề

2 Chọn hạt nhân của bảng sự kiện

3 Chọn các chiều tương ứng với hạt nhân

4 Chọn các sự kiện

Trang 6

Các yêu cầu đặt ra:

●Xử lý dữ liệu đa phương tiện và bán cấu trúc

●Dịch danh mục giấy (catalog) sang một cơ sở dữ liệu web

●Hỗ trợ giao diện người dùng ở cấp cơ sở dữ liệu (ví dụ như: lướt web (navigation), bố cục kho hàng, siêu liên kết…)

●Lược đồ tiến hóa (ví dụ như: ghép hai catalog, chủng loại sản phẩm, sản phẩm đã bán hết, sản phẩm mới)

●Tiến hóa dữ liệu (ví dụ như: các thay đổi trong đặc tả và mô tả, đặt tên, giá)

●Xử lý đặc tả dữ liệu

●Nắm bắt dữ liệu lướt web trong ngữ cảnh

Trang 7

●Truy vấn OLAP cho thương mại điện tử

Kho dữ liệu cần phải cung cấp cho các nhà phân tích kinh doanh các dữ liệu hữu ích mà họ cần trong một định dạng có thể sử

dụng được, do đó các yêu cầu kỹ thuật chi tiết nên bắt đầu với các nhà phân tích kinh doanh.

Thiết kế data-mart

Trang 8

●Truy vấn OLAP cho thương mại điện tử:

●Một khi các truy vấn OLAP được thu thập, các nhà thiết kế cần một số hình thức phân loại để nhóm các truy vấn

●Gồm 7 loại chính:

●Bán hàng & Phân tích thị trường, trả lại hàng, thiết kế Website và phân

tích chuyển hướng, dịch vụ chăm sóc khách hàng, kho / tồn kho, quảng bá/khuyến mãi, và Vận chuyển.

●Đề án phân loại này dựa trên các quy trình kinh doanh giúp để hình

thành các chủ đề data-mart hơn là cố gắng để liên kết các truy vấn

OLAP đến một chiều duy nhất

(Bộ truy vấn OLAP cho TMĐT được lưu ở file PDF riêng -

Truyvan-OLAP-TMDT.PDF)

Trang 9

XÁC ĐỊNH MÔ HÌNH ĐA CHIỀU (DIMENSION MODELS) 1

THIẾT KẾ BẢNG CHIỀU (DIMENSION TABLE)

Trang 10

Kiến trúc kho dữ liệu kiểu BUS

● Là một ma trận mà các chiều là các cột và dữ liệu chuyên đề là các dòng.

● Xác định được các chiều thỏa mãn là các chiều được sử dụng bởi nhiều dữ liệu chuyên

đề.

Trang 11

Xác định Mô hình Đa chiều

● Nhân tố của bảng sự kiện

o Nhân tố xác định dữ liệu nguyên tố và ở mức thấp nhất mà kho dữ liệu lấy.

● Sơ đồ chi tiết bảng đa chiều

o Xác định thuộc tính của chiều: phân tích bộ truy vấn OLAP để xác định các thuộc tính quan trọng của mỗi chiều.

o Tìm các danh từ trong câu truy vấn OLAP để xác định thuộc tính của chiều.

o Thiết kế kho dữ liệu là một quá trình lặp

Trang 12

●Sơ đồ chi tiết bảng Chiều Khách hàng

Trang 13

Sơ đồ chi tiết bảng Chiều Sản phẩm

Trang 14

Sơ đồ chi tiết bảng Chiều Website

Trang 15

●Sơ đồ chi tiết bảng Sự

kiện

● Xác định thuộc tính của

bảng sự kiện Tất cả thuộc tính của bảng sự kiện được lưu trong sơ đồ chi tiết bảng

sự kiện.

● Các sự kiện được xác định trực tiếp từ bản ghi giao

dịch.

Trang 16

●Lược đồ hình sao đầy đủ cho E-Commerce

oGồm một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều

Trang 19

CÁC KHÔNG GIAN BảNG VÀ ĐÁNH CHỉ MụC CHO CÁC THUộC TÍNH 1

THIếT Kế LƯợC Đồ VậT LÝ HÌNH SAO: BÁN HÀNG TMĐT

Trang 20

● Giả định việc thiết kế kho dữ liệu được thực hiện trong Oracle8

● Bố trí bảng sự kiện và các bảng chiều hợp lý: đưa lại sự thuận lợi cho kỹ thuật xử lý song song và đa tuyến

Trang 21

●Hai kỹ thuật chính được sử dụng để tạo chỉ mục:

oChỉ mục bản đồ nhị phân (bitmap)

oChỉ mục liên kết (join)

●Các chỉ mục bitmap thường được tạo ra cho các thuộc tính có số lượng thành tố nhỏ và thực hiện nhanh với các phép toán AND, OR và NOT

●Chỉ mục liên kết được tạo ra dựa trên liên kết giữa hai bảng được gọi là chỉ mục kết nối (join index)

●Chỉ mục liên kết cũng có thể được tạo ra từ nhiều hơn hai bảng Trong

trường hợp này, chỉ mục liên kết được gọi là Chỉ mục kết nối đa bảng

(Multi-table joins Index).

●Các thuộc tính được đề cập trong truy vấn từ các bảng chiều phải được đánh chỉ mục

Trang 22

Quy luật của việc chọn loại chỉ mục

●Dựa vào giá trị tiềm năng của thuộc tính:

●Nếu giá trị tiềm năng là nhỏ hơn ngưỡng (thường là 1%) của tổng số

bản ghi trong bảng thì chỉ mục Bitmap sẽ được sử dụng

●Nếu các giá trị dữ liệu tiềm năng là lớn hơn ngưỡng (1%) thì chỉ mục

cây B (B - Tree) sẽ được sử dụng

Trong đó, Tổng số thành tố chính là tổng số giá trị duy nhất (unique) của thuộc tính

Trang 26

●Có ba vấn đề chính của MVs là chọn lọc một tập MVs tối ưu, duy trì các MVs đó một cách tự động và tăng dần, và các truy vấn tối ưu sử dụng

những MVs đó

●Thương mại chủ yếu ứng dụng các kết tập một cách thủ công và duy trì chúng dưới dạng dữ liệu đặc tả và xử lý theo chế độ tuần tự (batch), hoặc mới bắt đầu thực hiện các kỹ thuật khung nhìn đơn giản

●Kết tập và các khung nhìn thực hiện tính toán trước một dữ liệu tổng hợp

từ bảng gốc xác định

●Microsoft OLAP Server tạo các kết tập nhằm gia tăng hiệu suất

●Oracle hỗ trợ các khung nhìn kết nối, các khung nhìn kết tập, và các

khung nhìn truy vấn con

Trang 27

●Lợi ích của sự kết tập thường đi kèm với chi phí về bổ sung

bộ nhớ lưu trữ và các chi phí về bảo trì

●Các lược đồ kết tập cần được đánh giá lại định kỳ theo sự thay đổi của của yêu cầu kinh doanh

Trang 28

●Phương pháp:

●Dựa trên cơ sở bộ câu truy vấn OLAP và thứ tự ưu tiên của chúng

●Sự phân bổ thống kê của dữ liệu

Trang 29

Ví dụ về việc sử dụng sự phân bổ dữ liệu thống kê trong các

chiều để tính toán giảm bớt việc xử lý số lượng các dòng:

Giả định 1% sản phẩm được bán mỗi ngày bởi 0,01% khách hàng với 10% chế độ vận chuyển và 10% khuyến mại.

Số lượng dòng trong bảng sự kiện cơ bản trong 1 năm =

Trang 30

●Phân tích bán hàng với nhãn hiệu hàng được bán, tháng tài chính,

thành phố, phương thức vận chuyển và hình thức khuyến mại.

Trang 31

●Truy vấn tổng hợp dữ liệu: sản phẩm/nhãn mác, Ngày/Tháng, và

oChiều Tháng: tổng hợp Nhãn mác theo Quý và tổng hợp Nhãn mác theo Năm

●Kết tập được kết hợp với các Chỉ mục kết nối đa bảng (Multi-table

joins Index) để xây dựng cây phân cấp (Hierachy) Từ đó chúng ta có

thể phân tích, tổng hợp dữ liệu ở từng mức trong Cây

Trang 32

Các vấn đề đã nghiên cứu và trình bày:

●Phân tích yêu cầu

●Thiết kế logic

●Thiết kế vật lý và kết tập

Cụ thể:

●Tập các câu truy vấn OLAP thông dụng,

●Kiến trúc kho dữ liệu dạng “bus”,

●Các cấu trúc bảng chiều,

●Một lược đồ hình sao logic, lược đồ hình sao vật lý,

●Một lược đồ hình sao kết tập cho môi trường TMĐT

Đây là mô hình đa chiều chi tiết đầu tiên cho TMĐT Mặc dù nó chưa

áp dụng được cho tất cả doanh nghiệp TMĐT, nhưng nó là một bộ khung, là mô hình tổng quát có thể được điều chỉnh, làm mịn để áp dụng cho từng lĩnh vực kinh doanh TMĐT cụ thể.

Trang 33

●Những lợi ích của kho dữ liệu TMĐT:

●Tạo ra lợi thế cạnh tranh cho các doanh nghiệp khi sử dụng hệ thống

hỗ trợ tra quyết định trong quản lý tri thức, trí tuệ doanh nghiệp

●Các kho dữ liệu TMĐT - hệ thống hỗ trợ ra quyết định thu thập, nắm bắt dữ liệu từ nhiều khía cạnh, góc độ của TMĐT, bán hàng điện tử

●Những khó khăn trong thiết kế kho dữ liệu TMĐT:

●Nắm bắt, lưu dữ liệu khi nào?, ở đâu? và bằng cách nào? Chẳng

hạn, nắm bắt địa chỉ e-mail, địa chỉ IP của khách hàng

●Có nên sử dụng lược đồ hình sao của Kimball đề xuất một cách độc lập hay kết hợp và đặt nó trong một lược đồ mạnh hơn

Trang 34

●[1] Tập bài giảng môn Kho dữ liệu và khai phá dữ liệu

●[2] Yeol Song and Kelly LeVan-Shultz (College of Information Science and Technology, Drexel University Philadelphia, PA

19104) - Data Warehouse Design for E-Commerce

Environment

Ngày đăng: 06/04/2015, 21:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w