●Thương mại điện tử cung cấp việc chia sẻ thông tin kinh doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao dịch kinh doanh dựa trên các mạng truyền thông●Một kho dữ liệu là nơi ch
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Giảng viên: PGS, TS Hà Quang Thụy Học viên: Lê Duy Tiến
Bùi Xuân Trọng Nguyễn Quốc Thắng
Hà Nội, ngày 10 tháng 8 năm 2011
Báo cáo Tiểu luận
THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ
Trang 2GiỚI THIỆU VỀ KHO DỮ LIỆU VÀ PHƯƠNG PHÁP LUẬN THIẾT KẾ
Trang 3●Thương mại điện tử cung cấp việc chia sẻ thông tin kinh doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao dịch kinh doanh dựa trên các mạng truyền thông
●Một kho dữ liệu là nơi chứa dữ liệu tích hợp có tính lịch
sử của một công ty với mục đích hỗ trợ việc xử lý và đưa
ra quyết định.
●Từ áp lực kinh doanh, cả từ bên trong và bên ngoài, bắt buộc các dự án kho dữ liệu phải thể hiện sự hữu ích của chúng tới công việc kinh doanh một cách nhanh chóng.
Trang 4●Mục tiêu của thiết kế kho dữ liệu là tạo ra một lược đồ
được tối ưu hóa để xử lý hỗ trợ việc đưa ra quyết định kinh doanh Các hệ thống OLTP chủ yếu được thiết kế dựa trên thông qua phát triển các biểu đồ thực thể - liên kết (ERD)
●Lược đồ dữ liệu dành cho một kho dữ liệu phải đủ đơn
giản để những nhà phân tích kinh doanh hiểu Dữ liệu
trong kho dữ liệu phải sạch, nhất quán, và chính xác Lược
đồ dữ liệu cũng cần phải hỗ trợ xử lý truy vấn nhanh
Trang 5Phương pháp luận để xây dựng mô hình đa chiều bao gồm 4 bước sau đây:
1 Chọn dữ liệu chuyên đề
2 Chọn hạt nhân của bảng sự kiện
3 Chọn các chiều tương ứng với hạt nhân
4 Chọn các sự kiện
Trang 6● Các yêu cầu đặt ra:
●Xử lý dữ liệu đa phương tiện và bán cấu trúc
●Dịch danh mục giấy (catalog) sang một cơ sở dữ liệu web
●Hỗ trợ giao diện người dùng ở cấp cơ sở dữ liệu (ví dụ như: lướt web (navigation), bố cục kho hàng, siêu liên kết…)
●Lược đồ tiến hóa (ví dụ như: ghép hai catalog, chủng loại sản phẩm, sản phẩm đã bán hết, sản phẩm mới)
●Tiến hóa dữ liệu (ví dụ như: các thay đổi trong đặc tả và mô tả, đặt tên, giá)
●Xử lý đặc tả dữ liệu
●Nắm bắt dữ liệu lướt web trong ngữ cảnh
Trang 7●Truy vấn OLAP cho thương mại điện tử
Kho dữ liệu cần phải cung cấp cho các nhà phân tích kinh doanh các dữ liệu hữu ích mà họ cần trong một định dạng có thể sử
dụng được, do đó các yêu cầu kỹ thuật chi tiết nên bắt đầu với các nhà phân tích kinh doanh.
Thiết kế data-mart
Trang 8●Truy vấn OLAP cho thương mại điện tử:
●Một khi các truy vấn OLAP được thu thập, các nhà thiết kế cần một số hình thức phân loại để nhóm các truy vấn
●Gồm 7 loại chính:
●Bán hàng & Phân tích thị trường, trả lại hàng, thiết kế Website và phân
tích chuyển hướng, dịch vụ chăm sóc khách hàng, kho / tồn kho, quảng bá/khuyến mãi, và Vận chuyển.
●Đề án phân loại này dựa trên các quy trình kinh doanh giúp để hình
thành các chủ đề data-mart hơn là cố gắng để liên kết các truy vấn
OLAP đến một chiều duy nhất
(Bộ truy vấn OLAP cho TMĐT được lưu ở file PDF riêng -
Truyvan-OLAP-TMDT.PDF)
Trang 9XÁC ĐỊNH MÔ HÌNH ĐA CHIỀU (DIMENSION MODELS) 1
THIẾT KẾ BẢNG CHIỀU (DIMENSION TABLE)
Trang 10Kiến trúc kho dữ liệu kiểu BUS
● Là một ma trận mà các chiều là các cột và dữ liệu chuyên đề là các dòng.
● Xác định được các chiều thỏa mãn là các chiều được sử dụng bởi nhiều dữ liệu chuyên
đề.
Trang 11● Xác định Mô hình Đa chiều
● Nhân tố của bảng sự kiện
o Nhân tố xác định dữ liệu nguyên tố và ở mức thấp nhất mà kho dữ liệu lấy.
● Sơ đồ chi tiết bảng đa chiều
o Xác định thuộc tính của chiều: phân tích bộ truy vấn OLAP để xác định các thuộc tính quan trọng của mỗi chiều.
o Tìm các danh từ trong câu truy vấn OLAP để xác định thuộc tính của chiều.
o Thiết kế kho dữ liệu là một quá trình lặp
Trang 12●Sơ đồ chi tiết bảng Chiều Khách hàng
Trang 13● Sơ đồ chi tiết bảng Chiều Sản phẩm
Trang 14● Sơ đồ chi tiết bảng Chiều Website
Trang 15●Sơ đồ chi tiết bảng Sự
kiện
● Xác định thuộc tính của
bảng sự kiện Tất cả thuộc tính của bảng sự kiện được lưu trong sơ đồ chi tiết bảng
sự kiện.
● Các sự kiện được xác định trực tiếp từ bản ghi giao
dịch.
Trang 16●Lược đồ hình sao đầy đủ cho E-Commerce
oGồm một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều
Trang 19CÁC KHÔNG GIAN BảNG VÀ ĐÁNH CHỉ MụC CHO CÁC THUộC TÍNH 1
THIếT Kế LƯợC Đồ VậT LÝ HÌNH SAO: BÁN HÀNG TMĐT
Trang 20● Giả định việc thiết kế kho dữ liệu được thực hiện trong Oracle8
● Bố trí bảng sự kiện và các bảng chiều hợp lý: đưa lại sự thuận lợi cho kỹ thuật xử lý song song và đa tuyến
Trang 21●Hai kỹ thuật chính được sử dụng để tạo chỉ mục:
oChỉ mục bản đồ nhị phân (bitmap)
oChỉ mục liên kết (join)
●Các chỉ mục bitmap thường được tạo ra cho các thuộc tính có số lượng thành tố nhỏ và thực hiện nhanh với các phép toán AND, OR và NOT
●Chỉ mục liên kết được tạo ra dựa trên liên kết giữa hai bảng được gọi là chỉ mục kết nối (join index)
●Chỉ mục liên kết cũng có thể được tạo ra từ nhiều hơn hai bảng Trong
trường hợp này, chỉ mục liên kết được gọi là Chỉ mục kết nối đa bảng
(Multi-table joins Index).
●Các thuộc tính được đề cập trong truy vấn từ các bảng chiều phải được đánh chỉ mục
Trang 22● Quy luật của việc chọn loại chỉ mục
●Dựa vào giá trị tiềm năng của thuộc tính:
●Nếu giá trị tiềm năng là nhỏ hơn ngưỡng (thường là 1%) của tổng số
bản ghi trong bảng thì chỉ mục Bitmap sẽ được sử dụng
●Nếu các giá trị dữ liệu tiềm năng là lớn hơn ngưỡng (1%) thì chỉ mục
cây B (B - Tree) sẽ được sử dụng
Trong đó, Tổng số thành tố chính là tổng số giá trị duy nhất (unique) của thuộc tính
Trang 26●Có ba vấn đề chính của MVs là chọn lọc một tập MVs tối ưu, duy trì các MVs đó một cách tự động và tăng dần, và các truy vấn tối ưu sử dụng
những MVs đó
●Thương mại chủ yếu ứng dụng các kết tập một cách thủ công và duy trì chúng dưới dạng dữ liệu đặc tả và xử lý theo chế độ tuần tự (batch), hoặc mới bắt đầu thực hiện các kỹ thuật khung nhìn đơn giản
●Kết tập và các khung nhìn thực hiện tính toán trước một dữ liệu tổng hợp
từ bảng gốc xác định
●Microsoft OLAP Server tạo các kết tập nhằm gia tăng hiệu suất
●Oracle hỗ trợ các khung nhìn kết nối, các khung nhìn kết tập, và các
khung nhìn truy vấn con
Trang 27●Lợi ích của sự kết tập thường đi kèm với chi phí về bổ sung
bộ nhớ lưu trữ và các chi phí về bảo trì
●Các lược đồ kết tập cần được đánh giá lại định kỳ theo sự thay đổi của của yêu cầu kinh doanh
Trang 28●Phương pháp:
●Dựa trên cơ sở bộ câu truy vấn OLAP và thứ tự ưu tiên của chúng
●Sự phân bổ thống kê của dữ liệu
Trang 29● Ví dụ về việc sử dụng sự phân bổ dữ liệu thống kê trong các
chiều để tính toán giảm bớt việc xử lý số lượng các dòng:
Giả định 1% sản phẩm được bán mỗi ngày bởi 0,01% khách hàng với 10% chế độ vận chuyển và 10% khuyến mại.
Số lượng dòng trong bảng sự kiện cơ bản trong 1 năm =
Trang 30●Phân tích bán hàng với nhãn hiệu hàng được bán, tháng tài chính,
thành phố, phương thức vận chuyển và hình thức khuyến mại.
Trang 31●Truy vấn tổng hợp dữ liệu: sản phẩm/nhãn mác, Ngày/Tháng, và
oChiều Tháng: tổng hợp Nhãn mác theo Quý và tổng hợp Nhãn mác theo Năm
●Kết tập được kết hợp với các Chỉ mục kết nối đa bảng (Multi-table
joins Index) để xây dựng cây phân cấp (Hierachy) Từ đó chúng ta có
thể phân tích, tổng hợp dữ liệu ở từng mức trong Cây
Trang 32● Các vấn đề đã nghiên cứu và trình bày:
●Phân tích yêu cầu
●Thiết kế logic
●Thiết kế vật lý và kết tập
Cụ thể:
●Tập các câu truy vấn OLAP thông dụng,
●Kiến trúc kho dữ liệu dạng “bus”,
●Các cấu trúc bảng chiều,
●Một lược đồ hình sao logic, lược đồ hình sao vật lý,
●Một lược đồ hình sao kết tập cho môi trường TMĐT
Đây là mô hình đa chiều chi tiết đầu tiên cho TMĐT Mặc dù nó chưa
áp dụng được cho tất cả doanh nghiệp TMĐT, nhưng nó là một bộ khung, là mô hình tổng quát có thể được điều chỉnh, làm mịn để áp dụng cho từng lĩnh vực kinh doanh TMĐT cụ thể.
Trang 33●Những lợi ích của kho dữ liệu TMĐT:
●Tạo ra lợi thế cạnh tranh cho các doanh nghiệp khi sử dụng hệ thống
hỗ trợ tra quyết định trong quản lý tri thức, trí tuệ doanh nghiệp
●Các kho dữ liệu TMĐT - hệ thống hỗ trợ ra quyết định thu thập, nắm bắt dữ liệu từ nhiều khía cạnh, góc độ của TMĐT, bán hàng điện tử
●Những khó khăn trong thiết kế kho dữ liệu TMĐT:
●Nắm bắt, lưu dữ liệu khi nào?, ở đâu? và bằng cách nào? Chẳng
hạn, nắm bắt địa chỉ e-mail, địa chỉ IP của khách hàng
●Có nên sử dụng lược đồ hình sao của Kimball đề xuất một cách độc lập hay kết hợp và đặt nó trong một lược đồ mạnh hơn
Trang 34●[1] Tập bài giảng môn Kho dữ liệu và khai phá dữ liệu
●[2] Yeol Song and Kelly LeVan-Shultz (College of Information Science and Technology, Drexel University Philadelphia, PA
19104) - Data Warehouse Design for E-Commerce
Environment