DSS hệ thống hỗ trợ quyết định cũng được biết như EIS hệ thống thông tin lãnh đạo không nhầm lẫn với hệ thống thông tin mức xí nghiệp enterprise integration system hỗ trợ cho quyết định
Trang 1MỤC LỤC
Trang
MỤC LỤC 3
PHẦN II: NỘI DUNG 5
1 Giới thiệu, định nghĩa và thuật ngữ 5
2 Đặc điểm của kho dữ liệu 6
3 Mô hình dữ liệu cho kho dữ liệu 7
4 Xây dựng kho dữ liệu 13
5 Chức năng tiêu biểu của một kho dữ liệu 16
6 Kho dữ liệu so với khung nhìn 17
7 Các vấn đề khó khăn và hướng mở về kho dữ liệu 17
7.1 Khó khăn trong cài đặt kho dữ liệu 17
7.2 Hướng mở của kho dữ liệu 19
PHẦN III: BÀI TẬP 20
PHẦN IV: TÀI LIỆU THAM KHẢO 25
Trang 2PHẦN I: LÝ DO CHỌN ĐỀ TÀI
Sự gia tăng về khả năng xử lý và sự tinh vi của các kỹ thuật và các công cụphân tích và đã dẫn đến sự phát triển của một khái niệm là “kho dữ liệu” Nhữngkho dữ liệu này cung cấp các kho chứa, chức năng và đáp ứng các truy vấn mà cơ
sở dữ liệu tác nghiệp không giải quyết được Đi kèm với sự phát triển như vậy làmột đòi hỏi lớn về cải thiện hiệu suất truy cập dữ liệu Các cơ sở dữ liệu truyềnthống cân bằng giữa đòi hỏi về khả năng truy cập dữ liệu với sự cần thiết về bảođảm tính toàn vẹn dữ liệu Trong các hệ thống hiện đại, người sử dụng dữ liệuthường được tách rời hoàn toàn khỏi nguồn dữ liệu Người sử dụng chỉ cần truy cập
để đọc dữ liệu, nhưng vẫn cần truy cập một cách nhanh chóng đến khối lượng lớn
dữ liệu tiện lợi hơn là tải nó về máy tính Thông thường những dữ liệu như vậy đến
từ nhiều nguồn Bởi vì rất nhiều hoạt động phân tích là thường xuyên và có thể dựbáo được, các nhà cung cấp phần mềm đã thiết kế các hệ thống để hỗ trợ các chứcnăng như vậy Ngày nay, các hệ thống đó là rất cần thiết cho những người quản lý
để hỗ trợ cho các quyết định đưa ra Kho dữ liệu, xử lý phân tích trực tuyến(OLAP), khai phá dữ liệu cung cấp những tính năng này
Qua quá trình học môn Cơ sở dữ liệu nâng cao cũng như nghiên cứu phần Datawarehouse, nhóm chúng em xin chọn đề tài “TỔNG QUAN VỀ KHO DỮ LIỆU VÀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN” Tiểu luận trình bày một cách
nhìn tổng quát về kho dữ liệu và các công nghệ xử lý phân tích trực tuyến
Xin chân thành cám ơn Ts Hoàng Quang đã truyền đạt kiến thức quý báu
cho chúng em để chúng em làm tiểu luận này Xong do kiến thức còn hạn chế nênkhông thể tránh khỏi sai sót, kính mong thầy và các bạn cùng lớp góp ý để tiểu luậnđược hoàn thiện hơn
Trang 3PHẦN II: NỘI DUNG
1 Giới thiệu, định nghĩa và thuật ngữ.
Một cơ sở dữ liệu là một tập hợp các dữ liệu liên quan và một hệ thống cơ
sở dữ liệu là một cơ sở dữ liệu và phần mềm cơ sở dữ liệu kết hợp với nhau Mộtkho dữ liệu cũng là một tập hợp các thông tin như là một hệ hỗ trợ Tuy nhiên, tồntại một sự khác biệt rõ ràng Các cơ sở dữ liệu truyền thống là sự giao dịch (mốiquan hệ, hướng đối tượng, mạng, hay thứ bậc) Kho dữ liệu có đặc điểm là chủ yếudùng cho các ứng dụng hỗ trợ quyết định Nó tối ưu cho việc gọi dữ liệu, nhưngkhông xử lý giao dịch thông thường
Bởi vì kho dữ liệu đã được phát triển trong rất nhiều tổ chức cho những ứngdụng đặc thù nên không có một định nghĩa kinh điển (duy nhất) về kho dữ liệu Cácsách và bài viết trên tạp chí chuyên ngành trong ấn bản phổ thông thảo luận về ýnghĩa của kho dữ liệu theo nhiều cách khác nhau Tuy nhiên kho dữ liệu rất khácvới cơ sở dữ liệu truyền thống ở cấu trúc, chức năng, hoạt động và mục đích củachúng
W.H.Inmon mô tả một kho dữ liệu như là tập hợp dữ liệu có tính hướng chủthể, tích hợp, bền vững, biến thời gian và dùng để hỗ trợ cho các quyết định củangười quản lý Kho dữ liệu cung cấp sự truy cập dữ liệu cho những phân tích phứctạp, khám phá tri thức, ra quyết định Chúng hỗ trợ cho yêu cầu thực thi với hiệusuất cao đối với dữ liệu và thông tin của các tổ chức Một số loại ứng dụng nhưOLAP, DSS và khai phá dữ liệu được hỗ trợ Chúng ta định nghĩa chúng như sau:
OLAP (xử lý phân tích trực tuyến) là thuật ngữ được sử dụng để mô tả sựphân tích dữ liệu phức tạp từ kho dữ liệu Công cụ OLAP sử dụng khả năng tínhtoán phân tán để phân tích những yêu cầu đòi hỏi nhiều khả năng lưu trữ và xử lýhơn là về kinh tế và hiệu quả trên một máy tính riêng lẻ
DSS (hệ thống hỗ trợ quyết định) cũng được biết như EIS (hệ thống thông
tin lãnh đạo) (không nhầm lẫn với hệ thống thông tin mức xí nghiệp (enterprise integration system) hỗ trợ cho quyết định của lãnh đạo của một tổ chức với dữ liệu
mức độ cao hơn cho những quyết định quan trọng và phức tạp Khai phá dữ liệu(điều mà chúng ta đã thảo luận chi tiết ở chương 28) được dùng để khám phá trithức, tìm kiếm dữ liệu cho tri thức mới chưa được biết
Các cơ sở dữ liệu truyền thống hỗ trợ quá trình giao dịch trực tuyến(OLTP), bao gồm sự chèn vào, cập nhật và xóa trong khi vẫn hỗ trợ các yêu cầutruy vấn Các cơ sở dữ liệu quan hệ truyền thống được tối ưu hóa để xử lý các truyvấn có thể liên quan đến một phần dữ liệu mà đang được cập nhật bởi một tiến trìnhnào đó Vì vậy, chúng không thể được tối ưu hóa cho OLAP, DSS, hoặc khai phá
dữ liệu Ngược lại, kho dữ liệu được thiết kế một cách chính xác để hỗ trợ hiệu quả
Trang 4cho các mục đích khai thác, xử lý, phân tích và ra quyết định So sánh với cơ sở dữliệu truyền thống, kho dữ liệu thường chứa một lượng rất lớn dữ liệu từ nhiềunguồn mà có thể bao gồm cơ sở dữ liệu từ các mô hình dữ liệu khác nhau, đôi khicác tập tin có được từ các hệ thống khác.
2 Đặc điểm của kho dữ liệu
Để thảo luận về kho dữ liệu và phân biệt chúng với cơ sở dữ liệu tácnghiệp, chúng ta cần một mô hình dữ liệu phù hợp Mô hình dữ liệu đa chiều (đượcgiải thích khá chi tiết ở mục 3) là rất thích hợp cho OLAP và các công nghệ hỗ trợquyết định Ngược lại với đa cơ sở dữ liệu, cung cấp truy cập đến các cơ sở dữ liệurời rạc và thường là không đồng nhất, kho dữ liệu thường là một kho tích hợp dữliệu từ nhiều nguồn, xử lý lưu trữ trong một mô hình đa chiều Không giống nhưhầu hết các cơ sở dữ liệu tác nghiệp, kho dữ liệu điển hình hỗ trợ phân tích xuhướng và chuỗi thời gian, cả hai đều đòi hỏi dữ liệu quá khứ hơn là dữ liệu hiện tại
So sánh với cơ sở dữ liệu tác nghiệp, kho dữ liệu là ít thay đổi thườngxuyên và có thể được coi là non-real-time updating Trong các hệ thống tácnghiệp, giao tác là các đơn vị và là những tác nhân của sự thay đổi cơ sở dữ liệu.Ngược lại thông tin trong kho dữ liệu là khá thô được “làm mới” theo chính sáchlựa chọn cẩn thận các thông tin, thông thường là gia tăng Việc cập nhật kho được
xử lý bởi một bộ phận của kho
Tổng quát hơn, kho dữ liệu là tập hợp các công nghệ hỗ trợ quyết định,nhằm tạo điều kiện cho người lao động tri thức (hành pháp, quản lý và nhà phântích), để đi đến các quyết định tốt hơn và nhanh hơn Hình 1 đưa ra tổng quan vềcấu trúc kho dữ liệu Nó trình bày toàn bộ quá trình xử lý của kho dữ liệu, bao gồmlàm sạch và định dạng lại dữ liệu trước khi nạp vào kho Quá trình này hiện nayđược điều khiển công cụ ETL (kết xuất, chuyển đổi, nạp) Tại cuối quá trình,OLAP, data mining, và DSS có thể sinh ra các dữ liệu liên quan; và những thôngtin này lại được đưa về kho Nguồn dữ liệu có thể được chứa trong file
Hình 1
Trang 5Kho dữ liệu có những đặc điểm phân biệt sau:
+ Khung nhìn khái niệm đa chiều
+ Thao tác dữ liệu trực quan
+ Thực thi báo cáo nhất quán
+ Báo cáo linh hoạt
Bởi vì chúng bao gồm khối lượng lớn dữ liệu, kho dữ liệu thông thườngkhuyếch đại lớn hơn một cấp (đôi khi hai cấp khuyếch đại) so với nguồn cơ sở dữliệu
Dung lượng tuyệt đối của dữ liệu (có khả năng đạt đến terabytes) là một vấn
đề đã được giải quyết thông qua kho dữ liệu doanh nghiệp, kho dữ liệu ảo và siêuthị dữ liệu
Kho dữ liệu doanh nghiệp: là những dự án đòi hỏi đầu tư lớn về thời gian
3 Mô hình dữ liệu cho kho dữ liệu
Mô hình đa chiều mang lại lợi ích cho các mối quan hệ kế thừa trong dữliệu để đưa dữ liệu vào ma trận đa chiều được gọi là khối dữ liệu Có thể gọi siêukhối nếu nó có hơn ba chiều Đối với dữ liệu mà định dạng theo chiều, việc thựchiện các truy vấn trong ma trận đa chiều có thể tốt hơn nhiều so với mô hình dữliệu quan hệ Ví dụ về dữ liệu đa chiều trong kho dữ liệu: chu kỳ, sản phẩm, vùngcủa một công ty
Trang 6Một bảng tính chuẩn là một ma trận hai chiều Một ví dụ cho bảng tính củaviệc kinh doanh theo vùng được thể hiện bởi chiều sản phẩm và chiều thời gian.Sản phẩm thể hiện ở hàng và tổng thu nhập cho mỗi vùng thể hiện ở cột Hình 2cho thấy cách tổ chức hai chiều này Thêm vào chiều thời gian như là một quí tàichính tổ chức được ma trận ba chiều
Hình 2 Mô hình ma trận 2 chiều
Hình 3 cho thấy khối dữ liệu 3 chiều được tổ chức bởi sản phẩm, quí (thờigian) và vùng (vị trí địa lí) Mỗi ô có thể chứa dữ liệu về một sản phẩm, quí vàvùng Bằng cách thêm vào các chiều, một siêu khối dữ liệu có thể được tạo ra, mặc
dù nhiều hơn ba chiều có thể gây ra sự khó khăn trong trực quan hoá hay biểu diễndưới dạng biểu đồ Dữ liệu có thể được truy vấn trực tiếp theo một tổ hợp các chiềunào đó qua các truy vấn phức tạp Có các công cụ cho phép người dùng xem dữliệu theo chiều
Hình 3 Mô hình khối dữ liệu 3 chiều
Region
…
P123 P124 P125 P126
…
Product
P123
P124 P125 P126 P127
Reg1 Reg2
… Reg3 Region
Trang 7Việc thay đổi từ chiều này sang chiều khác được thực hiện một cách dễdàng bằng một kỹ thuật gọi là pivoting (phép quay) Trong kỹ thuật này khối dữliệu có thể quay để hiển thị theo các hướng khác nhau của hệ trục Ví dụ, bạn phảixoay khối dữ liệu để hiển thị thu nhập bán hàng tại địa phương như là hàng (trụcngang), tổng thu nhập theo quý tài chính như là cột (trục đứng), và các sản phẩmcủa công ty trong chiều thứ ba (hình 4) Do vậy, kỹ thuật này là tương đương với
có một bảng bán hàng địa phương cho mỗi sản phẩm tách biệt nhau, nơi mỗi bảnghiển thị bán hàng theo quý cho sản phẩm đó theo từng vùng
Mô hình đa chiều tự nó có khuynh hướng dẫn đến các cách xem dữ liệuphân cấp được gọi là kiểu trình bày roll-up (cuộn lên) hoặc Drill-down (cuộnxuống) Kiểu trình bày Roll-up di chuyển lên (trong mô hình phân cấp) nhómthành các khối dữ liệu lớn hơn theo một chiều VD: tính tổng dữ liệu hàng tuầntheo quý hoặc theo năm Hình 5 biểu diễn cách trình bày roll-up, di chuyển từ cácsản phẩm riêng biệt thành các nhóm loại sản phẩm Biểu diễn H.29.6 biểu diễnDrill-down thì ngược lại, phân tách các sản phẩm bán cho quốc gia theo vùng miền
và sản phẩm bán theo vùng miền thành các vùng miền địa phương và có thể táchsản phẩm thành ra các kiểu loại
Hình 4 Phép quay khối dữ liệu từ hình 3
Trang 8Hình 5 Thao tác roll-up
Sub_reg1
Sub_reg2
Sub_reg3
Sub_reg4
Sub_reg1
P123
Styles
ABCDP124
Styles
ABCP125
Styles
ABCD
Hình 6 Thao tác drill-down
Trang 9Mô hình kho đa chiều bao gồm hai kiểu bảng: Bảng chiều và bảng sự kiện(fact) Bảng chiều (dimension table) gồm các bộ thuộc tính của chiều Bảng fact(Fact table) có thể xem như là các bộ, một bộ là một bản ghi sự kiện được ghi nhận.Fact này chứa các biến đo được hay quan sát được và định danh chúng bằng cáccon trỏ trỏ đến các bảng chiều Bảng fact chứa dữ liệu và các chiều trong mỗi bộ dữliệu H.29.7 chứa một VD về bảng fact mà có thể xem từ phối cảnh các bảng đachiều.
Hai lược đồ đa chiều phổ biến là lược đồ hình sao và lược đồ hình bôngtuyết Lược đồ hình sao bao gồm một bảng fact và các bảng chiều, mỗi bảng là mộtchiều (hình 7) Lược đồ hình bông tuyết là một biến thể của lược đồ hình sao trong
đó các bảng chiều từ lược đồ hình sao đã được chuẩn hóa Một số cài đặt đangchuẩn hoá kho dữ liệu về dạng 3NF để có thể truy cập kho dữ liệu với mức độ chitiết tốt nhất Một tập sự kiện là một tập hợp các bảng fact, nó chia sẻ một số chiềucủa bảng Hình 9 hiển thị một bảng tập hợp sự kiện với 2 bảng sự kiện, những kếtquả kinh doanh và dự báo kinh doanh Chúng chia sẻ chiều sản phẩm Bảng tập hợp
sự kiện giới hạn các truy vấn có thể thực hiện được của kho dữ liệu
Hình 7 Một lược đồ hình sao cùng với bảng sự kiện và bảng chiều
Lưu trữ kho dữ liệu cũng sử dụng kỹ thuật lập chỉ mục để tăng tốc độ truycập Một kỹ thuật được gọi là chỉ mục bitmap xây dựng một bit véc tơ cho mỗi giátrị trong một miền (cột) đang được đánh chỉ mục Nó hoạt động rất tốt đối với cácmiền có bản số thấp Có một bit 1 được đặt trong vị trí thứ j trong vector nếu hàngthứ j có chứa các giá trị được lập chỉ mục Ví dụ, hãy tưởng tượng một hàng tồnkho có 100000 xe hơi với một chỉ mục bitmap kích thước xe Nếu có bốn kích cỡ
xe thì sẽ có bốn bit véc tơ, mỗi véc tơ chứa 100000 bit (12.5K), tổng kích cỡ chỉ
Trang 10mục là 50K Với các bit vectors một chỉ mục bitmap có thể cung cấp cải tiến đáng
kể trong so sánh, tổng hợp, và hiệu quả nối
Hình 8 Lược đồ hình sao
Hình 9 Một bảng tập hợp sự kiện
Trong một lược đồ hình sao, chiều dữ liệu có thể được lập chỉ mục để tạotừng bộ trong bảng sự kiện bằng cách nối chỉ mục Nối chỉ mục là lập chỉ mục đểduy trì mối quan hệ giữa giá trị khoá chính và giá trị khóa ngoài Chúng liên quancác giá trị một chiều của một lược đồ hình sao tới các hàng trong bảng sự kiện Ví
dụ, xem xét bảng sự kiện bán hàng có thành phố và quý tài chính như các chiều.Nếu có một đường nối chỉ mục trên thành phố, mỗi thành phố có đường nối chỉmục duy trì các bộ ID của các bộ chứa thành phố đó Các đường nối lập chỉ mục cóthể liên quan tới đa chiều
Lưu trữ kho dữ liệu có thể tạo điều kiện thuận lợi để truy cập vào dữ liệutóm tắt bằng việc thêm ưu điểm tính chất cố định của kho dữ liệu và mức độ tin cậyđược của các phân tích sẽ được thực hiện bằng cách sử dụng chúng Hai phương
Trang 11pháp tiếp cận đã được sử dụng: (1) các bảng nhỏ hơn bao gồm dữ liệu tóm tắt nhưbán hàng hàng quý hoặc doanh thu của dòng sản phẩm, và (2) mã hóa các cấp độ(ví dụ, hàng tuần, hàng quý, hàng năm) vào bảng hiện có Bằng cách so sánh, tổngchi phí của việc tạo và duy trì như những tổng hợp có khả năng hơn trong một cơ
sở dữ liệu hướng giao tác linh động
4 Xây dựng kho dữ liệu
Trong việc xây dựng một kho dữ liệu, người xây dựng nên có cách nhìn mởrộng các dự đoán của việc sử dụng kho dữ liệu Không có cách nào để dự đoán tất
cả các truy vấn có thể hoặc các phân tích trong suốt giai đoạn thiết kế Tuy nhiên,việc thiết kế nên hỗ trợ mô hình truy vấn ad-hoc, có nghĩa là, truy cập dữ liệu cùngvới bất kỳ sự kết hợp có ý nghĩa nào các giá trị của các thuộc tính trong bảng chiềuhoặc bảng sự kiện Ví dụ: một công ty tiếp thị - thị trường tập trung - sản xuất sẽyêu cầu những cách khác nhau để tổ chức kho dữ liệu hơn so với một tổ chức philợi nhuận tập trung vào việc nâng cao quỹ Một lược đồ phù hợp cần được lựa chọn
để phản ánh dự đoán sử dụng
Sự thu thập dữ liệu cho các kho dữ liệu bao gồm các bước sau:
Dữ liệu phải được trích xuất từ nhiều nguồn hỗn tạp khác nhau
Dữ liệu phải được định dạng một cách nhất quán trong kho dữ liệu.
Tên, ý nghĩa, và miền trị phải được làm cho tương thích Ví dụ, các công ty con,các chi nhánh của một tập đoàn lớn có thể có các lịch biểu tài chính khác nhau vớiquý kết thúc vào ngày khác nhau, gây cho nó khó khăn để tổng hợp dữ liệu tàichính của quý Các loại thẻ tín dụng của họ có thể báo cáo các giao dịch khác nhau,gây cho nó khó tính tất cả các thẻ tín dụng kinh doanh Các định dạng mâu thuẫnnhau phải được giải quyết
Dữ liệu phải được làm sạch để đảm bảo hiệu lực Làm sạch dữ liệu
là một quá trình phức tạp và được xem như là thành phần đòi hỏi nhiều công sứcnhất của việc xây dựng kho dữ liệu Dữ liệu phải được làm sạch trước khi đượcload vào kho dữ liệu Làm sạch dữ liệu là đặc biệt dành cho kho dữ liệu và có thểkhông được áp dụng cho một cơ sở dữ liệu máy chủ Tuy nhiên, vì đầu vào dữ liệuphải được kiểm tra và định dạng nhất quán, người xây dựng kho dữ liệu có cơ hội
để kiểm tra hiệu lực và chất lượng Việc đoán nhận dữ liệu sai lầm và không đầy đủkhó để tự động hóa, và sự làm sạch mà yêu cầu sửa lỗi tự động có thể thậm chí cònkhó khăn hơn Một số khía cạnh, như kiểm tra miền trị là dễ dàng được cài đặt vàotrong thủ tục làm sạch dữ liệu, nhưng nhận dạng tự động của những vấn đề của dữliệu có thể đặt ra nhiều thử thách hơn (Ví dụ, một yêu cầu rằng City = 'SanFrancisco' cùng với State = 'CT' được công nhận như là một sự kết hợp khôngchính xác) Sau khi những vấn đề như vậy đã được chú ý, dữ liệu tương tự từ