Một số kiến thức cơ bản về kho dữ liệu. Những nguyên lí chung về kho dữ liệu. So sánh ưu nhược điểm của kho dữ liệu với các mô hình dữ liệu quan hệ. Ứng dụng quan trong của kho dữ liệu. Các kiểu kiến trúc của kho dữ liệu.
KHO DÜ LIÊU ■ (DATA WAREHOUSE) \ ThS.Nguyen Van Chut NỘI DUNG ■ ■Khái niệm v ề kho liêu ■ ■ ■Mục đích kho liệu ■ ■ "Đặc tính kho liêu ■ ■ ■Kho liệu cục (DataMart) ■Qui trình xây dựng kho liệu ■Mơ hình kho liệu ■ ■Quản trị kho liệu VI phải tìm hiểu kho liệu Các h ệ thông thông tin lớn thường gặp khó khăn khai thác d ữ liêu: m ^ ^ ^ ^ 'S 'S 'S Dữ liệu lưu trữ phân tán nhiều nơi Dữ liệu nhiều định dạng khác Khơng thể tìm thấy liệu cần thiết Không thể lấy liệu cần thiết Khơng thể hiểu liệu tìm thấy Khơng thể sử dụng liệu tìm thấy Yêu cầu liệu mức cao (hỗ trỢ định) Khái niệm v ề kho liệu ■ ■ Kho liệu tuyển tập sở liệu tích hợp, hướng chủ đề, thiết kế để hỗ trỢ cho chức trỢ giúp định Theo John Ladley, Công nghệ kho liệu (Data Warehouse Technology) tập phương pháp, kỹ thuật cơng cụ kết hỢp, hỗ trỢ để cung cấp thông tin cho người sử dụng sở tích hợp từ nhiều nguồn liệu, nhiều môi trường khác Kho liệu thường lớn tới hàng trăm GB hay chí hàng Terabyte Mục đích kho liêu ■ ■ Mục tiêu kho d ữ liệu nhàm đáp ứng tiêu chuẩn c sau: ^ P h ải CÓ khả đáp ứng yêu cắu thông tin NSD ^HỖ trỢ để nhân viên tổ chức thực tốt, hiệu cơng việc mình, có định hợp lý, nhanh bán nhiều hàng hơn, suất cao hơn, thu lợi nhuận cao hơn, v.v ^Giúp cho tổ chức, xác định, quản lý điều hành dự án, nghiệp vụ cách hiệu xác ^Tích hỢp liệu siêu liệu từ nhiều nguồn khác Đặc tính kho liêu ■ ■ Những đặc điểm Kho liệu (DW) tập hỢp liệu có tính chất sau: ^Tính tích hỢp (Integration) s Hướng chủ đề ^ D ữ liệu gắn thời gian có tính lịch sử ^ D ữ liệu có tính ổn định (nonvolatility) ^ D ữ liệu tổng hỢp Kho dü liêu clic bô (Data Mart) Kho dit liêu cilc bô (Data Mart - DM) CSDL cô nhCtng âëc diem giông vôi kho dit liêu nhitng vôi quy mô nhô hOn va litu trit dit liêu vë môt lïnh vite, môt chuyên ngành Datamart kho du liêu hlfông chu de Câc DM cô thé dlTOc hinh thành tir môt tâp du liêu cüa kho du liêu hôc cüng thé dlTOc xây dlTng dôc lâp sau xây dlftig xong, câc DM cô thé diTOc kêt nôi tich hOp lai vôi tao thành kho du1liêu Vi vây cô thé xây dlTng kho dCr liêu bât dâu bàng viêc xây dlTng câc DM hay ngiroc lai xây dlftig kho dCf liêu trlTÔc sau dô tao câc DM Kho liệu cục (Data Mart) Data mart phụ thuộc (Dependent Data Mart): Chứa liệu lây từ DW liệu trích lọc tinh chế, tích hỢp lại mức cao để phục vụ chủ đề định Datamart DATA WAREHOUSE IN D E P E N D E N T DATA MART Kho liệu cục (Data Mart) Data mart độc lập (Independent Data Marts) Không giống Data Mart phụ thuộc, Data mart độc lập xây dựng trước DW liệu trực tiếp lấy từ nguồn khác CO sol dU lieu phan tan (Distributed Database) Dinh nghTa cO sO dU lieu phan tan: Mot cO sd dit lieu Phan tan la si/ tap hop dit lieu phan tan ve mat luan ly chunq cunq mdt he thdnq nhitnq di/Oc trai rOnq nhieu nOi (site) cua mot mang may tinh [5] Djnh nghTa nhan manh hai khia canh quan trOng nhlf cua m dt CSDL Phan tan la: v' SLf Phan tan (Distribution) dU lieu tren cac nOi (site) y/ SLf tlfOng quan luan ly (Logical Con elation) m m 1/ t_/ m ■ m c/ k_/ m m l/ phải sử dụng CSDL phân tán? Có nhiều ỉý phát triển CSDL Phân tán: 'S Các lý v ế tổ chức (organizational) kinh tê (economic) ự Kết nối lấn (interconnection) CSDL 'S Sự lớn mạnh gia tăng (incremental growth) s Giảm chi phí truyền thơng (communication overhead) 'S Các nghiên cứu hiệu suất (performance consideration) ĐỘ tin cậy (reliability) tính sẵn sàng (availability) Các ỉoại phân mảnh liệu Phân mảnh ngang (Horizontal Fragmentation) Vue R ,3 ie [l,n] :ue Rị Phân mảnh dọc (Vertical Fragmentation) VAg Attr(R),3ỉe [l,n]:Ae Attr(Rị) v i Attr(R) tập thuộc tính R Qui trinh xây dlïng kho dû liêu Extract Filter Validate Merge Source Quâ trinh tdo lâp kho dit liêu Aggregate Mơ hình kho liệu ■ K iến trúc kho liệu phân tán bao gồm k ết hợp hai khái niệm tích hỢp(Intergration) thành phần liệu phân tán (Distribution) thơng qua thành phần mạng hình sau: DISTRIBUTED DAIAKASI Mơ hình kho liêu ■ Kho liệu phân tán có hai kiên trúc kho liệu phân tán nhât kho liệu phân tán không n h ât Kho liệu phân tán (Homogenous distributed data warehouses) Kho liệu phân tán thuắn kho liệu mà tất kho liệu cục (DM) nơi (Site) phải dùng chung hệ quản trị CSDL Mơ hình kho liêu ■ Kho liệu phân tán (Homogenous distributed data warehouses) Đàot?° I - Các khoa Mơ hình kho liêu ■ K iến trúc phân tán có số ưu điểm sau: •Do tất DM dùng chung DBMS nên công tác quản trị dễ dàng Người quản trị không cần biết kỹ quản trị tất DBMS khác DB2, SQL SERVER, •Cơng tác chuyển đổi liệu khơng đòi hỏi cao vĩ tất tất DM dùng chung cấu trúc liệu ràng buộc liệu •Nhiệm vụ tích hợp liệu từ nguồn trở nên đơn giản dễ quản 1Ỷ •Thời gian đáp ứng truy vấn nhanh (rapid response times) •Tuy nhiên, kho liệu phân tán thích hợp hệ thống xây dựng có chiến lược từ trước, hệ thống kê thừa liệu từ nguồn có cơng việc chuyển đối tích hỢp Mơ hình kho liêu ■ Kho liệu phân tán không (Heterogenous distributed data warehouses) Kho liệu phân tán không thuắn kho liệu mà kho liệu cục (DM) nơi (Site) mạng khơng chung hệ quản trị CSDL [11] Đào tạo Khoa Mơ hình kho liêu ■ K iến trúc phân tán khơng có số ưu điểm sau: •Kê thừa nguồn liệu từ DM tồn •Thích hỢp cho hệ thống xây dựng sở mở rộng hệ thống có thực tê đơn vị thường bắt đầu với DM nhỏ cho phòng ban, sau phát triển thành kho liệu lớn cho tồn cơng ty •Tính tự trị CSDL cao •Tuy nhiên, hệ thống phân tán khơng gặp khó khăn việc tích hỢp, chuyển đổi liệu cơng tác quản trị liệu DBMS có cấu trúc liệu, ràng buộc, cách thức truy vấn, bảo mât liêu khác S m m Quản trị kho liệu s Chuyển đổi liệu: Chuyển đổi liệu định dạng MS Excel, MS Access* SQL SERVER, XML, Oracle 'S Tích họp d ữ liệu: Trao đổi liệu Data Mart 'SĐồng liệu: So sánh, làm liệu để liệu Data Mart thống với ^ Phân tán liệu: Phân tán ngang, phân tán dọc 'SHọp nhât liệu: HỢp liệu sau phân tán dọc ^ Lọc liệu: Trích xuất liệu theo điều kiện m m ■ ■ Thuật tốn tích hợp liệu Datamart Kết thúc ghi nguổn Chuyến d ữ liệu nguồn sang ghi Chuyến d ữ liệu đích ghi đầu Đ a liệu vào danh sách cần tích h ợp Kết thúc ghi liêu đích C huyến liệu đích sang ghi t T liệu nguổn khác với liệu đích Chọn liệu cân tích hợp Cập nhật vào liệu đích Kết thúc /_ Thuật toán đồng d ữ liệu DataMart Kết nối liệu nguồn Kết nối liệu đích Chọn trường khoá, chọn trường cần so sánh liệu K ết th ú c b n Thuật toán phân tán liệu Data Mart Bắt đầư Kết nối liệu nguồn Kết nối liệu đích 11 Nhập khốdữ liệu nguồn Phân tán dọc Khơng điều kiện / Nhập số lược đổ cần phân tán Chọn trường cho lược đổ ị Tạo lược đổ cập nhật liệu Phân tán ngang có đk hay không Nhập số iược đồ Nhập tên lược đổ số ghi tương ứng Tạo lược đổ cập nhật ghi ► T~