Việc xây dựng một cơ sở dữ liệu đã được nghiên cứu từ lâu, đã có nhiều công cụ và giải pháp của các hãng hỗ trợ phát triển, nhưng xây dựng kho dữ liệu và khai phá dữ liệu là một khái niệm khá mới. Bài viết này phân tích và cung cấp cái nhìn sâu hơn về thực hiện xây dựng kho dữ liệu và khai phá dữ liệu.
TẠP CHÍ KHOA HỌC SỐ * 2014 63 NGHIÊN CỨU XÂY DỰNG, KHAI THÁC KHO DỮ LIỆU Lê Tỷ Khánh* Tóm tắt Việc xây dựng sở liệu nghiên cứu từ lâu, có nhiều công cụ giải pháp hãng hỗ trợ phát triển, xây dựng kho liệu khai phá liệu khái niệm mới, dựa tảng sở liệu mang đặc thù riêng biệt, nghiên cứu năm gần khối lượng liệu lưu trữ máy tính, Internet ngày khổng lồ, có nơi bắt đầu lên đến hàng terabyte Các hệ quản trị sở liệu lớn Oracle 1xi, SQL server 201x,… xây dựng công cụ hỗ trợ cho việc xây dựng kho liệu khai phá liệu Trong lĩnh vực: bán hàng, ngân hàng, viễn thông … việc xây dựng kho liệu khai phá liệu trở nên phổ biến mang lại hiệu lớn Bài viết phân tích cung cấp nhìn sâu thực xây dựng kho liệu khai phá liệu Từ khóa: Kho liệu, khai phá liệu, tải liệu, trích xuất liệu, chuyển đổi liệu Khái niệm kho liệu Kho liệu (Data Warehouse - DWH) gì? Thơng thường, DWH xem sở liệu quan hệ thiết kế phục vụ cho truy vấn phân tích hỗ trợ định, trì tách biệt từ sở liệu tác nghiệp (Operational Database) tổ chức Nó cung cấp tảng đồng cho việc hợp nhất, lịch sử hố liệu Có nhiều định nghĩa DWH, theo W.H.Inmon [5] DWH định nghĩa “tập hợp liệu hướng chủ thể (Subject Oriented) , tích hợp (Integrated), có tính ổn định (Non Volatile), tính lịch sử (Time Variant) hỗ trợ cho xử lý thực định quản trị” Theo Paul Lucas – IBM [2], nơi lưu trữ liệu đầy đủ quán, tổng hợp từ nhiều nguồn, xây dựng sẵn cho người dùng cuối, dễ hiểu Theo John Laddy [6], Công nghệ DWH (Data Warehouse Technology) tập phương pháp, kỹ thuật công cụ kết *ThS, Sở Thông tin Truyền thông Phú Yên hợp, hỗ trợ để cung cấp thông tin cho người sử dụng sở tích hợp từ nhiều nguồn liệu, nhiều mơi trường khác Như vậy, mục tiêu DWH đáp ứng tiêu chí sau: Đáp ứng yêu cầu thông tin người sử dụng; Hỗ trợ lãnh đạo, nhân viên tổ chức thực hiệu nhiệm vụ mình, có định hợp lý, nâng cao suất làm việc, thu nhiều lợi nhuận…; Giúp tổ chức, quan quản lý điều hành dự án, nghiệp vụ cách hiệu quả, tiết kiệm; Tích hợp liệu từ nhiều nguồn khác Hướng chủ thể Tích hợp Data Warehous e Lịch sử Ổn định Hình 1: Minh họa định nghĩa W.H.Inmon TRƯỜNG ĐẠI HỌC PHÚ YÊN 64 So sánh DWH hệ sở liệu tác nghiệp (Online Transaction Processing - OLTP) Xử lý giao dịch trực tuyến OLTP: Tác vụ hệ quản trị CSDL quan hệ truyền thống; Các thao tác hàng ngày: nhập, sửa, báo cáo,… Xử lý phân tích trực tuyến OLAP (Online Analysis Processing): Tác vụ hệ thống kho liệu, phân tích liệu đưa định Các đặc điểm khác (OLTP OLAP) [2] Xử lý giao dịch trực tuyến (OLTP) • • • • • • Cơng nghệ: CSDL quan hệ Hướng tồn tác Chuẩn hóa, khơng dư thừa Tập trung vào liệu Trả lời truy vấn đơn Tính tồn vẹn, bảo mật, đồng thời, khóa • Xử giao dịch trực tuyến Tổng quát, DWH làm nhiệm vụ phân phát liệu cho nhiều đối tượng - Theo quan điểm người dùng: Khách hàng so với thị trường - Các nội dung liệu: Hiện tại, chi tiết so với lịch sử tóm lược - Thiết kế CSDL: ER + ứng dụng so với hình hướng chủ thể - Khung nhìn: Hiện tại, cục so với lịch sử tích hợp - Các mẫu truy cập: Cập nhật so với truy vấn đọc Kho liệu, xử lý phân tích trực tuyến (OLAP) • CSDL quan hệ, CSDL đa chiều • Chấp nhận dư thừa • Tiền tính tốn tổng hợp • Dữ liệu lịch sử • Phân tích phức tạp • Tích hợp liệu từ đa nguồn • Dữ liệu lớn • Các câu hỏi phức tạp (người sử dụng), xử lý thông tin nhiều dạng: CSDL, SQL Query, Report,… Người sử dụng Dữ liệu Nguồn Dữ liệu Nguồn Trích rút Trích rút Tích hợp Truy vấn & Phân tích Truy vấn & Phân tích Data Warehouse MetaData Dữ liệu Nguồn Trích rút Người sử dụng Hình 2: Mơ hình hoạt động tổng qt DWH giới thực khách hàng, kho Các kiểu liệu DWH - Dữ liệu nghiệp vụ (Business data): Là hàng, sản phẩm, hố đơn bán hàng,…Nó liệu dùng để vận hành quản lý tạo sử dụng hệ thống xử đơn vị tổ chức Nó phản ảnh hoạt lý giao tác hệ thống hỗ trợ động doanh nghiệp đối tượng định TẠP CHÍ KHOA HỌC SỐ * 2014 Các đặc điểm để phân loại liệu nghiệp vụ: Phương thức sử dụng liệu, phạm vi liệu, liệu đọc, ghi hay đọc, liệu theo thời gian Phương thức sử dụng nghiệp vụ: thực mục tiêu: Dữ liệu tác nghiệp: Xử lý công việc liên quan đến hoạt động hay định mang tính ngắn hạn Đây liệu gốc tổ chức, nguồn liệu mang tính thơng tin; Dữ liệu mang tính thơng tin: Xử lý khai thác liệu thời gian dài Cả liệu tác nghiệp liệu mang thông tin cấu trúc theo nhu cầu truy cập sử dụng tổ chức xây dựng Phạm vi liệu: Dữ liệu phản ánh mẫu tin giao dịch, tổng hợp mẫu tin giao dịch Dữ liệu là: Dữ liệu chi tiết hay liệu nguyên tử: Thường đối tượng hay giao dịch sở như: sản phẩm, đơn đặt hàng hay khách hàng,… Dữ liệu tổng hợp: Trong quản lý doanh nghiệp thể mức độ bao quát hoạt động nghiệp vụ Dữ liệu đọc, ghi hay đọc: Dữ liệu đọc, ghi: Yêu cầu thiết kế cẩn thận tiến trình cập nhật nhằm bảo đảm qui tắc, luật nghiệp vụ Xây dựng cấu trúc tối ưu cho việc đọc ghi liệu vào CSDL Dữ liệu đọc: Thiết kế phục vụ truy cập thông tin Cấu trúc xây dựng tối ưu cho việc truy vấn nhiều lần Dữ liệu theo thời gian: xét theo khía cạnh thời gian, gồm: Dữ liệu tại: Là khung nhìn cơng việc nghiệp vụ vào thời điểm Có thể hiểu liệu tức thời thay đổi theo thời gian hoạt đông nghiệp vụ 65 Dữ liệu thời điểm: ảnh chụp liệu nghiệp vụ thời điểm định, phản ánh trạng thái cơng ty thời điểm Dữ liệu thể khung nhìn q khứ, dùng để định kế hoạch hay dự đoán Dữ liệu định kỳ: Đây lớp liệu mở rộng quan trọng Nó thể thay đổi cơng việc nghiệp vụ giai đoạn thời gian Các khái niệm sở cho việc xử lý liệu lịch sử (bao gồm liệu định kỳ ảnh chụp liệu khứ) DWH Từ đặc điểm phân tích trên, xác định loại liệu nghiệp vụ Việc phân loại dựa liệu có cấu trúc lý do, thứ nhất, liệu có cấu trúc cài đặt vào kho chứa đầu tiên; thứ 2, với liệu có cấu trúc phân biệt khác biệt loại liệu rõ ràng Dữ liệu thời gian thực (real-time data): Dữ liệu chi tiết, tức thời dùng vận hành công việc truy xuất theo chế độ đọc, ghi thông qua giao dịch xác định trước Dữ liệu thời gian thực tạo lập, thao tác sử dụng ứng dụng thao tác hay sản xuất Chúng tổ chức thành tập tin hay CSDL Dữ liệu dẫn xuất (derived data): Dữ liệu xác thực theo thời điểm liệu định kỳ mức chi tiết tổng hợp, thuộc chế độ đọc, nhận từ việc xử lý liệu thời gian thực dùng để quản lý nghiệp vụ Dữ liệu dẫn xuất tập liệu thường sử dụng để trợ giúp định Dữ liệu tương hợp, hoà hợp (reconciled data): loại liệu dẫn xuất đặc biệt, sinh tiến trình thiết kế nhằm bảo đảm vững nội liệu kết quả, tiến trình thực dựa vào liệu thời gian thực mức chi tiết, trì tạo liệu lịch sử 66 - Siêu liệu (Metadata): Là liệu liệu, sử dụng DWH, trả lời câu hỏi ai? Cái gì? Khi nào? Tại sao? Như liệu? Các thuộc tính sử dụng cho việc xây dựng, trì, quản lý sử dụng DWH Metadata liệu quan trọng DWH Ở mức tối thiểu, Metadata phải mô tả liệu chứa DWH, bao gồm: Vị trí, mô tả DWH thành phần liệu (các đối tượng DWH); tên gọi, định nghĩa, cấu trúc nội dung DWH với quan sát người sử dụng; xác nhận nguồn cung cấp liệu; qui tắc chuyển đổi tích hợp liệu sử dụng DWH, có phép ánh xạ CSDL tác nghiệp sang DWH, kể thuật toán chuyển đổi; qui tắc chuyển đổi tích hợp liệu sử dụng để cung cấp liệu đến người sử dụng; thông tin mô tả hệ thống thông tin cấp phát; thông tin thao tác DWH, bao gồm lịch sử trình cập nhật DWH, trình làm tươi, chụp liệu,…; hệ số đo (metric) sử dụng để phân tích hiệu suất sử dụng hiệu DWH; đảm bảo an toàn liệu danh sách quản lý quyền truy cập Như vậy, mơ hình thích hợp cho Metadata mơ hình quan hệ thực thể hay biểu đồ lớp UML Trong mơ hình có thực thể (entity), thuộc tính (attribute), mối quan hệ (ralationship) Đối tượng vào/ra (Input - Output Object): Mô tả đối tượng liệu vào/ra DWH Các phần tử liệu (Data Element): mô tả đơn vị sở kiện truy nhập cột CSDL Các thành phần quan hệ (Ralationship TRƯỜNG ĐẠI HỌC PHÚ YÊN Member): Mô tả tham gia thực thể quan hệ xác định Kiến trúc DWH [7] Thông thường kiến trúc DWH gồm tầng (layer): Tầng thể (Presentation layer), Tầng xử lý phân tích trực tuyến (OLAP layer), Tầng chiết (Extraction layer) - Tầng thể hiện: Được biết đến phần DWH; Cung cấp báo cáo, gồm: báo cáo thường kỳ, thống kê, báo cáo chi tiết (so sánh dựa yêu cầu thời), báo cáo ngoại lệ đưa cho số yêu cầu đặc biệt việc phân tích liệu, phân tích tiền tính tốn, đồ thị, biểu đồ; Cho phép phân tích sâu trực tuyến liệu; Thăm dị tương tác liệu; Cung cấp giao diện người dùng phức tạp; Cung cấp khả phân tích liệu phức tạp phương thức đơn giản; Kiến trúc khách chủ; Giao diện cho DWH trung tâm mảng liệu cục (data mart); Nhiều loại giao diện cho nhiều cấp người dùng: báo cáo phân tích; Các báo cáo kinh doanh, ước lượng, dự báo, phân loại,…; Các kỹ thuật biểu diễn liệu; Công nghệ khai phá liệu Tầng trả lời câu hỏi người sử dụng đặt Chẳng hạn cơng ty kinh doanh có câu hỏi sau: khách hàng mua mặt hàng nhiều nhất, mặt hàng đến thời điểm tại? mặt hàng bán chạy kỳ lễ? So sánh mức chi tiêu trung bình khách hàng niên khách hàng lớn tuổi? - Tầng xử lý phân tích trực tuyến: Ở tầng ứng dụng kỹ thuật phân tích đa chiều nhiều tập liệu lớn; Dữ liệu trình bày theo mơ hình đa chiều; Cơng nghệ OLAP cho phép truy cập nhanh tới toán tử hỗ trợ đặt biệt rollingup, drilling down, ; Cung cấp giao diện cho DWH báo cáo để tương tác với liệu; Tối ưu hoá câu truy vấn; Quản lý TẠP CHÍ KHOA HỌC SỐ * 2014 67 phân tích truy vấn thường xun ;An tồn: cấp quyền quản lý truy cập - Tầng chiết (hay gọi tầng Thu thập): Tầng chứa loại liệu nguồn thủ tục, chương trình để trích, rút, sàng lọc liệu cần thiết từ liệu nguồn Dữ liệu nguồn gồm: 1) Dữ liệu từ hệ thống tác nghiệp Các hệ thống chứa liệu chi tiết tại, sử dụng cho giao dịch hàng ngày, nguồn SQL Server DB/2 liệu tích hợp để xây dựng DWH; 2) Hệ thống kế thừa, sưu tập liệu cũ không dùng cho mục đích hoạt động; 3) Các nguồn liệu bên ngồi, chẳng hạn liệu phân tích thị trường, liệu báo cáo thời tiết, liệu thuế,…không phải liệu tạo cơng ty có cấu trúc mã hóa hồn tồn khác phụ thuộc vào nhà cung cấp; Data mart Trích rút Data mart Biến đổi Data Warehouse Data mart Làm Data mart ODS Informix Tầng chiết Tầng OLAP Tầng Thể Hình 3: Kiến trúc tầng DWH Tính khả thi liệu truy xuất, Qui trình xây dựng DWH [5] Khi định xây dựng DWH cần rủi ro tiềm tàng gây khó khăn xây dựng thực hiện: Thu thập yêu cầu chức vận hành hệ thống Từ đó, tạo thiết kế phi chức để đảm bảo chắn hệ logic thiết kế vật lý cho DWH thống xây dựng hỗ trợ người sử dụng đạt Thiết kế logic mang tính khái quát mục tiêu đề ra; định nghĩa trừu tượng thiết kế vật lý Trong thiết yêu cầu chức như: Hệ thống DWH kế logic xác định mối quan hệ logic làm gì? Các câu hỏi vấn đề mà hệ số đối tượng Trong thiết kế thống trả lời, liệu lưu trữ vật lý, trọng hiệu cách lưu trữ DWH? Phân tích người sử dụng khôi phục đối tượng xử khai thác; Các yêu cầu phi chức lý việc chuyển đổi lưu/ khôi phục bảo mật, tính sẵn sàng, thực thi - Thiết kế logic: Một kỹ thuật sử Chẳng hạn tính sẵn sàng: mong muốn dụng để mơ hình hố u cầu thơng thời gian dừng hệ thống nhỏ tin logic mơ hình ER (Entity Relationship) giờ/tháng; Nghiên cứu sâu kỹ hệ thống: Mơ hình ER bao gồm xác định thực TRƯỜNG ĐẠI HỌC PHÚ YÊN 68 thể, thuộc tính thực thể, mối quan hệ thực thể Quá trình thiết kế logic bao gồm đặt liệu vào mối quan hệ logic gọi thực thể thuộc tính Một thực thể đại diện cho đơn vị thông tin Trong sở liệu quan hệ, thực thể thường ánh xạ tới bảng Một thuộc tính thành phần thực thể, giúp định nghĩa tính thực thể Trong sở liệu quan hệ, thuộc tính ánh xạ tới cột Trong sơ đồ ER theo truyền thống kết hợp với mơ hình tiêu chuẩn hóa cao chẳng hạn ứng dụng OLTP, kỹ thuật hữu ích cho thiết kế kho hàng liệu định dạng mơ hình chiều Trong mơ hình chiều, thay việc tìm kiếm khám phá đơn vị nguyên tử thông tin (như thực thể thuộc tính) tất mối quan hệ chúng, nhận dạng thông tin thuộc bảng kiện trung tâm thông tin thuộc bảng chiều có liên hệ với bảng kiện trung tâm Xác định chủ đề kinh doanh hay lĩnh vực liệu, định nghĩa mối quan hệ chúng, đặt tên thuộc tính Bảng chiều thuộc tính 11 thuộc tính 12 - … Kết thiết kế lôgic tập hợp thực thể thuộc tính tương ứng tới bảng kiện, bảng chiều mơ hình gồm: liệu nguồn cung cấp cho DWH Lược đồ DWH: Lược đồ Một tập hợp đối tượng sở liệu, gồm table, view, index, vấn đề khác Có nhiều cách xếp đối tượng lược đồ mơ hình thiết kế lược đồ DWH Đa số kho liệu sử dụng mơ hình chiều Mơ hình liệu nguồn yêu cầu người sử dụng sở để thiết kế lược đồ DWH Lược đồ hình sao: mơ hình DWH đơn giản Được gọi lược đồ hình lược đồ giống với ngơi sao, nhiều điểm kết nối từ trung tâm Trung tâm hình gồm nhiều bảng kiện, điểm bảng chiều, Cách tự nhiên để xây dựng kho liệu có lược đồ hình ngơi sao: Xây dựng bảng kiện bảng chiều chung quanh có quan hệ đến bảng kiện Một mơ hình ngơi tối ưu hóa thực việc giữ cho truy vấn đơn giản cung cấp đáp ứng nhanh - Bảng chiều thuộc tính 31 thuộc tính 32 - … - - - Bảng kiện thuộc tính 11 thuộc tính 21 thuộc tính 31 … - Bảng chiều thuộc tính 21 thuộc tính 22 … Bảng chiều n thuộc tính n1 thuộc tính n2 - … - Hình 4: Lược đồ hình Sao Một số Lược đồ khác: Lược đồ tuyết: Căn vào lược đồ hình sao, Bản kiện giống lược đồ hình sao, Các chiều chuẩn hố (chuẩn 3), Các chiều cấu trúc rõ ràng TẠP CHÍ KHOA HỌC SỐ * 2014 69 Bảng chiều - thuộc tính 11 - thuộc tính 12 -… Bảng - thuộc tính 21 - thuộc tính 211 -… - Bảng chiều - thuộc tính 31 - thuộc tính 32 -… Bảng 21 - thuộc tính 211 - thuộc tính 212 -… Bảng kiện thuộc tính 11 thuộc tính 21 thuộc tính 31 thuộc tính n1 - … Bảng n - thuộc tính n1 - thuộc tính n11 - … Bảng n1 - thuộc tính n11 - thuộc tính n21 -… Bảng n2 - thuộc tính n21 - thuộc tính n22 -… Hình 5: Minh họa lược đồ hình Bơng tuyết Những đối tượng lược đồ DWH Bảng kiện: Là bảng lớn, lược đồ DWH, nơi cất giữ khối lượng lớn kiện hoạt động đơn vị khóa ngoại liên quan đến bảng chiều Những bảng kiện biểu diễn liệu, thông thường số, cho phép thêm vào phân tích kiểm tra Bảng chiều: Có thể hiểu bảng tham chiếu hay tra cứu, chứa đựng liệu tĩnh tương đối DWH Những bảng chiều lưu trữ thông tin dùng chứa đựng câu hỏi Những bảng chiều thông thường văn miêu tả, sử dụng chúng dòng đầu tập hợp kết Chiều Một cấu trúc, thường bao gồm nhiều phân cấp Những thuộc tính chiều giúp để mơ tả giá trị chiều Chúng có tính miêu tả Có vài chiều phân biệt rõ ràng, kết hợp với kiện, cho phép trả lời truy vấn Những tích lũy hay tổng hợp tự nhiên bên bảng chiều gọi phân cấp Phân cấp: Sự phân cấp cấu trúc lơgíc mà việc sử dụng mức theo thứ tự phương tiện tổ chức liệu Một phân cấp dùng để tổng hợp liệu Ví dụ, chiều Thời gian (Time), tập hợp liệu từ mức Tháng (Month), tới mức Quí (Quarter), tới mức Năm (Year) Một phân cấp dùng để định nghĩa thiết lập cấu trúc phả hệ Bên phân cấp, mức nối cách logic tới mức giá trị liệu mức thấp tập hợp thành giá trị liệu mức cao hơn Một chiều bao gồm nhiều phân cấp Phân cấp chiều cho phép nhóm mức từ tổng quan tới hạt (phần tử nhỏ nhất) Những công cụ truy vấn sử dụng phân cấp cho phép khoan sâu vào liệu Đây số lợi ích kho liệu, mối quan hệ phả hệ cho phép người phân tích truy nhập liệu nhanh TRƯỜNG ĐẠI HỌC PHÚ YÊN 70 Mức: Một mức đại diện cho vị trí phân cấp Các mức xếp từ tổng quan đến cụ thể, mức gốc mức cao hay chung Những mức chiều tổ chức thành nhiều phân cấp Những mối quan hệ mức: Chỉ rõ thứ tự từ đỉnh tới đáy, từ mức gốc đến thông tin chi tiết Chúng định nghĩa mối quan hệ cha - mức hệ thống phân cấp Quan hệ: Những mối quan hệ bảo đảm toàn vẹn liệu Thiết kế mối quan hệ bảng chiều tuân theo quy tắc qui định sở liệu Các khoá: Khóa nằm bảng chiều, Khố ngoại nằm bảng kiện, Tạo lập index để tăng tốc độ, Khoá xác định giai đoạn thiết kế, Các khóa kết hợp áp dụng - Thiết kế vật lý DWH, Thiết kế vật lý tạo CSDL từ mơ hình thiết kế logic công cụ ngôn ngữ khác Ở ta dùng câu lệnh SQL Trong trình thiết kế vật lý trình chuyển đổi liệu thu thập thiết kế logic thành mô tả cấu trúc CSDL vật lý Trong thiết kế logic định nghĩa sẵn mơ hình DWH, thực thể, thuộc tính, mối quan hệ Những thực thể liên kết với sử dụng mối quan hệ Những thuộc tính dùng để mô tả thực thể Định danh để phân biệt thực thể Vật lý Logic Các thực thể Các thực thể Các quan hệ Các ràng buộc tồn vẹn Các thuộc tính - Khố - Khoá ngoại - Not Null Các định danh Các cột Các mục Các khung nhìn Các chiều Hình 6: So sánh thiết kế logic thiết kế vật lý Quá trình thiết kế vật lý chuyển đổi, ánh xạ: Các thực thể thành bảng, Các quan hệ thành khố ngoại, Các thuộc tính thành cột, Các định danh thành ràng buộc khố chính, Các định danh thành ràng buộc khoá Những cấu trúc thiết kế vật lý Những cấu trúc sau tạo thiết kế vật lý: Không gian chứa bảng (tablespaces), Bảng bảng phân chia, Khung nhìn, Ràng buộc tồn vẹn, Chiều Đồng thời, cấu trúc sau tạo để cải thiện thực thi: Chỉ mục mục phân chia, Các khung nhìn cụ thể hố Khơng gian chứa bảng Khơng gian chứa bảng (tablespace) gồm chứa nhiều tập tin liệu (datafile) Một datafile kết hợp TẠP CHÍ KHOA HỌC SỐ * 2014 đến tablespace Từ quan điểm thiết kế, tablespace nơi chứa cấu trúc thiết kế vật lý Những tablespace cần tách rời Chẳng hạn, bảng tách từ mục chúng bảng nhỏ tách từ bảng lớn Bảng bảng phân chia (table and partitioned tables) Bảng đơn vị sở để lưu trữ liệu Chúng chứa liệu DWH Sử dụng bảng phân chia thay bảng khơng phân chia để giải vấn đề khối lượng liệu lớn việc cho phép phân tách chúng thành phần nhỏ dễ quản lý Tiêu chí thiết kế cho việc phân chia tính dễ điều khiển, vậy, nhìn thấy lợi ích thực thi đa số trường hợp, phân chia hay xử lý song song thông minh Khung nhìn (view) Một view biểu diễn liệu chứa nhiều bảng hay view khác Một view xuất từ truy vấn xem bảng view không yêu cầu khơng gian CSDL Ràng buộc tồn vẹn (Integrity Constraint) Những ràng buộc toàn vẹn dùng để giám sát quy tắc kết hợp CSDL để ngăn ngừa thông tin sai bảng Những ràng buộc tồn vẹn mơi trường DWH khơng giống ràng buộc môi trường OLTP Trong môi trường OLTP, chúng chủ yếu ngăn ngừa chèn liệu sai vào ghi, điều không vấn đề lớn mơi trường xây dựng DWH, độ xác bảo đảm Trong mơi trường DWH, ràng buộc sử dụng cho truy vấn ghi lại Chỉ mục mục phân chia (Index and Partitioned Indexes) Những mục cấu trúc tuỳ chọn liên kết với bảng hay 71 nhóm bảng Ngồi mục nhị phân (B-tree) cổ điển, mục ánh xạ bit (bitmap index) phổ biến môi trường DWH Chỉ mục ánh xạ bit tối ưu hóa cấu trúc mục hỗ trợ trình thực thi Đồng thời, chúng cần thiết cho phương pháp truy nhập liệu tối ưu hóa Chỉ mục phân chia giống bảng, chiến lược phân chia không phụ thuộc cấu trúc bảng Việc phân chia mục giúp quản lý DWH dễ dàng việc làm tươi cải thiện truy vấn Khung nhìn cụ thể hố (Materialized View) Khung nhìn cụ thể hố kết truy vấn cất giữ từ trước, thế, tránh thời gian vào tính toán thực câu lệnh SQL Từ quan điểm thiết kế vật lý khung nhìn, khung nhìn cụ thể hoá giống bảng hay bảng phân chia Chiều (Dimension) Chiều đối tượng lược đồ, định nghĩa mối quan hệ có thứ bậc cột hay tập hợp cột Một mối quan hệ có thứ bậc phụ thuộc chức từ mức phân cấp đến mức Một chiều tiêu biểu xã (hoặc phường), huyện (hoặc thành phố) tỉnh, quốc gia - Trích xuất, chuyển đổi nạp liệu (ETL - Extraction, transformation, loading) vào DWH [6] Trích xuất, Trích xuất liệu phép xử lý để lấy liệu xác định trước khỏi hệ thông tác nghiệp nguồn liệu ngồi Có vài ngun lý để hiểu rút liệu từ hệ thống nguồn sở liệu tác nghiệp cho mục đích tích hợp vào kho liệu Khối lượng liệu rút lớn, hàng trăm hàng ngàn megabyte Một hệ thống OLTP thiết kế cho liệu rút mảnh nhỏ, không 72 phải khối lớn ngun gốc, vậy, phải cẩn thận để khơng làm chậm lại hệ thống nguồn xuống nhiều Điều ảnh hưởng đến định tần số thời gian trích xuất, lập kế hoạch hệ thống nguồn loại liệu trích khác Sau trích xuất liệu, nạp vào DWH sớm tốt Cần áp dụng số biến đổi vào liệu lấy từ hệ thống nguồn để thỏa mãn khuôn dạng cấu trúc thiết kế chọn Các loại liệu nơi chứa liệu trích xuất: CSDL gốc, CSDL ảnh, Truy cập từ đĩa băng từ Chuyển đổi, Bước chuyển đổi gồm bước: lọc làm liệu, thẩm định chuyển đổi liệu Lọc làm liệu, Quá trình lọc làm liệu kiểm tra sửa chữa lỗi có liệu để đảm bảo tính đắn liệu Công việc bao gồm dọn dẹp, thay đổi tính tốn lại làm liệu liên quan đến số tất tác vụ sau: kiểm tra tất trường đơn lẻ, lọc hợp ghi trùng lắp,… Thẩm định chuyển đổi liệu, Dữ liệu sau phải kiểm tra, thẩm định để đảm bảo chất lượng nhằm đáp ứng yêu cầu phân tích phục vụ hỗ trợ định Các công cụ hỗ trợ để thực công việc nêu dựa vào tập thông số xác định trước Trước TRƯỜNG ĐẠI HỌC PHÚ YÊN chuyển đổi, cần thiết lập hệ thống đo lường chuẩn hoá luật nghiệp vụ Mục đích việc chuyển đổi tích hợp chuyển liệu thành thơng tin hiểu hữu ích người sử dụng Tải Việc tải liệu vào DWH thực hiện: Làm tươi lại liệu (Refresh), Bổ sung (incremental) để tạo thêm liệu ảnh chụp (snapshot) vào bảng liệu; Gắn thêm giá trị thời gian vào khoá, Cập nhật, Đọc trước tải liệu (Preload and load); Sửa chữa đánh giá (Repair and Evaluate): Trong trình làm sạch, chuyển đổi tích hợp liệu xảy lỗi, vậy, mơi trường chứa liệu nguồn phải có chức làm nhiệm vụ phát sửa lỗi này, Q trình làm thay thuật tốn tuỳ thuộc phương thức cơng cụ phát triển; Xây dựng chu kỳ cho việc nạp liệu vào kho (giờ cố định ngày, hàng ngày, tháng, quí, năm), thời gian cho lần nạp - Các bảng tổng hợp Mục đích: trả lời nhanh câu hỏi thường gặp Các bước: Nhận diện câu hỏi thường gặp, Nhận diện chiều tổng hợp tương ứng, Định nghĩa phân cấp tổng hợp, Tạo cách có chọn lựa kiện tổng hợp, Tạo bảng chiều tổng hợp Hình 7: Minh họa tổ chức tổng hợp báo cáo theo chiều:thời gian, sản phẩm, vùng địa lý TẠP CHÍ KHOA HỌC SỐ * 2014 73 Tóm lại: Với nghiên cứu phân tích DWH, việc áp dụng xây dựng khai thác kho liệu phục vụ ngành kinh doanh bắt đầu phổ biến, bước đầu mang lại hiệu tốt Đặc biệt, cải cách hành địa phương, việc xây dựng DWH kinh tế xã hội, liệu chuyên ngành Y tế, Giáo dục, Văn hóa, Du lịch,… khả quan tiềm Với viết sau, sâu nghiên cứu ứng dụng DWH vào kho liệu chuyên ngành, đặc biệt DWH kinh tế xã hội tỉnh TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] Đoàn Văn Ban (1997), Phương pháp thiết kế khai thác kho liệu, Đề tài nghiên cứu cấp trung tâm KHTN&CNQG Nguyễn Thanh Bình (2007), Bài giảng Data warehouse, TT CNTT, Đại học Huế Nguyễn Văn Chức (2007), Nghiên cứu ứng dụng mơ hình phân tán kho liệu – luận văn thạc sỹ, Đại học Đà Nẵng Kim Ball Group (2006), The Microsoft Data Warehouse Toolkit With SQL Server 2005 and the Microsoft Business Intelligence Toolset William H.Inmon (2005), Building the Data Warehouse, Fourth Edition Ralph Kimball, Joe Caserta (2004), The Data Warehouse ETL Toolkit, Wiley Publishing Vincent Rainardi (2008), Building a Data Warehouse Abstract Research on building a data warehouse and data mining The building of a database has been studied for a long time, and there have been many tools and solutions proposed by some development and support companies However, the work of building a data warehouse and data mining is a relatively new concept, even though they are also based on the database, they have their own distinct characteristics, and been studied in the recent years when more and more volumes of data have been stored on the computer and the Internet, and in some places, the volumes are up to terabytes The big databases management systems such as Oracle 1xi, SQL Server 201x, have currently been building their tools to support the data warehouse development and data mining In the fields of business, banking, telecommunications the building of data warehouse and data mining has become popular and brough about enormous efficiency This article analyses and provides some deeper insight into the construction of a data warehouse and data mining Keywords: Data warehouse, data mining, data loading, data extraction, data transformation ... định mang tính ngắn hạn Đây liệu gốc tổ chức, nguồn liệu mang tính thơng tin; Dữ liệu mang tính thơng tin: Xử lý khai thác liệu thời gian dài Cả liệu tác nghiệp liệu mang thông tin cấu trúc... theo nhu cầu truy cập sử dụng tổ chức xây dựng Phạm vi liệu: Dữ liệu phản ánh mẫu tin giao dịch, tổng hợp mẫu tin giao dịch Dữ liệu là: Dữ liệu chi tiết hay liệu nguyên tử: Thường đối tượng hay... sàng lọc liệu cần thiết từ liệu nguồn Dữ liệu nguồn gồm: 1) Dữ liệu từ hệ thống tác nghiệp Các hệ thống chứa liệu chi tiết tại, sử dụng cho giao dịch hàng ngày, nguồn SQL Server DB/2 liệu tích