HỆ hỗ TRỢ QUYẾT ĐỊNH đề tài KHO dữ LIỆU

76 17 0
HỆ hỗ TRỢ QUYẾT ĐỊNH đề tài KHO dữ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC -*** - BÁO CÁO CUỐI KỲ MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI: KHO DỮ LIỆU Giảng viên hướng dẫn: TS Lê Chí Ngọc Sinh viên thực hiện: Nguyễn Huy Tồn 20153833 Nguyễn Thị Đài Trang 20153882 Nguyễn Thị Hương Quỳnh 20153129 Ngô Văn Quang 20152951 HÀ NỘI – 2020 MỤC LỤC MỞ ĐẦU Chương 1: GIỚI THIỆU VỀ KHO DỮ LIỆU (DATA WAREHOUSE) 1.1 Khái niệm kho liệu .6 1.2 Lịch sử phát triển kho liệu 1.3 Các đặc trưng kho liệu 1.4 Chợ liệu 11 1.5 Kho liệu vận hành 16 1.6 Kho liệu doanh nghiệp .19 1.7 Siêu liệu 29 Chương 2: KIẾN TRÚC VÀ CÁC QUÁ TRÌNH CỦA KHO DỮ LIỆU 34 2.1 Các trình kho liệu 34 2.2 Các kiến trúc kho liệu 38 2.3 Các trình với liệu 48 Chương 3: PHÁT TRIỂN KHO DỮ LIỆU 51 3.1 Cách tiếp cận 53 3.2 Biểu diễn liệu 59 3.3 Các mơ hình phân tích 58 3.4 Một số vấn đề với kho liệu 63 KẾT LUẬN 74 Danh mục tài liệu tham khảo 75 MỞ ĐẦU Đến hệ thống sở liệu có mặt hầu hết hoạt động kinh tế xã hội Cùng với phát triển công nghệ phần cứng vi xử lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả lưu liệu tổ chức, doanh nghiệp trình hoạt động cập nhật lưu giữ cách đầy đủ Cùng với đa dạng hoạt động hàng ngày phòng ban, nhân với đối tác bên ngoài, liệu nghiệp vụ tổ chức ngày trở nên khổng lồ Dữ liệu tệp phẳng (khơng có cấu trúc) hình ảnh, văn đến liệu có cấu trúc lưu giữ hệ quản trị CSDL Một hãng bán lẻ tiếng WalMart xử lý hàng chục triệu giao dịch ngày, hay Việt Nam, công ty bán lẻ thời trang có hàng trăm đơn hàng Dữ liệu ngày qua ngày tích lũy thay dần hoạt động giấy tờ Người ta truy cập liệu cần cách nhanh chóng phép tìm kiếm hay thơng qua sơ đồ thư mục lưu trữ hệ điều hành Như với công nghệ đáp ứng tốt giai đoạn yêu cầu người dùng Đến ngày, thành viên ban quản trị nhìn xuống sửng sốt với độ lớn liệu tổ chức, doanh nghiệp Tồn hoạt động, lịch sử lưu dạng số cách đầy đủ Dữ liệu tài sản cơng ty Và họ muốn khối liệu khổng lồ phải nói lên điều thật ý nghĩa Điều khác với việc họ muốn tìm lại đơn hàng, thơng tin mang tính cá nhân khách hàng Ở họ muốn biết sơ đồ doanh thu theo chiều lên hay xuống, muốn tách quy luật bán hàng, quy luật suất hoạt động Quy luật dựa yếu tố thời gian, yếu tố người, yếu tố địa lý Có quy luật khơng, có quy luật phát biểu thể Nếu doanh nghiệp lấy thống kê, quy luật họ có sách tương lai cách phù hợp hơn, dựa yếu tố có sở đắn Mùa nào, tháng năm, loại hàng hóa đẩy mạnh thị trường Vì nói liệu tích luỹ phân tích xác, trở thành phương tiện cạnh tranh hiệu Hiện liệu tràn ngập phương tiện lưu trữ Với việc khơng có cơng cụ khai thác thông tin hiệu quả, tổ chức doanh nghiệp sống môi trường “giàu liệu nghèo thông tin” Trong môi trường cạnh tranh ngày với phát triển nhanh chóng giới, nhà định xác định rõ cần phải có hệ kỹ thuật cơng cụ tính tốn nhằm hỗ trợ họ việc trích xuất thơng tin hữu ích (tri thức) nhúng bên liệu thu thập tích luỹ Họ mong muốn có cơng cụ hỗ trợ định mơi trường tích hợp để họ tự tạo tiêu chuẩn riêng báo biểu đặc biệt cho phân tích liệu phức tạp Nắm lợi ích lượng liệu lớn, họ xác định thơng tin tiềm ẩn, chẳng hạn nhờ tiết kiệm chi phí, vươn tới thị trường theo vết tổng thu nhập cách hiệu Data warehouse, công nghệ đời vào khoảng đầu năm 90 đón nhận đưa vào thực tiễn Tại Việt Nam, khái niệm công nghệ làm quen cách khoảng năm thực tế chúng chưa quan tâm ứng dụng cách hiệu Điều bắt nguồn từ nhu cầu quản lý giới cạnh tranh chưa gay gắt, trình độ quản lý khơng cao Với phát triển kinh tế xã hội, gia nhập WTO, môi trường ngày trở nên sôi động, mức độ cạnh tranh cao Trong địi hỏi phát triển trình độ quản lý có u cầu nhanh chóng tổng hợp khía cạnh liệu hoạt động khổng lồ doanh nghiệp mình, nhìn xu hướng tồn mặt hoạt động từ có định, xử lý đắn Kho liệu hướng công nghệ sử dụng phổ biến cho toán lớn như: quản trị doanh nghiệp, y tế, bảo hiểm, ngân hàng, dân số, viễn thơng Bởi việc xây dựng kho liệu giúp cho doanh nghiệp lưu trữ lượng thơng tin lớn ngày mà cịn giúp cho nhà quản lý doanh nghiệp trích rút nguồn tài ngun cách nhanh chóng, xác Đồng thời giúp họ phân tích đưa báo cáo cách kịp thời, góp phần thúc đẩy cho việc kinh doanh đạt kết tốt Đây kiến thức hữu ích cần thiết để khai thác ngày hiệu thành tựu tin học Đó lý nhóm em chọn đề tài làm báo cáo kết thúc mơn học Đề tài gồm có chương: Chương 1: Giới thiệu Kho liệu (Data warehouse): Chương trình bày khái niệm đặc trưng kho liệu Chương 2: Kiến trúc trình Kho liệu: Chương trình bày trình kiến trúc kho liệu, trình với liệu Chương 3: Phát triển kho liệu: Trong chương chủ yếu trình bày hướng tiếp cận, biểu diễn liệu, mô hình phân tích, số vấn đề với kho liệu Chương 1: GIỚI THIỆU VỀ KHO DỮ LIỆU (DATA WAREHOUSE) 1.1 Kho liệu gì? Kho liệu (Data Warehouses- DW) cung cấp kiến trúc công cụ cho nhà quản trị doanh nghiệp để tổ chức, hiểu sử dụng liệu họ cách có hệ thống để đưa định chiến lược Hệ thống kho liệu kho công cụ có giá trị giới ngày để cạnh tranh, phát triển nhanh Nhiều người cảm thấy với cạnh tranh gắn kết ngành công nghiệp, kho liệu vũ khí tiếp thị bắt buộc, cách để giữ chân khách hàng cách tìm hiểu thêm nhu cầu họ Nói cách đơn giản, kho liệu đề cập đến kho lưu trữ liệu trì tách biệt với sở liệu hoạt động tổ chức Hệ thống DW cho phép tích hợp nhiều loại hệ thống ứng dụng Hỗ trợ xử lý thông tin cách cung cấp tảng vững liệu lịch sử hợp để phân tích Theo William H.Inmon- kiến trúc sư hàng đầu việc xây dựng liệu hệ thống DW DW định hướng theo chủ đề, tích hợp, biến đổi theo thời gian, thu thập liệu không biến đổi để hỗ trợ cho trình định Ban quản lý Bốn từ khóa theo hướng chủ đề (subject-oriented), tích hợp (integrated), theo thời gian (timevariant) có tính ổn định (nonvolatile-distinguish) phân biệt DW với hệ thống lưu trữ liệu khác, chẳng hạn hệ thống sở liệu quan hệ, hệ thống xử lý giao dịch hệ thống file Chức DW: Hướng chủ đề (Subject-Oriented): Tập trung vào việc mơ hình phân tích liệu cho việc định xử lý giao dịch hay tác nghiệp hàng ngày Cung cấp góc nhìn đơn giản xúc tích quanh chủ đề cụ thể cách loại bỏ liệu không hữu dụng tiến trình hỗ trợ định Được tổ chức quanh chủ đề như: customer, product, sales Tích hợp (Integrated): Tích hợp liệu từ nhiều nguồn liệu không đồng nhất: Các sở liệu, cấu trúc file hay ghi giao dịch trực tuyến Áp dụng kỹ thuật làm tích hợp liệu: Đảm bảo quán nguồn liệu việc đặt tên, cấu trúc mã hóa, thuộc tính đo đạc (thí dụ đơn vị tiền tệ, khối lượng); chuyển đổi liệu thu thập liệu Dữ liệu theo thời gian (Time Variant): Thời gian liệu data warehouse dài đáng kể so với thời gian liệu sở liệu tác nghiệp Các cấu trúc liệu data warehouse: Chứa thơng tin thời gian (ẩn hay tường minh) liệu sở liệu tác nghiệp khơng chứa thông tin thời gian Bền vững (Non-Volatile): Lưu trữ tách biệt với sở liệu tác nghiệp Không xảy việc sửa chữa liệu môi trường data warehouse Tóm lại, kho liệu kho lưu trữ liệu thống mặt ngữ nghĩa, phục vụ thực vật lý mơ hình liệu hỗ trợ định Nó lưu trữ thơng tin doanh nghiệp cần đưa định chiến lược Một kho liệu thường xem kiến trúc, xây dựng cách tích hợp liệu từ nhiều nguồn không đồng để hỗ trợ truy vấn có cấu trúc, báo cáo phân tích định Việc xây dựng kho liệu địi hỏi liệu làm sạch, tích hợp liệu (data integration) hợp liệu (data consolidation) Việc sử dụng kho liệu thường cần nhiều công nghệ hỗ trợ định 1.2 Lịch sử phát triển kho liệu Vào đầu năm 1900, người ta sử dụng liệu để hình thành xu hướng kinh doanh giúp doanh nghiệp đưa định Những động lực giúp phát triển việc lưu trữ liệu có từ năm 1970 máy tính lớn phát triển Năm 1980 bùng nổ máy tính mini máy tính cá nhân ứng dụng kinh doanh máy tính điều dẫn tới tượng gọi liệu Giải pháp cho vấn đề dẫn đến loại phần mềm mới, gọi hệ thống quản lý sở liệu phân tán, kéo liệu yêu cầu từ sở liệu toàn tổ chức cách kỳ diệu, đưa tất liệu trở lại vị trí, sau hợp nó, xếp làm điều khác cần thiết để trả lời câu hỏi người dùng Năm 1980 số kiện xảy ra, gọi chung thập kỉ đổi kho liệu Trong năm 1990, cách tiếp cận để giải vấn đề đảo liệu xuất Nếu cách tiếp cận tiếp cận liệu năm 1980 từ tệp sở liệu khơng hoạt động, triết lý thập niên 1990 quay trở lại năm 1970, liệu từ nơi chép sang vị trí khác mà thực lúc này, kho liệu đời Vào năm 2000 sau mức độ phổ biến liệu tăng lên đáng kể từ đố dẫn đến việc bùng nổ số hãng liệu năm 1980 bị nuốt chửng hãng lớn giới Oracle, SAP,… Trong năm 2010, khái niệm Dữ liệu lớn có nhiều ảnh hưởng, người ta tin liệu lớn tạo ảnh hưởng đến việc lưu trữ liệu 1.3 Các đặc trưng kho liệu Một cách phổ biến để giới thiệu kho liệu tham khảo đặc điểm (xem Inmon, 2005) Chủ đề định hướng: Dữ liệu xếp theo chủ đề chi tiết, chẳng hạn bán hàng, sản phẩm khách hàng, chứa thông tin liên quan để hỗ trợ định Định hướng chủ đề cho phép người dùng xác định không cách thức kinh doanh họ Kho liệu khác với sở liệu hoạt động chỗ hầu hết sở liệu hoạt động có định hướng sản phẩm điều chỉnh để xử lý giao dịch cập nhật sở liệu Định hướng chủ đề cung cấp nhìn tồn diện tổ chức Tích hợp: Tích hợp có liên quan chặt chẽ với định hướng chủ đề Kho liệu phải đặt liệu từ nguồn khác thành định dạng quán Để làm vậy, họ phải đối phó với việc đặt tên xung đột khác biệt đơn vị đo lường Một kho liệu coi hồn tồn tích hợp Biến thể thời gian (chuỗi thời gian): Một kho trì liệu lịch sử Dữ liệu không thiết phải cung cấp trạng thái (ngoại trừ hệ thống thời gian thực) Họ phát xu hướng, sai lệch mối quan hệ lâu dài để dự báo so sánh, dẫn đến việc định Mỗi kho liệu có chất lượng tạm thời Thời gian khía cạnh quan trọng mà tất kho liệu phải hỗ trợ Dữ liệu để phân tích từ nhiều nguồn chứa nhiều điểm thời gian (ví dụ: lượt xem hàng ngày, hàng tuần, hàng tháng) Không bay hơi: Sau liệu nhập vào kho liệu, người dùng thay đổi cập nhật liệu Dữ liệu cũ bị loại bỏ thay đổi ghi lại dạng liệu Những đặc điểm cho phép kho liệu điều chỉnh gần dành riêng cho truy cập liệu Một số đặc điểm bổ sung bao gồm: Dựa web: Kho liệu thường thiết kế để cung cấp mơi trường tính toán hiệu cho ứng dụng dựa Web Quan hệ / đa chiều: Kho liệu sử dụng cấu trúc quan hệ cấu trúc đa chiều Một khảo sát gần cấu trúc đa chiều tìm thấy Romero Abelló (2009) Khách hàng / máy chủ: Kho liệu sử dụng kiến trúc máy khách / máy chủ để cung cấp quyền truy cập dễ dàng cho người dùng cuối Thời gian thực: Kho liệu cung cấp khả phân tích truy cập liệu theo thời gian thực hoạt động (xem Basu, 2003; Bonde Kuckuk, 2004) Siêu liệu: Kho liệu chứa siêu liệu (dữ liệu liệu) cách tổ chức liệu cách sử dụng hiệu chúng Trong kho liệu kho lưu trữ liệu, kho liệu thực toàn q trình Lưu trữ liệu mơn học dẫn đến ứng dụng cung cấp khả hỗ trợ định, cho phép truy cập sẵn sàng vào thơng tin doanh nghiệp tạo nhìn sâu sắc kinh doanh Ba loại kho liệu chợ liệu (data marts), kho liệu vận hành (operational data stores(ODS)) kho liệu doanh nghiệp thông qua đặc điểm kỹ thuật lát (thông qua phép quay) drill down/up (thông qua tổng hợp phân tổ) gọi “slice and dice.” Các hoạt động OLAP thường sử dụng bao gồm slice and dice, drill down, roll up, and pivot • Slice Một lát tập hợp mảng nhiều chiều (thường hai chiều đại diện) tương ứng với giá trị đặt cho (hoặc nhiều hơn) kích thước khơng nằm tập hợp Một thao tác cắt đơn giản khối ba chiều thể hình 4.2 • Dice Hoạt động dice lát cắt hai chiều khối liệu • Roll-up Một roll-up liên quan đến việc tính tốn tất mối quan hệ liệu cho nhiều kích thước Để làm điều này, mối quan hệ tính tốn cơng thức xác định • Pivot A pivot phương tiện để thay đổi hướng báo cáo hiển thị trang truy vấn 61 Hình 3.2 Thao tác cắt lát khối liệu ba chiều đơn giản Biến thể OLAP OLAP có vài biến thể; số đó, ROLAP, MOLAP HOLAP phổ biến ROLAP viết tắt Xử lý phân tích trực tuyến quan hệ ROLAP thay đến công nghệ MOLAP (OLAP đa chiều) Mặc dù ROLAP MOLAP cơng cụ phân tích thiết kế phép phân tích liệu thơng qua việc sử dụng đa chiều mơ hình liệu, ROLAP khác biệt đáng kể chỗ khơng u cầu tiền mã hóa lưu trữ thơng tin Thay vào đó, cơng cụ ROLAP truy cập liệu sở liệu quan hệ tạo truy vấn SQL để tính tốn thơng tin mức thích hợp kết thúc người dùng yêu cầu Với ROLAP, tạo bảng sở liệu bổ sung (tóm tắt bảng tập hợp) tóm tắt liệu kết hợp kích thước mong muốn Mặc dù ROLAP sử dụng nguồn sở liệu quan hệ, nhìn chung sở liệu phải cẩn thận thiết kế để sử dụng ROLAP Một sở liệu thiết kế cho OLTP không hoạt động tốt sở liệu ROLAP Do đó, ROLAP liên quan đến việc tạo bổ sung liệu MOLAP thay cho công nghệ ROLAP MOLAP khác với ROLAP đáng kể chỗ địi hỏi phải tính tốn trước lưu trữ thông tin khối lập phương hoạt động gọi tiền xử lý MOLAP lưu trữ liệu tối ưu hóa lưu trữ mảng nhiều chiều, thay sở liệu quan hệ (thường trường hợp cho ROLAP) Sự đánh đổi không mong muốn ROLAP MOLAP liên quan đến phần bổ sung chi phí ETL (trích xuất, chuyển đổi tải) hiệu suất truy vấn chậm dẫn đến yêu cầu cách tiếp cận tốt ưu nhược điểm hai cách tiếp cận tối ưu hóa Những thắc mắc 62 dẫn đến HOLAP (Xử lý phân tích trực tuyến lai), kết hợp ROLAP MOLAP HOLAP cho phép lưu trữ phần liệu cửa hàng MOLAP phần liệu khác cửa hàng ROLAP Mức độ kiểm soát mà người thiết kế khối lập phương có phân vùng thay đổi tùy theo sản phẩm 3.4 Một số vấn đề với kho liệu a, Vấn đề triển khai kho liệu Việc triển khai kho liệu nói chung nỗ lực lớn phải lên kế hoạch thực theo phương pháp thiết lập Tuy nhiên, vịng đời dự án có nhiều khía cạnh khơng người chuyên gia lĩnh vực Ở thảo luận ý tưởng vấn đề cụ thể chúng liên quan đến kho liệu Dự án kho liệu có nhiều rủi ro Hầu hết số chúng tìm thấy dự án CNTT khác, rủi ro lưu trữ liệu nghiêm trọng kho liệu dự án quy mơ lớn, địi hỏi nhiều thời gian tài nguyên Mỗi rủi ro nên đánh giá bắt đầu dự án Trong nhiều tổ chức, kho liệu thành cơng có hỗ trợ quản lý cấp cao mạnh mẽ cho phát triển có nhà vơ địch dự án cao sơ đồ tổ chức Mặc dù điều với dự án CNTT quy mô lớn nào, điều đặc biệt quan trọng việc thực kho liệu Nhiều tổ chức có nguồn lực CNTT hạn chế phải ưu tiên dự án Hỗ trợ quản lý nhà vơ địch dự án mạnh giúp đảm bảo dự án kho liệu nhận tài nguyên cần thiết để thực thành cơng Tài ngun kho liệu chi phí đáng kể, số trường hợp yêu cầu xử lý cao cấp tăng lớn thiết bị lưu trữ truy cập trực tiếp (DASD) Kho liệu dựa web có yêu cầu bảo mật 63 đặc biệt để đảm bảo người dùng ủy quyền có quyền truy cập vào liệu Sự tham gia người dùng vào việc phát triển liệu mơ hình truy cập yếu tố thành công quan trọng phát triển kho liệu Trong q trình mơ hình hóa liệu, cần có chun mơn để xác định liệu cần thiết, xác định quy tắc kinh doanh liên quan đến liệu định tập hợp tính tốn khác cần thiết b, Kho liệu thời gian thực Kho liệu công cụ BI theo truyền thống tập trung vào việc hỗ trợ nhà quản lý đưa định chiến lược chiến thuật Khối lượng liệu tăng tăng tốc độ cập nhật thay đổi vai trò kho liệu kinh doanh đại Đối với nhiều doanh nghiệp, việc đưa định nhanh chóng qn tồn doanh nghiệp đòi hỏi nhiều kho liệu truyền thống siêu liệu Kho liệu truyền thống kinh doanh quan trọng Dữ liệu thường cập nhật hàng tuần điều không cho phép trả lời giao dịch thời gian thực gần Nhiều liệu hơn, đến nhanh yêu cầu chuyển đổi thành định, có nghĩa tổ chức phải đối mặt với nhu cầu lưu trữ liệu thời gian thực Điều hỗ trợ định hoạt động, BI tích hợp yêu cầu phân tích liệu từ ngày hôm trước Năm 2003, với đời kho liệu thời gian thực, có thay đổi việc sử dụng công nghệ cho định hoạt động Kho liệu thời gian thực (RDW), gọi kho liệu hoạt động (ADW), trình tải cung cấp liệu qua kho liệu chúng có sẵn Nó phát triển từ khái niệm EDW Các đặc điểm tích cực bổ sung RDW/ADW mở rộng chức kho liệu 64 truyền thống vào địa hạt việc định chiến thuật Mọi người toàn tổ chức tương tác trực tiếp với khách hàng nhà cung cấp trao quyền với việc định dựa thông tin Kinh doanh điện tử trở thành chất xúc tác nhu cầu lưu trữ liệu hoạt động Khi hệ thống phát triển, cung cấp khả dự đoán, dẫn đến mức độ hoạt động Hình 3.3 Tiến trình định doanh nghiệp Một ADW cung cấp kho thông tin tích hợp để thúc đẩy hỗ trợ định chiến lược chiến thuật tổ chức Với kho liệu thời gian thực, thay trích xuất liệu vận hành từ hệ thống OLTP theo lô hàng đêm vào ODS, liệu tập hợp từ hệ thống OLTP kiện xảy chuyển vào kho liệu Điều cho phép cập nhật tức thời kho liệu loại bỏ ODS Tại thời điểm này, truy vấn chiến thuật chiến lược thực RDW để sử dụng liệu lịch sử 65 Theo Basu (2003), khác biệt đặc biệt kho liệu truyền thống RDW thay đổi mơ hình thu thập liệu Một số trường hợp kinh doanh yêu cầu doanh nghiệp dẫn đến nhu cầu liệu thời gian thực bao gồm: ● Một doanh nghiệp thường chờ đợi ngày để liệu hoạt động tải vào kho liệu để phân tích ● Cho đến thời điểm tại, kho liệu chụp ảnh chụp nhanh tổ chức Các trạng thái cố định thay liệu thời gian thực gia tăng cho thấy thay đổi trạng thái mẫu gần tương tự theo thời gian ● Với kiến trúc hub-and-speak truyền thống, việc giữ siêu liệu đồng hóa khó khăn Nó tốn để phát triển, bảo trì bảo mật nhiều hệ thống trái ngược với kho liệu khổng lồ để liệu tập trung cho công cụ BI / BA ● Trong trường hợp tải hàng loạt lớn hàng đêm, khả thiết lập xử lý ETL cần thiết để tải kho liệu lớn hàng đêm cao q trình nhiều thời gian Một EAI với việc thu thập liệu thời gian thực làm giảm loại bỏ quy trình hàng đêm Đến năm 2003, vai trị kho liệu thực tế tăng lên nhanh chóng Các hệ thống thời gian thực, tính mới, tiếng vang nhất, với phức tạp việc cung cấp liệu thông tin cho người cần chúng Một vấn đề quan trọng kho liệu thời gian thực tất liệu phải cập nhật liên tục Điều chắn gây vấn đề báo cáo tạo thời gian thực, kết người khơng khớp với người khác 66 Các yêu cầu thời gian thực thay đổi cách xem thiết kế sở liệu, kho liệu, OLAP công cụ khai thác liệu, chúng cập nhật đồng thời theo nghĩa đen truy vấn hoạt động Nhưng giá trị kinh doanh đáng kể làm chứng minh, điều quan trọng tổ chức áp dụng phương pháp quy trình kinh doanh họ Kế hoạch cẩn thận quan trọng việc c, Quản trị kho liệu, vấn đề báo mật xu hướng tương lai Kho liệu cung cấp lợi cạnh tranh khác biệt cho doanh nghiệp tạo sử dụng chúng cách hiệu Do kích thước khổng lồ chất bên nó, kho liệu địi hỏi phải có giám sát đặc biệt mạnh mẽ để trì hiệu suất thỏa đáng Việc quản trị quản lý thành công kho liệu đòi hỏi kỹ thành thạo vượt qua yêu cầu quản trị viên sở liệu truyền thống (DBA) Quản trị viên kho liệu (DWA) nên làm quen với công nghệ phần mềm, phần cứng mạng hiệu cao Anh cô nên sở hữu nhìn sâu sắc kinh doanh vững Do kho liệu cung cấp cho hệ thống BI DSS giúp người quản lý thực hoạt động định mình, DWA nên làm quen với quy trình định để thiết kế phù hợp trì cấu trúc kho liệu Điều đặc biệt quan trọng DWA giữ cho yêu cầu khả có kho liệu ổn định đồng thời mang lại linh hoạt cho cải tiến nhanh chóng Cuối cùng, DWA phải có giao diện tốt Bảo mật quyền riêng tư thông tin mối quan tâm quan trọng chuyên gia kho liệu Chính phủ Hoa Kỳ thơng qua quy định (ví dụ: quy tắc bảo vệ quyền riêng tư Gramm-Leach-Bliley, Đạo luật trách nhiệm giải trình trách nhiệm bảo hiểm y tế năm 1996 [HIPAA]), đưa yêu cầu bắt buộc 67 việc quản lý thơng tin khách hàng Do đó, cơng ty phải tạo quy trình bảo mật hiệu linh hoạt để tuân thủ nhiều quy định quyền riêng tư Theo Elson LeClerc (2005), bảo mật hiệu kho liệu nên tập trung vào bốn lĩnh vực chính: ● Thiết lập sách thủ tục an tồn hiệu cơng ty Một sách bảo mật hiệu nên đầu, với quản lý điều hành nên truyền đạt tới tất cá nhân tổ chức ● Thực thủ tục kỹ thuật bảo mật logic để hạn chế truy cập Điều bao gồm xác thực người dùng, kiểm sốt truy cập cơng nghệ mã hóa ● Hạn chế truy cập vật lý vào môi trường trung tâm liệu ● Thiết lập quy trình đánh giá kiểm soát nội hiệu quả, trọng đến bảo mật quyền riêng tư Từ năm 1997, Ambeo (ambeo.com; Embarcadero Technologies, Inc.) triển khai công nghệ cung cấp quản lý hiệu suất, theo dõi sử dụng liệu, kiểm tra quyền riêng tư liệu giám sát cho công ty Fortune 1000 Các cơng ty có số mơi trường sở liệu lớn tồn Các giải pháp kiểm tốn truy cập liệu Ambeo đóng vai trị sở hạ tầng bảo mật thông tin doanh nghiệp Tương lai kho liệu Lĩnh vực lưu trữ liệu lĩnh vực sôi động công nghệ thông tin vài thập kỷ qua chứng giới BI / BA Dữ liệu lớn cho thấy tầm quan trọng lĩnh vực thú vị Sau số khái niệm công nghệ phổ biến gần đóng vai trị quan trọng việc xác định tương lai kho liệu 68 Tìm nguồn cung ứng (cơ chế thu thập liệu từ nguồn khác phân tán): ● Web, phương tiện truyền thông xã hội Dữ liệu lớn Sự bùng nổ gần việc sử dụng Web cho mục đích cá nhân kinh doanh với quan tâm to lớn phương tiện truyền thông xã hội tạo hội cho nhà phân tích khai thác nguồn liệu phong phú Do khối lượng, vận tốc đa dạng liệu, thuật ngữ mới, liệu lớn, liệu đặt để đặt tên cho tượng Tận dụng lợi Dữ liệu lớn đòi hỏi phải phát triển công nghệ BI / BA cải tiến đáng kể, điều dẫn đến giới lưu trữ liệu cách mạng ● Phần mềm mã nguồn mở Việc sử dụng công cụ phần mềm nguồn mở gia tăng mức độ chưa có kho, thơng tin kinh doanh tích hợp liệu Có nhiều lý đáng cho phát triển phần mềm nguồn mở sử dụng kho liệu (Russom, 2009): (1) Suy thoái thúc đẩy quan tâm đến phần mềm nguồn mở chi phí thấp; (2) Các công cụ nguồn mở đến mức trưởng thành (3) Phần mềm nguồn mở tăng cường phần mềm doanh nghiệp truyền thống mà không cần thay ● SaaS (phần mềm dịch vụ), mơ hình ASP mở rộng Các nhà cung cấp phần mềm SaaS lưu trữ ứng dụng máy chủ họ tải ứng dụng lên trang web người tiêu dùng Về chất, SaaS phiên cải tiến mơ hình ASP Đối với khách hàng kho liệu, việc tìm kiếm ứng dụng tài nguyên phần mềm dựa SaaS đáp ứng nhu cầu yêu cầu cụ thể 69 thách thức Khi dịch vụ phần mềm trở nên linh hoạt hơn, hấp dẫn sử dụng thực tế SaaS lựa chọn tảng kho liệu tăng lên ● Điện toán đám mây Điện tốn đám mây có lẽ lựa chọn tảng sáng tạo xuất nhiều năm Nhiều tài nguyên phần cứng phần mềm gộp chung ảo hóa, để chúng phân bổ tự cho ứng dụng tảng phần mềm cần tài nguyên Điều cho phép ứng dụng hệ thống thông tin tự động tăng quy mô khối lượng công việc tăng lên Mặc dù điện toán đám mây kỹ thuật ảo hóa tương tự thiết lập tốt cho ứng dụng hoạt động ngày nay, chúng bắt đầu sử dụng làm tảng kho liệu lựa chọn Việc phân bổ động đám mây đặc biệt hữu ích khối lượng liệu kho thay đổi khơng thể đốn trước, khiến việc lập kế hoạch dung lượng trở nên khó khăn Cơ sở hạ tầng: ● Cột (một cách để lưu trữ truy cập liệu sở liệu) Hệ thống quản lý sở liệu hướng cột (còn gọi sở liệu cột) hệ thống lưu trữ bảng liệu dạng phần cột liệu thay hàng liệu (là cách mà hầu hết hệ thống quản lý sở liệu quan hệ thực hiện) Nghĩa là, sở liệu cột lưu trữ liệu theo cột thay hàng (tất giá trị cột lưu trữ liên tiếp nhớ đĩa) Cấu trúc mang lại kiểm soát tốt nhiều cho hệ thống quản lý sở liệu quan hệ Nó truy cập cột cần thiết cho truy vấn buộc phải truy cập tất cột 70 hàng Nó thực tốt đáng kể cho truy vấn cần tỷ lệ nhỏ cột bảng mà chúng ở, hoạt động đáng kể bạn cần hầu hết cột chi phí chung để gắn tất cột lại với để tạo thành tập kết So sánh bố trí liệu theo hướng hàng cột thường liên quan đến hiệu việc truy cập đĩa cứng cho khối lượng công việc định (đây hoạt động tốn nhiều thời gian máy tính) ● Kho liệu thời gian thực Lưu trữ liệu thời gian thực ngụ ý chu kỳ làm kho liệu có để cập nhật liệu thường xuyên (gần lúc với liệu có sẵn sở liệu vận hành) Các hệ thống kho liệu thời gian thực đạt cập nhật liệu gần thời gian thực ● Thiết bị kho liệu (giải pháp tất cho DW) Một thiết bị kho liệu bao gồm tích hợp máy chủ, lưu trữ, hệ điều hành, hệ thống quản lý sở liệu phần mềm cài đặt sẵn tối ưu hóa trước để lưu trữ liệu ● Công nghệ quản lý liệu thực hành Một số nhu cầu cấp thiết tảng kho liệu hệ liên quan đến công nghệ thực tiễn mà thường không nghĩ phần tảng Đặc biệt, nhiều người dùng cần cập nhật công cụ quản lý liệu xử lý liệu để sử dụng thông qua kho liệu ● Công nghệ xử lý sở liệu (đặt thuật toán nơi chứa liệu) Xử lý sở liệu (còn gọi phân tích sở liệu) đề cập đến việc tích hợp phạm vi thuật tốn phân tích liệu vào kho liệu 71 ● Công nghệ lưu trữ nhớ (di chuyển liệu nhớ để xử lý nhanh hơn) Các hệ thống sở liệu thông thường, chẳng hạn hệ thống quản lý sở liệu quan hệ, thường sử dụng ổ cứng vật lý để lưu trữ liệu khoảng thời gian dài điều dẫn đến số khó khăn việc liệu phát sinh nhiều tăng cao chi phí ổ lưu trữ việc phát triển công nghệ lưu trữ giải vấn đề ● Hệ thống quản lý sở liệu Một tảng kho liệu bao gồm số thành phần bản, quan trọng hệ thống quản lý sở liệu (DBMS) Điều tự nhiên, thực tế DBMS thành phần tảng nơi mà hầu hết công việc phải thực để thực mơ hình liệu tối ưu hóa cho hiệu truy vấn Do đó, DBMS nơi nhiều đổi hệ dự kiến xảy ● Phân tích nâng cao Có nhiều phương pháp phân tích khác mà người dùng chọn họ vượt phương pháp dựa OLAP vào phân tích nâng cao Một số người dùng chọn phương pháp phân tích nâng cao dựa khai thác liệu, phân tích dự đốn, thống kê, trí tuệ nhân tạo, v.v Tuy nhiên, phần lớn người dùng dường chọn phương thức dựa SQL Cho dù dựa SQL hay khơng, phân tích nâng cao dường lời hứa quan trọng kho liệu hệ Tương lai kho liệu dường đầy hứa hẹn thách thức quan trọng Khi giới kinh doanh trở nên toàn cầu phức tạp hơn, nhu cầu trí tuệ kinh doanh công cụ lưu trữ liệu 72 trở nên bật Các công cụ kỹ thuật công nghệ thông tin cải tiến nhanh dường hướng để giải nhu cầu hệ thống kinh doanh thông minh tương lai 73 KẾT LUẬN Quả thực vấn đề lớn nhiều năm trở lại Nó mang lại nhiều thành tựu vấn đề khai thác, quản lý đưa chiến lược kinh doanh Tuy nhiên việc tổ chức kho liệu tiên tiến kho liệu với thời gian thực yêu cầu cao sở vật chất người để thuận tiện cho người xem cuối thấy kết phân tích liệu đơn giản phân tích liệu cách dễ dàng Qua báo cáo chúng em tìm hiểu trình phát triển việc lưu trữ liệu sau phát triển thành kho liệu từ năm 1970 thành tựu đóng góp cho phát triển kinh tế số công ty Kho liệu xuất phát từ mong muốn lưu trữ liệu người kỉ XX, từ bùng nổ máy tính cá nhân lượng liệu tăng cao người ta đưa nhu cầu cấp thiết tạo lập kho liệu để lưu trữ thông tin cách khoa học để thuận tiện cho việc phân tích đưa kế hoạch Theo nhu cầu thời đại việc phát triển kho liệu với thời gian thực bảo mật kho liệu đời phục vụ cho mục đích kinh doanh đưa chiến lược cách kịp thời đủ tin cậy Qua báo cáo chúng em tìm hiểu thêm số khai niệm lĩnh vực kho liệu Chúng em xin gửi lời cảm ơn đến thầy Lê Chí Ngọc tận tình giúp chúng em tìm hiểu báo cáo Một lần nữa, chúng em xin chân thành cảm ơn thầy! 74 Danh mục tài liệu tham khảo [1] Ramesh Sharda, Dursun Delen, Efraim Turban, “Business Intelligence And Analytics”, 2013 [2] M.Breslin, “Data Warehousing Battle of the Giants: Comparing the Basics of Kimball and Inmon Models”, “Business Intelligence Journal, Vol.9, No.1, Winter 2004 [3] J.Vanden Hoven, “Data Marts: Plan Big, Build Small”, in IS Management Handbook, 8th ed, CRC Press, Boca Raton, FL, 2003; and T,Ariyachandra [4] T.Ariyachan and H.Waston, “Which Data Warehouse Artchitecture Is Most Successful?” Business Intelligence Journal, Vol.11, No.1, Fisrt Quarter 2006 75 ... Kuckuk, 2004) Siêu liệu: Kho liệu chứa siêu liệu (dữ liệu liệu) cách tổ chức liệu cách sử dụng hiệu chúng Trong kho liệu kho lưu trữ liệu, kho liệu thực tồn q trình Lưu trữ liệu môn học dẫn đến... lý với kho liệu 12 Tập hợp vật lý - Trích xuất liệu sở liệu riêng biệt từ kho liệu Dữ liệu dạng hạt có mức liệu thấp mục tiêu Tập tin liệu kho liệu đóng vai trị điểm tham chiếu cho tất liệu phụ... tin liên quan để hỗ trợ định Định hướng chủ đề cho phép người dùng xác định không cách thức kinh doanh họ Kho liệu khác với sở liệu hoạt động chỗ hầu hết sở liệu hoạt động có định hướng sản phẩm

Ngày đăng: 04/08/2020, 00:22

Tài liệu cùng người dùng

Tài liệu liên quan