So sánh OLAP với OLTP

Một phần của tài liệu phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo (Trang 55)

Đặc trƣng của các ứng dụng OLTP là các tác vụ xử lý tự động ghi chép dữ liệu xử lý tác vụ của một tổ chức nhƣ ghi nhận đơn đặt hàng và các giao dịch ngân hàng (chúng là những cơng việc hàng ngày của tổ chức thƣơng mại) mà cần phải đọc hoặc cập nhật một vài mẩu tin dựa trên khố chính của chúng. Những tác vụ đĩ cĩ cấu trúc, đƣợc lặp lại, bao gồm các giao dịch ngắn, tối giản và tách biệt, yêu cầu dữ liệu chi tiết và mới cập nhật. Các cơ sở dữ liệu tác nghiệp cĩ xu hƣớng từ vài trăm megabyte đến hàng gigabyte kích thƣớc và chỉ lƣu trữ các dữ liệu hiện hành. Tính nhất quán và khả năng phục hồi của cơ sở dữ liệu là then chốt, và tối đa thơng lƣợng giao dịch là thƣớc đo chính yếu. Vì thế cơ sở dữ liệu đƣợc thiết kế để tối thiểu các xung đột trùng lắp.

Cịn kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý. Tính chi tiết và riêng lẻ của các mẩu tin thì ít quan trọng hơn tính lịch sử, tổng kết và hợp nhất của dữ liệu. Do đĩ, kho dữ liệu thƣờng chứa dữ liệu hợp nhất từ một hoặc nhiều cơ sở dữ liệu tác nghiệp và đƣợc thu thập qua một thời gian dài. Kết quả là kích thƣớc kho dữ liệu cĩ khuynh hƣớng từ vài trăm gigabyte đến hàng terabyte so với các cơ sở dữ liệu tác nghiệp. Kho dữ liệu hỗ trợ các truy vấn phức tạp với thời gian hồi đáp nhanh, các truy vấn phức tạp cĩ thể truy xuất hàng triệu mẩu tin và

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

thực hiện nhiều lần các thao tác quét, kết và tổng hợp. Đối với kho dữ liệu, số lƣợng truy vấn đƣa vào và thời gian hồi đáp quan trọng hơn số lƣợng giao dịch đƣa vào. Mà OLAP là một trong những cơng cụ cho phép thực hiện hiệu quả các truy vấn này.

Căn cứ vào đĩ, các cơ sở dữ liệu tác nghiệp đƣợc xây dựng để hỗ trợ tốt các tác vụ OLTP, vì thế nếu cố gắng thực thi các truy vấn OLAP phức tạp đối với các cơ sở dữ liệu tác nghiệp sẽ cho kết quả là hiệu quả thực hiện khơng thể chấp nhận đƣợc.

3.2.5 Các mơ hình lưu trữ hỗ trợ OLAP

Dịch vụ OLAP hỗ trợ nhiều mơ hình lƣu trữ dữ liệu khác nhau, mỗi mơ hình cĩ các ƣu và khuyết điểm riêng, chúng đƣợc sử dụng tuỳ theo mục đích khai thác.

3.2.5.1. Mơ hình OLAP nhiều chiều (MOLAP)

Mơ hình OLAP đa chiều (MOLAP) lƣu trữ dữ liệu cơ sở (là dữ liệu từ các bảng của kho dữ liệu hoặc data mart) và thơng tin tổng hợp (là các độ đo đƣợc tính tốn từ các bảng) trong các cấu trúc đa chiều gọi là các khối. Các cấu trúc này đƣợc lƣu bên ngồi cơ sở dữ liệu data mart hoặc kho dữ liệu.

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Lƣu trữ các khối trong cấu trúc MOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh. Ví dụ, tổng sản phẩm bán đƣợc của tất cả các vùng theo quý.

Mơ hình MOLAP cho phép thực hiện các truy vấn phân tích dữ liệu tốt nhất vì các đặc điểm sau:

 Thơng tin tổng hợp và dữ liệu cơ sở đƣợc lƣu trữ trong cấu trúc đa chiều.  Các thao tác kết, là một trong những thao tác tốn chi phí nhất của mơ

hình quan hệ, thì khơng cần thiết.

 MOLAP sử dụng các thuật tốn nén dữ liệu cho phép lƣu trữ với ít khơng gian hơn.

 MOLAP sử dụng chỉ mục bitmap cho hiệu quả thực thi tốt hơn.

 MOLAP lấy dữ liệu trong khối rất nhanh bằng cách sử dụng các xử lý truy vấn tốc độ cao và cache dữ liệu. Thơng tin nhận đƣợc từ khối và các bảng OLAP cơ sở chỉ đƣợc truy xuất thơng tin chi tiết.

 MOLAP khơng sử dụng cơ chế khố vì dữ liệu là chỉ đọc.  MOLAP cĩ thể đƣợc nạp trƣớc vào bộ nhớ cache.

 Dữ liệu cĩ thể dễ dàng sao chép đến khách cho phân tích khơng trực tuyến.

3.2.5.2. Mơ hình OLAP quan hệ (ROLAP)

Mơ hình OLAP quan hệ (ROLAP) lƣu trữ dữ liệu cơ sở và thơng tin tổng hợp trong các bảng quan hệ. Các bảng này đƣợc lƣu trữ trong cùng cơ sở dữ liệu nhƣ là các bảng của data mart hoặc kho dữ liệu.

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hinh 3.7 Mơ hình dữ liệu ROLAP

Lƣu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các truy vấn dữ liệu khơng thường xuyên. Ví dụ nhƣ nếu 80% ngƣời dùng truy vấn chỉ dữ liệu trong vịng một năm trở lại đây, các dữ liệu cũ hơn một năm sẽ đƣợc đƣa vào một cấu trúc ROLAP để giảm khơng gian đĩa bị chiếm dụng, hơn nữa cịn để loại trừ dữ liệu trùng lắp. Lƣu trữ dữ liệu trong cấu trúc ROLAP cung cấp các lợi ích sau:

 ROLAP cho phép Cube Builder tự động tạo chỉ mục.

 ROLAP ánh xạ các tổng hợp cĩ sẵn từ data mart hoặc kho dữ liệu. OLAP Manager đƣợc phép sử dụng các tổng hợp cĩ sẵn để tổng hợp mà khơng cần tính tốn lại cho mỗi truy vấn.

 ROLAP tạo địn bẩy cho hệ quản trị cơ sở dữ liệu quan hệ nhằm cho các nhà quản trị hệ thống duy trì nĩ hiệu quả hơn.

 ROLAP hỗ trợ Microsoft SQL Server, Oracle, Access và Open Database Connectivity (ODBC).

3.2.5.3. Mơ hình lai OLAP (HOLAP):

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.8. Mơ hình dữ liệu HOLAP

Lƣu trữ các khối trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thƣờng xuyên dựa trên một lƣợng lớn dữ liệu cơ sở. Ví dụ, chúng ta sẽ lƣu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong cấu trong MOLAP và dữ liệu hàng tháng, hàng tuần và hàng ngày trong cấu trúc ROLAP.

Lợi ích của việc lƣu trữ trong cấu trúc HOLAP là:

 Lấy dữ liệu trong khối nhanh hơn bằng cách sử dụng xử lý truy vấn tốc độ cao của MOLAP.

 Tiêu thụ ít khơng gian lƣu trữ hơn MOLAP.  Tránh trùng lắp dữ liệu.

3.2.5.4. So sách các mơ hình:

Bảng sau so sánh tổng hợp ba mơ hình lƣu trữ hỗ trợ OLAP:

MOLAP ROLAP HOLAP

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Lƣu trữ thơng tin tổng hợp Khối Bảng quan hệ Khối Hiệu suất thực hiện truy vấn Nhanh nhất Chậm nhất Nhanh Tiêu thụ khơng gian lƣu trữ Nhiều Thấp Trung bình

Chi phí bảo trì Cao Thấp Trung bình

3.2.6.Kiến trúc khối của OLAP

Đối tƣợng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết và tổng hợp. Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần dành riêng. Các khối đƣợc thiết kế dựa trên yêu cầu phân tích của ngƣời dùng. Một kho dữ liệu cĩ thể hỗ trợ nhiều khối khác nhau nhƣ khối Bán hàng, khối Bảng kiểm kê,…

Dữ liệu nguồn của một khối chỉ ra nơi chứa kho dữ liệu cung cấp dữ liệu cho khối.

Các chiều đƣợc ánh xạ từ các thơng tin của các bảng chiều trong kho dữ liệu vào các mức phân cấp, ví dụ nhƣ chiều Địa lý thì gồm các mức nhƣ Lục địa, Quốc gia, Tỉnh-Thành phố. Các chiều cĩ thể đƣợc tạo một cách độc lập và cĩ thể chia sẻ giữa các khối nhằm xây dựng các khối dễ dàng và để chắc chắn rằng thơng tin tổng hợp cho phân tích luơn ổn định. Ví dụ, nếu một chiều chia sẻ một phân cấp sản phẩm và đƣợc sử dụng trong tất cả các khối thì cấu tạo của thơng tin tổng hợp về sản phẩm sẽ ổn định giữa các khối sử dụng chiều đĩ.

 Một chiều ảo là một dạng đặc biệt của chiều mà ánh xạ các thuộc tính từ các thành viên của một chiều khác để sau đĩ cĩ thể đƣợc sử dụng trong các khối. Ví dụ, một chiều ảo của thuộc tính kích thƣớc sản phẩm cho phép một khối tổng hợp dữ liệu nhƣ số lƣợng sản phẩm bán đƣợc theo kích thƣớc, hoặc nhƣ số lƣợng áo bán đƣợc theo kiểu và theo kích thƣớc. Các chiều ảo và các thuộc tính thành viên đƣợc đánh giá là cần thiết cho các truy vấn và chúng khơng địi hỏi phải cĩ các khối lƣu trữ vật lý.

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Các độ đo xác định các giá trị số từ bảng sự kiện (fact table) mà đƣợc tổng hợp cho phân tích nhƣ giá bán, chi phí hoặc số lƣợng bán.

Các phần dành riêng là các vật chứa lƣu trữ đa chiều, giữ dữ liệu của khối. Mỗi khối chứa ít nhất một phần, và dữ liệu của khối cĩ thể kết hợp từ nhiều phần. Mỗi phần cĩ thể lấy dữ liệu một nguồn dữ liệu khác nhau và cĩ thể lƣu trong một vị trí riêng biệt. Dữ liệu của một phần cĩ thể đƣợc cập nhật độc lập với các phần khác trong một khối. Ví dụ, dữ liệu của một khối cĩ thể đƣợc chia theo thời gian, với một phần chứa dữ liệu của năm hiện hành, một phần khác chứa dữ liệu của năm trƣớc, và một phần thứ ba chứa tất cả dữ liệu của các năm trƣớc nữa.

Các phần của một khối cĩ thể đƣợc lƣu trữ độc lập trong các cách thức khác nhau với các mức độ tổng kết khác nhau. Các phần khơng thể hiện đối với ngƣời dùng, đối với họ một khối là một đối tƣợng đơn, và chúng cung cấp các tuỳ chọn đa dạng để quản lý dữ liệu OLAP.

Một khối ảo là một khung nhìn luận lý (logic) của các phần chia của một hoặc nhiều khối. Một khối ảo cĩ thể đƣợc sử dụng để kết (join) các khối khác nhau để chia sẻ một chiều chung nào đĩ, ví dụ nhƣ cĩ thể kết giữa khối Bán hàng và khối Kho nhằm các mục đích phân tích đặc biệt nào đĩ trong khi duy trì các khối tách biệt cho đơn giản. Các chiều (dimension) và các độ đo (measure) cĩ thể đƣợc chọn từ các khối đƣợc kết để thể hiện trong khối ảo.

3.2.7. Mơ hình kiến trúc dịch vụ OLAP

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.9. Kiến trúc dịch vụ OLAP

3.2.7.1. Kiến trúc thành phần Server

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Dịch vụ OLAP của SQL Server cung cấp thành phần Server cĩ khả năng tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho khách qua dịch vụ PivotTable.

Các thao tác của thành phần Server bao gồm việc tạo các khối dữ liệu đa chiều từ kho cơ sở dữ liệu quan hệ và lƣu trữ chúng trong các cấu trúc khối đa chiều (MOLAP), trong cơ sở dữ liệu quan hệ (ROLAP) hoặc kết hợp cả hai (HOLAP). Siêu dữ liệu của các cấu trúc khối đa chiều đƣợc lƣu trữ trong một kho trong cơ sở dữ liệu quan hệ.

Các thao tác đƣợc thành phần Server cung cấp gồm:  Khả năng tạo và quản lý các khối của OLAP.

 Phục vụ lấy dữ liệu và làm cho nĩ cĩ thể sử dụng đƣợc từ các ứng dụng khách.

3.2.7.2. Kiến trúc thành phần Khách

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP server và cung cấp giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên server. Các ứng dụng khách kết nối đến dịch vụ PivotTable bằng cách sử dụng giao diện OLE DB hoặc mơ hình ADO.

Các ứng dụng khách cĩ thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu OLAP.

Dịch vụ PivotTable cĩ thể tạo các khối cục bộ mà đĩ là các tập con của các khối cƣ trú trên server. Các khối cục bộ cĩ thể đƣợc sử dụng để làm tăng hiệu quả thực hiện và sử dụng để thực hiện các phân tích khơng trực tuyến.

Dịch vụ PivotTable là một cơng cụ lƣu trữ, duyệt và phân tích khối. PivotTable là một OLAP Server xử lý tại chỗ với cả các đặc tính phân tích trực tuyến và khơng trực tuyến mà:

 Cung cấp truy cập trực tuyến đến dữ liệu OLAP nhƣ một khách của dịch vụ OLAP.

 Bao gồm các đặc tính phân tích dữ liệu, xây dựng khối và quản lý cache. Cho phép các khối lƣu trữ cục bộ để phân tích khơng trực tuyến nhƣ là kết nối đến dữ liệu dịch vụ OLAP trực tuyến.

3.3. Dữ liệu về đào tạo 3.3.1. Dữ liệu 3.3.1. Dữ liệu

Dữ liệu về cơng tác đào tạo trên các xã thuộc huyện Lục Yên, tỉnh Yên bái đƣợc lƣu trong cơ sở dữ liệu. Tuy nhiên cĩ thể hiển thị các dữ liệu này trên trang tính để tiện thực hiện các thao tác khai phá dữ liệu.

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.12. Dữ liệu gốc

3.3.2. Khai phá dữ liệu

Một số khai phá dữ liệu nhờ cơng cụ khai phá dữ liệu trong bảng tính MS EXCEL đã đƣợc thực hiện.

Dƣới đây là một vài thí dụ minh hoạ về tri thức phát hiện.

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.14. Thí dụ sử dụng nhiều tham số cột xoay

3.4. Kết luận

Chƣơng về thực hành phƣơng pháp khai phá dữ liệu đƣợc thực hiện với nhiều kĩ thuật OLAP, với cơng cụ xoay bảng trong bảng tính điện tử MS EXCEL.

Việc khai phá dữ liệu này đã giúp ngƣời quản lý đào tạo cĩ các quyết định phù hợp về lớp đạo tạo cơng nghệ thơng tin, đối với từng xã, tuỳ theo số dân, trình ICT của mỗi xã.

Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

KẾT LUẬN

Luận văn kết luận với liệt kê cơng việc đã thực hiện trong thời gian thực tập, và đề xuất nhiệm vụ tiếp theo.

Khai phá dữ liệu là một lĩnh vực vẫn cịn khá mới mẻ, lý thú. Luận văn đã trình bày, một số vấn đề cơ bản nhất, các phƣơng pháp cơ bản để khai phá dữ liệu. Phƣơng pháp khai phá dữ liệu cĩ thể là: phân lớp, hồi quy, cây quyết định, suy diễn, quy nạp, K- láng giềng gần, … Cĩ nhiều phƣơng pháp khai phá dữ liệu khác nhau, trong luận văn đề cập đến việc sử dụng cơng cụ OLAP, cơng cụ xoay của bảng tính Excel để bƣớc đầu khai phá dữ liệu cho việc quản lý đào tạo tại Trung tâm.

Một số vấn đề đã giải quyết

Chƣơng đầu đã trình bày một số phƣơng pháp khai phá dữ liệu, một số kĩ thuật đã sử dụng trong nhiều ngành để chỉ ra tri thức hay dữ liệu mới. Khai phá dữ liệu cĩ nhu cầu trong cơng tác xử lí dữ liệu, cũng nhƣ trong cơng tác quản lí nĩi chung. Việc sử dụng các phƣơng pháp khai phá dữ liệu cĩ ý nghĩa trong quản lí đào tạo, đặc biệt cho Trung tâm đào tạo tại tỉnh miền núi của đất nƣớc.

Chƣơng 2 đề cập một số phƣơng pháp xử lí dữ liệu dựa trên các tính tốn thơng kê. Đích ban đầu đặt ra đối với luận văn là áp dụng kiến thức về PCA để phát hiện các yếu tố chính ảnh hƣởng đến cơng tác đào tạo, huấn luyện và quản lý đào tạo tại Trung tâm Giáo dục thƣờng xuyên tỉnh Yên Bái. Tuy nhiên do dữ liệu khơng đƣợc nhiều, vấn đề đặt ra khơng quá phức tạp, chƣơng 2 chỉ liệt kê một số phƣơng pháp một cách hệ thống để cĩ thể sử dụng trong thời gian tới.

Chƣơng về thực hành phƣơng pháp khai phá dữ liệu đƣợc thực hiện với nhiều kĩ thuật OLAP, với cơng cụ xoay bảng trong bảng tính điện tử MS EXCEL.

Một phần của tài liệu phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo (Trang 55)

Tải bản đầy đủ (PDF)

(69 trang)