Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý điều hành

Luận văn gồm 3 chương: Chương 1: Tổng quan các phương pháp khai thác dữ liệu Chương 2: Hệ thống trợ giúp quyết định sử dụng phân tích đa chiều trong xử lý phân tích trực tuyến Chương 3:

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

TRẦN VŨ HẢI

ÁP DỤNG KỸ THUẬT PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP)

PHỤC VỤ CÔNG TÁC QUẢN LÝ ĐIỀU HÀNH

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

Người hướng dẫn KH: PGS TS Đỗ Trung Tuấn

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2011

Trang 2

MỞ ĐẦU

Học viện Công nghệ Bưu chính viễn thông là một đơn vị thành viên của Tập đoàn Bưu chính Viễn thông Việt Nam có chức năng chính là đào tạo, nghiên cứu khoa học và chuyển giao công nghệ trong lĩnh vực bưu chính, viễn thông, điện - điện

tử và công nghệ thông tin phục vụ sự phát triển của ngành Bưu chính Viễn thông và của xã hội Chính vì vậy việc quản lý, phân tích và đánh giá thông tin về công tác quản lí, đào tạo dưới các góc độ khác nhau là một trong nhưng vấn đề cần được quan tâm, tôi đã chọn đề tài tốt nghiệp cao học ngành công nghệ thông tin của tôi với hướng phục vụ công tác này

Xuất phát từ thực tế đó, tôi đã chọn đề tài “Áp dụng kỹ thuật phân tích dữ liệu

trực tuyến (OLAP) phục vụ công tác quản lý và điều hành”

Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử dụng phương pháp luận xử lý phân tích trực tuyến (OLAP) Trong đó tập trung vào hai công việc chính

là tập hợp dữ liệu để tổ chức dữ liệu đa chiều, phân tích và hiển thị dữ liệu để trợ giúp

ra quyết định

Luận văn gồm 3 chương:

Chương 1: Tổng quan các phương pháp khai thác dữ liệu

Chương 2: Hệ thống trợ giúp quyết định sử dụng phân tích đa chiều trong xử lý phân tích trực tuyến

Chương 3: Xây dựng hệ thống trợ giúp quản lý với chức năng OLAP

Trang 3

Chương 1 TỔNG QUAN CÁC PHƯƠNG PHÁP

KHAI THÁC DỮ LIỆU 1.1 GIỚI THIỆU CÁC PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU

Việc dùng các phương tiện tin học để tổ chức và khai thác các CSDL đã được phát triển từ những năm 60, nhiều CSDL đã được tổ chức, phát triển và khai thác ở mọi qui mô và khắp các lĩnh vực hoạt động của xã hội

Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập và lưu trữ trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng nếu không có những công cụ hỗ trợ tốt Tình huống này đã đặt chúng ta trong hoàn cảnh nhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức Với một khối lượng lớn dữ liệu như vậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích

dữ liệu như chia bảng không còn là phù hợp nữa Chính vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ liệu”

Khai phá dữ liệu là một ngữ tương đối mới, nó ra đời vào khoảng những năm cuối của của thập kỷ 1980 Các nhà thống kê xem "khai phá dữ liệu như là một quá trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện

ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu"

Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm

có các thụât toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được

1.1.1 Hình thành và định nghĩa bài toán

Trang 4

Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phương pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu

1.1.2 Thu thập và tiền xử lý dữ liệu

Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể

là từ các kho dữ liệu hay nguồn thông tin Internet)

1.1.3 Khai phá dữ liệu và rút ra các tri thức

Đây là bước quan trọng nhất trong tiến trình khám phá tri thức Kết quả của bước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu

1.1.4 Phân tích và kiểm định kết quả

Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả

và dự đoán Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng

1.1.5 Sử dụng các tri thức phát hiện được

Các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó Các giai đoạn của quá trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống

1.2 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ

sở dữ liệu

Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra

Trang 5

Hình Kiến trúc hệ thống khai phá dữ liệu

Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính như trong hình

1.3 CÁC PHƯƠNG PHÁP KHAI KHÁ DỮ LIỆU

1.3.1 Phân lớp dữ liệu

Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu một lớp)

1.3.2 Phân cụm dữ liệu

Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập

dữ liệu vào các cum, sao cho các đối tượng thuộc cùng một lớp là tương đồng

1.3.3 Khai phá luật kết hợp

Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được

1.3.4 Hồi quy

Phương pháp hồi quy tương tự như là phân lớp dữ liệu Nhưng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc

Trang 6

1.3.5 Giải thuật di truyền

Là quá trình mô phỏng theo tiến hoá của tự nhiên Ý tưởng chính của giải thuật

là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học

1.3.6 Mạng nơron

Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người

1.3.7 Cây quyết định

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và

dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo

1.4 XỬ LÝ PHÂN TÍCH TRỰC TUYẾN

1.4.1 Về xử lý phân tích trực tuyến

Xử lý phân tích trực tuyến (OLAP) là một kỹ thuật sử dụng cách thể hiện dữ liệu

đa chiều gọi là các khối nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho

dữ liệu Tạo khối cho dữ liệu trong các bảng chiều và bảng sự kiện trong kho dữ liệu

và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho các ứng dụng khách

OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc

sẽ mất rất nhiều thời gian

1.4.2 Mô hình dữ liệu đa chiều

Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều” Ví dụ như

họ có khuynh hướng mô tả những gì mà công ty làm như sau:

 “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”

Trang 7

 Những người thiết kế kho dữ liệu thường lắng nghe cẩn thận những từ đó và

họ thêm vào những nhấn mạnh đặc biệt của họ như:

 “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”

Suy nghĩ một cách trực giác, việc kinh doanh như một khối dữ liệu, với các

nhãn trên mỗi cạnh của khối Các điểm bên trong khối là các giao điểm của các cạnh

Với mô tả kinh doanh ở trên, các cạnh của khối là Sản phẩm, Thị trường, và Thời

gian Hầu hết mọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các điểm

bên trong khối là các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản

phẩm, Thị trường và Thời gian Các chiều được phân cấp theo loại Ví dụ như chiều Thời gian có thể được mô tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày

Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ nhiều khung nhìn linh động khác nhau Một số thao tác điển hình của khối dữ liệu như roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa chiều của dữ liệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi Những thao tác đó được biết như Xử lý phân tích trực tuyến

1.5 KẾT LUẬN CHƯƠNG

Chương trên đã tìm hiểu các phương pháp khai phá dữ liệu, quá trình khai phá

dữ liệu, giới thiệu về OLAP, một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu Định hình mô hình dữ liệu đa chiều

Trang 8

Chương 2

HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH

SỬ DỤNG PHÂN TÍCH ĐA CHIỀU TRONG

XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 2.1 KIẾN TRÚC KHỐI OLAP

2.1.1 Giới thiệu dịch vụ OLAP của Microsoft SQL Server

Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử lý trực tuyến

Hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối cho các khách

Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởi OLAP server) và phần khách (là dịch vụ PivotTable)

Hình Kiến trúc OLAP

Các đặc điểm của dịch vụ OLAP:

 Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện

 Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ

 Các khối có thể ghi: Cho các kịch bản phân tích dạng “what if”

 Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP

Trang 9

 Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và khách/server

 Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý

2.1.2 So sánh OLAP với OLTP

Đặc trưng của các ứng dụng OLTP là các tác vụ xử lý tự động ghi chép dữ liệu

xử lý tác vụ của một tổ chức như ghi nhận đơn đặt hàng và các giao dịch ngân hàng

mà cần phải đọc hoặc cập nhật một vài mẩu tin dựa trên khoá chính của chúng

Kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý Tính chi tiết và riêng lẻ của các mẩu tin thì ít quan trọng hơn tính lịch sử, tổng kết và hợp nhất của dữ liệu

Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được xây dựng để hỗ trợ tốt các tác

vụ OLTP

2.1.3 Các mô hình lưu trữ hỗ trợ OLAP

Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác nhau, mỗi mô hình

có các ưu và khuyết điểm riêng, chúng được sử dụng tuỳ theo mục đích khai thác

2.1.3.1 Mô hình OLAP nhiều chiều (MOLAP)

Mô hình OLAP nhiều chiều (MOLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các cấu trúc đa chiều gọi là các khối Các cấu trúc này được lưu bên ngoài

cơ sở dữ liệu data mart hoặc kho dữ liệu

2.1.3.2 Mô hình OLAP quan hệ (ROLAP)

Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các bảng quan hệ Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các bảng của data mart hoặc kho dữ liệu

Lưu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các truy vấn dữ liệu

không thường xuyên

2.1.3.3 Mô hình lai OLAP (HOLAP)

Mô hình OLAP lai (HOLAP) là sự kết hợp giữa MOLAP và ROLAP

2.1.3.4 So sách các mô hình

Bảng sau so sánh tổng hợp ba mô hình lưu trữ hỗ trợ OLAP:

Lưu trữ dữ liệu cơ sở Khối Bảng quan hệ Bảng quan hệ

Trang 10

Lưu trữ thông tin tổng hợp Khối Bảng quan hệ Khối

Hiệu suất thực hiện truy

vấn

Nhanh nhất Chậm nhất Nhanh

Tiêu thụ không gian lưu

trữ

2.1.4 Kiến trúc khối của OLAP

Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết

và tổng hợp Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần dành riêng

2.1.5 Mô hình kiến trúc dịch vụ OLAP

Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Khách

Hình Kiến trúc dịch vụ OLAP

2.1.5.1 Kiến trúc thành phần Server

Trang 11

Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho khách qua dịch vụ PivotTable

Các thao tác của thành phần Server bao gồm việc tạo các khối dữ liệu đa chiều

từ kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa chiều (MOLAP), trong cơ sở dữ liệu quan hệ (ROLAP) hoặc kết hợp cả hai (HOLAP)

2.1.5.2 Kiến trúc thành phần Khách

Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP server và cung cấp giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên server Các ứng dụng khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu OLAP

2.2 HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH

2.2.1 Một số định nghĩa về DSS

Khái niệm về Hệ trợ giúp quyết định, DSS (Decision Support System), lần đầu tiên được Scott Morton đưa ra vào đầu năm 1970, ông định nghĩa là “Các hệ thống dựa trên tương tác máy tính, giúp người ra quyết định dùng dữ liệu và các mô hình để giải quyết những bài toán không cấu trúc”

Ba định nghĩa khác về DSS cùng được đưa ra vào năm 1980 bởi Moore và Chang; Bonczek, Holsapple và Whinston; Keen, Moore và Chang chỉ ra rằng khái niệm “Cấu trúc”, “không cấu trúc”, không đủ ý nghĩa trong trường hợp tổng quát Một bài toán có thể được mô tả như là có cấu trúc hoặc không cấu trúc chỉ liên quan tới người ra quyết định, do vậy họ định nghĩa DSS là:

 Hệ thống có khả năng mở rộng;

 Có khả năng trợ giúp phân tích dữ liệu và mô hình hoá quyết định;

 Hướng tới lập kế hoạch cho tương lai;

 Được sử dụng cho những hoàn cảnh và thời gian bất thường;

2.2.2 Một số khái niệm

Một bài toán có cấu trúc là bài toán có thể giải quyết như một công việc thường lệ Điển hình, nếu phương pháp của giải pháp có thể được bắt đầu như một thuật toán và được hợp nhất lại trong một chương trình máy tính thì chúng ta nói rằng bài toán có cấu trúc chặt

Một bài toán nửa cấu trúc hoặc bài toán không cấu trúc là bài toán có sự cần thiết ở vài mức độ yêu cầu thêm thông tin bổ sung, tri thức địa phương hoặc sự hiểu

Trang 12

biết sâu sắc bài toán Do vậy chúng ta không được đoán trước bằng một quá trình thuật toán

Hai khái niệm nữa quan trọng trong hệ thống là phản hồi và môi trường

Phân tích nhạy cảm cố gắng giúp những nhà quản lý khi họ không chắc chắn

về độ chính xác, hoặc giá trị tương đối của thông tin, hoặc khi họ muốn biết sự tác động của những sự thay đổi của thông tin vào đến mô hình Có hai kiểu phân tích sự nhạy cảm là phân tích sự nhạy cảm tự động và phương pháp thử và sai Phương pháp phân tích thử và sai chứa phân tích “What- if” mà ta xem xét sau đây

2.2.3 Phân tích “What- if”

Một người làm mô hình tạo ra những dự đoán và những giả định để đánh giá

dữ liệu vào Công việc này nhiều khi để đánh giá tương lai không chắc chắn Khi mô hình được giải quyết, các kết quả tất nhiên phụ thuộc vào những dữ liệu này

Phân tích nhạy cảm cố gắng kiểm tra sự tác động của những sự thay đổi của dữ liệu vào trên những giải pháp được đề nghị (Các biến kết quả) Kiểu này của phân tích nhạy cảm được gọi là phân tích “ What – if”, bởi vì nó được cấu trúc như là “ Điều gì sẽ xảy ra cho giải pháp nếu biến vào, giả thiết, hoặc giá trị các tham số được thay đổi ”

2.2.4 Những đặc tính và những khả năng của DSS

Những đặc tính và khả năng chính của DSS

1 Cung cấp trợ giúp chính cho người ra quyết định trong những tình huống không cấu trúc hoặc nửa cấu trúc;

2 Sự trợ giúp được cung cấp cho các mức quản lý khác nhau từ người thực thi đến các nhà quản lý;

3 Sự trợ giúp cho cá nhân và cho cả nhóm;

4 DSS trợ giúp cho các giai đoạn của quá trình ra quyết định: Giai đoạn trí tuệ, thiết kế, lựa chọn và cài đặt;

5 DSS trợ giúp cho sự đa dạng của quá trình ra quyết định và các kiểu quyết định;

6 DSS thích nghi và mềm dẻo;

7 DSS dễ sử dụng;

8 DSS cố gắng nâng cao hiệu quả của quá trình ra quyết định;

Định dạng
Số trang	19
Dung lượng	423,84 KB