Thông tin tài liệu
1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRẦN VŨ HẢI
ÁP DỤNG KỸ THUẬT PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP)
PHỤC VỤ CÔNG TÁC QUẢN LÝ ĐIỀU HÀNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
Người hướng dẫn KH: PGS. TS Đỗ Trung Tuấn
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2011
2
MỞ ĐẦU
Học viện Công nghệ Bưu chính viễn thông là một đơn vị thành viên của Tập
đoàn Bưu chính Viễn thông Việt Nam có chức năng chính là đào tạo, nghiên cứu
khoa học và chuyển giao công nghệ trong lĩnh vực bưu chính, viễn thông, điện - điện
tử và công nghệ thông tin phục vụ sự phát triển của ngành Bưu chính Viễn thông và
của xã hội. Chính vì vậy việc quản lý, phân tích và đánh giá thông tin về công tác
quản lí, đào tạo dưới các góc độ khác nhau là một trong nhưng vấn đề cần được quan
tâm, tôi đã chọn đề tài tốt nghiệp cao học ngành công nghệ thông tin của tôi với
hướng phục vụ công tác này.
Xuất phát từ thực tế đó, tôi đã chọn đề tài “Áp dụng kỹ thuật phân tích dữ liệu
trực tuyến (OLAP) phục vụ công tác quản lý và điều hành”
Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử dụng phương pháp
luận xử lý phân tích trực tuyến (OLAP). Trong đó tập trung vào hai công việc chính
là tập hợp dữ liệu để tổ chức dữ liệu đa chiều, phân tích và hiển thị dữ liệu để trợ giúp
ra quyết định.
Luận văn gồm 3 chương:
Chương 1: Tổng quan các phương pháp khai thác dữ liệu
Chương 2: Hệ thống trợ giúp quyết định sử dụng phân tích đa chiều trong xử lý
phân tích trực tuyến
Chương 3: Xây dựng hệ thống trợ giúp quản lý với chức năng OLAP
3
Chương 1
TỔNG QUAN CÁC PHƯƠNG PHÁP
KHAI THÁC DỮ LIỆU
1.1. GIỚI THIỆU CÁC PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU
Việc dùng các phương tiện tin học để tổ chức và khai thác các CSDL đã được
phát triển từ những năm 60, nhiều CSDL đã được tổ chức, phát triển và khai thác ở
mọi qui mô và khắp các lĩnh vực hoạt động của xã hội.
Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập và lưu trữ
trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng
nếu không có những công cụ hỗ trợ tốt. Tình huống này đã đặt chúng ta trong hoàn
cảnh nhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức. Với một khối lượng lớn dữ
liệu như vậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích
dữ liệu như chia bảng không còn là phù hợp nữa Chính vì vậy, có một kỹ thuật mới ra
đời đó là “Khai phá dữ liệu”.
Khai phá dữ liệu là một ngữ tương đối mới, nó ra đời vào khoảng những năm
cuối của của thập kỷ 1980. Các nhà thống kê xem "khai phá dữ liệu như là một quá
trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện
ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và
sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện
được cho tập con mới của dữ liệu".
Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm
có các thụât toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả
tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Phát hiện
tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình
trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.
1.1.1. Hình thành và định nghĩa bài toán
4
Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ
quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phương
pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu.
1.1.2. Thu thập và tiền xử lý dữ liệu
Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể
là từ các kho dữ liệu hay nguồn thông tin Internet).
1.1.3. Khai phá dữ liệu và rút ra các tri thức
Đây là bước quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của
bước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu.
1.1.4. Phân tích và kiểm định kết quả
Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả
và dự đoán. Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp
với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng.
1.1.5. Sử dụng các tri thức phát hiện được
Các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống,
đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các giai đoạn của
quá trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung
của hệ thống.
1.2. QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật
ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ
sở dữ liệu.
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức
được chiết xuất ra.
5
Hình. Kiến trúc hệ thống khai phá dữ liệu
Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính như
trong hình.
1.3. CÁC PHƯƠNG PHÁP KHAI KHÁ DỮ LIỆU
1.3.1. Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá
trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi
mẫu một lớp).
1.3.2. Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập
dữ liệu vào các cum, sao cho các đối tượng thuộc cùng một lớp là tương đồng.
1.3.3. Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các
giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết
hợp tìm được.
1.3.4. Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở chỗ nó
dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị
rời rạc.
6
1.3.5. Giải thuật di truyền
Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng chính của giải thuật
là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh
học.
1.3.6. Mạng nơron
Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện
nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng
huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người.
1.3.7. Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và
dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ
liệu chưa biết sẽ được dự đoán, dự báo.
1.4. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
1.4.1. Về xử lý phân tích trực tuyến
Xử lý phân tích trực tuyến (OLAP) là một kỹ thuật sử dụng cách thể hiện dữ liệu
đa chiều gọi là các khối nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho
dữ liệu. Tạo khối cho dữ liệu trong các bảng chiều và bảng sự kiện trong kho dữ liệu
và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho các ứng dụng
khách.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà
nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc
sẽ mất rất nhiều thời gian.
1.4.2. Mô hình dữ liệu đa chiều
Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều”. Ví dụ như
họ có khuynh hướng mô tả những gì mà công ty làm như sau:
“Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và
chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.
7
Những người thiết kế kho dữ liệu thường lắng nghe cẩn thận những từ đó và
họ thêm vào những nhấn mạnh đặc biệt của họ như:
“Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và
chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.
Suy nghĩ một cách trực giác, việc kinh doanh như một khối dữ liệu, với các
nhãn trên mỗi cạnh của khối. Các điểm bên trong khối là các giao điểm của các cạnh.
Với mô tả kinh doanh ở trên, các cạnh của khối là Sản phẩm, Thị trường, và Thời
gian. Hầu hết mọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các điểm
bên trong khối là các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản
phẩm, Thị trường và Thời gian. Các chiều được phân cấp theo loại. Ví dụ như chiều
Thời gian có thể được mô tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày.
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ
nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu
như roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng
mức chi tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa
chiều của dữ liệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi.
Những thao tác đó được biết như Xử lý phân tích trực tuyến.
1.5. KẾT LUẬN CHƯƠNG
Chương trên đã tìm hiểu các phương pháp khai phá dữ liệu, quá trình khai phá
dữ liệu, giới thiệu về OLAP, một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều
nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Định hình mô
hình dữ liệu đa chiều.
8
Chương 2
HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH
SỬ DỤNG PHÂN TÍCH ĐA CHIỀU TRONG
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
2.1. KIẾN TRÚC KHỐI OLAP
2.1.1. Giới thiệu dịch vụ OLAP của Microsoft SQL Server
Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử lý trực tuyến.
Hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều
của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối
cho các khách.
Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện
bởi OLAP server) và phần khách (là dịch vụ PivotTable).
Hình. Kiến trúc OLAP
Các đặc điểm của dịch vụ OLAP:
Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực
hiện.
Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ.
Các khối có thể ghi: Cho các kịch bản phân tích dạng “what if”.
Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu trữ và giải
pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ
thuật OLAP.
9
Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và khách/server
Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý.
2.1.2. So sánh OLAP với OLTP
Đặc trưng của các ứng dụng OLTP là các tác vụ xử lý tự động ghi chép dữ liệu
xử lý tác vụ của một tổ chức như ghi nhận đơn đặt hàng và các giao dịch ngân hàng
mà cần phải đọc hoặc cập nhật một vài mẩu tin dựa trên khoá chính của chúng.
Kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý. Tính chi tiết và
riêng lẻ của các mẩu tin thì ít quan trọng hơn tính lịch sử, tổng kết và hợp nhất của dữ
liệu.
Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được xây dựng để hỗ trợ tốt các tác
vụ OLTP.
2.1.3. Các mô hình lưu trữ hỗ trợ OLAP
Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác nhau, mỗi mô hình
có các ưu và khuyết điểm riêng, chúng được sử dụng tuỳ theo mục đích khai thác.
2.1.3.1. Mô hình OLAP nhiều chiều (MOLAP)
Mô hình OLAP nhiều chiều (MOLAP) lưu trữ dữ liệu cơ sở và thông tin tổng
hợp trong các cấu trúc đa chiều gọi là các khối. Các cấu trúc này được lưu bên ngoài
cơ sở dữ liệu data mart hoặc kho dữ liệu.
2.1.3.2. Mô hình OLAP quan hệ (ROLAP)
Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp
trong các bảng quan hệ. Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là
các bảng của data mart hoặc kho dữ liệu.
Lưu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các truy vấn dữ liệu
không thường xuyên.
2.1.3.3. Mô hình lai OLAP (HOLAP)
Mô hình OLAP lai (HOLAP) là sự kết hợp giữa MOLAP và ROLAP.
2.1.3.4. So sách các mô hình
Bảng sau so sánh tổng hợp ba mô hình lưu trữ hỗ trợ OLAP:
MOLAP ROLAP HOLAP
Lưu trữ dữ liệu cơ sở Khối Bảng quan hệ Bảng quan hệ
10
Lưu trữ thông tin tổng hợp
Khối Bảng quan hệ Khối
Hiệu suất thực hiệ
n truy
vấn
Nhanh nhất Chậm nhất Nhanh
Tiêu thụ
không gian lưu
trữ
Nhiều Thấp Trung bình
Chi phí bảo trì Cao Thấp Trung bình
2.1.4. Kiến trúc khối của OLAP
Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết
và tổng hợp. Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần
dành riêng.
2.1.5. Mô hình kiến trúc dịch vụ OLAP
Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Khách
Hình. Kiến trúc dịch vụ OLAP
2.1.5.1. Kiến trúc thành phần Server
[...]... hiện công tác trợ giúp quyết định, phục vụ quản lý, điều hành công tác đào tạo và nghiên cứu khoa học trong Học viện Công nghệ Bưu chính Viễn thông, luận văn sẽ: 1 Tổ chức dữ liệu, dưới dạng kho dữ liệu; 2 Thể hiện dữ liệu dưới dạng đồ hoạ, phục vụ quyết định trực quan; 3 Sử dụng kĩ thuật OLAP, thể hiện dữ liệu dưới các dạng bảng xoay khác nhau, tiện cho việc xử lí dữ liệu và ra quyết định 3.2 YÊU CẦU... liệu Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo Các thao tác với dữ 16 liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều, được mô hình vào đối tượng gọi là khối dữ liệu 3.1.2.3 Ngôn ngữ cho kho dữ liệu Ngôn ngữ xử lý phân tích trực tuyến OLAP, rất phù hợp với kho dữ liệu, ngôn ngữ này tương tự... doanh, các dữ liệu của doanh nghiệp phát sinh ngày càng nhiều Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích Quá trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm sau: 1 Dữ liệu tích hợp 2 Theo chủ đề 3 Biến thời gian 4 Dữ liệu cố định 3.1.2.2 Cấu trúc dữ liệu cho kho dữ liệu Vì dữ liệu trong... 3.1.2.5 Nhiệm vụ khai phá dữ liệu của luận văn Trong khuôn khổ luận văn này, tôi sử dụng kĩ thuật OLAP để khai phá dữ liệu, trong kho dữ liệu nhiều chiều Các dữ liệu về (i) công tác quản lý sinh viên; (ii) kết quả học tập của sinh viên và học viên; (iii) công trình nghiên cứu khoa học của thày cô giáo trong Học viện Công nghệ Bưu chính Viễn thông… Dựa trên dữ liệu cơ bản đó, để thực hiện công tác trợ giúp... các thành phần của DSS 2.2.6 Hệ con quản trị dữ liệu Hệ con quản trị dữ liệu bao gồm những thành phần sau: 1 Cơ sở dữ liệu về DSS 2 Hệ quản trị cơ sở dữ liệu 3 Phương tiện hỏi áp 4 Danh mục dữ liệu 2.2.7 Hệ con quản trị mô hình Hệ con quản trị mô hình trong DSS bao gồm các thành phần sau: 1 Cơ sở mô hình 2 Hệ quản trị cơ sở mô hình 3 Ngôn ngữ dùng trong mô hình 4 Danh mục mô hình 5 Thực hiện, tích. .. EXCEL 3.4 THỬ NGHIỆM THỂ HIỆN DỮ LIỆU 3.4.1 Thể hiện đồ hoạ 3.4.2 Sử dụng bảng xoay của MS EXCEL 3.5 KẾT LUẬN CHƯƠNG Dựa trên các kĩ thuật, phương pháp luận xử lý dữ liệu trực tuyến, nhằm tăng cường công tác quản lý nguồn nhân lực tại Học viện Công nghệ Bưu chính Viễn thông, đề tài luận văn đã tổ chức cơ sở dữ liệu về đào tạo và nghiên cứu khoa học, sử dụng hệ quản trị cơ sở dữ liệu SQL SERVER 19 KẾT LUẬN... phương pháp khai phá dữ liệu, quá trình khai phá dữ liệu, giới thiệu về OLAP, một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu Định hình mô hình dữ liệu đa chiều Luận văn đã đề cập chi tiết về công cụ OLAP, giới thiệu dịch vụ OLAP của Microsoft SQL Server, kiến trúc khối của OLAP và các dạng mô hình OLAP Những kĩ thuật khai phá dữ liệu, ... 3.2.1 Cơ sở dữ liệu về đào tạo và nghiên cứu khoa học 17 Hiện tại, Học viện chưa quản lý tác nghiệp rộng trên cơ sở dữ liệu trực tuyến Dữ liệu thường được tổ chức trong các cơ sở dữ liệu đơn lẻ Nhiệm vụ của đề tài luận văn là thiết kế cơ sở dữ liệu tích hợp, cho phép lưu mọi thông tin về đào tạo và nghiên cứu khoa học của cán bộ, học viên và sinh viên của Học viện Hệ quản trị cơ sở dữ liệu là SQL SERVER... đối với công tác quản lý và người quản lý, trong việc ra các quyết định về đào tạo và nghiên cứu khoa học Để tăng cường trợ giúp quyết định, chương này đã giới thiệu tổng quan về hệ trợ giúp quyết định DSS, giới thiệu các thành phần cơ bản của DSS, phân tích những đặc tính và những khả năng của DSS Dựa trên các kĩ thuật, phương pháp luận xử lý dữ liệu trực tuyến, nhằm tăng cường công tác quản lý nguồn... quyết định liên quan đến quản lý nguồn nhân lực sẽ thực hiện trên mạng Intranet, cho phép các người quản lý điều khiển tác nghiệp Các chức năng tìm kiếm, trích rút dữ liệu và xử lý dữ liệu, theo hệ thống cơ sở dữ liệu truyền thống được hệ quản trị cơ sở dữ liệu SQL SERVER đảm nhiệm Một số chức năng trợ giúp quyết định do khối OLAP đảm nhiệm Phần mềm với các chức năng OLAP gắn với hệ quản trị SQL SERVER, . VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRẦN VŨ HẢI
ÁP DỤNG KỸ THUẬT PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP)
PHỤC VỤ CÔNG TÁC QUẢN LÝ ĐIỀU HÀNH. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
1.4.1. Về xử lý phân tích trực tuyến
Xử lý phân tích trực tuyến (OLAP) là một kỹ thuật sử dụng cách thể hiện dữ liệu
đa chiều
Ngày đăng: 13/02/2014, 11:06
Xem thêm: Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý điều hành, Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý điều hành