Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
560,06 KB
Nội dung
TIỂU LUẬN
ĐỀ TÀI: “Ápdụng kỹ thuậtphântích dữ liệu
trực tuyến(OLAP)phụcvụcôngtácquảnlývà
điều hành”
1
MỞ ĐẦU
Học viện Công nghệ Bưu chính viễn thông là một đơn vị
thành viên của Tập đoàn Bưu chính Viễn thông Việt Nam có chức
năng chính là đào tạo, nghiên cứu khoa học và chuyển giao công
nghệ trong lĩnh vực bưu chính, viễn thông, điện - điện tử vàcông
nghệ thông tin phụcvụ sự phát triển của ngành Bưu chính Viễn
thông và của xã hội. Chính vì vậy việc quản lý, phântíchvà đánh
giá thông tin về côngtácquản lí, đào tạo dưới các góc độ khác
nhau là một trong nhưng vấn đề cần được quan tâm, tôi đã chọn đề
tài tốt nghiệp cao học ngành công nghệ thông tin của tôi với
hướng phụcvụcôngtác này.
Xuất phát từ thực tế đó, tôi đã chọn đề tài“Ápdụng kỹ thuật
phân tích dữ liệutrựctuyến(OLAP)phụcvụcôngtácquảnlývà
điều hành”
Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử
dụng phương pháp luận xử lýphântíchtrựctuyến (OLAP). Trong
đó tập trung vào hai công việc chính là tập hợp dữliệu để tổ chức
dữ liệu đa chiều, phântíchvà hiển thị dữliệu để trợ giúp ra quyết
định.
Luận văn gồm 3 chương:
Chương 1: Tổng quan các phương pháp khai thác dữliệu
Chương 2: Hệ thống trợ giúp quyết định sử dụngphântích đa
chiều trong xử lýphântíchtrựctuyến
2
Chương 3: Xây dựng hệ thống trợ giúp quảnlý với chức năng
OLAP
3
Chương 1
TỔNG QUAN CÁC PHƯƠNG PHÁP
KHAI THÁC DỮLIỆU
1.1. GIỚI THIỆU CÁC PHƯƠNG PHÁP KHAI THÁC DỮ
LIỆU
Việc dùng các phương tiện tin học để tổ chức và khai thác các
CSDL đã được phát triển từ những năm 60, nhiều CSDL đã được
tổ chức, phát triển và khai thác ở mọi qui mô và khắp các lĩnh vực
hoạt động của xã hội.
Sự phát triển nhanh chóng của một lượng lớn dữliệu được thu
thập và lưu trữ trong các CSDL lớn đã vượt ra ngoài khả năng của
con người có thể hiểu được chúng nếu không có những công cụ hỗ
trợ tốt. Tình huống này đã đặt chúng ta trong hoàn cảnh nhiều dữ
liệu nhưng thiếu thông tin, thiếu tri thức. Với một khối lượng lớn
dữ liệu như vậy rõ ràng là các phương pháp thủ công truyền thống
áp dụng để phântíchdữliệu như chia bảng không còn là phù hợp
nữa Chính vì vậy, có một kỹthuật mới ra đời đó là “Khai phá dữ
liệu”.
Khai phá dữliệu là một ngữ tương đối mới, nó ra đời vào
khoảng những năm cuối của của thập kỷ 1980. Các nhà thống kê
xem "khai phá dữliệu như là một quá trình phântích được thiết kế
thăm dò một lượng cực lớn các dữliệu nhằm phát hiện ra các mẫu
thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các
biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp
dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu".
Nói tóm lại: khai phá dữliệu là một bước trong quy trình phát
hiện tri thức gồm có các thụât toán khai thác dữliệu chuyên dùng
4
dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm
ra các mẫu hoặc các mô hình trong dữ liệu. Phát hiện tri thức trong
các cơ sở dữliệu là một qui trình nhận biết các mẫu hoặc các mô
hình trong dữliệu với các tính năng: hợp thức, mới, khả ích, và có
thể hiểu được.
1.1.1. Hình thành và định nghĩa bài toán
Đây là bước tìm hiểu lĩnh vực ứng dụngvà hình thành bài
toán, bước này sẽ quyết định cho việc rút ra những tri thức hữu
ích, đồng thời lựa chọn các phương pháp khai phá dữliệu thích
hợp với mục đích của ứng dụngvà bản chất của dữ liệu.
1.1.2. Thu thập và tiền xử lýdữliệu
Trong bước này dữliệu được thu thập ở dạng thô (nguồn dữ
liệu thu thập có thể là từ các kho dữliệu hay nguồn thông tin
Internet).
1.1.3. Khai phá dữliệuvà rút ra các tri thức
Đây là bước quan trọng nhất trong tiến trình khám phá tri
thức. Kết quả của bước này là trích ra được các mẫu và/hoặc các
mô hình ẩn dưới các dữ liệu.
1.1.4. Phântíchvà kiểm định kết quả
Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm
sáng tỏ các mô tả vàdự đoán. Trong bước này, kết quả tìm được
sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụngvà dễ
hiểu hơn cho người dùng.
1.1.5. Sử dụng các tri thức phát hiện được
Các tri thức khám phá được sẽ được củng cố, kết hợp lại
thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng
trong các tri thức đó. Các giai đoạn của quá trình khám phá tri
5
thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của
hệ thống.
1.2. QUÁ TRÌNH KHAI PHÁ DỮLIỆU
Khai phá dữliệu là hoạt động trọng tâm của quá trình khám
phá tri thức. Thuật ngữ khai phá dữliệu còn được một số nhà khoa
học gọi là phát hiện tri thức trong cơ sở dữ liệu.
Quá trình khai phá dữliệu bắt đầu với kho dữliệu thô và kết
thúc với tri thức được chiết xuất ra.
Hình. Kiến trúc hệ thống khai phá dữliệu
Kiến trúc của hệ thống khai phá dữliệu có thể chia thành các
thành phần chính như trong hình.
1.3. CÁC PHƯƠNG PHÁP KHAI KHÁ DỮLIỆU
1.3.1. Phân lớp dữliệu
Mục tiêu của phân lớp dữliệu đó là dự đoán nhãn lớp cho các
mẫu dữ liệu. Quá trình gồm hai bước: xây dựng mô hình, sử dụng
mô hình để phân lớp dữliệu (mỗi mẫu một lớp).
1.3.2. Phân cụm dữliệu
6
Mục tiêu của phân cụm dữliệu là nhóm các đối tượng tương
tự nhau trong tập dữliệu vào các cum, sao cho các đối tượng
thuộc cùng một lớp là tương đồng.
1.3.3. Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối
liên hệ giữa các giá trị dữliệu trong cơ sở dữ liệu. Đầu ra của giải
thuật luật kết hợp là tập luật kết hợp tìm được.
1.3.4. Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu.
Nhưng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn
phân lớp dữliệudùng để dự đoán các giá trị rời rạc.
1.3.5. Giải thuật di truyền
Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng
chính của giải thuật là dựa vào quy luật di truyền trong biến đổi,
chọn lọc tự nhiên và tiến hoá trong sinh học.
1.3.6. Mạng nơron
Đây là một trong những kỹthuật khai phá dữliệu được ứng
dụng phổ biến hiện nay. Kỹthuật này phát triển dựa trên một nền
tảng toán học vững vàng, khả năng huấn luyện trong kỹthuật này
dựa trên mô hình thần kinh trung ương của con người.
1.3.7. Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả
trong việc phân lớp vàdự báo. Các đối tượng dữliệu được phân
thành các lớp. Các giá trị của đối tượng dữliệu chưa biết sẽ được
dự đoán, dự báo.
7
1.4. XỬ LÝPHÂNTÍCHTRỰCTUYẾN
1.4.1. Về xử lýphântíchtrựctuyến
Xử lýphântíchtrựctuyến(OLAP) là một kỹthuật sử dụng
cách thể hiện dữliệu đa chiều gọi là các khối nhằm cung cấp khả
năng truy xuất nhanh đến dữliệu của kho dữ liệu. Tạo khối cho dữ
liệu trong các bảng chiều và bảng sự kiện trong kho dữliệuvà
cung cấp khả năng thực hiện các truy vấn tinh vi vàphântích cho
các ứng dụng khách.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng
dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống
OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian.
1.4.2. Mô hình dữliệu đa chiều
Các nhà quảnlý kinh doanh có khuynh hướng suy nghĩ theo
“nhiều chiều”. Ví dụ như họ có khuynh hướng mô tả những gì mà
công ty làm như sau:
“Chúng tôi kinh doanh các sản phẩm trong nhiều thị
trường khác nhau, và chúng tôi đánh giá hiệu quả thực hiện
của chúng tôi qua thời gian”.
Những người thiết kế kho dữliệu thường lắng nghe cẩn
thận những từ đó và họ thêm vào những nhấn mạnh đặc
biệt của họ như:
“Chúng tôi kinh doanh các sản phẩm trong nhiều thị
trường khác nhau, và chúng tôi đánh giá hiệu quả thực
hiện của chúng tôi qua thời gian”.
Suy nghĩ một cách trực giác, việc kinh doanh như một khối
dữ liệu, với các nhãn trên mỗi cạnh của khối. Các điểm bên trong
khối là các giao điểm của các cạnh. Với mô tả kinh doanh ở trên,
các cạnh của khối là Sản phẩm, Thị trường, và Thời gian. Hầu hết
8
mọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các
điểm bên trong khối là các độ đo hiệu quả kinh doanh mà được kết
hợp giữa các giá trị Sản phẩm, Thị trường và Thời gian. Các chiều
được phân cấp theo loại. Ví dụ như chiều Thời gian có thể được
mô tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày.
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữliệu có
thể được xem từ nhiều khung nhìn linh động khác nhau. Một số
thao tác điển hình của khối dữliệu như roll-up (tăng mức độ trừu
tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi
tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại
khung nhìn đa chiều của dữ liệu), cho phép tương tác truy vấn và
phân tíchdữliệu rất tiện lợi. Những thao tác đó được biết như Xử
lý phântíchtrực tuyến.
1.5. KẾT LUẬN CHƯƠNG
Chương trên đã tìm hiểu các phương pháp khai phá dữ liệu,
quá trình khai phá dữ liệu, giới thiệu về OLAP, một kỹthuật sử
dụng cách thể hiện dữliệu đa chiều nhằm cung cấp khả năng truy
xuất nhanh đến dữliệu của kho dữ liệu. Định hình mô hình dữliệu
đa chiều.
9
Chương 2
HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH
SỬ DỤNGPHÂNTÍCH ĐA CHIỀU TRONG
XỬ LÝPHÂNTÍCHTRỰCTUYẾN
2.1. KIẾN TRÚC KHỐI OLAP
2.1.1. Giới thiệu dịch vụ OLAP của Microsoft SQL Server
Dịch vụ OLAP là một server tầng giữa phụcvụ cho phântích
xử lýtrực tuyến. Hệ thống dịch vụ OLAP là một công cụ mạnh
trong việc xây dựng các khối đa chiều của dữliệu cho phântíchvà
cung cấp khả năng truy xuất nhanh đến thông tin khối cho các
khách.
Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server
(được đại diện bởi OLAP server) vàphần khách (là dịch vụ
PivotTable).
Hình. Kiến trúc OLAP
Các đặc điểm của dịch vụ OLAP:
[...]... và thao tác trên các dữliệu này có những đặc điểm sau: 1 Dữ liệutích hợp 2 Theo chủ đề 3 Biến thời gian 4 Dữliệu cố định 3.1.2.2 Cấu trúcdữliệu cho kho dữliệu Vì dữliệu trong kho dữliệu rất lớn và không có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tíchvà báo cáo Các thao tác với dữliệu của kho dữliệu dựa trên cơ sở là Mô hình dữliệu đa chiều, được mô hình vào... viên và học viên; (iii) công trình nghiên cứu khoa học của thày cô giáo trong Học viện Công nghệ Bưu chính Viễn thông… Dựa trên dữliệu cơ bản đó, để thực hiện côngtác trợ giúp quyết định, phụcvụquản lý, điềuhànhcôngtác đào tạo và nghiên cứu khoa học trong Học viện Công nghệ Bưu chính Viễn thông, luận văn sẽ: 1 Tổ chức dữ liệu, dưới dạng kho dữ liệu; 2 Thể hiện dữliệu dưới dạng đồ hoạ, phục vụ. .. tích những đặc tính và những khả năng của DSS Dựa trên các kĩ thuật, phương pháp luận xử lýdữliệutrực tuyến, nhằm tăng cường côngtácquảnlý nguồn nhân lực tại Học viện, đề tài luận văn đã tổ chức cơ sở dữliệu về đào tạo và nghiên cứu khoa học, sử dụng hệ quản trị cơ sở dữliệu SQL SERVER Tuy các dữliệu đơn giản, đủ để thể hiện vai trò khai phá dữliệu của kĩ thuật OLAP Kiến nghị và hướng nghiên... quyết định trực quan; 3 Sử dụng kĩ thuật OLAP, thể hiện dữliệu dưới các dạng bảng xoay khác nhau, tiện cho việc xử lí dữliệuvà ra quyết định 3.2 YÊU CẦU VỀ HỆ THỐNG, THIẾT KẾ HỆ THỐNG 3.2.1 Cơ sở dữliệu về đào tạo và nghiên cứu khoa học Hiện tại, Học viện chưa quảnlýtác nghiệp rộng trên cơ sở dữliệutrựctuyếnDữliệu thường được tổ chức trong các cơ sở dữliệu đơn lẻ Nhiệm vụ của đề tài luận... phần của dữliệu (tương ứng thêm điều kiện vào câu lệnh WHERE trong SQL) 3.1.2.4 Cấu trúc của một hệ thống kho dữliệu 20 Người ta thiết kế kho dữliệu có ba tầng: 1 Tầng đáy; 2 Tầng giữa; 3 Tầng trên cùng; 3.1.2.5 Nhiệm vụ khai phá dữliệu của luận văn Trong khuôn khổ luận văn này, tôi sử dụng kĩ thuật OLAP để khai phá dữ liệu, trong kho dữliệu nhiều chiều Các dữliệu về (i) côngtácquảnlý sinh... sở dữliệuquảnlý nguồn nhân lực” 3.2.2 Hạ tầng kĩ thuật Đề tài thực hiện trên máy đơn Mô hình tương lai yêu cầu cơ sở dữliệu đặt trên máy chủ cơ sở dữliệu của Học viện Các quyết định liên quan đến quảnlý nguồn nhân lực sẽ thực hiện trên mạng Intranet, cho phép các người quảnlýđiều khiển tác nghiệp Các chức năng tìm kiếm, trích rút dữliệuvà xử lýdữ liệu, theo hệ thống cơ sở dữliệu truyền... điềuhành của cán bộ Một số dữliệu minh hoạ ở đây được thể hiện dưới dạng bảng tính MS EXCEL 3.4 THỬ NGHIỆM THỂ HIỆN DỮLIỆU 3.4.1 Thể hiện đồ hoạ 3.4.2 Sử dụng bảng xoay của MS EXCEL 3.5 KẾT LUẬN CHƯƠNG Dựa trên các kĩ thuật, phương pháp luận xử lýdữliệutrực tuyến, nhằm tăng cường côngtácquảnlý nguồn nhân lực tại Học viện Công nghệ Bưu chính Viễn thông, đề tài luận văn đã tổ chức cơ sở dữ liệu. .. tạo và nghiên cứu khoa học, sử dụng hệ quản trị cơ sở dữliệu SQL SERVER 23 KẾT LUẬN Một số vấn đề đã giải quyết: Luận văn đã tìm hiểu các phương pháp khai phá dữ liệu, quá trình khai phá dữ liệu, giới thiệu về OLAP, một kỹ thuật sử dụng cách thể hiện dữliệu đa chiều nhằm cung cấp khả năng truy xuất nhanh đến dữliệu của kho dữliệu Định hình mô hình dữliệu đa chiều Luận văn đã đề cập chi tiết về công. .. của dữliệu chi tiết và tổng hợp Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần dành riêng 2.1.5 Mô hình kiến trúc dịch vụ OLAP Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Khách Hình Kiến trúc dịch vụ OLAP 2.1.5.1 Kiến trúc thành phần Server Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo vàquảnlýdữliệu OLAP đa chiều, đồng thời cung cấp dữ liệu. .. DSS được tạo thành từ 4 hệ thống con sau: 1 Quản trị dữliệu 2 Quản trị mô hình 3 Truyền thông 4 Quản trị tri thức 16 Mô hình khái niệm của DSS được cho trong hình dưới đây cung cấp khả năng những hiểu biết cơ bản về cấu trúc chung và các thành phần của DSS 2.2.6 Hệ con quản trị dữliệu Hệ con quản trị dữliệu bao gồm những thành phần sau: 1 Cơ sở dữliệu về DSS 2 Hệ quản trị cơ sở dữliệu 3 Phương .
TIỂU LUẬN
ĐỀ TÀI: “Áp dụng kỹ thuật phân tích dữ liệu
trực tuyến (OLAP) phục vụ công tác quản lý và
điều hành
. kỹ thuật
phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và
điều hành
Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử
dụng phương
nh.
Kiến trúc hệ thống khai phá dữ liệu (Trang 6)
nh.
Kiến trúc OLAP (Trang 10)
2.1.5.
Mơ hình kiến trúc dịch vụ OLAP (Trang 13)
nh.
Hệ quản trị cơ sở dữ liệu sử dụng trong đề tài luận văn (Trang 22)