Khai phá dữ liệu điểm để dự đoán kết quả học tập của Sinh viên trường Cao đẳng Sư phạm Hà Nội

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NHƯ TRANG KHAI PHÁ DỮ LIỆU ĐIỂM ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN TRƯỜNG CAO ĐẲNG SƯ PHẠM HÀ NỘI Ngành: Công nghệ Thô

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NHƯ TRANG

KHAI PHÁ DỮ LIỆU ĐIỂM

ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN

TRƯỜNG CAO ĐẲNG SƯ PHẠM HÀ NỘI

LUẬN VĂN THẠC SĨ

HÀ NỘI - 2013

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NHƯ TRANG

KHAI PHÁ DỮ LIỆU ĐIỂM

ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN

TRƯỜNG CAO ĐẲNG SƯ PHẠM HÀ NỘI

Ngành: Công nghệ Thông tin

Chuyên ngành: Hệ thống Thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

CÁN BỘ HƯỚNG DẪN: GS.TS VŨ ĐỨC THI

HÀ NỘI - 2013

Trang 3

Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn

bè đã ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống cũng như học tập, công việc

Tôi xin chân thành cảm ơn!

Trang 4

2

LỜI CAM ĐOAN

Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của GS.TS Vũ Đức Thi

Các kết quả thực nghiệm của đề tài đều được tiến hành thực nghiệm và chưa từng được ai công bố trong bất cứ công trình nào khác

Hà nội, tháng 12 năm 2013

Học viên

Phạm Thị Nhƣ Trang

Trang 5

3

LỜI MỞ ĐẦU

Ngày nay, các trường Đại học và Cao đẳng đang dần chuyển sang đào tạo theo học chế tín chỉ Việc tư vấn học tập nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm Đó là một khó khăn chung cho các cấp quản lý Bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu khổng lồ, việc đưa

ra những tư vấn tốt cho mỗi sinh viên trong quá trình học không phải là khả thi Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chưa được quan tâm đúng mức Phần lớn các trường sử dụng Excel hoặc các phần mềm quản lý đào tạo theo khuyến cáo của Bộ như Edusoft để quản lý Sinh viên, quản lý kết quả học tập của Sinh viên Việc các nhà quản lý muốn có cái nhìn toàn cảnh để thống kê kết quả học tập nhằm đưa ra những phương hướng, đường lối, chính sách đối với chương trình đào tạo, phương pháp giảng dạy v.v… gặp rất nhiều khó khăn Thông thường việc sinh ra báo cáo rất thủ công, hầu như đều thực hiện trên excel

Trường Cao đẳng Sư phạm Hà Nội với bề dầy gần 55 năm, đã đào tạo số lượng lớn cho thủ đô đội ngũ Giáo viên THCS và Tiểu học Hàng năm, Phòng Đào tạo cũng tư vấn và thay đổi chương trình đào tạo cho phù hợp với thực tế Nhưng việc thay đổi cũng chỉ mang tính chất chủ quan, cảm tính Dữ liệu đào tạo được lưu trữ và sử dụng với mục đích tra cứu, và các báo cáo đơn giản Các phần mềm quản

lý nhà trường đang sử dụng chưa trả lời được mối quan hệ giữa kết quả tuyển sinh đầu vào, kết quả của từng môn học, giới tính v.v… với kết quả học tập của Sinh viên Các phần mềm cũng chưa sinh ra được các báo cáo đa chiều để giúp các nhà quản lý đưa ra được các chiến lược hàng năm

Vì vậy, đề tài luận văn “Khai phá dữ liệu điểm để dự đoán kết quả học tập của Sinh viên trường Cao đẳng Sư phạm Hà Nội” đi sâu vào việc tiến hành khai thác dữ liệu điểm nhằm đưa ra được các báo cáo đa chiều, và dự đoán được kết quả học tập của Sinh viên dựa trên các điểm môn học của các học kỳ trước Đề tài tiến hành nghiên cứu xây dựng lại hệ thống dữ liệu điểm mới dựa theo dữ liệu điểm đã

có sẵn, nghiên cứu các kỹ thuật phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng các mô hình dự đoán kết quả học tập của Sinh viên bằng công

cụ SQL Server Business Intelligence Development Studio Từ đó, đánh giá và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng dự báo kết quả học tập cho mỗi Sinh viên

Trang 6

4

Nội dung của luận văn bao gồm có 4 chương:

Chương 1: Giới thiệu

Chương này giới thiệu về quá trình quản lý đào tạo của trường Cao đẳng Sư phạm Hà Nội, đối tượng, phạm vi và phương pháp nghiên cứu của luận văn

Chương 2: Cơ sở lý thuyết

Chương này trình bày cơ sở lý thuyết về Kho dữ liệu, Mô hình phân tích trực tuyến OLAP, Khai phá dữ liệu, Công cụ Business Intelligence Development Studio của SQL Server 2008

Chương 3: Ứng dụng

Chương này sẽ tiến hành xây dựng cơ sở dữ liệu điểm của Sinh viên khoa Tự nhiên, trường Cao đẳng Sư phạm Hà Nội Từ cơ sở dữ liệu đó chuyển thành kho dữ liệu điểm Sau đó sẽ tiến hành phân tích báo cáo đa chiều và xây dựng các mô hình

dự đoán dựa trên công cụ Business Intelligence Development Studio của SQL Server 2008, đánh giá các mô hình

Chương 4: Kết luận và định hướng phát triển

Chương này tóm lược những kết quả đạt được của luận văn Đồng thời đưa

ra định hướng nghiên cứu trong thời gian tới

Trang 7

5

MỤC LỤC

DANH SÁCH CÁC HÌNH VẼ 7

DANH SÁCH CÁC BẢNG 8

BẢNG CÁC KÝ HIỆU VIẾT TẮT 9

Chương 1: GIỚI THIỆU 10

1.1 Quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội 10

1.1.1 Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội 10

1.1.2 Nhu cầu khai thác dữ liệu điểm 11

1.1.3 Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết quả học tập của Sinh viên 11

1.2 Đối tượng và phạm vi nghiên cứu của luận văn 11

1.2.1 Đối tượng 11

1.2.2 Phạm vi nghiên cứu 11

1.3 Phương pháp nghiên cứu và dự kiến kết quả đạt được 11

1.3.1 Phương pháp nghiên cứu 11

1.3.2 Dự kiến kết quả đạt được 12

1.4 Kết luận chương 1 12

Chương 2: CƠ SỞ LÝ THUYẾT 13

2.1 Kho dữ liệu 13

2.1.1 Khái niệm về kho dữ liệu 13

2.1.2 Các đặc tính của kho dữ liệu 13

2.1.3 Cấu trúc hệ thống của kho dữ liệu 14

2.1.4 Dòng dữ liệu của kho dữ liệu 15

2.1.5 Ứng dụng của kho dữ liệu 15

2.1.6 Mô hình dữ liệu sử dụng trong kho dữ liệu 16

2.1.7 Các bước xây dựng kho dữ liệu 17

2.2 Phân tích trực tuyến (OLAP) 17

2.2.1 OLAP 17

2.2.2 Mô hình dữ liệu đa chiều 17

2.2.3 Mô phỏng các chiều trong kinh doanh 18

Trang 8

6

2.2.4 Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server: 19

2.3 Khai phá dữ liệu 20

2.3.1 Khái niệm về khai phá dữ liệu 20

2.3.2 Ứng dụng của khai phá dữ liệu 20

2.3.3 Nhiệm vụ chính trong khai phá dữ liệu 21

2.3.4 Các phương pháp trong khai phá dữ liệu 21

2.4 Giới thiệu công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008 22

2.4.1 Business Intelligent (BI) 22

2.4.2 Các thành phần chính của hệ thống BI 22

2.4.3 Dịch vụ phân tích 25

2.4.4 Giới thiệu một số thuật toán sử dụng trong BIDS 25

2.4.5 Quy trình xây dựng mô hình khai phá dữ liệu với BIDS như sau: 31

Chương 3: ỨNG DỤNG 33

3.1 Phân tích và phát biểu bài toán 33

3.2 Xây dựng cơ sở dữ liệu 33

3.2.1 Nguồn dữ liệu: 33

3.2.2 Xây dựng cơ sở dữ liệu trong SQL Server 2008 35

3.3 Xây dựng kho dữ liệu từ cơ sở dữ liệu đã có 39

3.4 Khai phá từ kho dữ liệu 42

3.4.1 Phân tích OLAP 42

3.4.2 Xây dựng mô hình khai phá 43

3.4.3 Phân tích kết quả đạt được: 51

Chương 4: KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 52

TÀI LIỆU THAM KHẢO 53

Trang 9

7

DANH SÁCH CÁC HÌNH VẼ

Hình 2.1: Cấu trúc hệ thống kho dữ liệu 14

Hình 2.2: Dòng dữ liệu trong kho dữ liệu 15

Hình 2.3: Mô hình đa chiều 18

Hình 2.4: Kiến trúc dịch vụ OLAP 19

Hình 2.5 Các thành phần chính của hệ thống Business Intelligence 23

Hình 2.6 Hệ thống BI đơn giản 24

Hình 3.1 Danh sách bảng điểm toàn khóa lớp SP Toán K33 (Khóa 2007-2010)34 Hình 3.2 Danh sách sinh viên của các lớp 34

Hình 3.3 Sơ đồ cơ sở dữ liệu quan hệ 35

Hình 3.4 Chọn nguồn dữ liệu là Microsoft Excel 38

Hình 3.5 Chọn đích là kho dữ liệu 39

Hình 3.6 Sử dụng Analysis Services Project 39

Hình 3.7 Kết nối DataSource 40

Hình 3.8 Kho dữ liệu 41

Hình 3.9 Khối dữ liệu và các chiều 42

Hình 3.10 Ví dụ 1 về OLAP 42

Hình 3.11 Ví dụ 2 về OLAP 43

Hình 3.12 Tạo mới một mô hình khai phá 43

Hình 3.13.Lựa chọn các thuộc tính 44

Hình 3.14: Kết quả tính Entropy 45

Hình 3.15: Các mô hình được xây dựng 46

Hình 3.16: Cây phân nhánh khi dùng thuật toán Decision Tree 46

Hình 3.17: Mạng phụ thuộc khi dùng thuật toán Decision Tree 47

Hình 3.18:Thuật toán Neural Network 47

Hình 3.19: Lift Chart 48

Hình 3.20: Ma trận phân lớp khi dùng 2 thuật toán 49

Hình 3.21: Kết quả khi sử dụng mô hình Decision Tree 50

Trang 10

8

DANH SÁCH CÁC BẢNG

Bảng 1 Ví dụ phân lớp 19

Bảng 2 Ví dụ Entropy thuộc tính Quê quán 20

Bảng 3 Ví dụ Entropy thuộc tính Điểm vào 20

Bảng 4 Ví dụ Entropy thuộc tính Điểm năm 1 20

Bảng 5 Ví dụ Entropy thuộc tính Giới tính 21

Trang 11

Business Intelligence Development Studio BIDS

Trang 12

10

Chương 1: GIỚI THIỆU 1.1.Quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội

1.1.1.Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội

Trường Cao đẳng Sư phạm Hà Nội với bề dày hơn 55 năm đã đào tạo được hàng nghìn thế hệ giáo viên các trường Tiểu học, Trung học cơ sở cho Thủ đô Hà Nội Đến nay, số ngành trường đang đào tạo là 22 ngành, với số lượng Sinh viên ngành càng tăng Năm học 2010-2011, nhà trưởng tuyển sinh được 569 Sinh viên Nhưng đến năm học 2012-2013, con số này đã tăng gấp đôi với hơn 1000 sinh viên

Về cơ sở vật chất, nhà trường đã đầu tư khoảng 82 phòng học được trang bị các máy móc phục vụ học tập, 09 phòng máy tính, 09 phòng ngoại ngữ, 09 phòng nghiệp vụ

Số giảng viên cơ hữu, thỉnh giảng tăng tỉ lệ so với số sinh viên tuyển sinh trong nhà trường Tỉ lệ sinh viên ra trường có việc làm trong năm học 2011-2012 chiếm 83,37%

Hàng năm, chương trình đào tạo đều được thay đổi phù hợp với thực tế ở các trường phổ thông Ví dụ như bắt đầu từ năm học 2012-2013, nhà trường tuyển sinh thêm một số ngành hai như thay đổi ngành Sư phạm Sử thành ngành Sử - Công tác Đội, hoặc ngành Sư phạm Văn thành Văn – Giáo dục công dân Thậm chí, chương trình cắt giảm đi một số học phần lý thuyết, tăng một số học phần thực hành giúp nâng cao các kỹ năng cho người học

Phương thức đào tạo cũng dần được thay đổi cho phù hợp 2010-2011 là năm học đánh dấu sự chuyển đổi từ hình thức đào tạo niên chế sang hình thức đào tạo theo học chế tín chỉ của nhà trường Điều đó đòi hỏi các cấp quản lý, các cán bộ chuyên viên, các giảng viên phải có sự phối hợp đồng bộ thì mới đạt được mục đích của hình thức đào tạo mới này Phòng Đào tạo cũng đã tham mưu cho nhà trường và đề xuất nhiều giải pháp thích hợp trong quản lý đào tạo theo học chế tín chỉ, nhất là khâu Quản lý Điểm Tuy nhiên, trong điều kiện chưa có phần mềm chuyên trách, việc chuyển thang điểm hệ 10 sang thang điểm hệ 4, việc xét lên lớp với các lớp tín chỉ, xét nợ học phần … là rất khó khăn Và đặc biệt, khâu tư vấn cho sinh viên lựa chọn môn học, rút bớt học phần cũng gặp rất nhiều trở ngại không chỉ đối với các giảng viên cố vấn học tập mà còn đối với các nhà quản lý

Bài toán đặt ra là dựa vào kết quả tuyển sinh, dựa vào kết quả học tập của các học kỳ 1 và học kỳ 2 là các học kỳ chủ yếu có các môn học cơ bản như Anh văn 1 và 2, Tâm lý học đại cương, Những nguyên lý của Chủ nghĩa Mác Lênin 1, bộ phận cố vấn học tập có thể hướng Sinh viên lựa chọn phù hợp một lịch trình học tập cho mình và đạt được một kết quả học tập tốt nhất Để làm được điều đó, đòi hỏi bộ phận cố vấn học tập phải căn cứ vào kết quả kỳ 1, kỳ 2 đã có, phải dự báo được kết quả học tập của Sinh viên cuối khóa Mục đích không chỉ có thể đưa ra được những phương hướng giúp Sinh viên nâng

Trang 13

11

cao kết quả học tập mà còn giúp các nhà quản lý thay đổi được Chương trình đào tạo sao cho phù hợp

1.1.2.Nhu cầu khai thác dữ liệu điểm

Trong những năm gần đây, trường Cao đẳng Sư phạm Hà Nội đã sử dụng phần mềm quản lý đào tạo Edusoft trong việc quản lý sinh viên, xây dựng chương trình đào tạo, xếp thời khóa biểu, quản lý điểm Hệ thống phần mềm cũng đã thống nhất được các biểu mẫu chung trong toàn trường, quy trình các phân hệ, và cũng xuất ra được các báo cáo cơ bản Nhưng tất cả đều phải thông qua việc xuất ra Excel và thao tác thủ công mới

có được báo cáo mong muốn

Với số lượng Sinh viên ngày càng tăng, cùng với nhu cầu xã hội ngày càng nhiều, hệ thống đa ngành, đa nghề ngày càng phát triển, một vấn đề quan tâm là việc lưu trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và các thông tin về điểm của sinh viên Hệ thống quản lý đào tạo đòi hỏi không chỉ tìm kiếm, thống kê mà còn phải đưa ra được các dự báo từ các dữ liệu sẵn có một cách nhanh chóng, nhằm định hướng, thay đổi chương trình đào tạo cho phù hợp với thực tế

Vì vậy việc xây dựng một kho dữ liệu điểm của trường Cao đẳng Sư phạm Hà Nội và khai thác dữ liệu từ kho là rất cần thiêt

1.1.3.Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết quả học tập của Sinh viên

Tính đến thời điểm hiện tại, rất nhiều bài báo, công trình đã tiến hành nghiên cứu về khai phá dữ liệu để dự báo kết quả học tập của Sinh viên (student’s performance)

Các công trình hầu như sử dụng kỹ thuật phân lớp (the classification task) trong việc khai

phá và ứng dụng cụ thể bằng các phương pháp khác nhau như Cây quyết định (the decision tree method) [11], Smooth Support Vector Machine (SSVM) [12] Thậm chí kỹ thuật phân cụm cũng được sử dụng như K-means [12]

Tại Việt Nam, đã có một số công trình được công bố sử dụng hồ sơ cá nhân cũng như điểm đầu vào hoặc sử dụng điểm trung bình trung tích lũy ở cuối năm thứ hai

để dự đoán kết quả học tập cho năm thứ ba [5]

1.2.Đối tượng và phạm vi nghiên cứu của luận văn

1.3.Phương pháp nghiên cứu và dự kiến kết quả đạt được

1.3.1.Phương pháp nghiên cứu

Trang 14

1.3.2.Dự kiến kết quả đạt được

Hiểu được các kiến thức lý thuyết về xây dựng kho dữ liệu, về khai phá dữ liệu, tiền xử lý dữ liệu, một số kỹ thuật phân lớp trong khai phá dữ liệu

Ứng dụng SQL Server 2008 trong việc xây dựng kho dữ liệu điểm của trường Cao đẳng Sư phạm Hà Nội

Ứng dụng công cụ BI trong SQL Server 2008 để xây dựng các báo cáo và các

mô hình dự đoán kết quả học tập của Sinh viên

So sánh hiệu quả đạt được giữa các mô hình trong khai phá dữ liệu

1.4.Kết luận chương 1

Chương 1 trình bày về:

- Quản lý đào tạo của trường Cao đẳng sư phạm Hà nội: Thực tế, nhu cầu và một số hướng giải quyết

- Đối tượng và phạm vi nghiên cứu của luận văn

- Phương pháp nghiên cứu và dự kiến kết quả đạt được

Trang 15

13

Chương 2: CƠ SỞ LÝ THUYẾT 2.1.Kho dữ liệu

2.1.1.Khái niệm về kho dữ liệu

Theo William Inmon [12], kho dữ liệu là một bộ dữ liệu có các đặc tính: hướng chủ đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian, thường được sử dụng trong các hệ thống hỗ trợ quyết định

Kho dữ liệu thường bao gồm:

-Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác nhau

-Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập các bảng dữ liệu

Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau:

-Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các

dữ liệu từ các ứng dụng khác nhau

-Hỗ trợ một số người dùng có liên quan, có sử dụng tới các thông tin liên quan -Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin

-Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thông tin

-Chứa các bảng dữ liệu có kích thước lớn

-Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết nhiều bảng

2.1.2.Các đặc tính của kho dữ liệu

Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm

Gigabyte, được tổ chức theo những chủ đề chính Kho dữ liệu không chú trọng vào giao tác và việc xử lý giao tác Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định Do đó, các kho dữ liệu thường cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần thiết trong quá trình ra quyết định

Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu

từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi thao tác trực tuyến hoặc thậm chí là những file dữ liệu độc lập Những dữ liệu này tiếp tục được làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu

Trang 16

14

Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi,

chủ yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao Hai thao tác chủ yếu tác động tới kho dữ liệu là: nhập dữ liệu vào và truy xuất

Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ

liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ

2.1.3.Cấu trúc hệ thống của kho dữ liệu

Hệ thống kho dữ liệu thường bao gồm 3 tầng:

Hình 2.1: Cấu trúc hệ thống kho dữ liệu Tầng đáy: Là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa, lưu trữ tập trung

Tầng giữa: Thực hiện các thao tác với kho dữ liệu thông qua dịch vụ OLAP (OLAP Server) Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả 2 mô hình trên thành mô hình Hybrid OLAP

Tầng trên: thực hiện việc truy vấn, khai phá thông tin

Trang 17

15

2.1.4.Dòng dữ liệu của kho dữ liệu

Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa đổi nên

rất thích hợp cho việc phân tích dài hạn và báo cáo Các thao tác với dữ liệu của kho dữ

liệu chủ yếu dựa trên cơ sở là Mô hình dữ liệu đa chiều (MultiDimensional data model),

thường áp dụng cho các khối dữ liệu (Data cube) Khối dữ liệu là trung tâm của vấn đề

cần phân tích, bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ

nhiều chiều (dimension) dữ kiện khác nhau

Hình 2.2: Dòng dữ liệu trong kho dữ liệu Đầu tiên, dữ liệu được lấy trong các hệ cơ sở dữ liệu tác nghiệp, có thể ở nhiều

dạng khác nhau, dữ liệu được làm sạch, chuẩn hóa rồi đưa vào kho dữ liệu, cuối cùng dữ

liệu được lấy từ kho dữ liệu phục vụ cho các phân tích khác nhau

2.1.5.Ứng dụng của kho dữ liệu

Kho dữ liệu được đưa vào ba mảng ứng dụng chính

Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử

dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo Nhờ việc dữ

liệu thô đã được chuyển sang thành các dữ liệu ổn đinh, có chất lượng nên kho dữ liệu đã

giúp nâng cao kỹ thuật biểu diễn thông tin truyền thông Dữ liệu đầu vào của các kỹ thuật

này được đặt vào một nguồn duy nhất, giúp loại bỏ nhiều lỗi sinh ra do phải thu thập và

biểu diễn thông tin từ nhiều nguồn khác nhau đồng thời giảm bớt sự chậm trễ do phải lấy

Trang 18

Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá Đây là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng như yêu cầu trong thực tiễn Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng trong việc xây dựng kế hoạch, chiến lược

Các lĩnh vực hiện tại áp dụng kho dữ liệu:

-Thương mại điện tử

-Kế hoạch hóa nguồn lực doanh nghiệp (ERP – Enterprise Resource Planning) -Quản lý quan hệ khách hàng (CRM – Customer Relationship Management) -Chăm sóc sức khỏe

-Viễn thông

2.1.6.Mô hình dữ liệu sử dụng trong kho dữ liệu

Dữ liệu trong kho được thiết kế theo mô hình dữ liệu đa chiều (Dimensional Modeling) Mô hình dữ liệu đa chiều sử dụng ba khái niệm cơ bản: Khối (Cubes), Sự kiện (Facts), Chiều (Dimensions) Mô hình không phù hợp với hệ thống OLTP và dữ liệu được thao tác bởi các công cụ OLAP

Cơ sở dữ liệu đa chiều thường quan tâm đến hai mức tổng hợp và chi tiết nên kích thước thường rất lớn Đồng thời, chúng thường quan tâm đến yếu tố thời gian, dùng

để theo dõi biến động thực tế theo thời gian Do đó, chiều thời gian được dùng làm bản lề cho mọi phân tích

Bảng chiều: Chứa dữ liệu miêu tả về một công việc, đối tượng Kích thước tương đối nhỏ so với bảng Sự kiện Đây là bộ lọc hoặc các ràng buộc của những sự kiện ở bảng sự kiện

Bảng sự kiện: Kích thước lớn, chứa dữ liệu định lượng hoặc sự kiện (có độ đo

số học)

Khối: Một khối có thể có nhiều chiều

Mô hình dữ liệu của kho dữ liệu có thể thiết lập theo:

-Sơ đồ hình sao (star schema): Một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều

Trang 19

17

-Sơ đồ bông tuyết (Snow flake schema): Một mở rộng của sơ đồ hình sao trong

đó một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức tương tự như bông tuyết

2.1.7.Các bước xây dựng kho dữ liệu

Các bước xây dựng kho dữ liệu:

Trong khi kho dữ liệu và data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này OLAP cung cấp nhiều lợi ích cho người phân tích, cho ví dụ như:

Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu

Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp

Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt

Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt

OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian

2.2.2.Mô hình dữ liệu đa chiều

Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều” (multidimensionally) Suy nghĩ một cách trực giác, việc kinh doanh như một khối (cube)

dữ liệu, với các nhãn trên mỗi cạnh của khối (xem hình bên dưới) Các điểm bên trong khối là các giao điểm của các cạnh Các cạnh của khối là Sản phẩm, Thị trường, và Thời

Trang 20

18

gian Hầu hết mọi người đều cĩ thể nhanh chĩng hiểu và tưởng tượng rằng các điểm bên trong khối là các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản phẩm, Thị trường và Thời gian

Thị trường

Thời gian

Sản phẩm

Hình 2.3: Mơ hình đa chiều

2.2.3 Mơ phỏng các chiều trong kinh doanh

Một khối dữ liệu (datacube) thì khơng nhất thiết phải cĩ cấu trúc 3 chiều (3-D), nhưng về cơ bản là cĩ thể cĩ N chiều (N-D) Những cạnh của khối được gọi là các chiều (dimensions), mà đĩ là các mặt hoặc các thực thể ứng với những khía cạnh mà tổ chức muốn ghi nhận Mỗi chiều cĩ thể kết hợp với một bảng chiều (dimension table) nhằm mơ

tả cho chiều đĩ Ví dụ, một bảng chiều của Sản phẩm cĩ thể chứa những thuộc tính như Ma_sanpham, Mo_ta, Ten_sanpham, Loai_SP,… mà cĩ thể được chỉ ra bởi nhà quản trị hoặc các nhà phân tích dữ liệu Với những chiều khơng được phân loại, như là Thời gian,

hệ thống kho dữ liệu sẽ cĩ thể tự động phát sinh tương ứng với bảng chiều (dimension table) dựa trên loại dữ liệu Cần nĩi thêm rằng, chiều Thời gian trên thực tế cĩ ý nghĩa đặc biệt đối với việc hỗ trợ quyết định cho các khuynh hướng phân tích Thường thì nĩ được mong muốn cĩ một vài tri thức gắn liền với lịch và những mặt khác của chiều thời gian

Hơn nữa, một khối dữ liệu trong kho dữ liệu phần lớn được xây dựng để đo hiệu quả của cơng ty Do đĩ một mơ hình dữ liệu đa chiều đặc thù được tổ chức xung quanh một chủ đề mà được thể hiện bởi một bảng sự kiện (fact table) của nhiều độ đo số học (là các đối tượng của phân tích) Ví dụ, một bảng sự kiện cĩ thể chứa số mặt hàng bán, thu nhập, tồn kho, ngân sách,… Mỗi độ đo số học phụ thuộc vào một tập các chiều cung cấp ngữ cảnh cho

độ đo đĩ Vì thế, các chiều kết hợp với nhau được xem như xác định duy nhất độ đo, là một giá trị trong khơng gian đa chiều Ví dụ như một kết hợp của Sản phẩm, Thời gian, Thị trường vào 1 thời điểm là một độ đo duy nhất so với các kết hợp khác

Các chiều được phân cấp theo loại Ví dụ như chiều Thời gian cĩ thể được mơ tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày Mặt khác, các thuộc tính của một chiều cĩ thể được tổ chức vào một lưới mà chỉ ra một phần trật tự của chiều Vì thế, cũng với chiều Thời gian cĩ thể được tổ chức thành Năm, Quý, Tháng, Tuần và Ngày Với sự sắp xếp này, chiều Thời gian khơng cịn phân cấp vì cĩ những tuần trong năm cĩ thể thuộc về nhiều tháng khác nhau

Trang 21

19

Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ nhiều khung nhìn linh động khác nhau Một số thao tác điển hình của khối dữ liệu như roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa chiều của dữ liệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi Những thao tác đó được biết như Xử lý phân tích trực tuyến (On-Line Analytical Processing – OLAP)

Những nhà ra quyết định thường có những câu hỏi có dạng như “tính toán và xếp hạng tổng số lượng hàng hoá bán được theo mỗi quốc gia (hoặc theo mỗi năm)” Họ cũng muốn so sánh hai độ đo số học như số lượng hàng bán và ngân sách được tổng hợp bởi cùng các chiều Như vậy, một đặc tính để phân biệt của mô hình dữ liệu đa chiều là nó nhấn mạnh sự tổng hợp của các độ đo bởi một hoặc nhiều chiều, mà đó là một trong những thao tác chính yếu để tăng tốc độ xử lý truy vấn

2.2.4.Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server:

Dịch vụ OLAP là một server tầng giữa (midle-tier server) phục vụ cho phân tích

xử lý trực tuyến (OLAP) Hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối cho các client

Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởi OLAP server) và phần client (là dịch vụ PivotTable) Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới và quản lý các khối (cube) từ kho dữ liệu (data warehouse) và cho phép các client truy xuất đến dữ liệu OLAP Có thể hiểu rằng OLAP server quản lý dữ liệu còn dịch vụ PivotTable làm việc với server để cho client truy xuất dữ liệu

Hình 2.4: Kiến trúc dịch vụ OLAP

Trang 22

20

Các đặc điểm của dịch vụ OLAP:

Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện (wizard)

Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối (cube) và lưu trữ

Các khối có thể ghi (Write-enable): Cho các kịch bản phân tích dạng “what if”

Kiến trúc có thể co dãn (scalable architecture): Cung cấp một sự đa dạng các kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP

Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và client/server caching

Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý

2.3.Khai phá dữ liệu

2.3.1 Khái niệm về khai phá dữ liệu

Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê)

2.3.2.Ứng dụng của khai phá dữ liệu

Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật

Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:

- Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính

và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,

- Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định

- Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, )

- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố

- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn bản,

Trang 23

21

- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền,

- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi,

sự cố, chất lượng dịch vụ,

2.3.3.Nhiệm vụ chính trong khai phá dữ liệu

Phân lớp (phân loại - classification): Là việc xác định một hàm ánh xạ từ một

mẫu dữ liệu vào một trong số các lớp đã được biết trước đó Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới Các kiến thức được phát hiện biểu diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự báo của một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”

Hồi qui (regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành

một biến dự đoán có giá trị thực Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác

nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc

Phân nhóm (clustering): Là việc mô tả chung để tìm ra các tập hay các nhóm,

loại mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau Có nghĩa

là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác

Tổng hợp (summarization): Là công việc liên quan đến các phương pháp tìm

kiếm một mô tả tập con dữ liệu [1, 2, 5] Kỹ thuật tổng hợp thường áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động Nhiệm vụ chính là sản sinh ra các

mô tả đặc trưng cho một lớp Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục của một lớp Các mô tả đặc trưng thể hiện theo luật

có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất cả các thuộc tính đã nêu trong kết luận” Lưu ý rằng luật dạng này có các khác biệt so với luật phân lớp Luật phát hiện đặc trưng cho lớp chỉ sản sinh khi các mục đã thuộc về lớp đó

2.3.4.Các phương pháp trong khai phá dữ liệu

Các phương pháp sinh cây quyết định

Trang 24

22

2.4.Giới thiệu công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008

2.4.1Business Intelligent (BI)

Các cơ sở dữ liệu lưu trữ dữ liệu thật sự hiệu quả như là một công cụ nghiệp vụ khi được sử dụng để hỗ trợ các quyết định kinh doanh Những quyết định này có thể mang tính chiến lược (có nên tăng điểm tuyển sinh đầu vào trong năm học tới không?) có tính chiến thuật (chiến lược thay đổi khung chương trình nào thì tốt nhất?), Tuy nhiên, tất cả các quyết định này đòi hỏi đúng dữ liệu, vào đúng thời điểm, bằng đúng định dạng

BI là một tập hợp các hoạt động để hiểu biết một cách sâu sắc về doanh nghiệp bằng việc thực hiện các loại phân tích khác nhau trên dữ liệu của công ty cũng như trên

dữ liệu để đề ra chiến lược, sách lược và điều hành các quyết định kinh doanh, thực hiện các hành động cần thiết để cải thiện tình hình kinh doanh Một vài ví dụ phổ biến nhất của việc triển khai BI là phân tích khả năng sinh lợi, nghiên cứu sở thích của sinh viên, năng lực của sinh viên, nghiên cứu sản phẩm lợi nhuận, đánh giá con số bán hàng trên các sản phẩm khác nhau và các khu vực,…

Tóm lại: BI là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình Công nghệ BI (BI technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ, hiện tại và các dự đoán tương lai Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định tốt hơn Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết đinh (Decision Support System -DSS)

2.4.2.Các thành phần chính của hệ thống BI

Các thành phần chính của hệ thống BI được mô tả như hình dưới đây:

Trang 25

Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:

Trang 26

24

Hình 2.6 Hệ thống BI đơn giản

Trong đó:

- Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp

- Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và

phát hiện tri thức như phân loại (Classification), phân nhóm (clustering), phát hiện luật kết hợp (Association Rule), Dự đoán (Predcition),…

- Business Analyst (Phân tích kinh Doanh: Các nhà lãnh đạo Doanh nghiệp

đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp

Các công cụ BI:

Các công cụ BI là các phần mềm ứng dụng được thiết kế để báo cáo, phân tích

và trình bày dữ liệu Các công cụ này sẽ đọc dữ liệu đã được lưu trữ từ trước trong các kho dữ liệu và chợ dữ liệu

Hiện nay, trên thị trường giải pháp BI đã xuất hiện nhiều bộ sản phẩm của các hãng lớn: Oracle Enterprise BI Server (Oracle), SAP Business Object Enterprise (SAP), SQL Server Analysis Service (Microsoft)…Tận dụng lợi thế của SQL, một hệ quản trị cơ

sở dữ liệu tương đối quen thuộc với nhiều người sử dụng, đề tài đã sử dụng để tiến hành cho mục đích phân tích kho dữ liệu điểm để dự đoán kết quả học tập của Sinh viên

Trong hệ quản trị cơ sở dữ liệu SQL Server 2008 có một bộ công cụ vốn hỗ trợ

và phát triển các ứng dụng BI - Công cụ Business Intelligence Development Studio (BIDS) Hệ quản trị SQL Server xây dựng dịch vụ báo cáo và dịch vụ tích hợp là những thành phần của BI, nhưng nền tảng là dịch vụ phân tích

Trang 27

25

2.4.3.Dịch vụ phân tích

Dịch vụ phân tích BIDS là công cụ cho phép tổ chức quản lý và khai thác kho

dữ liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất

dễ sử dụng và hiệu quả của Microsoft BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:

Micorosft Decision Tree (Cây quyết định)

Microsoft Clustering (Phân cụm)

Micorosoft Naive Bayes(Phân lớp với Bayes Rules)

Micorosoft Time Series (Chuỗi thời gian)

Micorosoft Association (Luật kết hợp)

Micorsoft Sequence Clustering (Phân tích chuỗi)

Microsoft Neural Network (Mạng Neural)

Micorsoft Linear Regression(Hồi qui tuyến tính)

Micorsoft Logistics Regression(Hồi qui logistics)

Dịch vụ phân tích của BI chứa các tính năng và công cụ cần thiết để tạo lập các giải pháp khai phá phức tạp Khai phá dữ liệu giúp chúng ta tạo lập các quyết định thông minh về các vấn đề khó khăn của doanh nghiệp Sử dụng các công cụ khai phá dữ liệu trong dịch vụ phân tích giúp chúng ta nhận ra các mẫu trong dữ liệu, do đó xác định được tại sao lại xảy ra vấn đề đó, cho phép tạo ra các luật và kiến nghị, để có thể dự báo điều gì

sẽ xảy ra trong tương lai Không cần phải tạo ra kho dữ liệu để khai phá dữ liệu; có thể dùng dữ liệu bảng từ nhà cung cấp bên ngoài, bảng tính, thậm chí file văn bản Dịch vụ phân tích cung cấp một loạt các công cụ mà bạn có thể sử dụng để xây dựng các giải pháp khai phá dữ liệu trên dữ liệu quan hệ và dữ liệu khối Khi mô hình khai phá được hoàn tất,

có thể triển khai trên máy chủ khác để người dùng có thể thực hiện các phân tích và dự báo bằng cách sử dụng các mô hình đó

2.4.4.Giới thiệu một số thuật toán sử dụng trong BIDS

Dịch vụ phân tích giới thiệu một tập các thuật toán khai thác dữ liệu chuẩn Phạm vi luận văn sẽ giới thiệu 1 thuật toán cơ bản:

Thuật toán Decision Tree

Cây quyết định (decision tree) là một phương pháp rất mạnh và phổ biến cho cả

hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo Mặt khác, cây quyết định còn

có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If-Then

Cây quyết định là cấu trúc biễu diễn dưới dạng cây Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi

Định dạng
Số trang	55
Dung lượng	3,46 MB