ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NHƯ TRANG KHAI PHÁ DỮ LIỆU ĐIỂM ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN TRƯỜNG CAO ĐẲNG SƯ PHẠM HÀ NỘI Ngành: Công nghệ Thô
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NHƯ TRANG
KHAI PHÁ DỮ LIỆU ĐIỂM
ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
TRƯỜNG CAO ĐẲNG SƯ PHẠM HÀ NỘI
LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NHƯ TRANG
KHAI PHÁ DỮ LIỆU ĐIỂM
ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
TRƯỜNG CAO ĐẲNG SƯ PHẠM HÀ NỘI
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
CÁN BỘ HƯỚNG DẪN: GS.TS VŨ ĐỨC THI
HÀ NỘI - 2013
Trang 3Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn
bè đã ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống cũng như học tập, công việc
Tôi xin chân thành cảm ơn!
Trang 42
LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của GS.TS Vũ Đức Thi
Các kết quả thực nghiệm của đề tài đều được tiến hành thực nghiệm và chưa từng được ai công bố trong bất cứ công trình nào khác
Hà nội, tháng 12 năm 2013
Học viên
Phạm Thị Nhƣ Trang
Trang 53
LỜI MỞ ĐẦU
Ngày nay, các trường Đại học và Cao đẳng đang dần chuyển sang đào tạo theo học chế tín chỉ Việc tư vấn học tập nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm Đó là một khó khăn chung cho các cấp quản lý Bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu khổng lồ, việc đưa
ra những tư vấn tốt cho mỗi sinh viên trong quá trình học không phải là khả thi Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chưa được quan tâm đúng mức Phần lớn các trường sử dụng Excel hoặc các phần mềm quản lý đào tạo theo khuyến cáo của Bộ như Edusoft để quản lý Sinh viên, quản lý kết quả học tập của Sinh viên Việc các nhà quản lý muốn có cái nhìn toàn cảnh để thống kê kết quả học tập nhằm đưa ra những phương hướng, đường lối, chính sách đối với chương trình đào tạo, phương pháp giảng dạy v.v… gặp rất nhiều khó khăn Thông thường việc sinh ra báo cáo rất thủ công, hầu như đều thực hiện trên excel
Trường Cao đẳng Sư phạm Hà Nội với bề dầy gần 55 năm, đã đào tạo số lượng lớn cho thủ đô đội ngũ Giáo viên THCS và Tiểu học Hàng năm, Phòng Đào tạo cũng tư vấn và thay đổi chương trình đào tạo cho phù hợp với thực tế Nhưng việc thay đổi cũng chỉ mang tính chất chủ quan, cảm tính Dữ liệu đào tạo được lưu trữ và sử dụng với mục đích tra cứu, và các báo cáo đơn giản Các phần mềm quản
lý nhà trường đang sử dụng chưa trả lời được mối quan hệ giữa kết quả tuyển sinh đầu vào, kết quả của từng môn học, giới tính v.v… với kết quả học tập của Sinh viên Các phần mềm cũng chưa sinh ra được các báo cáo đa chiều để giúp các nhà quản lý đưa ra được các chiến lược hàng năm
Vì vậy, đề tài luận văn “Khai phá dữ liệu điểm để dự đoán kết quả học tập của Sinh viên trường Cao đẳng Sư phạm Hà Nội” đi sâu vào việc tiến hành khai thác dữ liệu điểm nhằm đưa ra được các báo cáo đa chiều, và dự đoán được kết quả học tập của Sinh viên dựa trên các điểm môn học của các học kỳ trước Đề tài tiến hành nghiên cứu xây dựng lại hệ thống dữ liệu điểm mới dựa theo dữ liệu điểm đã
có sẵn, nghiên cứu các kỹ thuật phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng các mô hình dự đoán kết quả học tập của Sinh viên bằng công
cụ SQL Server Business Intelligence Development Studio Từ đó, đánh giá và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng dự báo kết quả học tập cho mỗi Sinh viên
Trang 64
Nội dung của luận văn bao gồm có 4 chương:
Chương 1: Giới thiệu
Chương này giới thiệu về quá trình quản lý đào tạo của trường Cao đẳng Sư phạm Hà Nội, đối tượng, phạm vi và phương pháp nghiên cứu của luận văn
Chương 2: Cơ sở lý thuyết
Chương này trình bày cơ sở lý thuyết về Kho dữ liệu, Mô hình phân tích trực tuyến OLAP, Khai phá dữ liệu, Công cụ Business Intelligence Development Studio của SQL Server 2008
Chương 3: Ứng dụng
Chương này sẽ tiến hành xây dựng cơ sở dữ liệu điểm của Sinh viên khoa Tự nhiên, trường Cao đẳng Sư phạm Hà Nội Từ cơ sở dữ liệu đó chuyển thành kho dữ liệu điểm Sau đó sẽ tiến hành phân tích báo cáo đa chiều và xây dựng các mô hình
dự đoán dựa trên công cụ Business Intelligence Development Studio của SQL Server 2008, đánh giá các mô hình
Chương 4: Kết luận và định hướng phát triển
Chương này tóm lược những kết quả đạt được của luận văn Đồng thời đưa
ra định hướng nghiên cứu trong thời gian tới
Trang 75
MỤC LỤC
DANH SÁCH CÁC HÌNH VẼ 7
DANH SÁCH CÁC BẢNG 8
BẢNG CÁC KÝ HIỆU VIẾT TẮT 9
Chương 1: GIỚI THIỆU 10
1.1 Quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội 10
1.1.1 Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội 10
1.1.2 Nhu cầu khai thác dữ liệu điểm 11
1.1.3 Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết quả học tập của Sinh viên 11
1.2 Đối tượng và phạm vi nghiên cứu của luận văn 11
1.2.1 Đối tượng 11
1.2.2 Phạm vi nghiên cứu 11
1.3 Phương pháp nghiên cứu và dự kiến kết quả đạt được 11
1.3.1 Phương pháp nghiên cứu 11
1.3.2 Dự kiến kết quả đạt được 12
1.4 Kết luận chương 1 12
Chương 2: CƠ SỞ LÝ THUYẾT 13
2.1 Kho dữ liệu 13
2.1.1 Khái niệm về kho dữ liệu 13
2.1.2 Các đặc tính của kho dữ liệu 13
2.1.3 Cấu trúc hệ thống của kho dữ liệu 14
2.1.4 Dòng dữ liệu của kho dữ liệu 15
2.1.5 Ứng dụng của kho dữ liệu 15
2.1.6 Mô hình dữ liệu sử dụng trong kho dữ liệu 16
2.1.7 Các bước xây dựng kho dữ liệu 17
2.2 Phân tích trực tuyến (OLAP) 17
2.2.1 OLAP 17
2.2.2 Mô hình dữ liệu đa chiều 17
2.2.3 Mô phỏng các chiều trong kinh doanh 18
Trang 86
2.2.4 Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server: 19
2.3 Khai phá dữ liệu 20
2.3.1 Khái niệm về khai phá dữ liệu 20
2.3.2 Ứng dụng của khai phá dữ liệu 20
2.3.3 Nhiệm vụ chính trong khai phá dữ liệu 21
2.3.4 Các phương pháp trong khai phá dữ liệu 21
2.4 Giới thiệu công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008 22
2.4.1 Business Intelligent (BI) 22
2.4.2 Các thành phần chính của hệ thống BI 22
2.4.3 Dịch vụ phân tích 25
2.4.4 Giới thiệu một số thuật toán sử dụng trong BIDS 25
2.4.5 Quy trình xây dựng mô hình khai phá dữ liệu với BIDS như sau: 31
2.5 Kết luận chương 2 31
Chương 3: ỨNG DỤNG 33
3.1 Phân tích và phát biểu bài toán 33
3.2 Xây dựng cơ sở dữ liệu 33
3.2.1 Nguồn dữ liệu: 33
3.2.2 Xây dựng cơ sở dữ liệu trong SQL Server 2008 35
3.3 Xây dựng kho dữ liệu từ cơ sở dữ liệu đã có 39
3.4 Khai phá từ kho dữ liệu 42
3.4.1 Phân tích OLAP 42
3.4.2 Xây dựng mô hình khai phá 43
3.4.3 Phân tích kết quả đạt được: 51
3.5 Kết luận chương 3 51
Chương 4: KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 52
TÀI LIỆU THAM KHẢO 53
Trang 97
DANH SÁCH CÁC HÌNH VẼ
Hình 2.1: Cấu trúc hệ thống kho dữ liệu 14
Hình 2.2: Dòng dữ liệu trong kho dữ liệu 15
Hình 2.3: Mô hình đa chiều 18
Hình 2.4: Kiến trúc dịch vụ OLAP 19
Hình 2.5 Các thành phần chính của hệ thống Business Intelligence 23
Hình 2.6 Hệ thống BI đơn giản 24
Hình 3.1 Danh sách bảng điểm toàn khóa lớp SP Toán K33 (Khóa 2007-2010)34 Hình 3.2 Danh sách sinh viên của các lớp 34
Hình 3.3 Sơ đồ cơ sở dữ liệu quan hệ 35
Hình 3.4 Chọn nguồn dữ liệu là Microsoft Excel 38
Hình 3.5 Chọn đích là kho dữ liệu 39
Hình 3.6 Sử dụng Analysis Services Project 39
Hình 3.7 Kết nối DataSource 40
Hình 3.8 Kho dữ liệu 41
Hình 3.9 Khối dữ liệu và các chiều 42
Hình 3.10 Ví dụ 1 về OLAP 42
Hình 3.11 Ví dụ 2 về OLAP 43
Hình 3.12 Tạo mới một mô hình khai phá 43
Hình 3.13.Lựa chọn các thuộc tính 44
Hình 3.14: Kết quả tính Entropy 45
Hình 3.15: Các mô hình được xây dựng 46
Hình 3.16: Cây phân nhánh khi dùng thuật toán Decision Tree 46
Hình 3.17: Mạng phụ thuộc khi dùng thuật toán Decision Tree 47
Hình 3.18:Thuật toán Neural Network 47
Hình 3.19: Lift Chart 48
Hình 3.20: Ma trận phân lớp khi dùng 2 thuật toán 49
Hình 3.21: Kết quả khi sử dụng mô hình Decision Tree 50
Trang 108
DANH SÁCH CÁC BẢNG
Bảng 1 Ví dụ phân lớp 19
Bảng 2 Ví dụ Entropy thuộc tính Quê quán 20
Bảng 3 Ví dụ Entropy thuộc tính Điểm vào 20
Bảng 4 Ví dụ Entropy thuộc tính Điểm năm 1 20
Bảng 5 Ví dụ Entropy thuộc tính Giới tính 21
Trang 11Business Intelligence Development Studio BIDS
Trang 1210
Chương 1: GIỚI THIỆU 1.1.Quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội
1.1.1.Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội
Trường Cao đẳng Sư phạm Hà Nội với bề dày hơn 55 năm đã đào tạo được hàng nghìn thế hệ giáo viên các trường Tiểu học, Trung học cơ sở cho Thủ đô Hà Nội Đến nay, số ngành trường đang đào tạo là 22 ngành, với số lượng Sinh viên ngành càng tăng Năm học 2010-2011, nhà trưởng tuyển sinh được 569 Sinh viên Nhưng đến năm học 2012-2013, con số này đã tăng gấp đôi với hơn 1000 sinh viên
Về cơ sở vật chất, nhà trường đã đầu tư khoảng 82 phòng học được trang bị các máy móc phục vụ học tập, 09 phòng máy tính, 09 phòng ngoại ngữ, 09 phòng nghiệp vụ
Số giảng viên cơ hữu, thỉnh giảng tăng tỉ lệ so với số sinh viên tuyển sinh trong nhà trường Tỉ lệ sinh viên ra trường có việc làm trong năm học 2011-2012 chiếm 83,37%
Hàng năm, chương trình đào tạo đều được thay đổi phù hợp với thực tế ở các trường phổ thông Ví dụ như bắt đầu từ năm học 2012-2013, nhà trường tuyển sinh thêm một số ngành hai như thay đổi ngành Sư phạm Sử thành ngành Sử - Công tác Đội, hoặc ngành Sư phạm Văn thành Văn – Giáo dục công dân Thậm chí, chương trình cắt giảm đi một số học phần lý thuyết, tăng một số học phần thực hành giúp nâng cao các kỹ năng cho người học
Phương thức đào tạo cũng dần được thay đổi cho phù hợp 2010-2011 là năm học đánh dấu sự chuyển đổi từ hình thức đào tạo niên chế sang hình thức đào tạo theo học chế tín chỉ của nhà trường Điều đó đòi hỏi các cấp quản lý, các cán bộ chuyên viên, các giảng viên phải có sự phối hợp đồng bộ thì mới đạt được mục đích của hình thức đào tạo mới này Phòng Đào tạo cũng đã tham mưu cho nhà trường và đề xuất nhiều giải pháp thích hợp trong quản lý đào tạo theo học chế tín chỉ, nhất là khâu Quản lý Điểm Tuy nhiên, trong điều kiện chưa có phần mềm chuyên trách, việc chuyển thang điểm hệ 10 sang thang điểm hệ 4, việc xét lên lớp với các lớp tín chỉ, xét nợ học phần … là rất khó khăn Và đặc biệt, khâu tư vấn cho sinh viên lựa chọn môn học, rút bớt học phần cũng gặp rất nhiều trở ngại không chỉ đối với các giảng viên cố vấn học tập mà còn đối với các nhà quản lý
Bài toán đặt ra là dựa vào kết quả tuyển sinh, dựa vào kết quả học tập của các học kỳ 1 và học kỳ 2 là các học kỳ chủ yếu có các môn học cơ bản như Anh văn 1 và 2, Tâm lý học đại cương, Những nguyên lý của Chủ nghĩa Mác Lênin 1, bộ phận cố vấn học tập có thể hướng Sinh viên lựa chọn phù hợp một lịch trình học tập cho mình và đạt được một kết quả học tập tốt nhất Để làm được điều đó, đòi hỏi bộ phận cố vấn học tập phải căn cứ vào kết quả kỳ 1, kỳ 2 đã có, phải dự báo được kết quả học tập của Sinh viên cuối khóa Mục đích không chỉ có thể đưa ra được những phương hướng giúp Sinh viên nâng
Trang 1311
cao kết quả học tập mà còn giúp các nhà quản lý thay đổi được Chương trình đào tạo sao cho phù hợp
1.1.2.Nhu cầu khai thác dữ liệu điểm
Trong những năm gần đây, trường Cao đẳng Sư phạm Hà Nội đã sử dụng phần mềm quản lý đào tạo Edusoft trong việc quản lý sinh viên, xây dựng chương trình đào tạo, xếp thời khóa biểu, quản lý điểm Hệ thống phần mềm cũng đã thống nhất được các biểu mẫu chung trong toàn trường, quy trình các phân hệ, và cũng xuất ra được các báo cáo cơ bản Nhưng tất cả đều phải thông qua việc xuất ra Excel và thao tác thủ công mới
có được báo cáo mong muốn
Với số lượng Sinh viên ngày càng tăng, cùng với nhu cầu xã hội ngày càng nhiều, hệ thống đa ngành, đa nghề ngày càng phát triển, một vấn đề quan tâm là việc lưu trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và các thông tin về điểm của sinh viên Hệ thống quản lý đào tạo đòi hỏi không chỉ tìm kiếm, thống kê mà còn phải đưa ra được các dự báo từ các dữ liệu sẵn có một cách nhanh chóng, nhằm định hướng, thay đổi chương trình đào tạo cho phù hợp với thực tế
Vì vậy việc xây dựng một kho dữ liệu điểm của trường Cao đẳng Sư phạm Hà Nội và khai thác dữ liệu từ kho là rất cần thiêt
1.1.3.Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết quả học tập của Sinh viên
Tính đến thời điểm hiện tại, rất nhiều bài báo, công trình đã tiến hành nghiên cứu về khai phá dữ liệu để dự báo kết quả học tập của Sinh viên (student’s performance)
Các công trình hầu như sử dụng kỹ thuật phân lớp (the classification task) trong việc khai
phá và ứng dụng cụ thể bằng các phương pháp khác nhau như Cây quyết định (the decision tree method) [11], Smooth Support Vector Machine (SSVM) [12] Thậm chí kỹ thuật phân cụm cũng được sử dụng như K-means [12]
Tại Việt Nam, đã có một số công trình được công bố sử dụng hồ sơ cá nhân cũng như điểm đầu vào hoặc sử dụng điểm trung bình trung tích lũy ở cuối năm thứ hai
để dự đoán kết quả học tập cho năm thứ ba [5]
1.2.Đối tượng và phạm vi nghiên cứu của luận văn
1.3.Phương pháp nghiên cứu và dự kiến kết quả đạt được
1.3.1.Phương pháp nghiên cứu
Trang 141.3.2.Dự kiến kết quả đạt được
Hiểu được các kiến thức lý thuyết về xây dựng kho dữ liệu, về khai phá dữ liệu, tiền xử lý dữ liệu, một số kỹ thuật phân lớp trong khai phá dữ liệu
Ứng dụng SQL Server 2008 trong việc xây dựng kho dữ liệu điểm của trường Cao đẳng Sư phạm Hà Nội
Ứng dụng công cụ BI trong SQL Server 2008 để xây dựng các báo cáo và các
mô hình dự đoán kết quả học tập của Sinh viên
So sánh hiệu quả đạt được giữa các mô hình trong khai phá dữ liệu
1.4.Kết luận chương 1
Chương 1 trình bày về:
- Quản lý đào tạo của trường Cao đẳng sư phạm Hà nội: Thực tế, nhu cầu và một số hướng giải quyết
- Đối tượng và phạm vi nghiên cứu của luận văn
- Phương pháp nghiên cứu và dự kiến kết quả đạt được
Trang 1513
Chương 2: CƠ SỞ LÝ THUYẾT 2.1.Kho dữ liệu
2.1.1.Khái niệm về kho dữ liệu
Theo William Inmon [12], kho dữ liệu là một bộ dữ liệu có các đặc tính: hướng chủ đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian, thường được sử dụng trong các hệ thống hỗ trợ quyết định
Kho dữ liệu thường bao gồm:
-Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác nhau
-Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập các bảng dữ liệu
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau:
-Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các
dữ liệu từ các ứng dụng khác nhau
-Hỗ trợ một số người dùng có liên quan, có sử dụng tới các thông tin liên quan -Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin
-Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thông tin
-Chứa các bảng dữ liệu có kích thước lớn
-Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết nhiều bảng
2.1.2.Các đặc tính của kho dữ liệu
Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm
Gigabyte, được tổ chức theo những chủ đề chính Kho dữ liệu không chú trọng vào giao tác và việc xử lý giao tác Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định Do đó, các kho dữ liệu thường cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần thiết trong quá trình ra quyết định
Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu
từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi thao tác trực tuyến hoặc thậm chí là những file dữ liệu độc lập Những dữ liệu này tiếp tục được làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu
Trang 1614
Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi,
chủ yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao Hai thao tác chủ yếu tác động tới kho dữ liệu là: nhập dữ liệu vào và truy xuất
Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ
liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ
2.1.3.Cấu trúc hệ thống của kho dữ liệu
Hệ thống kho dữ liệu thường bao gồm 3 tầng:
Hình 2.1: Cấu trúc hệ thống kho dữ liệu Tầng đáy: Là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa, lưu trữ tập trung
Tầng giữa: Thực hiện các thao tác với kho dữ liệu thông qua dịch vụ OLAP (OLAP Server) Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả 2 mô hình trên thành mô hình Hybrid OLAP
Tầng trên: thực hiện việc truy vấn, khai phá thông tin
Trang 1715
2.1.4.Dòng dữ liệu của kho dữ liệu
Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa đổi nên
rất thích hợp cho việc phân tích dài hạn và báo cáo Các thao tác với dữ liệu của kho dữ
liệu chủ yếu dựa trên cơ sở là Mô hình dữ liệu đa chiều (MultiDimensional data model),
thường áp dụng cho các khối dữ liệu (Data cube) Khối dữ liệu là trung tâm của vấn đề
cần phân tích, bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ
nhiều chiều (dimension) dữ kiện khác nhau
Hình 2.2: Dòng dữ liệu trong kho dữ liệu Đầu tiên, dữ liệu được lấy trong các hệ cơ sở dữ liệu tác nghiệp, có thể ở nhiều
dạng khác nhau, dữ liệu được làm sạch, chuẩn hóa rồi đưa vào kho dữ liệu, cuối cùng dữ
liệu được lấy từ kho dữ liệu phục vụ cho các phân tích khác nhau
2.1.5.Ứng dụng của kho dữ liệu
Kho dữ liệu được đưa vào ba mảng ứng dụng chính
Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử
dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo Nhờ việc dữ
liệu thô đã được chuyển sang thành các dữ liệu ổn đinh, có chất lượng nên kho dữ liệu đã
giúp nâng cao kỹ thuật biểu diễn thông tin truyền thông Dữ liệu đầu vào của các kỹ thuật
này được đặt vào một nguồn duy nhất, giúp loại bỏ nhiều lỗi sinh ra do phải thu thập và
biểu diễn thông tin từ nhiều nguồn khác nhau đồng thời giảm bớt sự chậm trễ do phải lấy
Trang 18Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá Đây là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng như yêu cầu trong thực tiễn Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng trong việc xây dựng kế hoạch, chiến lược
Các lĩnh vực hiện tại áp dụng kho dữ liệu:
-Thương mại điện tử
-Kế hoạch hóa nguồn lực doanh nghiệp (ERP – Enterprise Resource Planning) -Quản lý quan hệ khách hàng (CRM – Customer Relationship Management) -Chăm sóc sức khỏe
-Viễn thông
2.1.6.Mô hình dữ liệu sử dụng trong kho dữ liệu
Dữ liệu trong kho được thiết kế theo mô hình dữ liệu đa chiều (Dimensional Modeling) Mô hình dữ liệu đa chiều sử dụng ba khái niệm cơ bản: Khối (Cubes), Sự kiện (Facts), Chiều (Dimensions) Mô hình không phù hợp với hệ thống OLTP và dữ liệu được thao tác bởi các công cụ OLAP
Cơ sở dữ liệu đa chiều thường quan tâm đến hai mức tổng hợp và chi tiết nên kích thước thường rất lớn Đồng thời, chúng thường quan tâm đến yếu tố thời gian, dùng
để theo dõi biến động thực tế theo thời gian Do đó, chiều thời gian được dùng làm bản lề cho mọi phân tích
Bảng chiều: Chứa dữ liệu miêu tả về một công việc, đối tượng Kích thước tương đối nhỏ so với bảng Sự kiện Đây là bộ lọc hoặc các ràng buộc của những sự kiện ở bảng sự kiện
Bảng sự kiện: Kích thước lớn, chứa dữ liệu định lượng hoặc sự kiện (có độ đo
số học)
Khối: Một khối có thể có nhiều chiều
Mô hình dữ liệu của kho dữ liệu có thể thiết lập theo:
-Sơ đồ hình sao (star schema): Một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều
Trang 1917
-Sơ đồ bông tuyết (Snow flake schema): Một mở rộng của sơ đồ hình sao trong
đó một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức tương tự như bông tuyết
2.1.7.Các bước xây dựng kho dữ liệu
Các bước xây dựng kho dữ liệu:
Trong khi kho dữ liệu và data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này OLAP cung cấp nhiều lợi ích cho người phân tích, cho ví dụ như:
Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu
Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp
Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt
Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian
2.2.2.Mô hình dữ liệu đa chiều
Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều” (multidimensionally) Suy nghĩ một cách trực giác, việc kinh doanh như một khối (cube)
dữ liệu, với các nhãn trên mỗi cạnh của khối (xem hình bên dưới) Các điểm bên trong khối là các giao điểm của các cạnh Các cạnh của khối là Sản phẩm, Thị trường, và Thời
Trang 2018
gian Hầu hết mọi người đều cĩ thể nhanh chĩng hiểu và tưởng tượng rằng các điểm bên trong khối là các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản phẩm, Thị trường và Thời gian
Thị trường
Thời gian
Sản phẩm
Hình 2.3: Mơ hình đa chiều
2.2.3 Mơ phỏng các chiều trong kinh doanh
Một khối dữ liệu (datacube) thì khơng nhất thiết phải cĩ cấu trúc 3 chiều (3-D), nhưng về cơ bản là cĩ thể cĩ N chiều (N-D) Những cạnh của khối được gọi là các chiều (dimensions), mà đĩ là các mặt hoặc các thực thể ứng với những khía cạnh mà tổ chức muốn ghi nhận Mỗi chiều cĩ thể kết hợp với một bảng chiều (dimension table) nhằm mơ
tả cho chiều đĩ Ví dụ, một bảng chiều của Sản phẩm cĩ thể chứa những thuộc tính như Ma_sanpham, Mo_ta, Ten_sanpham, Loai_SP,… mà cĩ thể được chỉ ra bởi nhà quản trị hoặc các nhà phân tích dữ liệu Với những chiều khơng được phân loại, như là Thời gian,
hệ thống kho dữ liệu sẽ cĩ thể tự động phát sinh tương ứng với bảng chiều (dimension table) dựa trên loại dữ liệu Cần nĩi thêm rằng, chiều Thời gian trên thực tế cĩ ý nghĩa đặc biệt đối với việc hỗ trợ quyết định cho các khuynh hướng phân tích Thường thì nĩ được mong muốn cĩ một vài tri thức gắn liền với lịch và những mặt khác của chiều thời gian
Hơn nữa, một khối dữ liệu trong kho dữ liệu phần lớn được xây dựng để đo hiệu quả của cơng ty Do đĩ một mơ hình dữ liệu đa chiều đặc thù được tổ chức xung quanh một chủ đề mà được thể hiện bởi một bảng sự kiện (fact table) của nhiều độ đo số học (là các đối tượng của phân tích) Ví dụ, một bảng sự kiện cĩ thể chứa số mặt hàng bán, thu nhập, tồn kho, ngân sách,… Mỗi độ đo số học phụ thuộc vào một tập các chiều cung cấp ngữ cảnh cho
độ đo đĩ Vì thế, các chiều kết hợp với nhau được xem như xác định duy nhất độ đo, là một giá trị trong khơng gian đa chiều Ví dụ như một kết hợp của Sản phẩm, Thời gian, Thị trường vào 1 thời điểm là một độ đo duy nhất so với các kết hợp khác
Các chiều được phân cấp theo loại Ví dụ như chiều Thời gian cĩ thể được mơ tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày Mặt khác, các thuộc tính của một chiều cĩ thể được tổ chức vào một lưới mà chỉ ra một phần trật tự của chiều Vì thế, cũng với chiều Thời gian cĩ thể được tổ chức thành Năm, Quý, Tháng, Tuần và Ngày Với sự sắp xếp này, chiều Thời gian khơng cịn phân cấp vì cĩ những tuần trong năm cĩ thể thuộc về nhiều tháng khác nhau
Trang 2119
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ nhiều khung nhìn linh động khác nhau Một số thao tác điển hình của khối dữ liệu như roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa chiều của dữ liệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi Những thao tác đó được biết như Xử lý phân tích trực tuyến (On-Line Analytical Processing – OLAP)
Những nhà ra quyết định thường có những câu hỏi có dạng như “tính toán và xếp hạng tổng số lượng hàng hoá bán được theo mỗi quốc gia (hoặc theo mỗi năm)” Họ cũng muốn so sánh hai độ đo số học như số lượng hàng bán và ngân sách được tổng hợp bởi cùng các chiều Như vậy, một đặc tính để phân biệt của mô hình dữ liệu đa chiều là nó nhấn mạnh sự tổng hợp của các độ đo bởi một hoặc nhiều chiều, mà đó là một trong những thao tác chính yếu để tăng tốc độ xử lý truy vấn
2.2.4.Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server:
Dịch vụ OLAP là một server tầng giữa (midle-tier server) phục vụ cho phân tích
xử lý trực tuyến (OLAP) Hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối cho các client
Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởi OLAP server) và phần client (là dịch vụ PivotTable) Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới và quản lý các khối (cube) từ kho dữ liệu (data warehouse) và cho phép các client truy xuất đến dữ liệu OLAP Có thể hiểu rằng OLAP server quản lý dữ liệu còn dịch vụ PivotTable làm việc với server để cho client truy xuất dữ liệu
Hình 2.4: Kiến trúc dịch vụ OLAP
Trang 2220
Các đặc điểm của dịch vụ OLAP:
Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện (wizard)
Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối (cube) và lưu trữ
Các khối có thể ghi (Write-enable): Cho các kịch bản phân tích dạng “what if”
Kiến trúc có thể co dãn (scalable architecture): Cung cấp một sự đa dạng các kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP
Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và client/server caching
Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý
2.3.Khai phá dữ liệu
2.3.1 Khái niệm về khai phá dữ liệu
Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê)
2.3.2.Ứng dụng của khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:
- Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính
và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,
- Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định
- Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, )
- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố
- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn bản,
Trang 2321
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền,
- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi,
sự cố, chất lượng dịch vụ,
2.3.3.Nhiệm vụ chính trong khai phá dữ liệu
Phân lớp (phân loại - classification): Là việc xác định một hàm ánh xạ từ một
mẫu dữ liệu vào một trong số các lớp đã được biết trước đó Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới Các kiến thức được phát hiện biểu diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự báo của một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”
Hồi qui (regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành
một biến dự đoán có giá trị thực Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác
nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc
Phân nhóm (clustering): Là việc mô tả chung để tìm ra các tập hay các nhóm,
loại mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau Có nghĩa
là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác
Tổng hợp (summarization): Là công việc liên quan đến các phương pháp tìm
kiếm một mô tả tập con dữ liệu [1, 2, 5] Kỹ thuật tổng hợp thường áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động Nhiệm vụ chính là sản sinh ra các
mô tả đặc trưng cho một lớp Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục của một lớp Các mô tả đặc trưng thể hiện theo luật
có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất cả các thuộc tính đã nêu trong kết luận” Lưu ý rằng luật dạng này có các khác biệt so với luật phân lớp Luật phát hiện đặc trưng cho lớp chỉ sản sinh khi các mục đã thuộc về lớp đó
2.3.4.Các phương pháp trong khai phá dữ liệu
Các phương pháp sinh cây quyết định
Trang 2422
2.4.Giới thiệu công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008
2.4.1Business Intelligent (BI)
Các cơ sở dữ liệu lưu trữ dữ liệu thật sự hiệu quả như là một công cụ nghiệp vụ khi được sử dụng để hỗ trợ các quyết định kinh doanh Những quyết định này có thể mang tính chiến lược (có nên tăng điểm tuyển sinh đầu vào trong năm học tới không?) có tính chiến thuật (chiến lược thay đổi khung chương trình nào thì tốt nhất?), Tuy nhiên, tất cả các quyết định này đòi hỏi đúng dữ liệu, vào đúng thời điểm, bằng đúng định dạng
BI là một tập hợp các hoạt động để hiểu biết một cách sâu sắc về doanh nghiệp bằng việc thực hiện các loại phân tích khác nhau trên dữ liệu của công ty cũng như trên
dữ liệu để đề ra chiến lược, sách lược và điều hành các quyết định kinh doanh, thực hiện các hành động cần thiết để cải thiện tình hình kinh doanh Một vài ví dụ phổ biến nhất của việc triển khai BI là phân tích khả năng sinh lợi, nghiên cứu sở thích của sinh viên, năng lực của sinh viên, nghiên cứu sản phẩm lợi nhuận, đánh giá con số bán hàng trên các sản phẩm khác nhau và các khu vực,…
Tóm lại: BI là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình Công nghệ BI (BI technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ, hiện tại và các dự đoán tương lai Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định tốt hơn Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết đinh (Decision Support System -DSS)
2.4.2.Các thành phần chính của hệ thống BI
Các thành phần chính của hệ thống BI được mô tả như hình dưới đây:
Trang 25Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:
Trang 2624
Hình 2.6 Hệ thống BI đơn giản
Trong đó:
- Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp
- Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và
phát hiện tri thức như phân loại (Classification), phân nhóm (clustering), phát hiện luật kết hợp (Association Rule), Dự đoán (Predcition),…
- Business Analyst (Phân tích kinh Doanh: Các nhà lãnh đạo Doanh nghiệp
đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp
Các công cụ BI:
Các công cụ BI là các phần mềm ứng dụng được thiết kế để báo cáo, phân tích
và trình bày dữ liệu Các công cụ này sẽ đọc dữ liệu đã được lưu trữ từ trước trong các kho dữ liệu và chợ dữ liệu
Hiện nay, trên thị trường giải pháp BI đã xuất hiện nhiều bộ sản phẩm của các hãng lớn: Oracle Enterprise BI Server (Oracle), SAP Business Object Enterprise (SAP), SQL Server Analysis Service (Microsoft)…Tận dụng lợi thế của SQL, một hệ quản trị cơ
sở dữ liệu tương đối quen thuộc với nhiều người sử dụng, đề tài đã sử dụng để tiến hành cho mục đích phân tích kho dữ liệu điểm để dự đoán kết quả học tập của Sinh viên
Trong hệ quản trị cơ sở dữ liệu SQL Server 2008 có một bộ công cụ vốn hỗ trợ
và phát triển các ứng dụng BI - Công cụ Business Intelligence Development Studio (BIDS) Hệ quản trị SQL Server xây dựng dịch vụ báo cáo và dịch vụ tích hợp là những thành phần của BI, nhưng nền tảng là dịch vụ phân tích
Trang 2725
2.4.3.Dịch vụ phân tích
Dịch vụ phân tích BIDS là công cụ cho phép tổ chức quản lý và khai thác kho
dữ liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất
dễ sử dụng và hiệu quả của Microsoft BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:
Micorosft Decision Tree (Cây quyết định)
Microsoft Clustering (Phân cụm)
Micorosoft Naive Bayes(Phân lớp với Bayes Rules)
Micorosoft Time Series (Chuỗi thời gian)
Micorosoft Association (Luật kết hợp)
Micorsoft Sequence Clustering (Phân tích chuỗi)
Microsoft Neural Network (Mạng Neural)
Micorsoft Linear Regression(Hồi qui tuyến tính)
Micorsoft Logistics Regression(Hồi qui logistics)
Dịch vụ phân tích của BI chứa các tính năng và công cụ cần thiết để tạo lập các giải pháp khai phá phức tạp Khai phá dữ liệu giúp chúng ta tạo lập các quyết định thông minh về các vấn đề khó khăn của doanh nghiệp Sử dụng các công cụ khai phá dữ liệu trong dịch vụ phân tích giúp chúng ta nhận ra các mẫu trong dữ liệu, do đó xác định được tại sao lại xảy ra vấn đề đó, cho phép tạo ra các luật và kiến nghị, để có thể dự báo điều gì
sẽ xảy ra trong tương lai Không cần phải tạo ra kho dữ liệu để khai phá dữ liệu; có thể dùng dữ liệu bảng từ nhà cung cấp bên ngoài, bảng tính, thậm chí file văn bản Dịch vụ phân tích cung cấp một loạt các công cụ mà bạn có thể sử dụng để xây dựng các giải pháp khai phá dữ liệu trên dữ liệu quan hệ và dữ liệu khối Khi mô hình khai phá được hoàn tất,
có thể triển khai trên máy chủ khác để người dùng có thể thực hiện các phân tích và dự báo bằng cách sử dụng các mô hình đó
2.4.4.Giới thiệu một số thuật toán sử dụng trong BIDS
Dịch vụ phân tích giới thiệu một tập các thuật toán khai thác dữ liệu chuẩn Phạm vi luận văn sẽ giới thiệu 1 thuật toán cơ bản:
Thuật toán Decision Tree
Cây quyết định (decision tree) là một phương pháp rất mạnh và phổ biến cho cả
hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo Mặt khác, cây quyết định còn
có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If-Then
Cây quyết định là cấu trúc biễu diễn dưới dạng cây Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi