BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM--- ---PHẠM ĐỨC VIỆT BÁO CÁO THỰC TẬP TỐT NGHIỆP Ứng dụng khai phá dữ liệu xây dựng phần mềm dự đoán kết
Giới thiệu
Mục đích
Dự án phát triển phần mềm dự đoán kết quả học tập của sinh viên tại Khoa Công nghệ thông tin, trường Đại học Hàng hải Việt Nam, nhằm ứng dụng công nghệ khai phá dữ liệu Phần mềm này sẽ giúp phân tích và dự đoán hiệu suất học tập của sinh viên, từ đó hỗ trợ cải thiện chất lượng giảng dạy và học tập.
Đặt vấn đề và xác định yêu cầu
Hiện nay, hầu hết các trường Đại học và Cao đẳng đã chuyển sang đào tạo theo học chế tín chỉ, điều này đòi hỏi việc dự đoán kết quả học tập của sinh viên để định hướng đào tạo hiệu quả Việc này giúp sinh viên tránh tình trạng khó khăn khi phải học lại nhiều môn mà không biết lựa chọn như thế nào Các nhà quản lý giáo dục gặp khó khăn trong việc sử dụng dữ liệu lớn để đưa ra tư vấn hiệu quả cho sinh viên Nhiều trường vẫn đang sử dụng Excel hoặc phần mềm quản lý như Edusoft để theo dõi kết quả học tập, nhưng việc tạo báo cáo thường mang tính thủ công và tốn thời gian Ứng dụng khai phá dữ liệu trong giáo dục sẽ giúp cải thiện quy trình quản lý, cung cấp cái nhìn tổng quan về kết quả học tập, từ đó hỗ trợ xây dựng chính sách và phương pháp giảng dạy hiệu quả hơn.
Khoa Công nghệ thông tin của Đại học Hàng hải Việt Nam, với 17 năm thành lập và khoảng 900 sinh viên, đang đối mặt với thách thức trong việc tư vấn học tập dựa trên dữ liệu điểm lớn Để giải quyết vấn đề này, đề tài “Ứng dụng khai phá dữ liệu xây dựng phần mềm dự đoán kết quả học tập của sinh viên” được chọn nhằm khai thác dữ liệu điểm để tạo ra các báo cáo đa chiều và dự đoán kết quả học tập dựa trên điểm các môn học trước đó Nghiên cứu tập trung vào việc xây dựng hệ thống dữ liệu điểm mới từ file excel có sẵn, áp dụng kỹ thuật khai phá luật kết hợp để phát triển mô hình dự đoán, từ đó tư vấn cho sinh viên lựa chọn lộ trình học tập tối ưu nhất.
- Các giải thuật khai phá luật kết hợp.
- Dữ liệu về kết quả học tập và thông tin cá nhân của sinh viên Khoa Công nghệ thông tin trường Đại học Hàng hải Việt Nam.
1.2.3 Yêu cầu về hệ thống:
- Công cụ hỗ trợ khai phá dữ liệu Business Intelligence Development Studio (BIDS) 2008 R2 và các mô dun hỗ trợ.
- Dữ liệu đươc tổ chức trên hệ quản trị cơ sở dữ liệu Microsoft SQL Server
Cơ sở lý thuyết
Khai phá dữ liệu
2.1.1 Khái niệm về khai phá dữ liệu
Khai phá dữ liệu, xuất hiện vào cuối thập niên 80 của thế kỷ 20, là một tập hợp các kỹ thuật nhằm phát hiện thông tin giá trị tiềm ẩn trong các kho dữ liệu khổng lồ Mục tiêu chính của khai phá dữ liệu là phân tích và sử dụng các phương pháp để tìm ra các mẫu hình tổng quát trong tập dữ liệu.
Khai phá dữ liệu, hay còn gọi là Data Mining, là quá trình khám phá và phát hiện các mẫu cũng như tri thức mới, tiềm ẩn và hữu ích trong các tập dữ liệu lớn.
Khám phá tri thức (KDD) là mục tiêu chính của khai phá dữ liệu, vì vậy hai khái niệm này hoàn toàn tương đương Nếu được phân chia riêng biệt, khai phá dữ liệu sẽ được coi là một bước quan trọng trong quá trình KDD.
2.1.2 Các bài toán khai phá dữ liệu điển hình
Khai phá dữ liệu được chia thành hai muc tiêu tổng quát như sau:
- Bài toán mô tả: thực hiện việc tìm ra các mẫu hình để mô tả dữ liệu.
Bài toán dự báo liên quan đến việc áp dụng các kỹ thuật khai phá dữ liệu nhằm dự đoán giá trị chưa biết hoặc giá trị tương lai của các biến trong cơ sở dữ liệu Mục tiêu chính là phân tích và mô tả các xu hướng, từ đó đưa ra những dự đoán chính xác về các trường dữ liệu.
Bài toán mô tả bao gồm: mô tả khái niệm, phân cụm, mô hình phụ thuộc.
- Tìm ra các đặc trưng và tính chất của khái niệm.
- Các bài toán điển hình: phát hiện các đặc trưng dữ liệu ràng buộc, tổng quát hóa, tóm tắt, …
Bài toán tóm tắt là một ví dụ điển hình cho việc áp dụng các phương pháp thống kê nhằm tìm ra mô tả tổng quát cho một tập con dữ liệu Một trong những ứng dụng phổ biến của bài toán này là xác định kỳ vọng và độ lệch chuẩn của một dãy giá trị.
Việc nhóm dữ liệu thành các cụm giúp phát hiện các mẫu phân bố trong miền ứng dụng, tạo thành một lớp mới cho phân tích.
- Tiến tới việc nhận biết một tập hữu hạn các các lớp hoặc các cụm để mô tả dữ liệu.
Phân cụm nhằm mục tiêu tối đa hóa sự tương đồng giữa các phần tử trong cùng một cụm, đồng thời tối thiểu hóa sự tương đồng giữa các phần tử thuộc các cụm khác nhau.
- Phân cụm được coi là học máy không có giám sát.
Mô hình phụ thuộc là quá trình tìm kiếm một mô hình có thể mô tả sự phụ thuộc có ý nghĩa giữa các biến trong cơ sở dữ liệu, và nó được chia thành hai mức độ khác nhau.
- Mức định lượng: sức mạnh của tính phụ thuộc được mô tả khi sử dụng việc đo tính theo giá trị số.
- Mức cấu trúc: thường dưới dạng đồ thị gồm có các biến là phụ thuộc bộ phận vào các biến khác. b) Bài toán dự báo
Bài toán dự báo bao gồm: tìm quan hệ kết hợp, phân lớp, hồi quy
Tìm quan hệ kết hợp
- Bài toán quan trọng trong khai phá dữ liệu đó là phát hiện mối quan hệ kết hợp trong tập dữ liệu.
Quan hệ kết hợp giữa các biến dữ liệu là một trong những mối quan hệ điển hình trong phân tích dữ liệu Bài toán khai phá luật kết hợp đóng vai trò quan trọng trong việc phát hiện các mẫu và mối liên hệ giữa các biến, giúp tối ưu hóa quá trình ra quyết định.
Bài toán khai phá luật kết hợp bao gồm hai vấn đề chính: đầu tiên là xác định tất cả các tập mục thường xuyên dựa trên độ hỗ trợ tối thiểu (minSup); thứ hai là tạo ra các luật mong muốn giữa các tập thuộc tính (tập biến) có dạng X → Y với độ tin cậy lớn hơn hoặc bằng minConf, trong đó X và Y là hai tập thuộc tính.
- Tiến hành việc xây dựng các mô hình dự báo để mô tả hoặc phát hiện các lớp, khái niệm cho các dự báo tiếp theo.
- Một số phương pháp điển hình là: mạng neuron, luật phân lớp, cây quyết định …
- Phân lớp là một hàm ánh xạ các bộ dữ liệu hoặc các mẫu mới vào trong một số các lớp (nhóm) đã biết.
- Phân lớp được coi là học máy có giám sát.
- Hồi quy là bài toán điển hình trong phân tích thống kê và dự báo.
Kỹ thuật thống kê đóng vai trò quan trọng trong việc phân tích dữ liệu và xây dựng các mô hình từ thực nghiệm Qua đó, nó giúp dự đoán giá trị của một hoặc nhiều biến phụ thuộc dựa trên các giá trị của một tập hợp các biến độc lập.
2.1.3 Quy trình khám phá tri thức
Hình 2.1 Quy trình khám phá tri thức
Bước đầu tiên trong quy trình khai thác dữ liệu là trích lọc dữ liệu, bao gồm việc nghiên cứu lĩnh vực áp dụng và xác định vấn đề của bài toán Từ đó, cần chắt lọc những tri thức thiết yếu và lựa chọn phương pháp khai thác dữ liệu phù hợp với mục tiêu của bài toán Điều này đảm bảo rằng quá trình khai thác dữ liệu diễn ra hiệu quả và chính xác.
Bước 2 trong quy trình tiền xử lý dữ liệu bao gồm việc thu thập và làm sạch dữ liệu Quá trình này bao gồm loại bỏ các dữ liệu không cần thiết (Data Cleaning), kết hợp dữ liệu từ nhiều nguồn khác nhau (Data Integration) và lựa chọn dữ liệu phù hợp từ cơ sở dữ liệu (Data Selection).
Bước 3 trong quy trình khai thác dữ liệu là chuyển đổi dữ liệu, trong đó dữ liệu được chuyển dạng và rút gọn để đảm bảo phù hợp với các kỹ thuật khai phá ở bước tiếp theo.
Bước 4 trong quy trình là khai phá dữ liệu, nơi chúng ta áp dụng các kỹ thuật khai thác để trích xuất những mẫu và mô hình quan trọng từ dữ liệu Việc này giúp nhận diện những thông tin có giá trị và đáng chú ý, từ đó hỗ trợ ra quyết định hiệu quả hơn.
Kho dữ liệu
2.2.1 Khái niệm về kho dữ liệu
Kho dữ liệu là một tập hợp dữ liệu có các đặc điểm như định hướng theo chủ đề, tính tích hợp, sự ổn định, và dữ liệu được gắn với thời gian Nó thường được ứng dụng trong các hệ thống hỗ trợ quyết định.
Kho dữ liệu thường bao gồm:
- Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác nhau.
- Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập các bảng dữ liệu
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau:
- Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau
- Hỗ trợ một số người dùng có liên quan, có sử dụng tới các thông tin liên quan
- Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin
- Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thông tin
- Chứa các bảng dữ liệu có kích thước lớn
- Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết nhiều bảng.
2.2.2 Các đặc tính của kho dữ liệu
Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm
Gigabyte được tổ chức theo các chủ đề chính, tập trung vào việc mô hình hóa và phân tích dữ liệu để hỗ trợ nhà quản lý trong quá trình ra quyết định Kho dữ liệu không chú trọng vào giao tác mà loại bỏ những dữ liệu không cần thiết, cung cấp cái nhìn đơn giản và hiệu quả cho việc quyết định.
Kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ nhiều nguồn khác nhau như cơ sở dữ liệu, bản ghi thao tác trực tuyến và các file dữ liệu độc lập Dữ liệu này được làm sạch và chuẩn hóa để đảm bảo tính nhất quán trước khi đưa vào kho Với mục đích lưu trữ lâu dài và truy xuất thông tin, dữ liệu trong kho thường có độ ổn định cao và ít bị sửa đổi Hai thao tác chính liên quan đến kho dữ liệu là nhập dữ liệu và truy xuất dữ liệu.
Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu của hệ thống trong khoảng thời gian dài.
2.2.3 Cấu trúc hệ thống của kho dữ liệu
Hệ thống kho dữ liệu thường bao gồm 3 tầng:
Hình 2.2 Hệ thống kho dữ liệu
Tầng đáy: Là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa, lưu trữ tập trung
Tầng giữa của hệ thống dữ liệu thực hiện các thao tác thông qua dịch vụ OLAP (OLAP Server), cho phép người dùng truy cập và phân tích dữ liệu hiệu quả Có thể triển khai bằng cách sử dụng Relational OLAP, Multidimensional OLAP hoặc kết hợp cả hai mô hình này để tạo thành Hybrid OLAP, mang lại sự linh hoạt trong việc xử lý và phân tích dữ liệu.
Tầng trên: thực hiện việc truy vấn, khai phá thông tin.
2.2.4 Ứng dụng của kho dữ liệu
Kho dữ liệu được phân loại thành ba mảng ứng dụng chính, cho phép khai thác thông tin hiệu quả thông qua các công cụ truy vấn và báo cáo Nhờ vào việc chuyển đổi dữ liệu thô thành dữ liệu ổn định và chất lượng, kho dữ liệu đã cải thiện đáng kể kỹ thuật biểu diễn thông tin Bằng cách tập trung dữ liệu đầu vào vào một nguồn duy nhất, kho dữ liệu không chỉ giảm thiểu lỗi phát sinh từ việc thu thập thông tin từ nhiều nguồn khác nhau mà còn giảm thiểu thời gian truy xuất dữ liệu, giúp người dùng tránh phải viết các truy vấn SQL phức tạp.
Phân tích trực tuyến (OLAP) sử dụng kho dữ liệu để hỗ trợ việc phân tích dữ liệu, cho phép xác định tính đúng sai của các giả thuyết, điều mà ngôn ngữ SQL và các công cụ báo cáo truyền thống không thể thực hiện Mặc dù OLAP không thể tạo ra giả thuyết, nhưng nó giúp tổng hợp dữ liệu hiệu quả và trình bày kết quả thông qua các báo cáo hoặc bảng biểu trực quan.
Một trong những phương pháp khai thác kho dữ liệu hiệu quả là sử dụng các kỹ thuật khai phá Phương pháp này không chỉ đáp ứng yêu cầu nghiên cứu khoa học mà còn phù hợp với thực tiễn Kết quả thu được từ kỹ thuật này có tính dự đoán cao, hỗ trợ trong việc xây dựng kế hoạch và chiến lược.
2.2.5 Mô hình dữ liệu sử dụng trong kho dữ liệu
Dữ liệu trong kho được tổ chức theo mô hình dữ liệu đa chiều, bao gồm ba khái niệm chính: Khối (Cubes), Sự kiện (Facts) và Chiều (Dimensions) Mô hình này không thích hợp cho hệ thống OLTP, mà chủ yếu phục vụ cho việc phân tích dữ liệu thông qua các công cụ OLAP.
Cơ sở dữ liệu đa chiều chú trọng đến hai mức tổng hợp và chi tiết, dẫn đến kích thước lớn Yếu tố thời gian cũng được xem xét, giúp theo dõi biến động thực tế qua các giai đoạn Vì vậy, chiều thời gian trở thành yếu tố then chốt cho mọi phân tích.
Bảng chiều chứa dữ liệu mô tả chi tiết về công việc hoặc đối tượng, có kích thước tương đối nhỏ hơn so với bảng sự kiện Nó đóng vai trò như bộ lọc hoặc các ràng buộc cho các sự kiện trong bảng sự kiện.
Bảng sự kiện: Kích thước lớn, chứa dữ liệu định lượng hoặc sự kiện (có độ đo số học)
Khối: Một khối có thể có nhiều chiều
Mô hình dữ liệu của kho dữ liệu có thể thiết lập theo:
- Sơ đồ hình sao (star schema): Một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều.
Sơ đồ bông tuyết (Snowflake schema) là một phiên bản mở rộng của sơ đồ hình sao, trong đó một số cấu trúc chiều được chuẩn hóa thành các bảng chiều nhỏ hơn, tạo nên hình dáng giống như bông tuyết.
Công cụ hỗ trợ BI trong hệ quản trị cơ sở dữ liệu SQL 2008
Các cơ sở dữ liệu hiệu quả đóng vai trò quan trọng trong việc hỗ trợ quyết định kinh doanh, từ các quyết định chiến lược như tăng điểm tuyển sinh đầu vào cho năm học tới, đến các quyết định chiến thuật như thay đổi khung chương trình Để đưa ra những quyết định này, việc có được dữ liệu chính xác, đúng thời điểm và ở định dạng phù hợp là điều cần thiết.
BI là một tập hợp các hoạt động nhằm hiểu rõ doanh nghiệp thông qua việc phân tích dữ liệu của công ty Các phân tích này hỗ trợ trong việc xây dựng chiến lược, hoạch định sách lược và ra quyết định kinh doanh, từ đó thực hiện các hành động cần thiết để cải thiện tình hình kinh doanh.
Một số ứng dụng phổ biến của Business Intelligence (BI) bao gồm phân tích khả năng sinh lợi, nghiên cứu sở thích và năng lực của sinh viên, đánh giá lợi nhuận từ các sản phẩm, cũng như phân tích doanh số bán hàng theo từng sản phẩm và khu vực khác nhau.
Tóm lại, Business Intelligence (BI) là quy trình và công nghệ giúp doanh nghiệp quản lý khối lượng dữ liệu lớn, khai thác tri thức để đưa ra quyết định hiệu quả trong hoạt động kinh doanh Công nghệ BI cung cấp cái nhìn toàn diện về hoạt động của doanh nghiệp từ quá khứ đến hiện tại và dự đoán tương lai, nhằm hỗ trợ doanh nghiệp trong việc ra quyết định tốt hơn Do đó, hệ thống BI còn được gọi là Hệ thống Hỗ trợ Quyết định (Decision Support System - DSS).
2.3.2 Các thành phần chính của hệ thống BI
Các thành phần chính của hệ thống BI được mô tả như hình dưới đây:
Hình 2.3 Các thành phần chính của hệ thống BI
Vấn đề cốt lõi trong hệ thống Business Intelligence (BI) là kho dữ liệu (Data Warehouse) và khai phá dữ liệu (Data Mining) Dữ liệu trong BI thường là dữ liệu tổng hợp từ nhiều nguồn, định dạng khác nhau, phân tán và có tính lịch sử, điều này thể hiện đặc trưng của kho dữ liệu Phân tích dữ liệu trong BI không chỉ đơn thuần là truy vấn (query) hay lọc (filtering), mà còn bao gồm các kỹ thuật khai phá dữ liệu như phân loại (classification), phân cụm (clustering) và dự đoán (prediction) Do đó, BI có mối quan hệ chặt chẽ với Data Warehouse và Data Mining.
Các công cụ BI là phần mềm ứng dụng chuyên dụng cho việc báo cáo, phân tích và trình bày dữ liệu Chúng có khả năng truy cập và xử lý dữ liệu được lưu trữ trước đó trong các kho dữ liệu và chợ dữ liệu.
Trên thị trường giải pháp BI hiện nay, nhiều bộ sản phẩm nổi bật từ các hãng lớn như Oracle Enterprise BI Server, SAP Business Object Enterprise và SQL Server Analysis Service đã xuất hiện Đề tài này tận dụng lợi thế của SQL, một hệ quản trị cơ sở dữ liệu quen thuộc, để phân tích kho dữ liệu điểm nhằm dự đoán kết quả học tập của sinh viên.
SQL Server 2008 includes a suite of tools designed to support and develop Business Intelligence (BI) applications, known as Business Intelligence Development Studio (BIDS) This database management system features reporting services and integration services as key components of BI, with analysis services serving as the foundational layer.
Dịch vụ phân tích BIDS của Microsoft là công cụ mạnh mẽ giúp tổ chức quản lý và khai thác kho dữ liệu thông qua xử lý phân tích trực tuyến Nó hỗ trợ xây dựng các mô hình khai phá dữ liệu một cách dễ dàng và hiệu quả, cho phép triển khai nhiều mô hình khai phá dữ liệu khác nhau.
Micorosft Decision Tree (Cây quyết định)
Micorosoft Naive Bayes(Phân lớp với Bayes Rules)
Micorosoft Time Series (Chuỗi thời gian)
Micorosoft Association (Luật kết hợp)
Micorsoft Sequence Clustering (Phân tích chuỗi)
Microsoft Neural Network (Mạng Neural)
Micorsoft Linear Regression(Hồi qui tuyến tính)
Micorsoft Logistics Regression(Hồi qui logistics)
Dịch vụ phân tích của BI cung cấp các công cụ cần thiết để phát triển giải pháp khai thác dữ liệu phức tạp, giúp doanh nghiệp đưa ra quyết định thông minh đối với các vấn đề khó khăn Bằng cách sử dụng các công cụ khai thác dữ liệu, chúng ta có thể nhận diện mẫu trong dữ liệu, từ đó xác định nguyên nhân vấn đề và đưa ra các kiến nghị, dự báo tương lai Không cần thiết phải xây dựng kho dữ liệu; dữ liệu từ nhà cung cấp bên ngoài, bảng tính hay file văn bản cũng có thể được sử dụng Dịch vụ phân tích mang đến nhiều công cụ để xây dựng giải pháp khai thác dữ liệu trên các loại dữ liệu khác nhau Sau khi hoàn thiện mô hình khai thác, chúng có thể được triển khai trên máy chủ khác để người dùng thực hiện phân tích và dự báo.
Thiết kế hệ thống dự đoán kết quả học tập của sinh viên
Mô tả bài toán
Khoa Công nghệ thông tin trường Đại học Hàng Hải Việt Nam hiện có hơn 900 sinh viên, trong đó tỷ lệ nợ môn cao dẫn đến cảnh cáo hoặc chậm tốt nghiệp Nhiều sinh viên chưa chú trọng học tập, có thành tích kém và cảm thấy chán nản Để hỗ trợ sinh viên chọn con đường học tập phù hợp, một hệ thống dự đoán kết quả học tập tương lai dựa trên dữ liệu điểm số đã được phát triển, giúp dự đoán kết quả học kỳ tiếp theo từ thành tích các kỳ trước.
Dữ liệu để dự đoán kết quả học tập sẽ được thu thập từ nhiều nguồn khác nhau, bao gồm hồ sơ cá nhân của sinh viên với thông tin như họ tên, ngày sinh, giới tính và quê quán Ngoài ra, thông tin về kết quả học tập toàn khoá và các môn học mà sinh viên đã chọn trong từng học kỳ, bao gồm mã sinh viên, môn học và kết quả, cũng là nguồn dữ liệu quan trọng.
Phương pháp giải quyết bài toán
Để xây dựng hệ thống dự đoán kết quả học tập của sinh viên thì hệ thống được xây dựng theo các bước sau:
Bài toán khai phá dữ liệu điểm để dự đoán kết quả học tập của sinh viên sẽ được thực hiện theo các bước:
Để thiết kế một cơ sở dữ liệu điểm của sinh viên, bước đầu tiên là thu thập, đánh giá và xử lý dữ liệu Quá trình này được thực hiện thông qua công cụ SQL Server Management Studio.
- Bước 2: Chuyển cơ sở dữ liệu xây dựng ở bước 1 thành kho dữ liệu Bước này sử dụng công cụ SQL Server Business Intelligence Development Studio.
Bước 3: Tiến hành khai thác kho dữ liệu đã xây dựng nhằm trả lời các câu hỏi liên quan đến báo cáo và phân tích, từ đó đưa ra xu hướng học lực của sinh viên cho năm học tiếp theo.
3.2.1 Xây dựng cơ sở dữ liệu điểm của sinh viên Đề tài tiến hành xây dựng hệ thống cơ sở dữ liệu dựa trên những dữ liệu thu thập được:
Để tối ưu hóa chi phí tính toán và giải quyết hầu hết các vấn đề trong khai phá dữ liệu, giai đoạn tiền xử lý sẽ áp dụng các kỹ thuật "rời rạc hóa dữ liệu" Các kỹ thuật này giúp cải thiện hiệu quả xử lý và phân tích dữ liệu.
Kỹ thuật rời rạc hóa dữ liệu giúp giảm số lượng giá trị cho một thuộc tính liên tục bằng cách chia phạm vi của thuộc tính thành các khoảng Những khoảng nhãn này có thể thay thế các giá trị dữ liệu thực tế, làm giảm và đơn giản hóa dữ liệu gốc Quá trình này mang lại sự ngắn gọn và dễ sử dụng, nâng cao cấp độ tri thức biểu diễn của kết quả khai phá Ví dụ, dữ liệu điểm HK1, HK2, HK3… có thể được chia thành các khoảng để tối ưu hóa việc phân tích.
Bảng: Chia khoảng điểm tổng kết học kỳ Với điểm tuyển sinh:
Khoảng Nhãn điểm tuyển sinh
Bảng: Chia khoảng điểm tuyển sinh
Bảng: Chia khoảng điểm môn học
3.2.2 Xây dựng kho dữ liệu
Ta dựa trên công cụ BI được cài đặt sẵn trong hệ quản trị SQL Server 2008:
Bước 1: Tạo mới 1 project (Analysis Services Project)
Hình 3.2 Sử dụng Analysis Services Project Bước 2: Tạo một Data Source
Tạo 1 data source kết nối đến cơ sở dữ liệu quản lý Điểm ở trên.
Bước 3: Tạo Data Source View
Trong Data Source View, chọn dữ liệu lấy từ kho dữ liệu có tên là
Hình 3.4 DataSource View FinalDiem Bước 4: Tạo dữ liệu khối (Cubes)
Để tạo dữ liệu khối cho phân tích, bạn cần nhấp chuột phải vào Cube và chọn "New Cube" Sau đó, hãy bấm "Next" để tiếp tục; hệ thống sẽ tự động tìm kiếm các bảng sự kiện và bảng chiều.
Hình 3.5 Khối dữ liệu và các chiều
3.2.3 Khai phá từ kho dữ liệu a) Khối dữ liệu
Panel bên trái hiển thị các Measure và chiều đã được định nghĩa trong khối, trong khi panel bên phải được chia thành hai cửa sổ Cửa sổ trên cho phép người dùng xác định các điều kiện phân tích, còn cửa sổ dưới hiển thị kết quả của các Measure khi kéo thả từ panel bên trái Việc thiết lập các biểu thức phân tích phù hợp tùy thuộc vào mục đích của người dùng.
Với thiết lập như dưới đây có nghĩa là cho biết điểm các môn học của sinh viên khóa 52 thuộc kỳ 1 năm học 2011-2012.
Hình 3.6 Khối dữ liệu Diem_MonHoc b) Xây dựng mô hình khai phá
Thuật toán luật kết hợp của Microsoft là phiên bản đơn giản của thuật toán Apriori, một công cụ quan trọng trong việc phân tích giỏ thị trường.
Bước 5: Tạo một Mining model structure.
Hình 3.7 Tạo mới mô hình khai phá Lựa chọn chiều từ khối dữ liệu:
Hình 3.8 Lựa chọn chiều từ khối dữ liệu
Lựa chọn thuộc tính cho mô hình khai phá:
Hình 3.9 Lựa chọn thuộc tính cho mô hình khai phá
Chọn Key là MaSinhVien và TenMonHoc, cột dùng để dự đoán (Input) là DiemMH, các cột cần dự doán (Predictable) là DiemMH. Đặt tên cho mô hình khai phá:
Hình 3.10 Đặt tên cho mô hình khai phá Màn hình Mining Models như sau:
Hình 3.11 Màn hình Mining Models
To adjust the model parameters, right-click on Microsoft_Association_Rules in the Mining Models window, select Set Algorithm Parameters, and set the MINIMUM_PROBABILITY to 0.5 and MINIMUM_SUPPORT to 0.04.
Hình 3.12 Thiết lập tham số trong mô hình
Bước 6: Khai thác Mining models.
Kết quả của Microsoft Association Rules thể hiện trong Tab Mining Models Viewer bởi 3 nội dung chính là Itemsets, Rules, và Dependency Net.
Rules Tab: Phần này trình bày ác luật kết hợp được phát hiện bởi mô c hình Các thông tin về luật kết hợp bao gồm:
Probability: Cho biết xác suất xảy ra của luật.
Importance: Đo lường tính hữu dụng của luật, giá trị này càng cao thì luật kết hợp càng tốt.
Rules: Phần này thể hiện các luật kết hợp dạng X⟶Y
Hình 3.13 Luật kết hợp phát hiện bởi mô hình
Luật kết hợp thứ nhất chỉ ra rằng nếu sinh viên có điểm môn Vật lý 1 là 1 và môn Tiếng Anh cơ bản 1 là 1.5, thì điểm môn Tiếng Anh cơ bản 2 của họ sẽ đạt 1.5 với xác suất 100%.
Itemsets: Itemsets cho biết các thông tin quan trọng của luật kết hợp như
Support (độ hỗ trợ của luật kết hợp), Size (Số items trong Itemsets).
Hình 3.14 Các thông tin của luật kết hợp
Trong hình trên, Itemsets có Support là 10, bao gồm 2 items: Ngôn ngữ hình thức và Automat=3 với số điểm 10 sinh viên đạt được Điều này có nghĩa là trong tổng số dữ liệu điểm, 10 sinh viên đạt điểm môn Ngôn ngữ hình thức và Automat=3 cũng đồng thời đạt điểm môn Tiếng Anh cơ bản 1=1,5.
Dependency Network (Mạng phụ thuộc): thể hiện sự tác động của các items khác nhau trong Model Mỗi Node trong Dependency Net thể hiện một Item.
Hình 3.15 Mạng phụ thuộc của mô hình
Sau thời gian thực tập tốt nghiệp dưới sự hướng dẫn của cô Trần Thị Hương, em đã tích lũy được nhiều kiến thức về khai phá dữ liệu và áp dụng vào việc dự đoán kết quả học tập của sinh viên trong khoa Em nỗ lực hoàn thành báo cáo thực tập đúng tiến độ theo quy định của nhà trường và hy vọng rằng trải nghiệm này sẽ hỗ trợ em trong việc hoàn thành đồ án tốt nghiệp.
Cuối cùng, em xin gửi lời cảm ơn chân thành đến cô Trần Thị Hương vì sự hướng dẫn và hỗ trợ trong quá trình thực tập tốt nghiệp Em cũng rất biết ơn các thầy cô giáo trong khoa Công nghệ thông tin, trường Đại học Hàng hải Việt Nam, những người đã tận tâm giảng dạy và giúp đỡ em suốt thời gian học tập tại trường.
Sinh viên Phạm Đức Việt