TỔNG QUAN CHUNG

Một phần của tài liệu Xây dựng kho dữ liệu phục vụ quản lý và khai thác thông tin (Trang 41 - 54)

Trường Đại học sư phạm kỹ thuật Hưng Yên là trường đại học công lập thuộc Bộ Giáo dục & Đào tạo, đào tạo nhiều ngành nghề với nhiều hình thức và nhiều hệ đào tạo khác nhau. Các thông tin liên quan đến HSSV là cơ sở để Nhà trường đánh giá chất lượng giảng dạy và học tập, lập các báo cáo cũng như định hướng kế hoạch tuyển sinh, hướng đào tạo cho các HSSV các khóa tiếp theo… Trong những năm gần đây Nhà trường đã đưa vào sử dụng và khai thác nhiều phần mềm hỗ trợ cho công tác đào tạo như phần mềm Edusoft: lập thời khóa biểu, quản lý hồ sơ học sinh sinh viên,… Bên cạnh đó là một số phần mềm tiện ích khác như: Quản lý vật tư, quản lý học phí,… bước đầu đã thống nhất được các quy trình, biểu mẫu… Tuy nhiên, cơ sở dữ liệu bị hạn chế về kích thước, hạn chế hỗ trợđược tính năng sinh báo cáo, ra quyết định, dự đoán xu hướng một cách nhanh nhất. Việc quản lý, lưu trữ các thông tin có nhiều bất cập, nguy cơ thất lạc và mất mát cao dẫn đến việc xử lý các thông tin liên quan gặp nhiều khó khăn.

Như vậy, với sự phát triển nhanh chóng về số lượng sinh viên qua các năm, một vấn đề quan tâm là việc lưu trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và các thông tin về điểm của sinh viên để việc tìm kiếm nhanh và có hiệu quả. Và quan trọng hơn là việc tìm ra những dữ liệu tiềm ẩn qua các năm, định ra hướng mở rộng và phân bổ số lượng sinh viên hợp lý ở các ngành nghề khác nhau, phục vụ cho việc tổng hợp, báo cáo, dự đoán. Do đó, nhu cầu chuẩn bị xây dựng một kho dữ liệu là cần thiết và cấp bách.

Xuất phát từ vấn đề trên, chúng tôi thực hiện luận văn "Xây dựng kho dữ liệu phục vụ quản lý và khai thác thông tin", trong đó đề xuất xây dựng một kho dữ liệu về thông tin của sinh viên với mong muốn góp phần trợ giúp cho công tác quản lý đào tạo của trường Đại học Sư phạm Kỹ thuật Hưng Yên.

Các kho dữ liệu thống kê, khi được xây dựng và áp dụng thành công sẽ giúp cải tiến chất lượng số liệu và hài hoà các quá trình thu thập số liệu thống kê, cung

42

cấp công cụ phục vụ quản lý và bảo vệ lưu trữ số liệu, cung cấp công cụ tiếp cận, xử lý, sản xuất và phổ biến các đầu ra thống kê có chất lượng.

Như ta đã đề cập, xu thế chủđạo của kho dữ liệu: Trào lưu trong các công ty (viễn thông - ngân, chăm sóc sức khỏe, bảo hiểm, sản xuất, dược phẩm, giao thông…) và Xu thế theo nhu cầu. Trong phạm vi luận văn thì thuộc xu thế theo yêu cầu.

3.2. DỮ LIỆU TRONG KHO DỮ LIỆU

3.2.1. Dữ liệu nghiệp vụ

Dữ liệu nghiệp vụ trong kho dữ liệu trường Đại học Sư phạm Kỹ thuật Hưng Yên là toàn bộ các dữ liệu liên quan đến hoạt động của một trường đại học như: lịch giảng dạy và học tập, dữ liệu học sinh sinh viên,…

Dữ liệu này được tạo ra trong quá trình thực hiện các hoạt động thao tác nghiệp vụ liên quan đến hoạt động của trường thông qua các hệ thống hỗ trợ.

3.2.2. Siêu dữ liệu

Siêu dữ liệu dùng để mô tả tài nguyên thông tin. Có thể hiểu siêu dữ liệu là dữ liệu về dữ liệu hoặc thông tin về thông tin. Ởđây thì siêu dữ liệu được xác định là “dữ liệu mô tả các thuộc tính của đối tượng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh và tổ chức. Siêu dữ liệu còn có thểđược định nghĩa là dữ liệu có cấu trúc về dữ liệu”.

Đối với kho dữ liệu trường Đại học Sư phạm Kỹ thuật Hưng Yên thì: cổng thông tin điện tử giới thiệu về các hoạt động của nhà trường, cung cấp các chức năng hỗ trợ download tài liệu, truy cập xem dữ liệu, tìm kiếm dữ liệu liên quan đến sinh viên, thiết lập các báo cáo liên quan đến học sinh sinh viên,....

3.3. XÂY DỰNG KHO DỮ LIỆU

Việc thiết kế và tổ chức một kho dữ liệu là rất quan trọng vì nó ảnh hưởng đến việc tổ chức và khai thác báo cáo sau này. Do vậy quá trình này đòi hỏi những người thiết kế phải rất hiểu về các kiến trúc, các thành phần và các lược đồ của kho dữ liệu cũng như các ưu nhược điểm của mỗi loại. Việc chọn kiến trúc, lược đồ để xây dựng Kho dữ liệu phải dựa trên những yêu cầu và đặc thù của bài toán nghiệp

43

vụ và tận dụng những cở sở sẵn có. Từ yêu cầu của việc khai thác các dữ liệu, chúng tôi chọn xây dựng một kho dữ liệu, không có các kho dữ liệu chủđề. Sở dĩ có quyết định này vì trong hệ thống chỉ có duy nhất một chủđề.

3.3.1. Lập kế hoạch

- Phương pháp và mô hình phát triển: Phương pháp hướng đối tượng, hệ thống là tập các đối tượng, tập trung chính vào việc xử lý và khai thác dữ liệu

- Mục tiêu của kho dữ liệu: Kho dữ liệu bao gồm cơ sở dữ liệu về thông tin về khoa, bộ môn, các môn học, thông tin của học sinh sinh viên; cơ sở dữ liệu được lưu tựđộng trong quá trình xây dựng và phát triển cổng thông tin Liferay.

- Phạm vi của hệ thống: Xây dựng kho dữ liệu tập trung vào các thông tin liên quan đến học sinh, sinh viên phục vụ cho việc tìm kiếm thông tin, lập các báo cáo phục vụ công tác quản lý đào tạo của Nhà trường.

- Kiến trúc kho dữ liệu: tập trung xây dựng kho dữ liệu phục vụ cho tất cả các quá trình quản lý và khai thác dữ liệu.

3.3.2. Yêu cầu của hệ thống

- Yêu cầu chung: Việc xây dựng kho dữ liệu là hoàn toàn cấp thiết để thống nhất các nguồn dữ liệu trong hoạt động của Nhà trường, thuận tiện cho việc lập các báo cáo, định hướng đào tạo,…

- Yêu cầu thiết kế: Hệ thống là tập hợp của những ứng dụng riêng biệt: các trang thông tin được xây dựng trên phần mềm cổng thông tin nguồn mở Liferay với cơ sở dữ liệu được liên kết lưu trữ trong các bảng thuộc kho dữ liệu chung; và các ứng dụng được xây dựng tích hợp trong cổng thông tin để khai thác kho dữ liệu được xây dựng từ trước

- Công nghệ sử dụng: Hệ quản trị cơ sở dữ liệu PostgreSQL và phần mềm hệ thống thông tin mã nguồn mở Liferay

3.3.3. Mô hình dữ liệu

Các nhà quản lý thường có khuynh hướng suy nghĩ theo “nhiều chiều”. Ví dụ như về kết quả học tập của sinh viên: “Với những môn học nào thì sinh viên sẽ có kết quả học tập tốt hơn qua các năm”.

44

Ta có thể hình dung việc đánh giá kết quả học tập như một khối dữ liệu với các chiều của khối là môn học, sinh viên và năm học. Giao điểm bên trong khối là giao điểm của các cạnh. Với mô tả của một sự kiện đánh giá như trên thì độ đo kết quả học tập được kết hợp bởi các giá trị môn học, sinh viên và năm học (thời gian).

Ví dụ xét trong cùng thời gian học, những sinh viên khối A thì học những môn học ban tự nhiên thường có kết quả tốt hơn những sinh viên khối C. Nếu nhìn từ chiều thời gian làm mốc, sau đó tổng hợp thêm dữ liệu từ các chiều sinh viên và môn học sẽ có thểđưa ra kết quảđánh giá về học lực của sinh viên.

Một khối dữ liệu không bắt buộc phải có 3 chiều mà có thể có N chiều, phụ thuộc vào yêu cầu của công việc. Các chiều của khối, mà ở đó các mặt hoặc các thực thể tương ứng với những khía cạnh mà công việc ghi nhận. Mỗi chiều kết hợp với một bảng chiều để mô tả cho chiều đó. Ví dụ bảng chiều sinh viên thì mô tả về sinh viên đó gồm tên sinh viên, tổ, lớp, khoa, ngày sinh, quê quán… Với những chiều đặc biệt như chiều thời gian, hệ thống kho dữ liệu có thể phát sinh tương ứng với bảng chiều dựa trên loại dữ liệu. Chiều thời gian trong thực tế có ý nghĩa đặc biệt đối với việc hỗ trợ cho các khuynh hướng phân tích.

Một khối dữ liệu trong kho dữ liệu thường được xây dựng đểđo hiệu quả của một công việc nào đó. Do vậy một mô hình dữ liệu đa chiều thường được tổ chức xung quanh một chủđề được thể hiện bởi một bảng sự kiện của nhiều độđo số học (là các đối tượng phân tích). Ví dụ một sự kiện kết quả học tập có thể chứa điểm trung bình học tập, xếp loại học lực, khen thưởng… Mỗi độ đo phụ thuộc vào một tập các chiều cung cấp ngữ cảnh cho độ đo đó. Vì thế khi các chiều kết hợp với

45

nhau thì xác định một độ đo duy nhất, đó là một giá trị trong không gian đa chiều. Ví dụ như kết hợp của loại học lực, sinh viên và thời gian sẽ cho ra kết quả học tập của sinh viên đó là gì trong khoảng thời gian đó.

Các chiều có thểđược phân cấp theo loại. Ví dụ chiều thời gian của dữ liệu kết quả học tập của sinh viên được mô tả bởi các thuộc tính như niên khóa, năm học, kì học hoặc có nhiều cách phân loại khác phụ thuộc vào bản chất của dữ liệu và yêu cầu sử dụng. Nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu như tăng mức độ trừu tượng, giảm mức độ trừu tượng hoặc tăng mức chi tiết, chọn và chiếu, và định hướng lại khung nhìn đa chiều của dữ liệu, cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi. Những thao tác đó được biết như xử lý phân tích trực tuyến OLAP.

Ở đây, chúng ta sử dụng lược đồ hình sao mà không sử dụng lược đồ bông tuyết giúp cho việc xử lý các truy vấn được nhanh hơn, vì thế cần sử dụng các chiều phân cấp. Bảng sự kiện sẽ được nối với nhiều chiều và các độ đo đều là số và dùng chung chiều thời gian cho tất cả các sự kiện. Việc nghiên cứu thiết kế bảng sự kiện được căn cứ vào các yêu cầu thống kê điểm của sinh viên.

3.3.4. Các nguồn dữ liệu

a. Thông tin đầu vào của sinh viên

Thông tin đầu vào của sinh viên là các thông tin cơ bản của sinh viên được tạo ra khi sinh viên bắt đầu là sinh viên của trường như: Họ tên, ngày sinh, hộ khẩu, phái, nơi sinh,…

b. Thông tin vềđiểm của sinh viên

Thông tin về điểm của sinh viên là kết quả học tập của sinh viên sau mỗi môn học. Trường Đại học SPKT Hưng Yên có nhiều ngành học, tất cả các ngành học để phải học các môn cơ bản (Toán cao cấp, Vật lý đại cương, Hóa học đại cương,..), các môn thuộc khối kiến thức chung bắt buộc (Nguyên lý cơ bản của CN Mác Lênin, Tư tưởng Hồ Chí Minh,..); tùy theo từng ngành học mà có các môn học

46

thuộc khối kiến thức cơ sở ngành, chuyên ngành. Mỗi năm các môn chuyên ngành lại có sự thay đổi điều chỉnh để phù hợp với thị trường lao động.

Thông tin về kết quả học tập thường được lưu trữ như sau:

Hình 3. 1. Thông tin kết quả học tập của sinh viên

3.3.5. Tạo lập kho dữ liệu

* Thiết kế các bảng dữ liệu

Dữ liệu về học sinh, sinh viên sẽ có các kiểu thực thể sau:

- KhoiLop: Lưu trữ các thông tin về khối lớp bao gồm các thuộc tính: MaKhoi (mã khối lớp), TenKhoi (tên khối), MaNganh (mã ngành), MaHeDT (mã hệ đào tạo), MaKhoa (mã khoa), KhoaHoc (khóa học), SoHK (số học kỳ đào tạo của khóa)

- Lop: Lưu trữ các thông tin về các lớp của mỗi khóa học bao gồm các thuộc tính: TenLop (tên lớp), GVCN (giáo viên chủ nhiệm)

- SinhVien: Lưu trữ các thông tin về sinh viên bao gồm các thuộc tính: MaSV (mã sinh viên), HoTen (họ tên), NgaySinh (ngày sinh), Phai (phái), NoiSinh (nơi sinh)

- MonHoc: Lưu trữ các thông tin về môn học bao gồm các thuộc tính: MaMH (mã môn học), TenMH (tên môn học), DVHT (sốđơn vị học trình)

47

Lược đồ cơ sở dữ liệu quan hệ tổng quát như sau:

Lược đồ này được chuyển sang mô hình quan hệ như sau:

Tuy nhiên, nếu thiết kế cơ sở dữ liệu như trên chỉđáp bảo yêu cầu tác nghiệp của hệ thống, không thể hiện được việc lưu trữ dữ liệu ở quá khứ, không tận dụng được các kết quả đã có sẵn, như điểm các kỳ của sinh viên, điểm tổng kết toàn khóa,… Hơn nữa, dữ liệu về điểm ngày càng tăng dẫn đến việc lưu trữ theo dạng này hạn chế về kích thước, quan trọng hơn, với cơ sở dữ liệu dưới dạng quan hệ này chỉ trả lời được các truy vấn dưới dạng đơn dạng, không xử lý được các truy vấn dưới dạng nhiều chiều. Để khắc phục những nhiểm điểm này, giải pháp duy nhất là tổ chức dữ liệu vềđiểm này dưới dạng kho dữ liệu.

48

Việc xây dựng một kho dữ liệu không phải đơn giản và nó gồm nhiều bước nhưđã trình bày trong phần cơ sở lý thuyết nên trong phạm vi luận văn này, chúng tôi chỉđưa ra cách xây dựng một kho dữ liệu trong công cụ hỗ trợ của hệ quản trị cơ sở dữ liệu PostgreSQL.

Chúng tôi đưa ra các cơ sở dữ liệu liên quan để xây dựng về kho dữ liệu của học sinh sinh viên như sau:

Tên bảng TT Thuộc tính Ý nghĩa

_Dim_Sinhvien:

Lưu trữ thông tin về

sinh viên

1 Tenlop Tên lớp của sinh viên 2 Masv Mã sinh viên

3 Hoten Họ tên của sinh viên 4 Ngaysinh Ngày sinh của sinh viên 5 Phai Giới tính của sinh viên 6 Noisinh Nơi sinh của sinh viên

_Dim_MonHoc:

Lưu trữ thông tin về

môn học

1 Mamon Mã môn học 2 Tenmon Tên môn học

3 Mabm Mã bộ môn

4 Dvht Sốđơn vị học trình

_Fact_DiemMon:

Lưu trữ thông tin về

điểm môn học của mỗi

sinh viên thuộc một kỳ

nào đó

1 Masv Mã sinh viên 2 Mamon Mã môn học 3 Datekey Mã chiều thời gian 4 DiemmonL1 Điểm L1 của môn học 5 DiemmonL2 Điểm L2 của môn học

_Dim_Time:

Lưu trữ thông tin về

thời gian

1 Datekey Mã chiều thời gian 2 Makhoi Mã khối lớp 3 Namhoc Năm học 4 Hocky Học kỳ _Dim_KhoiLop: Lưu trữ thông tin về khối lớp của sinh viên 1 Makhoi Mã khối lớp 2 Tenkhoi Tên khối lớp 3 Manganh Mã ngành đào tạo 4 Mahedt Mã hệđào tạo

49 Tên bảng TT Thuộc tính Ý nghĩa 5 Makhoa Mã khoa quản lý 6 Khoahoc Khóa học 7 Sohkdt Số học kỳ của khóa học _Dim_Nganh: Lưu trữ thông tin về ngành học 1 Manganh Mã ngành đào tạo 2 Tennganh Tên ngành đào tạo

3 Makhoa Mã khoa

_Dim_HeDT:

Lưu trữ thông tin về hệ

đào tạo

1 Mahedt Mã hệđào tạo 2 Tenhedt Tên hệđào tạo 3 Sohkdt Số học kỳđào tạo 4 Sohkmax Số học kỳ tối đa _Dim_Khoa: Lưu trữ thông tin về khoa 1 Makhoa Mã khoa

2 Tenkhoa Tên khoa

3 Truongkhoa Trưởng khoa

_Dim_BoMon:

Lưu trữ thông tin về bộ

môn

1 Mabm Mã bộ môn

2 Tenbm Tên bộ môn

3 Makhoa Mã khoa _Dim_Lop: Lưu trữ thông tin về lớp của sinh viên 1 Tenlop Tên lớp 2 Makhoi Mã khối 3 Siso Sĩ số _KQHTtheoky: Lưu trữđiểm học tập

theo kỳ của sinh viên

1 Masv Mã sinh viên 2 Datekey Mã chiều thời gian 3 Makhoi Mã khối

4 DTBtheoky Điểm trung bình theo kỳ

_KQHTtoankhoa:

Lưu trữđiểm toàn khóa

của sinh viên

1 Masv Mã sinh viên 2 Makhoi Mã khối

3 DTBtoankhoa Điểm trung bình toàn khóa

Bảng 3. 1. Bảng các cơ sở dữ liệu

Khi đó CSDL nguồn của kho được thiết kế dựa trên mô hình quan hệ trong hệ quản trị cơ sở dữ liệu PostgreSQL như sau:

50

Hình 3. 2. Mô hình quan hệ trong hệ quản trị cơ sở dữ liệu PostgreSQL

* Đưa thông tin vào kho dữ liệu: Chúng tôi đưa các thông tin về học sinh sinh viên và các thông tin liên quan từ phần mềm Microsoft Office Excel, kết xuất

Một phần của tài liệu Xây dựng kho dữ liệu phục vụ quản lý và khai thác thông tin (Trang 41 - 54)

Tải bản đầy đủ (PDF)

(92 trang)