Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của Hệ quản trị CSDL SQL Server 2008 Trịnh Thị Nhị Trường Đại học Công nghệ Luận văn ThS Chuyên ngành: Hệ thống thông tin; Mã số 60 48 05 Người hướng dẫn: TS. Nguyễn Hà Nam Năm bảo vệ: 2011 Abstract. Giới thiệu: trình bày về nhu cầu xây dựng kho dữ liệu về điểm của sinh viên, một số hướng nghiên cứu của kho dữ liệu, mô tả ngắn gọn hướng nghiên cứu của luận văn. Kho dữ liệu và các vấn đề liên quan: trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu bộ công cụ sử dụng để làm thực nghiệm. Xây dựng kho dữ liệu về điểm của sinh viên: trình bày về việc xây dựng kho dữ liệu về điểm của trường Đại học SPKT Hưng yên, thiết kế báo cáo đa chiều phục vụ cho việc ra quyết định. Khai thác dữ liệu từ kho dữ liệu: trình bày ứng dụng của một số thuật toán khai phá dữ liệu trong kho dữ liệu điểm của bộ công cụ BI. Keywords. Công nghệ thông tin; Khai thác dữ liệu; Quản trị dữ liệu; Hưng Yên. Content LỜI MỞ ĐẦU Trong nhiều năm gần đây, CNTT đã được ứng dụng rất rộng rãi trong nhiều lĩnh vực khác nhau như kinh doanh, giáo dục, nông nghiệp, y học…Trong lĩnh vực giáo dục, phần lớn các trường đã xây dựng được CSDL sinh viên để lưu trữ hồ sơ lý lịch, quá trình học tập, rèn luyện của HSSV. Trên CSDL đó đã có nhiều nghiên cứu, đánh giá về kết quả thi tuyển sinh, kết quả học tập, rèn luyện của HSSV nhưng mới chỉ dừng lại ở mức độ đơn giản, việc sinh ra các báo báo vẫn hoàn toàn thực hiện một các thủ công, thống kê kết quả học tập của HSSV mới chỉ thực hiện ở phần mềm excel tốn rất nhiều công sức nhưng chưa có nhiều nghiên cứu về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả học tập của HSSV.Thông qua đó dự báo, dự đoán kết quả học tập của HSSV. Nhằm góp phần trợ giúp các nhà quản lý có những quyết định nhanh, phù hợp để phát huy cái mới tích cực, hạn chế, ngăn chặn những sai sót trong công tác quản lý đào tạo. Do đó, việc nghiên cứu vấn đề nêu trên có vai trò rất quan trọng. Trường Đại học SPKT Hưng Yên nằm trong hệ thống các trường đại học thuộc GD&ĐT, đào tạo nhiều ngành nghề với nhiều hình thức đào tạo và nhiều hệ đào tạo khác nhau. Trường được phát triển trên cơ sở từ trường Cao đẳng SPKT Hưng Yên với bề dày hơn 35 năm. Kết quả học tập của HSSV là cơ sở để phòng Đào tạo phối hợp với các phòng, ban, khoa tổ chức năng đánh giá chất lượng người dạy và người học, báo cáo trình bộ giáo dục, từ đó trợ giúp cho Ban Giám hiệu nhà trường về định hướng đào tạo, kế hoạch chuyên môn, chỉ tiêu tuyển sinh các khóa tiếp theo…Hai năm gần đây, bộ giáo dục đã triển khai cho nhiều trường đại học sử dụng đồng bộ nhiều phần mềm cho công tác đào tạo như Edusoft: lập thời khóa biểu, quản lý hồ sơ sinh viên, quản lý điểm,…bước đầu đã thống nhất được các biểu mẫu, bảng điểm. Bên cạnh, trường cũng đã có nhiều phần mềm tiện ích khác: Quản lý vật tư, quản lý thực tập của sinh viên…Tuy nhiên những phần mềm này vẫn chưa giải quyết được câu trả lời về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả học tập của HSSV. Đây là một nhiệm vụ quan trọng trong công tác quản lý đào tạo, thu hút nhân tài. Hơn nữa, lượng HSSV thi vào trường ngày một đông, trường có 3 cơ sở với tổng diện tích sàn trên 30 ha, đây là thuận lợi và cũng là vấn đề lo lắng của trường trong việc lưu trữ dữ liệu, sinh ra các báo cáo nhiều chiều và đưa ra chiến lược đào tạo hàng năm. Do đó, đòi hỏi phải có nghiên cứu về vấn đề này để cải thiện tình hình quản lý đào tạo của trường cũng như giúp cho trường ngày một phát triển và thích ứng với trào lưu tin học hóa, và ngang tầm với các trường có bề dày lịch sử trong nước và quốc tế. Xuất phát từ vấn đề trên, chúng tôi thực hiện đề tài luận văn “Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của Hệ quản trị CSDL SQL Server 2008”. Với mong muốn góp phần trợ giúp, ra quyết định cho công tác quản lý đào tạo của trường Đại học SPKT Hưng Yên nói riêng và các trường chuyên nghiệp nói chung. Chương 1 - GIỚI THIỆU 1.1. Nhu cầu xây dựng kho dữ liệu về điểm. 1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên: Theo báo cáo kế hoạch năm 2011 và 5 năm 2011- 2015, Về tốc độ tăng trưởng quy mô học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ GD&ĐT giao hàng năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào tạo đảm bảo chi tiêu chất lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mô học sinh sinh viên tăng nhanh vào những năm cuối của kế hoạch 5 năm 2006-2010. Trong 5 năm qua Nhà trường đã xin phép để mở mới được 06 ngành đào tạo ở trình độ đại học: Công nghệ Cơ điện tử, Công nghệ kỹ thuật hóa học, Công nghệ kỹ thuật môi trường, Kế toán, Tiếng Anh và Công nghệ cơ điện. Xây dựng và thực hiện đào tạo nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của trường lên là 29, Tính đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường còn mở thêm nhiều ngành mới ở trình độ đại học: Công nghệ vật liệu, Tài chính – Ngân hàng, Tiếng Trung Quốc, Hàn Quốc. Quy mô đào tạo: tăng nhanh cả về số lượng lẫn chất lượng, năm 2010 số lượng sinh viên trên toàn trường là hơn 16000 sinh viên, dự kiến năm 2011, số lượng sinh viên sẽ tăng lên gần 18000 sinh viên với tất cả các hệ đào tạo và ngành nghề khác nhau trong toàn trường. - Đầu tư trang thiết bị: Trong giai đoạn 2011-2015 tập trung các nguồn vốn: Ngân sách Nhà nước, vốn hợp pháp của Trường và các nguồn vốn khác đầu tư từ 25 tỷ35 tỷ mua sắm trang thiết bị phục vụ đào tạo cho các khoa: Công nghệ thông tin, Công nghệ Hoá học và Môi trường, Kinh tế, May và Thiết kế thời trang, Cơ khí, cơ khí động lực, Cơ điện tử, Điện - Điện tử, Sư phạm kỹ thuật và đặc biệt ngành Công nghệ vật liệu. Tính trung bình, số lượng máy tính sử dụng tốt trong toàn trường là hơn 600 máy tính. Tuy nhiên, số máy tính này vẫn khai thác chưa triệt để, chủ yếu vẫn là phục vụ cho công tác dạy học, soạn thảo văn bản đơn giản, chưa lưu trữ các phần mềm quản lý, các tiện ích. Hiện tại, việc lưu trữ dữ liệu về sinh viên mới chỉ ở mức đơn giản trên excel, các mẫu biểu giữa các khoa chưa được thống nhất dẫn đến việc tổng hợp và báo cáo chưa được thuận lợi và chính xác. Để khắc phục nhược điểm này, nhà trường đã có chiến lược chuẩn bị cho việc tổ chức và lưu trữ dữ liệu được tốt, bằng các quy định về các mẫu biểu, thống nhất các quy trình, bước đầu, đã triển khai các phần mềm xếp thời khóa biểu, quản lý sinh viên, quản lý điểm sinh viên. Nên việc quản lý, lưu trữ các thông tin có nhiều bất cập, nguy cơ thất lạc và mất mát cao dẫn đến việc xử lý các thông tin liên quan gặp nhiều khó khăn. Như vậy, với sự phát triển nhanh chóng về số lượng sinh viên qua các năm, một vấn đề quan tâm là việc lưu trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và các thông tin về điểm của sinh viên để việc tìm kiếm nhanh và có hiệu quả. Và quan trọng hơn là việc tìm ra những dữ liệu tiềm ẩn qua các năm, định ra hướng mở rộng và phân bổ số lượng sinh viên hợp lý ở các ngành nghề khác nhau, phục vụ cho việc tổng hợp, báo cáo, dự đoán. Do đó, nhu cầu chuẩn bị xây dựng một kho dữ liệu là cần thiết và cấp bách. [5] 1.1.2. Phạm vi dự kiến của luận văn: Trong khuôn khổ giới hạn của luận văn, chúng tôi xin trình bày: Tìm hiểu cơ sở lý thuyết kho dữ liệu, một số thuật toán KPDL. Xây dựng kho dữ liệu điểm trường Đại học SPKT Hưng Yên. Thiết kế báo cáo đa chiều. Sử dụng một số thuật toán KPDL để giải quyết bài toán dự đoán. 1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam 1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới Về các hướng nghiên cứu kho dữ liệu trên Thế giới thì về cơ bản vẫn là để phục vụ cho mục tiêu xây dựng báo cáo của công ty. Tuy nhiên, mức độ khó dễ có thể khác nhau, do đó độ phức tạp của kho dữ liệu cũng khác nhau. Một số nơi có thế có các ứng dụng cao cấp hơn chẳng hạn KPDL hoặc tích hợp hệ thống. Ngày nay, thế giới đang quan tâm đến: kho dữ liệu thời gian thực, OLAP mining, mobile OLAP, thông qua những bài toán khai phá dữ liệu: phân lớp, gom cụm, dự báo để để tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn. Những công cụ khai phá dữ liệu có thể phát hiện những xu hướng trong tương lai, các tri thức mà khai phá dữ liệu mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý [18]. 1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam Ở Việt nam đa phần cũng là xây dựng các báo cáo. [11] Khai phá dữ liệu trong kho dữ liệu ở môi trường kinh doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông,…[6] Hệ hỗ trợ quyết định - Đây có thể nói là mục tiêu quan trọng nhất của doanh nghiệp khi xây dựng kho dữ liệu. Một doanh nghiệp trước khi xây dựng kho dữ liệu, nên tự đặt câu hỏi liệu kho dữ liệu đó có giúp ích gì trong việc ra quyết định kinh doanh của doanh nghiệp không. [11] Kho dữ liệu nên được xây dựng từ trên yêu cầu nghiệp vụ. Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu. Điều này có được là do sử dụng báo cáo và OLAP. Báo cáo được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong kho dữ liệu tới những người kinh doanh [6]. Thường thì các yêu cầu này liên quan đến việc sử dụng các số liệu tổng hợp, chẳng hạn count, sum, max, min, average Thường thì người ta sử dụng các số liệu kiểu này để phân tích xu hướng. [11] Sacombank là ngân hàng TMCP Việt Nam đầu tiên vừa chính thức công bố triển khai thành công dự án kho dữ liệu– giải pháp kho dữ liệu tập trung hỗ trợ công tác dự báo, phân tích và ra quyết định kinh doanh trong thời gian nhanh nhất được xây dựng dựa trên nền tảng công nghệ Oracle - lần đầu tiên triển khai thành công tại Việt Nam. Điều này là minh chứng cho tầm quan trọng của việc xây dựng một kho dữ liệu trong hiện tại và tương lai với những lợi ích.[12] Nhiều đề tài nghiên cứu khoa học, luận văn,…đã và đang được tiến hành về kho dữ liệu. 1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được 1.3.1. Hướng tiếp cận của luận văn Luận văn trình bày về vấn đề xây dựng kho dữ liệu về điểm và khai khác dữ liệu từ kho dữ liệu đã xây dựng. 1.3.2. Dự kiến kết quả đạt được Hiểu được các kiến thức về kho dữ liệu, KPDL, một số thuật toán KPDL trong bộ công cụ BI của hệ quản trị SQL Server 2008. Xây dựng kho dữ liệu về điểm sinh viên phục vụ một mục tiêu cụ thể. Thiết kế các báo cáo theo yêu cầu. Sử dụng một số thuật toán khai phá để dự đoán, ra quyết định nghiệp vụ cho trường sở tại. 1.4. Cấu trúc của luận văn Nội dung chính của luân văn gồm 4 chương, cụ thể như sau: Chương 1 - Giới thiệu Chương này trình bày về nhu cầu xây dựng kho dữ liệu về điểm của sinh viên, một số hướng nghiên cứu của kho dữ liệu, mô tả ngắn gọn hướng nghiên cứu của luận văn. Chương 2 - Kho dữ liệu và các vấn đề liên quan Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu bộ công cụ sử dụng để làm thực nghiệm. Chương 3 - Xây dựng kho dữ liệu về điểm của sinh viên Chương này trình bày về việc xây dựng kho dữ liệu về điểm của trường Đại học SPKT Hưng yên, thiết kế báo cáo đa chiều phục vụ cho việc ra quyết định. Chương 4 - Khai thác dữ liệu từ kho dữ liệu Chương này trình bày ứng dụng của một số thuật toán khai phá dữ liệu trong kho dữ liệu điểm của bộ công cụ BI. Reference TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (2010), Bài giảng “kho dữ liệu và khai phá dữ liệu”. [2] Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2010) , Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, tr 35. [3] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và Olap”, môn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13. [4] T.S Nguyễn Trí Thành (2009), chương 1, bài giảng Web mining, slide 12. [5] Trường Đại học SPKT Hưng Yên (2010), Báo cáo kế hoạch 2011 và 5 năm 2011-2015. [6] http://www.citd.edu.vn/Vietnam/Home/index.php/tai-nguyen/hc-phn-01/c-s-d-liu/1095- tng-quan-v-data-warehouse?lang= [7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70. [8] Phạm Thị Thu, nghiên cứu KPDL trong Microsoft Server 2005 với thuật toán MICROSOFT ASSOCIATION RULES và MICROSOFT DECISION TREE, , khóa luận tốt nghiệp, nguồn: http://www.mediafire.com/?mmgggjn22yw , tr 47 – 51. [9] SQL Server tutorials, SQL Server 2008 Books Online [10] Hoàng Đình Thắng (2010), tiểu luận môn học “Các vấn đề hiện đại về hệ thống thông tin”,lớp k15HTTT, giáo viên hướng dẫn Nguyễn Ngọc Hóa, tr 3- 16. [11] Http://www.fotech.org/forum/index.php?s=1631c11479599b3dc50889f83ab 205b3& showtopic=25068&st=20 [12] Http://dddn.com.vn/20110423122943803cat187/sacombank-trien-khai-thanh-cong- data-warehouse-voi-giai-phap-oracle-exadata.htm Tiếng anh: [13] McGraw-Hill (2008), Delivering Business Intelligence with Microsoft SQL Server 2008. [14] Wiley.Data.Mining.with.SQL.Server.2005.Sep.2005.eBook-DDU [15] Apress (2008) - Building a Data Warehouse, With Examples In Sql Server. [16] Wrox (2008) - Professional Microsoft SQL Server 2008 Reporting Services. [17] Wiley (2008) – Data mining with Microsoft SQL Server 2008. [18] http://www.dexa.org/node/42 [19] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp. 29- 51. . Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của Hệ quản trị CSDL SQL Server 2008 Trịnh Thị Nhị Trường Đại học Công nghệ Luận. từ vấn đề trên, chúng tôi thực hiện đề tài luận văn Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của Hệ quản trị CSDL SQL Server 2008 . Với. định. Khai thác dữ liệu từ kho dữ liệu: trình bày ứng dụng của một số thuật toán khai phá dữ liệu trong kho dữ liệu điểm của bộ công cụ BI. Keywords. Công nghệ thông tin; Khai thác dữ liệu; Quản