1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thiết kế và xây dựng kho dữ liệu phục vụ công tác đào tạo tại trung tâm elearning viện đại học mở hà nội

86 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tác giả luận văn Nguyễn Minh Đức LỜI CẢM ƠN Đầu tiên, xin gởi lời cám ơn chân thành đến Cha Mẹ, người luôn ủng hộ vật chất lẫn tinh thần để giúp vượt qua khó khăn q trình thực luận văn Đồng thời, cám ơn quý thầy cô Khoa Công Nghệ Thông Tin truyền đạt kiến kinh nghiệm quý báo cho chúng em tạo điều kiện tốt cho chúng em suốt trinh học tập trường thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn chân thành đến thầy Đinh Tuấn Long người tận tình hướng dẫn tơi thực thành công luận Tôi cảm ơn bạn trung tâm E-Learning – Viện Đại học Mở Hà Nội nhiệt tình giúp đỡ, hướng dẫn, hỗ trợ khai thác liệu có góp ý quý báo trình thực luận văn Xin chân thành cám ơn! Hà Nội, ngày 11/05/2017 Tác giả luận văn Nguyễn Minh Đức MỤC LỤC CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 TỔNG QUAN VỀ KHO DỮ LIỆU 1.1.1 Khái niệm kho liệu (Data Warehouse) 1.1.2 So sánh khác CSDL tác nghiệp kho liệu 1.1.3 Đặc tính kho liệu 1.1.4 Mục đích kho liệu 1.1.5 Data mart 1.1.6 Sử dụng kho liệu 1.1.7 Kiến trúc kho liệu 1.1.8 Mơ hình kho liệu 1.2 MƠ HÌNH ĐA CHIỀU (Dimensional model) 14 1.2.1 Giới thiệu 14 1.2.2 Mơ hình hóa đa chiều (Dimensional Modeling) 15 1.2.3 Kiến trúc Bus 19 1.2.4 Các ngun lý thiết kế mơ hình đa chiều 20 1.3 EXTRACTION – TRANSFORMATION – LOADING (ETL) 23 1.3.1 Khái quát tích hợp liệu 23 1.3.2 Những hoạt động tích hợp liệu 23 1.4 XỬ LÝ PHÂN TÍCH TRỰC TUYẾN (OLAP) 30 1.4.1 OLAP gì? 30 1.4.2 Các kiến trúc OLAP 30 1.4.3 So sánh kiến trúc OLAP 32 1.4.4 Khối (Cube) Chiều (Dimension) OLAP 32 1.4.5 Ngôn ngữ MDX 35 1.4.6 Tính tốn MDX 40 1.5 BUSINESS INTELLIGENCE (BI) 41 1.5.1 Giới thiệu BI 41 1.5.2 Các thành phần BI 41 1.6 CÔNG NGHỆ PENTAHO 43 1.6.1 Giới thiệu chung 43 1.6.2 Các thành phần Pentaho BI server 43 1.6.3 Các chương trình desktop 48 CHƯƠNG MƠ HÌNH ĐỀ XUẤT GIẢI QUYẾT BÀI TỐN 50 2.1 Mơ hình tốn 50 2.2 Đặc thù toán Viện Đại Học Mở 50 2.3 Vấn đề phát sinh 50 2.4 Các phương tiếp cận để pháp tổng hợp liệu 51 2.5 Đề xuất áp dụng kho liệu vào công tác đào tạo 51 2.6 Các nguồn liệu sử dụng 52 2.7 Về kho liệu 53 2.8 Một số giải pháp 53 2.9 Lựa chọn công nghệ 54 CHƯƠNG NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU 56 3.1 THỰC TRẠNG NGHIỆP VỤ TỔ CHỨC ĐÀO TẠO E-LEARNING 56 3.1.1 Thực trạng 56 3.1.2 Yêu cầu nghiệp vụ 57 3.2 PHÂN TÍCH YÊU CẦU 58 3.2.1 Nội dung yêu cầu 58 3.2.2 Phân hệ quản lý sinh viên 60 3.3 THIẾT KẾ 63 3.3.1 Quy trình tổng thể kho liệu 63 3.3.2 Mơ hình kiến trúc hệ thống 64 3.3.3 Mơ hình triển khai ứng dụng 65 3.3.4 Thiết kế chi tiết kho liệu 65 3.3.5 Các khối OLAP 68 3.4 KẾT QUẢ XÂY DỰNG KHO DỮ LIỆU 74 3.4.1 Giới thiệu sản phẩm 74 3.4.2 Kết đạt 74 3.4.3 Hạn chế 75 3.4.4 Khó khăn 76 3.4.5 Hướng phát triển 76 DANH MỤC CÁC THUẬT NGỮ, CÁC CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt DW Data Warehouse Kho liệu BI Business Intelligence Doanh nghiệp thông minh CSDL Database Cơ sở liệu Extraction – Transformation – Khai thác - chuyển đổi – Tải Loading liệu Hybrid Online Analytical Xử lý phân tích trực tuyến hỗn Processing hợp MultiDimensional Expression Biểu đa chiều Multidimensional Online Xử lý phân tích trực tuyến theo Analytical Processing đa chiều MQL Metadata Query Language Ngôn ngữ truy vấn siêu liệu OLAP Online Analytical Processing Xử lý phân tích trực tuyến OLTP Online Transaction Processing Xử lý giao dịch trực tuyến Relational Online Analytical Xử lý phân tích trực tuyến theo Processing quan hệ Structured Query Language Ngơn ngữ truy vấn có cấu trúc ETL HOLAP MDX MOLAP ROLAP SQL DANH MỤC CÁC HÌNH VẼ Hình 1.1 – Kiến trúc kho liệu doanh nghiệp Hình 1.2 – Kiến trúc Data mart độc lập Hình 1.3 – Kiến trúc Data mart phụ thuộc 10 Hình 1.4 – Mơ hình kho liệu doanh nghiệp 10 Hình 1.5 – Mơ hình Data mart độc lập 12 Hình 1.6 – Mơ hình Data mart phụ thuộc 13 Hình 1.7 – Ví dụ lược đồ hình 17 Hình 1.8 – Ví dụ lược đồ hình bơng tuyết 19 Hình 1.9 – Ví dụ mơ hình kiến trúc bus 20 Hình 1.10 – Kiến trúc hệ thống ROLAP 26 Hình 1.11 – Kiến trúc hệ thống MOLAP 26 Hình1.12 – Ví dụ khối chiều 32 Hình 1.13 – Kỹ thuật Drill - down 32 Hình 1.14 – Kỹ thuật Roll - up Slide & Dice: chọn chiếu liệu 33 Hình 1.15 – Kỹ thuật Slice & Dice 34 Hình 1.16 – Mơ hình hệ thống BI 41 Hình 1.17 – Các thành phần Pentaho BI server 45 Hình 1.18 – Giao diện Pentaho BI Server 48 Hình 2.1 – Minh họa kiến trúc giải pháp đề xuất 55 Hình 3.1 – Quy trình thực hệ thống quản lý đào tạo 58 Hình 3.2 – Mơ hình phân hệ quản lý sinh viên (QLĐT) 59 Hình 3.3 – Sơ đồ Usecase phân hệ quản lý sinh viên 61 Hình 3.4 – Sơ đồ tổng thể hệ thống 63 Hình 3.5 – Kiến trúc hệ thống 64 Hình 3.6 – Mơ hình triển khai 65 Hình 3.7 – Mơ hình liệu fact CourseActivity 67 Hình 3.8 – Mơ hình liệu fact ForumActivity 68 Hình 3.9 – Transformation fact CourseActivity 68 Hình 3.10 – Transformation fact ForumActivity 68 Hình 3.11 – Kết nối tới PostgreSQL 69 HÌnh 3.12 – Public Schema lên hệ thống Pentaho 71 Hình 3.13 – Màn hình đăng nhập User control 72 DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Bảng 1.2 Bảng 1.3 Bảng 3.1 – – – – Ví dụ mơ tả kiến trúc bus 21 Bảng so sánh kiến trúc OLAP 32 Các trục MDX 36 Đặc tả phân hệ quản lý sinh viên 62 MỞ ĐẦU E-Learning đời thay đổi phương pháp dạy học truyền thống, phương thức dẫn tới yêu cầu nhằm đáp ứng mục đích giáo dục đào tạo Việc đánh giá hiệu học tập sinh viên trở nên phức tạp có nhiều liệu liên quan tới hành vi hoạt động sinh viên kết xuất từ nhiều hệ thống khác Vì vậy, việc cần có nghiên cứu liên quan tới việc đánh giá sinh viên hệ thống quản lý học tập trực tuyến (LMS – Learning Management System) cần thiết Bài viết đề xuất phương pháp ứng dụng Data Warehouse việc tổng hợp liệu, đánh giá kết hoạt động sinh viên giúp cho việc đánh giá sinh viên toàn diện hơn, với mong muốn mang lại hiệu đào tạo tốt cho hệ thống Đây nguồn liệu có giá trị cho cơng tác thống kê, báo cáo phân tích Tuy nhiên, để sử dụng hiệu đòi hỏi liệu phải tổ chức, xử lý phức tạp khó khăn Ngày nay, phương pháp phổ biến sử dụng Data Warehouse (DW) Business Intelligence (BI) Với giải pháp này, giúp nâng cao hiệu công việc, giảm chi phí, thời gian, tiết kiệm nguồn nhân lực hỗ trợ định từ lãnh đạo Hiện có nhiều công nghệ hỗ trợ xây dựng kho liệu Microsoft, Oracle, IBM Tuy nhiên, luận văn sử dụng công nghệ Pentaho, cơng nghệ mã nguồn mở miễn phí Do đó, phù hợp với trường xu sử dụng phần mềm nguồn mở tiết kiệm chi phí cho nhà trường 3.3.2 Mơ hình kiến n trúc hệ h thống Hình 3.5 – Kiến trúc hệ thống Tier 1:: Trình bày giao di diện hệ thống đến người sử dụng Ngồi ài ra, cịn giúp người dùng tương tác với ới hệ thống, nhập liệu, hiển thị kết Đối vvới hệ thống trình duyệt thựcc thi kết k cho người dùng Tier 2: Đây tầng ầng nằm nằ tầng Tier Tier Nhiệm ệm vụ tầng thực hiện, xử lý chức ức nă xử lý liệu đưa lên giao diện ện ho truy xuất tới CSDL Tier Tier 3: Đây nơi lưu lư trữ liệu hệ thống Mọi thao hao tác vvới liệu từ tầng phải thông qua tầng ầng n 64 3.3.3 Mơ hình triển khai ứng dụng Hình 3.6 – Mơ hình triển khai 3.3.4 Thiết kế chi tiết kho liệu Từ công cụ Data Intergation công cụ pentaho Spoon ta tạo kho liệu sau: Thiết kế fact sau: CourseActivity_Fact: fact chứa thông tin chi tiết hoạt động học tập sinh viên khóa học học kỳ như: mơn học, lịch học, điểm danh, điểm tổng kết, kết thi, nợ môn ForumActivity_Fact: fact chứa thông tin truy cập diễn đàn, viết, tin nhắn, nhật ký, bình luận Thiết kế chiều dimension Date_Dim: tập hợp theo thời gian, ngày, tháng, tuần, quý, năm Students_Dim: thu thập thông tin học sinh, chẳng hạn tên, giới tính, major, thành phố, lĩnh vực nghiên cứu, vv 65 Courses_Dim: chứa thơng tin khóa học tên, loại, học kỳ, vv Major_Dim: chứa liệu chuyên ngành, môn học, tiến chỉ, hệ số Topic_Dim: chia bình luận theo chủ đề Sơ đồ liệu Hình 3.7 - Mơ hình liệu fact CourseActivity 66 Hình 3.8 - Mơ hình liệu fact ForumActivity Sơ đồ thiết kế Pentaho Hình 3.9 - Transformation fact CourseActivity 67 Hình 3.10 - Transformation fact ForumActivity 3.3.5 Các khối OLAP 3.3.5.1 Tạo khối Cube Để tạo cube ta dùng công cụ Schema Workbench công cụ Pentaho Ta kết nối tới PostgreSQL 68 Hình 3.11 – Kết nối tới PostgreSQL Ta tạo Schema cube với độ sum avg 69 Hình 3.12– Tạo Schema course_c Sau ta public lên hệ thống Pentaho, lưu lại HÌnh 3.13 – Public Schema lên hệ thống Pentaho 70 3.3.5.2 Analysis View Pentaho cung cấp tiện ích áp dụng kỹ thuật OLAP Analysis View Ngồi ta áp dụng Pentaho áp dụng Mondrian Đầu tiên kết nối Pentaho tới csdl mà cần phân tích, khởi chạy User console login từ công cụ Pentaho, đăng nhập tài khoản mặc định user ‘admin’ password ‘password’ Hình 3.14– Màn hình đăng nhập User control Sau đăng nhập, ta tạo mớiAnalysis View chọn schema cube lưu trước 71 Hình 3.15– Màn hình thiết kế Analysis Sau thiết kế hồn thiện, lưu lại file Analysis máy chủ phục vụ việc sử dụng Dashboard Để tạo Dashbroad quay lại trang chủ, chọn New / Dashboarb Ở tùy chọn giao diện kéo thả Analysis vào vùng để thị liệu lên 72 Hình 3.16 – Màn hình thiết kế Dashboarb 73 3.4 KẾT QUẢ XÂY DỰNG KHO DỮ LIỆU 3.4.1 Giới thiệu sản phẩm Sản phẩm bao gồm kho liệu lưu trữ hệ quản trị sở liệu PostgreSQL, hệ thống quy trình ETL lưu trữ máy chủ Pentaho để thực cập nhật liệu vào kho theo thời gian website để trình bày báo cáo OLAP, báo cáo truyền thống Giới thiệu, sử dụng, áp dụng công cụ Pentaho vào hỗ trợ công tác đào tạo trung tâm 3.4.2 Kết đạt Sau trình khoảng bốn tháng thực luận văn, với nổ lực thân, hướng dẫn tận tình thầy Đinh Tuấn Long, với góp ý chân thành từ bạn sinh viên khóa anh/chị trung tâm E-Learning Viện Đại Học Mở Hà Nội Kết xây dựng thành công hệ thống kho liệu phục vụ công tác đào tạo trung tâm Kết bao gồm hai phần sau: Về lý thuyết Hiểu lý thuyết kho liệu kiến trúc Quy trình xây dựng mơ hình cở sở liệu đa chiều Tìm hiểu hệ thống phân tích trực tuyến OLAP Quy trình chiết xuất, chuyển đổi tải liệu vào kho Ngôn ngữ truy vấn khối MDX Công nghệ mã nguồn mở Pentaho số công nghệ khác Oracle, Java, Ajax,… Về sản phẩm Nghiên cứu cài đặt sử dụng thành công công nghệ Pentaho: o Pentaho BI server (máy chủ Pentaho) o Pentaho Data Integration (cơng cụ tích hợp liệu) 74 o Pentaho Reporting Design (công cụ thiết kế báo cáo, thống kê dạng truyền thống) o Mondrian Schema Workbench (công cụ thiết kế OLAP) o Và số công cụ khác Pentaho Hiểu hệ thống quản lý đào tạo trường Phân tích tình hình đưa giải pháp tối ưu nhằm để giảm chi phí phù hợp với tình hình thực tế nhà trường Thiết kế kiến trúc tổng thể cho tồn hệ thống Thiết kế mơ hình data mart lĩnh vực phân hệ Xây dựng thành cơng quy trình ETL tích hợp tồn liệu nguồn vào kho liệu Ngoài ra, để tăng tốc độ truyền tải liệu vào kho, nhóm chúng tơi đưa giải pháp để nâng cao tốc độ truyền tải liệu Xây dựng thành công website với công nghệ Java nhúng báo cáo hai dạng phân tích liệu trực tuyến OLAP dạng truyền thống trường 3.4.3 Hạn chế Mặc dù cố gắn hoàn thiện hệ thống, nhiên hệ thống số hạn chế sau: Về lý thuyết: số thuật ngữ dịch từ tiếng Anh sang tiếng Việt chưa thật xác, mang tính tương đối Ngồi ra, chưa nghiên cứu hết công cụ Pentaho thời gian hạn chế, nghiên cứu số công cụ bật để giải toán Về sản phẩm: thời gian phát triển tương đối ngắn, nên số mẫu báo cáo, thống kê giao diện chưa thật đẹp hợp lý Ngoài ra, giao diện hệ thống chưa thật thân thiện với người dùng Đồng thời, số phân hệ phải sử dụng CSDL giả lập nên báo cáo, thống kê chưa giải yêu cầu thực tế 75 3.4.4 Khó khăn Trong trình thực luận văn, bên cạnh thuận lợi chúng tơi gặp nhiều khó khăn: Thời gian phát triển hệ thống tương đối ngắn phải thực yêu cầu phạm vi lớn Đồng thời, yêu cầu chưa rõ ràng, nên số chức cần phải tự phát triển Đây lĩnh vực mẻ thân tôi, tài liệu liên quan dự án tương tự để tham khảo chủ yếu tiếng Anh Do đótơi gặp nhiều khó khăn q trình tiếp cận định hướng phát triển đề tài 3.4.5 Hướng phát triển Từ kết làm hệ thống phát triển thêm tính cải thiện hạn chế tại: Xây dựng báo cáo, thống kê khai phá liệu Xây dựng báo cáo, thống kê dạng dashboard Truy xuất dạng metadata Sử dụng CSDL dạng MOLAP, HOLAP Hoàn thiện giao diện chương trình mẫu báo cáo, thống kê Nâng cao tốc độ tải liệu vào kho Phát triển thêm số báo cáo, thống kê phân tích liệu số phân hệ hệ 76 KẾT LUẬN Kết thu trình xây dựng hệ thống kiến trúc hệ thống, mơ hình data mart, quy trình tải liệu nguồn vào kho liệu sau liệu chiết xuất, chuyển đổi làm hệ thống website cung cấp báo cáo liệu dạng truyền thống báo cáo phân tích liệu trực tuyến OLAP;Cũng tài liệu lý thuyết kho liệu, mơ hình đa chiều, OLAP, MDX, ETL công nghệ Pentaho Đây hệ thống mới, tận dụng nguồn tài nguyên liệu có sẵn Khi triển khai vào công tác thực tế, hệ thống góp phần cải thiện đáng kể khó khăn công tác quản lý, báo cáo, thống kê phân tích tại, nâng cao hiệu cơng việc đồng thời hỗ trợ định từ lãnh đạo Nhìn chung kết đạt đáp ứng yêu cầu đặt 77 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Nguyễn Thanh Bình,Kho liệu hệ thống hỗ trợ định Đại học Huế [2] Trần Đình Chiến (2006),Phương pháp xử lý, phân tích trực tuyến, áp dụng xây dựng hệ thống giúp định dựa vào kho liệu Đại học Bách khoa Hà Nội Tài liệu tiếng Anh: [3] Claudia Imhoff, Nicholas Galemmo, Jonathan G Geiger (2003),Mastering Data Warehouse Design Wiley [4] Erik Thomsen (2002),OLAP Solutions: Building Multidimensional Information System Wiley [5] Harm van de Lek (1998),Stars and Dimensions HAN University [6] Maria Carina Roldan (2010),Pentaho 3.2 Data Integration PACKT Publishing [7] Ralph Kimball, Margy Ross (2002),The Data Warehouse Toolkit Second Edition: The complete guid to Dimensional Modeling Wiley [8] Roland Bouman, Jos van Dongen (2009),Pentaho Solutions: Business Inteligence and Data Ware housing with Pentaho and MySQL Wiley [9] Vincent Rainardi (2007),Building a Data Warehouse With Examples in SQL Server Apress [10] Will Gorman (2009),Pentaho Reporting 3.5 for Java Developers PACKT Publishing Tài liệu từ nguồn internet: [11] http://courses.coreservlets.com/Course-Materials/ajax.html [12] http://en.wikipedia.org/wiki/Data_warehouse [13] http://en.wikipedia.org/wiki/Online_analytical_processing [14] http://en.wikipedia.org/wiki/Dimensional_modeling [15] http://en.wikipedia.org/wiki/Extract,_transform,_load [16] http://forums.pentho.com 78

Ngày đăng: 29/08/2023, 15:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w