Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
373,86 KB
Nội dung
Mục lục MỞ ĐẦU MỞ ĐẦU Hiện nay việc ứng dụng công nghệ thông tin trong các trường đại học đã mang lại những lợi ích lớn lao cho công tác quản lý của phòng đào tạo cũng như nhà trường. Hệ thống quản lý thông tin trong các trường đại học là một hệ thống lớn gồm nhiều phòng, ban, khoa và có nhiều đối tượng sử dụng. Tuy nhiên đa số các trường đại học có các ứng dụng công nghệ thông tin còn rời rạc và không thống nhất, trong đó mỗi khoa, mỗi phòng, ban đều sử dụng các ứng dụng đáp ứng yêu cầu cụ thể của đơn vị mình, các công cụ, phần mềm, cơ sở dữ liệu cũng khác nhau. Từ đó dẫn đến các khó khăn trong công tác quản lý như: dữ liệu chưa được đồng bộ, chưa xây dựng được hệ thống thông tin thống nhất phục vụ việc trao đổi dữ liệu giữa các phòng ban, khoa. Từ thực trạng trên rất cần thiết xây dựng một mô hình kho dữ liệu phục vụ đào tạo một cách tối ưu, giải pháp tối ưu nhất là xây dựng các kho dữ liệu cục bộ tại các phòng, ban, khoa: trước hết nhằm phục vụ cho nhu cầu dữ liệu của chính phòng, ban, khoa đó; sau đó có thể tiến hành tích hợp các kho dữ liệu cục bộ thành kho dữ liệu thống nhất trong toàn trường. Mô hình kho dữ liệu phân tán sẽ đáp ứng được những yêu cầu trên, nó giúp việc tổ chức lưu trữ và khai thác dữ liệu một cách hiệu quả, từ đó xây dựng được hệ thống quản lý thông tin thống nhất trong toàn trường. Đó cũng chính là mục tiêu và nội dung báo cáo của nhóm 5. Với tên đề tài: "Tìm hiểu về kho dữ liệu phân tán và ứng dụng trong các trường đại học", chúng tôi mong muốn mang đến cho người đọc cái nhìn tổng quan về kho dữ liệu phân tán và ứng dụng cụ thể của nó vào việc quản lý thông tin trong các trường đại học. Nội dung báo cáo gồm bốn phần chính như sau: - Chương 1: Giới thiệu một số khái niệm cơ bản - Chương 2: Giới thiệu mô hình kho dữ liệu phân tán - Chương 3: Quy trình xây dựng và tích hợp kho dữ liệu phân tán ở các trường đại học. - Chương 4: Tổng kết CHƯƠNG I. MỘT SỐ KHÁI NIỆM CƠ BẢN 1.1 Định nghĩa kho dữ liệu (data warehouse - DW) Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định [1]. Theo John Ladley [2], công nghệ kho dữ liệu (data warehouse technology) là tập các phương pháp, kĩ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau. Kho dữ liệu rất lớn, thường là hàng trăm gigabyte, thậm chí hàng terabyte. 1.2 Đặc tính của kho dữ liệu Những đặc điểm cơ bản của kho dữ liệu là một tập hợp dữ liệu có các tính chất sau: tính tích hợp; dữ liệu gắn thời gian và có tính lịch sử; dữ liệu có tính ổn định, không biến động; dữ liệu tổng hợp. 1.3 Kho dữ liệu cục bộ (data mart - DM) 2 Kho dữ liệu cục bộ là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành [3] Kho dữ liệu cục bộ là một kho dữ liệu riêng rẽ theo phương diện vật lý, thường được lưu trữ trong một server riêng trong một mạng cục bộ phục vụ cho một nhóm đối tượng nhất định. Kho dữ liệu cục bộ thường được chia làm 2 loại: DM phụ thuộc và DM độc lập. 1.3.1. Data mart phụ thuộc (Dependent Data Marts) Chứa những dữ liệu được lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của DM [4]. 1.3.2. Data Mart độc lập (Independent Data Marts): Data Mart độc lập được xây dựng trước DW, dữ liệu được lấy trực tiếp từ các nguồn khác nhau [4]. Phương pháp này chi phí thấp và đơn giản hơn, nhưng đổi lại có những điểm yếu là mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu giữa các DM không đồng nhất với nhau. Một số đặc tính quan trọng của DM độc lập: tính tự trị về dữ liệu cao; được sử dụng trong việc phân tích hỗ trợ quyết định theo mục đích chung; có thể dựa vào bất kì kĩ thuật nào ( như quan hệ, hướng đối tượng, phân tán, ); chứa cả dữ liệu tóm lược và chi tiết. Cấu trúc mở rộng của DM mở rộng làm cho nó linh hoạt hơn so với DM phụ thuộc. Nó thường được lấy trong các tổ chức nhỏ hơn, thiếu nguồn để xây dựng một kho dữ liệu tập trung, hoặc là những môi trường cần kết hợp lớn, nơi mà chúng có thể thay thế những kho dữ liệu tập trung bị thất bại. 3 4 Hình 1: Data Mart phụ thuộc ( Dependent Data Mart) 1.4 Cơ sở dữ liệu phân tán ( Distributed Database) Một CSDL phân tán là sự tập hợp dữ liệu phân tán về mặt luận lý, chúng cùng một hệ thống nhưng được trải rộng ở nhiều nơi (site) của một mạng máy tính [5]. Định nghĩa này nhấn mạnh hai khía cạnh quan trọng như nhau của một CSDL phân tán là: Sự phân tán (Distribution): Dữ liệu không tập trung ở một nơi (hiểu theo nghĩa bộ xử lý - processor), điều mà chúng ta có thể phân biệt với một CSDL tập trung, đơn lẻ. Sự tương quan luận lý (Logical correlation): Nghĩa là dữ liệu có những tích chất liên hệ mật thiết với nhau, điều mà chúng ta phân biệt một CSDL phân tán với một tập hợp các CSDL cục bộ ( local database) hoặc các tập tin thường trú ở những nơi khác nhau của một mạng máy tính. Các mức trong suốt phân tán ( distribution transparency): là tính độc lập của chương trình ứng dụng đối với việc phân tán dữ liệu, ẩn đi các chức năng phân tán từ phía người dùng. Trong hệ thống phân tán, yêu cầu về trong suốt vị trí đối với người sử dụng dữ liệu là rất quan trọng, người dùng không cần biết dữ liệu được lưu trữ vật lý ở đâu trong hệ thống mạng. Nếu có các data link cần thiết, người dùng có thể truy cập vào đối tượng dữ liệu từ xa như thể trên máy cục bộ. Vấn đề trong suốt phân tán được thực hiện thông qua phân mảnh dữ liệu: phân rã các quan hệ toàn cục thành các mảnh, có thể thực hiện bằng cách áp dụng hai loại phân mảnh khác nhau: - Phân mảnh ngang (horizontal fragmentation): - Phân mảnh dọc (vertical fragmentation): i RuniRu ∈∈∃∈∀ :],1[, )(:],1[),( i RAttrAniRAttrA ∈∈∃∈∀ 5 Hình 2: Data Mart độc lập ( Independent Data Mart) Với Attr(R) là tập thuộc tính của quan hệ R; CHƯƠNG II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN Kho dữ liệu phân tán bao gồm sự kết hợp của hai khái niệm cơ bản là sự tích hợp (Intergration) các thành phần dữ liệu và sự phân tán (Distribution) thông qua các thành phần của mạng như hình 3: Kho dữ liệu phân tán (Distributed Data Warehouse - DDW) có thể được định nghĩa như là sự tích hợp logic của một tập các chia sẻ dữ liệu của các dữ liệu được phân tán về mặt vật lý qua các node của một mạng máy tính [4]. Kho dữ liệu phân tán có hai kiến trúc chính là kho dữ liệu phân tán thuần nhất và kho dữ liệu phân tán không thuần nhất. 6 Hình 3: Tích hợp và phân tán dữ liệu 2.1. Kho dữ liệu phân tán thuần nhất (Homogenous Distributed Data Warehouses) Kho dữ liệu phân tán thuần nhất là kho dữ liệu mà trong đó tất cả các kho dữ liệu cục bộ (DM) ở các nơi (site) phải dùng chung một hệ quản trị cơ sở dữ liệu. Ví dụ trong hệ thống CSDL phân tán thuần nhất Oracle thì tại mọi vị trí đều phải dùng hệ quản trị CSDL Oracle. Mô hình kho dữ liệu phân tán thuần nhất được minh họa trong hình 4: Kiến trúc kho dữ liệu phân tán thuần nhất có một số ưu điểm là: Quản trị dễ dàng vì tất cả DM đều dùng chung một DBMS; Công tác chuyển đổi dữ liệu đơn giản vì tất cả các DM đều dùng chung một cấu trúc dữ liệu và các ràng buộc dữ liệu; Việc tích hợp dữ liệu giữa các nguồn đơn giản, dễ quản lý; Thời gian đáp ứng các truy vấn nhanh. 7 Hình 4: Mô hình kho dữ liệu phân tán thuần nhất Tuy nhiên, kho dữ liệu phân tán thuần nhất thích hợp đối với những hệ thống xây dựng mới và có chiến lược từ đầu, còn với những hệ thống thừa kế dữ liệu từ các nguồn đã có thì công việc chuyển đổi và tích hợp dữ liệu mất rất nhiều thời gian và phức tạp, đòi hỏi phải có công cụ chuyển đổi. 2.2 Kho dữ liệu phân tán không thuần nhất (heterogenous Distributed Data Warehouses) Kho dữ liệu phân tán không thuần nhất là kho dữ liệu mà trong đó các kho dữ liệu cục bộ (DM) ở các nơi (site) có thể không dùng chung một hệ quản trị cơ sở dữ liệu. Kiến trúc kho dữ liệu phân tán không thuần nhất có một số ưu điểm sau: Kế thừa được các nguồn dữ liệu ở các DM đã tồn tại; Thích hợp cho các hệ thống xây dựng trên cơ sở mở rộng hệ thống đã có; Tính tự trị cao. Tuy nhiên hệ thống phân tán không thuần nhất gặp khó khăn trong việc tích hợp, chuyển đổi cũng như công tác quản trị dữ liệu vì mỗi DBMS có cấu trúc dữ liệu, ràng buộc, cách thức truy vấn , bảo mật dữ liệu khác nhau. 8 2.3. Quản trị kho dữ liệu phân tán Nhiệm vụ chính để tạo lập và quản trị kho dữ liệu phân tán gồm các công việc chính sau: Chuyển đổi dữ liệu: Nhiệm vụ rất quan trọng khi khởi tạo một kho dữ liệu là cho phép người quản trị có thể chuyển đổi dữ liệu từ các định dạng khác nhau (MS Excel, MS Access, XML, SQL SERVER) từ các nguồn khác nhau đã tồn tại trước đó về định dạng thống nhất. Tích hợp dữ liệu: Chức năng tích hợp dữ liệu cho phép người quản trị dữ liệu có thể tích hợp dữ liệu từ các Data Mart khác nhau trong công ty. Nguyên tắc của tích hợp dữ liệu giữa các Data Mart là các Data Mart trao đổi dữ liệu phải có các bảng có cấu trúc giống nhau và dựa trên khóa chính. Đồng bộ dữ liệu: Chức năng này cho phép người quản trị kho dữ liệu so sánh, làm sạch dữ liệu để cho dữ liệu giữa các Data mart làm cho dữ liệu trong hệ thống có tính nhất quán cao. Tạo mới: Chức năng này cho phép tạo ra các bảng mới trong Data Mart đích trong các trường hợp Data Mart đích chưa có bảng dữ liệu tương ứng với Data mart nguồn. Công việc này rất cần thiết khi mới khởi tạo các Data Mart. Lọc dữ liệu: Đây là chức năng cho phép trích chọn dữ liệu theo một số tiêu chí của dữ liệu trong Data Mart nào đó để kiểm tra, cập nhật hay đưa vào các Data Mart đích. Phân tán dữ liệu: Chức năng này cho phép người quản trị kho dữ liệu có thể phân tán dữ liệu giữa các Data Mart trong hệ thống. Phân tán ngang cho tạo ra các bảng dữ liệu được phân tán theo cách giữ nguyên cấu trúc bảng trong Data Mart nguồn nhưng có thể hiện dữ liệu khác. Hợp nhất: Chức năng hợp nhất dữ liệu được thực hiện nếu các bảng được phân tán theo chiều dọc đã được thực hiện trước đó qua chức năng phân tán dữ liệu. Yêu cầu của phân tán theo chiều dọc là tất cảc các bảng tham gia 9 Hình 5: Kho dữ liệu phân tán không thuần nhất hợp nhất phải có cùng khóa chính. Chức năng này cho phép tổng hợp dữ liệu từ các bảng khác nhau thông qua khóa chính. 2.4. Đánh giá ưu, nhược điểm của kho dữ liệu phân tán 2.4.1. Ưu điểm: - Có thể xây dựng nhanh chóng. Mỗi kho cục bộ có thể kiểm soát trên chính thiết kế và tài nguyên của nó. - Lợi ích của kho dữ liệu phân tán được chứng minh trong hầu hết các tổ chức trên cơ sở thời gian thực. - Chi phí xây dựng rẻ hơn nhiều so với giải pháp dùng kho tập trung. Phần cứng và phần mềm cần nạp vào một kho dữ liệu sử dụng công nghệ phân tán ít hơn nhiều so với kho dữ liệu tập trung và thường là các đơn vị đã có sẵn. - Không giới hạn dữ liệu ở các kho cục bộ và ở kho toàn cục. Nếu lượng dữ liệu trong kho vượt quá giới hạn cho phép của một tiến trình phân tán, thì một tiến trình khác sẽ được thêm vào mạng. - Việc truyền dữ liệu và các truy vấn nhiều bàng không gặp vấn đề lớn về công nghệ. 2.4.2. Nhược điểm của kho dữ liệu phân tán - Trong môi trường phân tán, người sử dụng sẽ gặp khó khăn trong các vấn đề tích hợp dữ liệu, lọc dữ liệu, chuyển đổi dữ liệu, đồng bộ dữ liệu, vì dữ liệu được phân tán ở nhiều nơi, mỗi kho cục bộ sử dụng các DBMS khác nhau nên có công nghệ khác nhau, cấu trúc dữ liệu, ràng buộc dữ liệu, khác nhau. - Nếu kho dữ liệu được trải rộng trên nhiều máy chủ thì sẽ tăng chi phí quản lý dữ liệu và nhân lực quản lý. - Có thể xảy ra tình trạng dư thừa dữ liệu nếu có nhiều DM cùng lưu trữ một số dữ liệu như nhau. - Trong môi trường phân tán, vai trò và trách nhiệm có thể không rõ ràng. 10 [...]... DỰNG VÀ TÍCH HỢP KHO DỮ LIỆU PHÂN TÁN Ở CÁC TRƯỜNG ĐẠI HỌC Nhìn chung, quy trình xây dựng và tích hợp kho dữ liệu phân tán ở các trường đại học được thực hiện như sau: 1 Xác định các yêu cầu dữ liệu và các nguồn dữ liệu của các phòng, ban, khoa 2 Xây dựng các Data Mart độc lập: - Xác định các dữ liệu cần lưu trữ trong các Data Mart; - Xác định các nguồn dữ liệu đã có và kế thừa; - Xây dựng cấu trúc các. .. thực hiện các công việc như: chuyển đổi dữ liệu, tích hợp dữ liệu, trích lọc dữ liệu, làm sạch dữ liệu, phân tán dữ liệu, 6 Tổ chức khai thác kho dữ liệu phục vụ quản lý đào tạo: Triển khai các chương trình ứng dụng khai thác dữ liệu trong kho phục vụ công tác quản lý đào tạo trong nhà trường Tình hình sử dụng dữ liệu trong các trường đại học có thể được tổng hợp như sau: S Đơn vị Dữ liệu sử dụng Chương... thông tin lớn trong môi trường ứng dụng công nghệ thông tin Các trường đại học là các đơn vị có nhu cầu xử lý dữ liệu lớn, khối lượng dữ liệu lưu trữ nhiều, yêu cầu thường xuyên cập nhật, phân cấp giữa các khoa, phòng, ban, Vì vậy việc ứng dụng kho dữ liệu phân tán vào các trường đại học trở thành yêu cầu rất cần thiết cho sự phát triển và ứng dụng công nghệ thông tin thống nhất trong toàn trường, góp... việc xác định các nguồn dữ liệu, nắm bắt được các kiểu dữ liệu, nơi chứa dữ liệu ta tiến hành xây dựng cấu trúc dữ liệu chung để lưu trữ dữ liệu tác nghiệp cho các đơn vị Các kho dữ liệu cục bộ phải có khả năng cho phép chuyển đổi, tích hợp dữ liệu từ các nguồn đã có cũng như các nguồn dữ liệu khác vào lưu trữ với cấu trúc dữ liệu thống nhất được xây dựng trong các Data Mart Các kho dữ liệu cục bộ có... các DM độc lập từ các khoa, phòng, ban: Nắm được các Data Mart chứa dữ liệu gì? Kiểu dữ liệu? Các yêu cầu trao đổi dư liệu giữa các Data Mart, 4 Xây dựng kho dữ liệu chung để lưu trữ các dữ liệu được tích hợp từ các Data Mart độc lập: Chuyển đổi tất cả các dữ liệu từ các DM độc lập của các khoa, phòng, ban và xây dựng cấu trúc dữ liệu để lưu trữ 11 5 Xây dựng bộ công cụ quản trị kho dữ liệu phân tán. .. tích hợp các kho dữ liệu cục bộ từ các khoa, phòng, ban để tạo ra kho dữ liệu dùng chung, lưu trữ tất cả các dữ liệu liên quan đến công tác đào tạo của trường chủ yếu là tích hợp, đồng bộ, phân tán dữ liệu xuống các khoa vì mỗi khoa chỉ quản lý cán bộ và sinh viên thuộc đơn vị mình, đồng bộ điểm giữa khoa và phòng đào tạo, phân tán dữ liệu cần thiết phục vụ tác nghiệp cho các phòng, ban Kho dữ liệu chứa... trúc kho dữ liệu quản lý đào tạo 13 Việc xác định các nguồn dữ liệu là rất quan trọng trong quá trình xây dựng kho dữ liệu, nó cho phép kho dữ liệu kế thừa được các dữ liệu có sẵn trong hệ thống, cũng như tận dụng được các chương trình đang làm việc tại các phòng, ban, khoa Nhiệm vụ chủ yếu của các phần này là xác định mỗi đơn vị đang sử dụng những dữ liệu gì, dữ liệu đó lấy từ đâu, và định dạng dữ liệu. .. liệu chứa tất cả dữ liệu từ các Data Mart (gọi là tổng kho) nên khối lượng dữ liệu rất lớn, vì vậy cần chọn một DBMS có khả năng hỗ trợ mạnh cho công tác lưu trữ, bảo trì dữ liệu Một trong các DBMS hỗ trợ tốt nhất cho việc này là Oracle 14 CHƯƠNG 4 TỔNG KẾT Qua quá trình tìm hiểu về kho dữ liệu và kho dữ liệu phân tán cho thấy đây là giải pháp rất hiệu quả để tổ chức quản lý và triển khai các hệ thống... khăn trong tổ chức quản lý, thu thập, lưu trữ và sử dụng thông tin trong toàn trường Là cơ sở để các trường đại học lớn xây dựng hệ thống thông tin thống nhất nhằm đáp ứng yêu cầu ngày càng cao trong công tác quản lý và giảng dạy của nhà trường, tạo môi trường thuận lợi để nhà trường đẩy nhanh tiến trình xây dựng môi trường đào tạo trực tuyến phù hợp với xu hướng phát triển của xã hội 15 TÀI LIỆU THAM... sản SQL Server Học phí, chế độ miễn giảm MS Excel của sinh viên, lương, thu MS Access 4 bộ, các chế độ ưu tiên, hợp MS Access lý lương Phòng bộ nghiên Đề tài nghiên cứu khoa học MS Excel Không cứu khoa học và của cán bộ, sinh viên, thông 6 hợp tác quốc tế Ban giám hiệu tin về hợp tác quốc tế Thông tin tổng hợp báo cáo Không phục vụ cho quản lý, điều hành 12 Quy trình xây dựng kho dữ liệu phục vụ đào . [4]. Kho dữ liệu phân tán có hai kiến trúc chính là kho dữ liệu phân tán thuần nhất và kho dữ liệu phân tán không thuần nhất. 6 Hình 3: Tích hợp và phân tán dữ liệu 2.1. Kho dữ liệu phân tán thuần. LIỆU PHÂN TÁN Ở CÁC TRƯỜNG ĐẠI HỌC Nhìn chung, quy trình xây dựng và tích hợp kho dữ liệu phân tán ở các trường đại học được thực hiện như sau: 1. Xác định các yêu cầu dữ liệu và các nguồn dữ liệu. quản trị kho dữ liệu phân tán cho phép thực hiện các công việc như: chuyển đổi dữ liệu, tích hợp dữ liệu, trích lọc dữ liệu, làm sạch dữ liệu, phân tán dữ liệu, 6. Tổ chức khai thác kho dữ liệu