Tài liệu về kho dữ liệu

107 489 1
Tài liệu về kho dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CHƢƠNG KHO DỮ LIỆU 1.1.Tổng quan kho liệu (Data Warehouse – DW) 1.1.1 Khái niệm kho liệu 1.1.2 Mục đích kho liệu 1.1.3 Đặc tính liệu kho liệu 1.1.3.1 1.1.3.2 1.1.3.3 1.1.3.4 1.1.3.5 Tính tích hợp(Integration) Hướng chủ đề Dữ liệu gắn thời gian có tính lịch sử 10 Dữ liệu có tính ổn định (nonvolatility) 11 Dữ liệu không biến động 11 1.1.4 Phân biệt DW với hệ sở liệu tác nghiệp 12 1.1.5 Một số khái niệm 13 1.1.5.1 Kho liệu cục - Datamart 13 1.1.5.2 Kho liệu tác nghiệp, sở liệu thao tác 15 1.1.6 Tổ chức lưu trữ liệu kho 21 1.2.Các kiểu liệu 22 1.2.1 Dữ liệu nghiệp vụ 22 1.2.2 Dữ liệu phi cấu trúc 23 1.2.3.1 Siêu liệu nghiệp vụ (Business Metadata) 24 1.2.3.2 Siêu liệu kỹ thuật (Technical Metadata) 25 1.2.3.3 Siêu liệu tác nghiệp (Operational Metadata: OM) 26 1.3.Kiến trúc kho liệu 27 1.3.1 Kiến trúc kho liệu nghiệp vụ 27 1.3.1.1 1.3.1.2 1.3.1.3 Kiến trúc liệu tầng (Single-layer Architecture) 27 Kiến trúc liệu hai tầng (Two-layer Architecture) 28 Kiến trúc liệu ba tầng (Three-layer Architecture) 30 1.3.2 Kiến trúc logic DW 32 1.4.Mô hình kho liệu 36 1.4.1 Sơ đồ hình (Star Schema) 36 1.4.2 Sơ đồ hình tuyết rơi - Snowflake 40 1.4.3 Sơ đồ kết hợp 42 1.4.4 Mô hình liệu đa chiều 42 1.5.Xử lý phân tích trực tuyến OLAP (Online Analytical Processing) 44 1.5.1 ROLAP (Relational OLAP) 46 1.5.2 MOLAP (Multidimensional OLAP) 47 CHƢƠNG THIẾT KẾ KHO DỮ LIỆU CHO TRƢỜNG 49 ĐẠI HỌC TÂY NGUYÊN 49 2.1 Khảo sát thực trạng sử dụng liệu Trƣờng Đại học Tây Nguyên 49 2.2Chọn chủ đề thiết kế kho liệu cho trƣờng Đại học Tây Nguyên 51 2.3Phƣơng pháp chung xây dựng kho liệu 52 2.3.1 Xác định yêu cầu phân tích yêu cầu 52 2.3.2 Thiết kế mô hình quan hệ đa chiều 52 2.3.3 Xây dựng kho liệu ( với SQL Server 2005) 53 2.3.4 Quản lý quản trị DW 54 2.4Thiết kế kho liệu chủ đề “Đào tạo sinh viên quy” cho trƣờng Đại học Tây Nguyên 54 2.4.1 Xác định, thu thập liệu cho kho liệu chủ đề đào tạo sinh viên quy 56 2.4.2 Thiết kế sơ đồ kho liệu chủ đề đào tạo sinh viên quy 57 2.5Từ điển liệu 60 CHƢƠNG XÂY DỰNG KHO VÀ KHAI THÁC DỮ LIỆU CHỦ ĐỀ ĐÀO TẠO SINH VIÊN CHÍNH QUY 66 3.1.Thu thập tạo lập liệu 66 3.1.1 Trích chọn liệu (Extract) 67 3.1.2 Lọc (Filter), làm liệu (Cleaning) 68 3.1.3 Thẩm định (Validate) chuyển đổi (Transforming) liệu 69 3.1.4 Tích hợp (Integrated) liệu 69 3.1.5 Nạp, tải (Load) liệu vào kho 70 3.2.Tích hợp liệu 70 3.2.1 Quy trình tích hợp liệu 70 3.3.Phân tích liệu số kết kết khai thác kho liệu 77 3.3.1 Quy trình phân tích liệu 77 Hình 3.17 Hiển thị liệu Khối sinh viên 82 3.3.2 Một số kết khai thác kho liệu 84 3.3.2.1 Các báo cáo OLAP 84 A.Quy trình tạo báo cáo 84 B.Một số báo cáo 85 3.3.2.2 Khai phá liệu với công cụ phân cụm liệu 91 [A]Định nghĩa khai phá liệu 91 [B]Phân cụm liệu 92 [C]Quy trình phân cụm liệu 94 TÀI LIỆU THAM KHẢO CHÍNH 98 CHƢƠNG KHO DỮ LIỆU 1.1 Tổng quan kho liệu (Data Warehouse – DW) 1.1.1 Khái niệm kho liệu Theo John Ladley [1], công nghệ kho liệu (Data Warehouse Technology) tập phƣơng pháp, kỹ thuật công cụ kết hợp, hỗ trợ để cung cấp thông tin cho ngƣời sử dụng sở tích hợp từ nhiều nguồn liệu, nhiều môi trƣờng khác Định nghĩa: Kho liệu (Data Warehouse - DW) tuyển tập CSDL tích hợp, hướng chủ đề, thiết kế để hỗ t r ợ cho chức trợ giúp định, mà đơn vị liệu liên quan tới khoảng thời gian cụ thể [1] Kho liệu thƣờng lớn tới hàng trăm Gigabyte hay chí hàng Terabyte Kho liệu đƣợc xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu liệu khác cho kết hợp đƣợc ứng dụng công nghệ đại kế thừa đƣợc từ hệ thống có sẵn từ trƣớc Dữ liệu phát sinh từ hoạt động hàng ngày đƣợc thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể tổ chức thƣờng đƣợc gọi liệu tác nghiệp (operational data) hoạt động thu thập, xử lý loại liệu đƣợc gọi xử lý giao dịch trực tuyến (On_line Transaction Processing - OLPT) Kho liệu trái lại phục vụ cho việc phân tích với kết mang tính thông tin chất lƣợng cao Các hệ thống thông tin thu thập xử lý liệu loại gọi hệ xử lý phân tích trực tuyến (On_Line Analytical Processing OLAP) 1.1.2 Mục đích kho liệu Mục tiêu kho liệu nhằm đáp ứng tiêu chuẩn bản:  Phải có khả đáp ứng yêu cầu thông tin NSD  Hỗ trợ để nhân viên tổ chức thực tốt, hiệu công việc mình, nhƣ có định hợp lý, nhanh bán đƣợc nhiều hàng hơn, sản cao hơn, thu đƣợc lợi nhuận cao hơn, v.v  Giúp cho tổ chức, xác định, quản lý điều hành dự án, nghiệp vụ cách hiệu xác Muốn đạt yêu cầu DW phải:  Tích hợp liệu siêu liệu từ nguồn khác  Nâng cao chất lƣợng liệu phƣơng pháp làm tinh lọc liệu theo hƣớng chủ đề xác định  Tổng hợp kết nối liệu  Đồng hóa nguồn liệu với DW  Phân định đồng hệ quản trị sở liệu tác nghiệp nhƣ công cụ chuẩn phục vụ cho DW  Quản lý siêu liệu  Cung cấp thông tin đƣợc tích hợp, tóm tắt đƣợc liên kết, tổ chức theo chủ đề  Dùng hệ thống hỗ trợ định (Decision support system - DSS), hệ thống thông tin tác nghiệp hỗ trợ cho truy vấn đặc biệt 1.1.3 Đặc tính liệu kho liệu Những đặc điểm Kho liệu (DW) t ập hợ p liệu có tính chất sau: 1.1.3.1 Tính tích hợp(Integration) Một DW khung nhìn thông tin mức toàn xí nghiệp, thống khung nhìn khác thành khung nhìn theo chủ điểm Dữ liệu DW đƣợc tổ chức theo nhiều cách khác cho phù hợp với qui ƣớc đặt tên, thống độ đo, cấu m ã h ó a v c ấ u trúc vật lý liệu, v.v Ví dụ: Hệ thống OLTP (xử lý giao dịch trực tuyến) truyền thống đ ƣ ợ c xây dựng v ù n g n g h i ệ p vụ Một hệ thống bán hàng hệ thống tiếp thị có chung dạng thông tin khách hàng, nhƣng vấn đề tài cần khung nhìn khác cho thông tin khách hàng Một DW có khung nhìn toàn thể khách hàng Khung nhìn bao gồm phần liệu khác từ tài tiếp thị Nhƣ vậy, tính tích hợp thể chỗ: Dữ liệu tập hợp kho liệu đ ƣ ợ c thu thập từ nhiều nguồn trộn ghép với tạo thành thể thống Ví dụ: Dữ liệu từ chƣơng trình ứng dụng thực CSDL tác nghiệp đƣợc tích hợp lại theo cách mã hóa (encoding) độ đo (measurement) thống nhƣ sau: Sự tích hợp CSDL tác nghiệp Data Warehouse encoding Appl A: m, f m, f Appl B: 0, measurement Appl C: male, female Appl A: pipeline cm cm Appl B: pipeline inch (2,54 cm) Appl C: pipeline yard (0.914 cm) Hình 1.1 Tích hợp liệu Hình 1.2 Tạo record liệu tích hợp từ nhiều ứng dụng khác 1.1.3.2 Hướng chủ đề Dữ liệu DW đƣợc tổ chức theo chủ đề phục vụ cho tổ chức dễ dàng xác định đƣợc thông tin cần thiết hoạt động Ví dụ, hệ thống quản lý tài cũ (có tính tác nghiệp) liệu đƣợc tổ chức theo chức năng: cho vay, quản lý tín dụng, quản lý ngân sách, v.v Trong DW tài chính, liệu đƣợc tổ chức theo chủ điểm dựa chủ yếu theo đối tƣợng: khách hàng, sản phẩm, xí nghiệp, v.v Sự khác hai cách tiếp cận dẫn đến khác nội dung liệu đƣợc lƣu trữ hệ thống: DW không lƣu trữ liệu chi tiết, lƣu trữ liệu có tính tổng hợp phục vụ chủ yếu cho qúa trình phân tích để trợ giúp định Các hệ thống ứng dụng tác nghiệp (Operational Application SystemOAS), CSDL tác nghiệp lại cần liệu chi tiết, phục vụ trực tiếp cho yêu cầu xử lý theo chức lĩnh vực ứng dụng thời Do mối quan hệ liệu hệ thống khác, đòi hỏi phải có tính xác, có tính thời sự, v.v 1.1.3.3 Dữ liệu gắn thời gian có tính lịch sử Một kho liệu bao hàm khối lƣợng lớn liệu lịch sử Dữ liệu đƣợc lƣu trữ thành loạt snapshot (ảnh chụp liệu), ghi phản ánh giá trị liệu thời điểm định thể khung nhìn chủ điểm giai đoạn Do cho phép khôi phục lại lịch sử so sánh cách xác giai đoạn khác Yếu tố thời gian đóng vai trò nhƣ phần khóa để bảo đảm tính đơn hàng cung cấp đặc trƣng thời gian cho liệu Dữ liệu OAS cần phải xác thời điểm truy cập, DW cần có hiệu lực khoảng thời gian đó, khoảng đến 10 năm lâu Dữ liệu CSDL tác nghiệp thƣờng sau khoảng thời gian định trở thành liệu lịch sử chúng đƣợc chuyển vào kho liệu Đó liệu hợp lý chủ điểm cần lƣu trữ 10 ―Phân cụm liệu thực việc nhóm đối tượng tương tự tập liệu vào cụm s a o cho đ ố i t ợ n g t h u ộ c m ộ t c ụ m tương đồng đối tượng thuộc cụm khác không tương đồng‖ [12] Đây ví dụ phƣơng pháp học không thầy Theo phƣơng pháp này, bắt đầu trình ta biết kết cụm thu đƣợc nhƣ Vì vậy, cần có chuyên gia lĩnh vực để đánh giá cụm thu đƣợc Phân cụm liệu đƣợc sử dụng nhiều ứng dụng phân loại thị trƣờng, phân loại khách hàng, nhận dạng mẫu, phân loại trang web, … Ngoài phân cụm liệu đƣợc sử dụng nhƣ bƣớc tiền xử lý cho thuật toán khai phá liệu Hình 3.18 Thống kê lĩnh vực ứng dụng kho liệu -93- Quy trình phân cụm liệu Với kho liệu xây dựng đƣợc sử dụng công cụ trợ giúp cho việc phân cụm liệu hỗ trợ định Analysis Service SQL Server 2005  Tạo Analysis Service project Sau tạo xong project, để thực khai phá liệu, cần mô tả liệu cần khai phá sau tạo cấu trúc (Structure) mô hình (Model) khai phá  Mô tả liệu Hai đối tƣợng Analysis Services giao tiếp với liệu Data Source Data source view Tạo Data Source Data Source đối tƣợng đơn giản Nó bao gồm chuỗi kết nối, vài thông tin điều kiện kết nối nhƣ Tạo Data Source View Data Source View nơi chọn, tổ chức, khám phá, thao tác với liệu khía cạnh Khi tạo Data Source View cho mục đích khai phá, bảng quan trọng cần xác định Case table Đây bảng chứa trƣờng hợp (Case) mà muốn phân tích Thêm vào bảng quan hệ nhƣ bảng lồng (Nested tables), cung cấp thêm thông tin cho trƣờng hợp Sau tổ chức, thay đổi, chọn hiểu liệu cần phân tích, bắt đầu tạo đối tƣợng Data mining Bƣớc -94- chạy Data Mining Wizard; sau hoàn thành nó, chọn lọc kết Data Mining Designer SQL Server Analysis Services có đối tƣợng liên quan đến Data Mining: Mining structures Mining models Mining structures chứa danh sách cột cấu trúc (Structures columns), đƣợc lấy từ Data source, thêm vào số tùy chọn điều khiển cách liệu đƣợc tạo Hơn nữa, Mining structure chứa danh sách Mining models mà sử dụng cột từ structure Một Mining model chứa tác vụ khai phá; tham số kèm nó; danh sách cột lấy từ Mining structure Dƣới số kết mà thu đƣợc sau sử dụng công cụ trợ giúp khai phá liệu giải thuật Clustering SQL Server 2005 để phân cụm liệu đào tạo trƣờng Đại học Tây Nguyên gồm 10528 ghi, ghi mô tả thuộc tính hồ sơ sinh viên dựa vào độ tƣơng tự điểm trung bình qua học kỳ -95- Hình 3.19 Mô tả đặc điểm thuộc tính cụm Nhìn vào hình nhận thấy đƣợc cluster (gồm 1031 ghi) có điểm trung bình qua học kỳ tƣơng đối ổn định đạt mức trung bình trở lên, cluster (932 ghi) có điểm trung bình qua học kỳ tƣơng đối ổn định nhƣng đạt mức dƣới trung bình… Ngoài tìm hiểu mức độ tƣơng tự cụm thông qua thẻ Cluser Diagram -96- Sơ đồ mô tả thuộc tính hàng đầu xác suất xuất giảm dần thuộc tính Cluster Chúng ta so sánh cụm với bổ sung cụm so sánh cụm với cụm khác để tìm hiểu xác cụm mà quan tâm nhƣ minh họa hình bên dƣới -97- TÀI LIỆU THAM KHẢO CHÍNH [1] Hồ Cẩm Hà, ―Thiết kế kho liệu phục vụ công tác đào tạo trƣờng Sƣ phạm”, báo cáo đề tài nghiên cứu khoa học cấp Bộ, 2007 [2] Đoàn Văn Ban, ―Phƣơng pháp thiết kế khai thác kho liệu‖, đề tài cấp trung tâm KHTN & CNQG, 1997 [3] Hồ Thuần, Hồ Cẩm Hà ―Các hệ Cơ sở liệu: Lý thuyết Thực hành‖, Tập 2, Nhà xuất Giáo dục, 2004 [4] Nguyễn Ngọc Quyên ―Xây dựng báo biểu SQL Report Service 2008‖, NXB Lao động – Xã hội, 2009 [5] Berson a., Smith S J., ―Data Warehousing, Data Mining Application for CRM‖, McGraw-Hill, 1997 [6] V Poe, ―Building a Data Warehouse for Decision Support‖, Prentice Hall, 1996 [7] Peng Jin, Yun-Long Zhu, Kun-Yuan Hu, ―A Clustering Algorithm for Data Mining Based on Swarm Intelligence‖, Proceedings of Sixth International Conference on Machine Learning Cybernetics, Hong Kong, 19-22 August 2007 [8] Song Xudong, Cheng Xiaolan, ―Decision Tree Algorithm based on Sampling‖, 7/2007 IFIP International Conference on Network and Parallel Computing – Workshops [9] Xiangyang Li and Nong Ye, ―A supervised clustering and classification algorithm for mining data with mixed variables‖, IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS— PART A: SYSTEMS AND HUMANS, VOL 36, NO 2, MARCH 2006 [10] JiaweiHan, Micheline Kamber, ―Data Mining Concepts and techniques”, Second Edition, Elsevier Inc, 5/2008 [11] P Berkhin: ―Survey of Clustering Data Mining Techniques” Research paper Accrue Software, Inc, http://www.accrue.com, (2001) -98- [12] ZhaoHui Tang and Jamie MacLennan, ―Data Mining with SQL Server 2005‖, Published by Wiley Publishing, 2005 -99- PHỤ LỤC Dƣới vài ví dụ minh họa cho việc nhận định thực trạng sử dụng liệu trƣờng đại học Tây Nguyên Bảng Thống kê chất lƣợng đào tạo sinh viên Khoa KHTN & CN giai đoạn 2006 – 2010 Lớp T số Xuất sắc SL % Giỏi SL % SL Khá % TBK & TB SL % Yếu SL % CN sinh 06 39 10.3 28 71.8 17.9 0 0 CN Sinh 07 74 0 9.5 38 51.4 29 39.2 0 CN Sinh 08 47 0 2.1 12 25.5 33 70.2 2.1 CN Sinh 09 38 0 0 23.7 15 39.5 14 36.8 CN Tin 06 58 0 11 19 24 41.4 21 36.2 3.4 CN Tin 07 74 0 0 17 23 54 73 4.1 CN Tin 08 59 0 1.7 12 20.3 38 64.4 13.6 CN Tin 09 54 0 0 16.7 31 57.4 14 25.9 CNĐT 08 35 0 2.9 14 40 20 57.1 0 CNĐT 09 67 0 0 10.4 28 41.8 32 47.8 CNMT 08 46 0 0 25 54.3 20 43.5 2.2 CNMT 09 55 0 1.8 19 34.5 25 45.5 10 18.2 Hoá 06 77 10.4 56 72.7 13 16.9 0 0 Hóa 07 70 0 11.4 41 58.6 20 28.6 1.4 Hoá 08 63 0 3.2 23 36.5 37 58.7 1.6 Hoá 09 68 2.9 4.4 33 48.5 23 33.8 10.3 Lý 06 78 10.3 55 70.5 13 16.7 1.3 1.3 Lý 07 69 1.4 21 30.4 32 46.4 11 15.9 5.8 Lý 08 54 0 1.9 27 50 25 46.3 1.9 Lý 09 66 1.5 7.6 19 28.8 27 40.9 14 21.2 SP Sinh 06 58 13 22.4 43 74.1 3.4 0 0 SP Sinh 07 38 0 10 26.3 16 42.1 12 31.6 0 SP Sinh 08 44 0 9.1 20.5 30 68.2 2.3 SP Sinh 09 35 0 2.9 15 42.9 15 42.9 11.4 Toán 06 62 0 16 25.8 30 48.4 16 25.8 0 -100- Toán 07 58 0 5.2 21 36.2 34 58.6 0 Toán 08 63 0 3.2 11.1 49 77.8 7.9 Toán 09 64 0 1.6 29 45.3 24 37.5 10 15.6 1613 37 2.3 281 17.4 523 32.4 638 39.6 134 8.3 Toàn khoa (Báo cáo thống kê chất lượng đào tạo sinh viên quy Khoa TN & CN giai đoạn 2006 – 2010 xây dựng Word) Bảng : Kết xếp loại tốt nghiệp Khóa 2006 STT Lớp Số SV SP Toán K06 Tốt Tỷ lệ Chƣa Tỷ lệ Giỏi Tỷ lệ Khá Tỷ lệ TBK Tỷ lệ % TB Tỷ lệ % Nghiệp % TN % 62 49 79.0 13 21.0 12.2 20 40.8 20 40.8 6.1 SP Sinh K06 58 57 98.3 1.7 8.8 37 64.9 15 26.3 0.0 CN Sinh K06 39 35 89.7 10.3 11.4 26 74.3 14.3 0.0 SP Lý K06 79 72 91.1 8.9 5.6 48 66.7 20 27.8 0.0 CN Tin K06 58 45 77.6 13 22.4 2.2 15 33.3 29 64.4 0.0 SP Hóa K06 77 77 100.0 0.0 12 15.6 51 66.2 14 18.2 0.0 TỔNG 373 335 89.8 38 10.2 32 9.6 197 58.8 103 30.7 0.9 % % (Báo cáo kết tốt nghiệp sinh viên quy khóa 2006 Khoa TN & CN xây dựng Word) -101- Bảng Bảng số liệu thống kê kết sinh viên tham gia nghiên cứu khoa học thu đƣợc từ phòng Quản lý khoa học Quan hệ quốc tế đƣợc xây dựng Excel DANH MỤC ĐỀ TÀI NCKH CỦA SINH VIÊN NĂM 2007 THỜI CÁN BỘ S TÊN ĐỀ TÀI T HƢỚNG SINH VIÊN THỰC HIỆN DẪN T GIAN THỰC HIỆN LOẠI NGH IỆM THU KHOA NÔNG LÂM I NGHIỆP Bƣớc đầu nghiên cứu sinh Nguyễn Xuân Vũ trƣởng Xoan chịu hạn (Azadirachta indica Ajuss) ThS.Lê đƣợc trồng số địa Đình Nam Phạm Trọng Phƣơng Hồ Ngọc Thọ Phạm Đòan Quốc Vƣơng điểm địa bàn tỉnh Đăk 4/20074/2008 Đạt Lớp Lâm sinh K2004 Nông Nguyễn Anh Việt Phan Thúc Định Nghiên cứu ảnh hƣởng phân vi lƣợng (Bo, Mg, Zn) đến sinh trƣởng, phát triển khả chống chịu Bông tỉnh Đắk Lắk Nguyễn Thị Đào PGS.TS.Ng Lê Thị Thu Thảo uyễn Anh Trần Thị Hạnh Dũng Phạm Thị Hồng Hạnh Trƣơng Thị Hùng Cƣờng Bùi Thị Thỏa Lớp Trồng trọt K04 -102- 3/20073/2008 Đạt Nghiên cứu biện pháp phòng trừ có hiệu loài sâu hại chủ yếu cà phê vối Công ty cà phê Krông Ana, Huyện Krông Đinh Văn Đang Phạm Việt Hải TS.Nguyễn Xuân Thanh 5/2007- Lớp BVTV K2005 5/2008 Đạt Vũ Thị Ngoại (SP.Sinh Ana, tỉnh ĐakLak 05) Tìm hiểu Đặc điểm thực vật Bùi Đình Thông học, sinh thái, phân bố Phạm Thị Yến giá trị Khúc Khắc ThS.Nguyễn (Kim Cang) vùng đệm Đức Định vƣờn Quốc gia Chƣ Yang Huỳnh Viết Bằng Nguyễn Quốc Sơn Lâm Văn Khoa 4/20074/2008 Đạt Lớp Lâm sinh K2004 Sin, ĐakLak II KHOA SƢ PHẠM Xây dựng phần mềm "Quản lý công tác Đoàn Đoàn TNCS Hồ Chí Minh trƣờng Trần Văn Phƣớc ThS.Trƣơng Lê Thị Thu Oanh 3/2007- Hải Nguyễn Đức Cƣờng 3/2008 ĐHTN" II I Đạt Lớp Cử nhân tin học K04 KHOA Y - DƢỢC Đặc điểm lâm sàng, cận lâm sàng ảnh hƣởng bệnh nhiễm độc thai nghén bà mẹ sơ sinh điều trị Bệnh viện đa BS.Võ Thị Kim Loan Phạm Thị Diệu Linh Huỳnh Thị Bích Liễu Lớp Y K2002 1/20071/2008 Đạt khoa tỉnh Đắk Lắk năm (2005-2007) Nhận thức sinh viên trƣờng đại học Tây Nguyên tƣợng tiêu TS.Nguyễn Vũ Thị Lan Anh 3/2007- Đăng Đức Lớp Điều Dƣỡng K2004 3/2008 -103- Đạt cực ngành giáo dục đào tạo Tìm hiểu quan niệm sinh viên trƣờng ĐHTN quan hệ tình dục trƣớc hôn nhân hiểu biết an toàn Nguyễn Thị Huệ TS.Nguyễn Hồ Đăng Khoa 3/2007- Ngọc Xuân Trần Xuân Trƣờng 3/2008 Lớp Dƣợc sĩ K05 tình dục I KHOA CHĂN NUÔI V THÚ Y Phan Thanh Tuấn Nghiên cứu khả sinh trƣởng, sinh sản cừu Phan Rang huyện Trần Đăng Phúc PGS.TS.Trần Nguyễn Trọng Toàn Quang Hân Vũ Hồng Điển Krông Păk, tỉnh ĐakLak cứu số đặc điểm sinh học tập tính heo rừng 5/2008 Đạt Lớp CN-TY K2005 Hà Thành Vinh Điều tra tình hình nuôi heo rừng ĐăkLăk nghiên 5/2007- Ngô Văn Bình TS.Nguyễn Phạm Văn Dân 3/2007- Tuấn Hùng Đặng Thị Hòa Khanh 3/2008 Đạt Lớp Chăn nuôi Thú y Buôn Ky - TP.BMT K2004 Ninh Văn Kiên 1 Nghiên cứu tình hình nhiễm giun sán gà nuôi thả vƣờn TP.BMT Ng.Thị Hoàng Oanh TS.Đinh Trần Thị Thanh Vân 5/2007- Nam Lâm Nguyễn Thị Hoà 5/2008 Ng.Thị Bích Liên Lớp Thú Y K2004 -104- Đạt Vy Đức Nhật Quang Tình hình nhiễm số yếu tố gây bệnh vi khuẩn Salmonella đƣờng ruột chó nuôi Nguyễn Văn Thủ TS.Nguyễn Nguyễn Hữu Hoàng 5/2007- Thị Oanh Hoàng Ly Ly 4/2008 Hoàng Thị Anh Phƣơng TP.BMT, tỉnh ĐăkLăk Nghiên cứu quy trình sản xuất hạt giống cỏ Arachis pintoi Lớp Thú Y K2004 Ngô Minh Hiếu TS.Trƣơng Đặng Thị Duyên Tấn Khanh Bùi Ngọc Châu Lớp CNTY K2004 Khảo sát tình hình nhiễm Huỳnh Thiện Vĩnh giun móc(Ancylostoma) Võ Thị Dung chó nuôi thành phố Buôn Ma thuột hiệu lực Đạt 5/20075/2008 gh 9/2008 TS.Nguyễn Lê Thị Duy Khánh 4/2007- Văn Diên Nguyễn Thị Trang 4/2008 tẩy trừ Virbamec, Đạt Đạt Trƣơng Minh Trí Lớp TY K04 Vimectin Tạ Đức Định Đánh giá tình trạng tồn dƣ hàn the (borax) thịt số sản phẩm chế biến từ thịt Nguyễn Văn Dƣơng TS.Nguyễn Nguyễn Văn Huy 4/2007- Thị Oanh Đoàn Thị Kim Phƣợng 4/2008 Nguyễn Thị Lan Anh Lớp TY K04 -105- Đạt Bảng Kết đào tạo sinh viên quy năm học 2009 - 2010 toàn trƣờng Tổng số Các đơn vị SV Xuất sắc Giỏi Khá TBK TB Yếu, Số Tỷ lệ Số Tỷ lệ Số Tỷ lệ Số Tỷ lệ Số Tỷ Sv (%) Sv (%) Sv (%) Sv (%) Sv lệ (%) Khoa KHTN & 1.613 37 2,3 281 17,4 523 32,4 638 39,6 134 8,3 Khoa Sƣ Phạm 1.236 0,2 191 15,5 624 50,5 353 28,5 65 5,3 Khoa Lý luận CT 484 1,9 101 20,9 207 42,8 130 26,8 37 7,6 Khoa Nông Lâm 1.453 0 97 6,7 430 29,6 590 40,6 336 23,1 Khoa Y – Dƣợc 1.597 0 182 11,4 793 49,7 535 33,5 87 5,4 Khoa Kinh tế 1.648 0 266 16,1 566 34,3 650 39,4 166 10,1 Khoa CN – TY 420 0 53 12,6 165 39,3 188 44,8 14 3,3 Khoa Ngoại ngữ 459 0,2 60 13,1 231 50,3 133 29,0 34 7,4 0,6 1231 13,8 873 9,8 CN Tổng cộng 8.910 50 3539 39,7 3217 36,1 (Bảng báo cáo thống kê tỉ lệ tốt nghiệp sinh viên toàn trường năm 2006 (hệ quy) xây dựng Word) -106- -107- [...]... thông tin Dữ liệu phi cấu trúc có kích thƣớc lớn, khó thao tác và không đƣợc hỗ trợ tốt trong các cơ sở dữ liệu và các công cụ khác Tuy vậy một kho chứa thông thƣờng không thể không có dữ liệu loại này, nhƣng nó chỉ đƣợc đƣa vào kho sau khi đã hoàn thành việc đƣa dữ liệu có cấu trúc vào kho 1.2.3 Siêu dữ liệu (Metadata) Một thành phần quan trọng của kho dữ liệu là metadata (dữ liệu về dữ liệu) , trả... đổi dữ liệu  Những định nghĩa cấu trúc dữ liệu và đối tƣợng trong môi trƣờng Warehouse cho dữ liệu đích  Những luật dùng để làm sạch và cải thiện dữ liệu  Những phép toán ánh xạ dữ liệu khi lấy dữ liệu từ các hệ thống nguồn và đƣa chúng vào cơ sở dữ liệu đích  Quyền truy nhập, lịch sử dữ liệu đƣợc sao lƣu dự phòng (backup), về quá trình lƣu trữ, về sự phân phối thông tin, về sự thu nhận dữ liệu, ... Nạp dữ liệu vào kho (Load), Truy cập vào các vùng trong DW (Access) 1.1.3.5 Dữ liệu không biến động Thông tin trong DW đƣợc tải vào sau khi dữ liệu trong hệ thống điều hành đƣợc cho là quá cũ Tính không biến động thể hiện ở chỗ: Dữ liệu đƣợc lƣu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhƣng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho phép cung cấp thông tin về một kho ng... thế cạnh tranh Một số nhỏ các dòng dữ Truy cập dữ liệu liệu tìm đƣợc trong mỗi lần gọi Khối lƣợng dữ Khối lƣợng dữ liệu vừa liệu phải cho các công việc hàng ngày Tập dữ liệu rất lớn đƣợc đọc để tìm kiếm thông tin Khối lƣợng rất lớn dữ liệu cần để phân tích, thống kê, dự báo, lập kế hoạch, báo cáo, v.v Lƣu giữ các dữ liệu nghiệp Dữ liệu có tính lịch sử đƣợc Duy trì dữ liệu vụ ngắn hạn để đối sánh, duy... bảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến trình này đƣợc thực hiện dựa vào dữ liệu thời gian thực tại mức chi tiết, duy trì hoặc tạo ra các dữ liệu lịch sử 1.2.2 Dữ liệu phi cấu trúc Ngƣợc lại với dữ liệu có cấu trúc, dữ liệu phi cấu trúc là những dữ liệu không thuần nhất Ví dụ: hình ảnh, âm thanh hay phim là những dữ liệu phi cấu trúc Tầm quan trọng của dữ liệu phi cấu trúc ngày càng tăng... doanh 31 Hình1.15 Sự kết hợp dữ liệu Đặc trƣng của kiến trúc ba tầng:  Hỗ trợ cho những yêu cầu cần những thông tin mới từ dữ liệu  Giảm thiểu đƣợc số lƣợng dữ liệu thông tin quản lý  Giảm thiểu sự lặp lại của dữ liệu 1.3.2 Kiến trúc logic của DW Nhƣ trên đã phân tích, dữ liệu nghiệp vụ bao gồm ba loại: dữ liệu thời gian thực, dữ liệu tƣơng hợp và dữ liệu dẫn xuất Mỗi loại dữ liệu này có thể ở các tầng... làm nhiệm vụ phân phát dữ liệu cho nhiều đối tƣợng (khách hàng) xử lý thông tin dƣới nhiều dạng nhƣ: CSDL, SQL query, Reports, v.v 1.1.5 Một số khái niệm cơ bản 1.1.5.1 Kho dữ liệu cục bộ - Datamart Kho dữ liệu cục bộ (Datamart – DM) là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành [1] DM là kho dữ liệu hƣớng chủ đề Các DM... tác nghiệp Data Warehouse Dữ liệu tác nghiệp: Ảnh chụp dữ liệu: + Thời gian ngắn 30-60 ngày + Có thể có yếu tố thời gian hoặc không + Dữ liệu có thể cập nhật + Thời gian dài: 5 đến 10 năm + Luôn có yếu tố thời gian + Khi dữ liệu đƣợc chụp lại thì không cập nhật đƣợc Hình 1.3 Tính thời gian của dữ liệu 1.1.3.4 Dữ liệu có tính ổn định (nonvolatility) Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể... luật nghiệp vụ và sự biến đổi đƣợc thực hiện với dữ liệu trong các giai đoạn nghiệp vụ ?  Ai làm chủ dữ liệu, biết đƣợc ai nắm giữ dữ liệu là rất quan trọng cho việc thay đổi, truy nhập các câu hỏi and, or về dữ liệu?  Dữ liệu đƣợc làm mới (refresh) lần cuối khi nào? 1.2.3.2 Siêu dữ liệu kỹ thuật (Technical Metadata) Chứa đựng những thông tin về dữ liệu trong DW cho những ngƣời thiết kế và quản trị... xuất (derived data): Dữ liệu xác định theo thời điểm (point-in- time) hoặc dữ liệu định kỳ, ở mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận đƣợc từ việc xử lý dữ liệu thời gian thực và dùng để quản lý công việc nghiệp vụ Dữ liệu dẫn xuất là tập dữ liệu thƣờng đƣợc sử dụng để trợ giúp quyết định  Dữ liệu tương hợp, hòa hợp (reconciled data): Dữ liệu tƣơng hợp là một loại dữ liệu dẫn xuất đặc ... cụm liệu 91 [A]Định nghĩa khai phá liệu 91 [B]Phân cụm liệu 92 [C]Quy trình phân cụm liệu 94 TÀI LIỆU THAM KHẢO CHÍNH 98 CHƢƠNG KHO DỮ LIỆU 1.1 Tổng quan kho liệu. .. gian cho liệu Dữ liệu OAS cần phải xác thời điểm truy cập, DW cần có hiệu lực kho ng thời gian đó, kho ng đến 10 năm lâu Dữ liệu CSDL tác nghiệp thƣờng sau kho ng thời gian định trở thành liệu lịch... kiến trúc kho liệu, thể đƣợc cách nạp liệu kho, cách truy nhập, xử lý thông tin, v.v 34 Hình 1.17 Tổng quan kiến trúc kho liệu 35 1.4 Mô hình kho liệu Mô hình DW đƣợc phát sinh từ mô hình liệu tổng

Ngày đăng: 16/12/2015, 19:57