Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
2,62 MB
Nội dung
http://www.ictu.edu.vn MỤC LỤC MỤC LỤC LỜI CAM ĐOAN Error! Bookmark not defined LỜI CẢM ƠN Error! Bookmark not defined DANH MỤC TỪ VIẾT TẮT .3 DANH MỤC HÌNH BẢNG .4 MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Hình thành định nghĩa toán 1.1.2 Thu thập tiền xử lý liệu 1.1.3 Khai phá liệu rút tri thức 1.1.4 Phân tích kiểm định kết 10 1.1.5 Sử dụng tri thức phát 10 Quá trình khai phá liệu 11 1.3 Các phương pháp khai phá liệu 14 1.3.1 Phân lớp liệu 14 1.3.2 Phân cụm liệu 14 1.3.3 Khai phá luật kết hợp 15 1.3.4 Hồi quy 15 1.3.5 Giải thuật di truyền 15 1.3.6 Mạng nơron 15 1.3.7 Cây định 16 1.4 Nhu cầu khai phá liệu 17 1.5 Kết luận 17 CHƯƠNG MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ 18 2.1 Phương pháp thống kê toán học 18 2.1.1 Biến ngẫu nhiên 18 2.1.2 Các ví dụ 19 2.1.3 Các số đặc trưng 20 2.2 Khai phá liệu với phương pháp thống kê 21 2.3 Tri thức tảng 22 2.3.1 Các phương pháp quan tâm 23 2.3.2 Trình diễn trực quan mẫu khai phá 23 http://www.ictu.edu.vn 2.4 Dữ liệu liên quan tới nhiệm vụ 23 2.4.1 Dữ liệu thích hợp với nhiệm vụ 23 2.4.2 Kiểu tri thức khai phá 24 2.4.3 Kiến thức tảng 24 2.4.4 Các phép đo hấp dẫn mẫu 24 2.4.5 Hình ảnh hóa mẫu khai phá 24 2.5 Các loại tri thức khai phá 26 2.5.1 Phân cấp khái niệm 27 2.5.2 Phân cấp lược đồ 30 2.5.3 Phân cấp theo nhóm 30 2.5.4 Phân cấp theo thao tác 31 2.5.5 Phân cấp theo luật 32 2.5.6 Độ đo tiêu chí quan tâm 32 2.6 Thể trực quan mẫu phát 36 2.7 Phân tích thành phần 38 2.8 Kết luận 43 CHƯƠNG KHAI PHÁ DỮ LIỆU TẠI TRUNG TÂM 44 3.1 Về sở đào tạo 44 3.2 Công cụ OLAP 47 3.2.1 Về OLAP 47 3.2.2 Mô hình liệu đa chiều 47 3.2.3 Giới thiệu dịch vụ OLAP Microsoft SQL Server 50 3.2.4 So sánh OLAP với OLTP 51 3.2.5 Các mô hình lưu trữ hỗ trợ OLAP 52 3.2.6.Kiến trúc khối OLAP 56 3.2.7 Mô hình kiến trúc dịch vụ OLAP 57 3.3 Dữ liệu đào tạo 60 3.3.1 Dữ liệu 60 3.3.2 Khai phá liệu 61 3.4 Kết luận 62 KẾT LUẬN 63 Một số vấn đề giải 63 Phương hướng tiếp tục nghiên cứu 64 TÀI LIỆU THAM KHẢO 65 http://www.ictu.edu.vn DANH MỤC TỪ VIẾT TẮT ADO Microsoft ActiveX Data Objects API Giao diện cổng chung City Thành phố CNTT Công nghệ Thông tin Country Vùng CSDL Cơ sở liệu IT Công nghệ Thông tin ITEM Mặt hàng KDD Khai phá tri thức MOLAP OLAP nhiều chiều OLAP Xử lí phân tích liệu trực tuyến OLTP Phân tích trực tuyến PCA Phân tích thành phần Province Tỉnh ROLAP OLAP quan hệ SERVER Máy chủ State Bang SV Sinh viên TV Vô tuyến truyền hình URL Vị trí tài nguyên Internet VCR Đầu đọc băng video Web Trang tin WWW World Wide Web http://www.ictu.edu.vn DANH MỤC HÌNH BẢNG Hình 1.1 Khai phá liệu Hình 1.2 Xử lí liệu Hình 1.3 Tri thức 10 Hình 1.4 Quá trình khai phá liệu 12 Hình 1.5 Kiến trúc hệ thống khai phá liệu 13 Hình 1.6 Phân lớp liệu 14 Hình 1.7 Phân cụm liệu 14 Hình 1.8 Mạng Nơron 16 Hình 1.9 Cây định 16 Hình 2.1 Dữ liệu liên quan đến nhiệm vụ 22 Hình 2.2 Thí dụ phân phối hàng 28 Hình 2.3 Các mẫu thể 37 Hình 2.4 Dữ liệu thí dụ cho PCA 40 Hình 2.5 Đường liệu chuẩn hoá (đã trừ trung bình) 42 Hình 3.1 Trang tin Trung tâm 45 Hình 3.2 Kế hoạch dạy học Trung tâm 46 Hình 3.3 Địa bàn tổ chức đào tạo Trung tâm 46 Hình 3.4 Mô chiều kinh doanh 48 Hình 3.5 Kiến trúc OLAP 50 Hình 3.6 Mô hình liệu MOLAP 52 Hinh 3.7 Mô hình liệu ROLAP 54 Hình 3.8 Mô hình liệu HOLAP 55 Hình 3.9 Kiến trúc dịch vụ OLAP 58 Hình 3.10 Kiến trúc thành phần Server 58 Hình 3.11 Kiến trúc thành phần Khách 59 Hình 3.12 Dữ liệu gốc 61 Hình 3.13 Thí dụ sử dụng OLAP với bảng xoay 61 Hình 3.14 Thí dụ sử dụng nhiều tham số cột xoay 62 http://www.ictu.edu.vn MỞ ĐẦU Ngày nay, xã hội người thực cách mạng thông tin Tri thức đánh quyền lực tiền bạc Xã hội dần chuyển sang xã hội tri thức, tức sản phẩm quốc dân có hàm lượng tri thức cao Công nghệ thông tin đáp ứng nhu cầu xử lý liệu tri thức Bên cạnh công nghệ phần mềm công nghệ tri thức Công nghệ tri thức nghiên cứu nhằm tích lũy tri thức chuyên gia, làm máy tính thực chức thông minh người, đồng thời làm người tự nâng cao thân Cuộc cách mạng thông tin kỹ thuật số đem lại thay đổi sâu sắc xã hội sống Những thuận lợi mà thông tin kỹ thuật số mang lại sinh thách thức hội cho trình đổi Mạng Internet toàn cầu biến thành xã hội ảo nơi diễn trình trao đổi thông tin lĩnh vực trị, quân sự, quốc phòng, kinh tế, thương mại…Trong hệ thống đào tạo Đại học sau Đại học Công nghệ thông tin, chủ đề Trí tuệ nhân tạo, hệ chuyên gia, dịch tự động…đều liên quan đến tri thức Nhiều ứng dụng Công nghệ thông tin sử dụng tri thức liệu Meta, điều khiển trình xử lý liệu Hiện nhiều sở đào tạo có nhiều phần mềm cho phép xử lý liệu Những liệu liên quan đến công tác đào tạo gồm: Các kết dạy học, học liệu điện tử, giáo trình số hóa…ngày nhiều, cần xử lý cách khoa học Vấn đề khai phá liệu có áp dụng công nghệ ngày sử dụng nhiều nhiều lĩnh vực lĩnh vực giáo dục Chính vậy, chọn đề tài: “Phân tích thành phần phục vụ xử lý liệu đào tạo” Vấn đề nghiên cứu ứng dụng thuộc phạm vi mã ngành Khoa học máy tính, mã số 60.48.01 khai phá liệu Trong phạm vi nghiên cứu xin trình bày nội dung sau: http://www.ictu.edu.vn Chương 1: Tổng quan kĩ thuật khai phá liệu Chương đề cập đến kĩ thuật khai phá liệu, phương pháp khai phá liệu nhu cầu khai phá liệu Chương 2: Một số phương pháp xử lí liệu nhờ thống kê Chương trình bày phương pháp thống kê, thành phần đặc trưng liệu cách chọn, phân tích đánh giá thành phần liệu Chương 3: Phân tích liệu phục vụ công tác đào tạo Chương xây dựng, phân tích thiết kế mô chương trình thử nghiệm Kết luận đánh giá kết đạt vấn đề tồn cần khắc phục tiếp Phần cuối luận văn danh sách tài liệu tham khảo, sử dụng trình chuẩn bị luận văn http://www.ictu.edu.vn CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu Việc dùng phương tiện tin học để tổ chức khai thác CSDL phát triển từ năm 60, nhiều CSDL tổ chức, phát triển khai thác qui mô khắp lĩnh vực hoạt động xã hội Với phát triển mạnh mẽ máy tính mạng viễn thông, người ta xây dựng nhiều hệ CSDL lớn tập trung phân tán, nhiều hệ quản trị CSDL mạnh với công cụ phong phú thuận tiện giúp người khai thác có hiệu nguồn tài nguyên liệu hoạt động kinh tế xã hội Sự phát triển nhanh chóng lượng lớn liệu thu thập lưu trữ CSDL lớn vượt khả người hiểu chúng công cụ hỗ trợ tốt Kết là, liệu thu thập lượng lớn CSDL trở thành đống liệu mà xem xét đến Do vậy, việc đưa định thường không dựa vào thông tin liệu thu thập mà dựa vào nhận thức, suy đoán người đưa định Đơn giản họ công cụ giúp cho việc lấy tri thức từ lượng lớn liệu Tình đặt hoàn cảnh nhiều liệu thiếu thông tin, thiếu tri thức Với khối lượng lớn liệu rõ ràng phương pháp thủ công truyền thống áp dụng để phân tích liệu chia bảng không phù hợp Chính vậy, có kỹ thuật đời “Khai phá liệu” Hình 1.1 Khai phá liệu http://www.ictu.edu.vn Khai phá liệu ngữ tương đối mới, đời vào khoảng năm cuối của thập kỷ 1980 Có nhiều định nghĩa khác khai phá liệu Giáo sư Tom Mitchell đưa định nghĩa khai phá liệu sau: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad phát biểu: ”Khai phá liệu thường xem việc khám phá tri thức sở liệu, trình trích xuất thông tin ẩn, trước chưa biết có khả hữu ích, dạng quy luật, ràng buộc, qui tắc sở liệu.” Còn nhà thống kê xem " khai phá liệu trình phân tích thiết kế thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp / mối quan hệ mang tính hệ thống biến sau hợp thức hoá kết tìm cách áp dụng mẫu phát cho tập liệu" Nói tóm lại: khai phá liệu bước quy trình phát tri thức gồm có thụât toán khai thác liệu chuyên dùng số quy định hiệu tính toán chấp nhận để tìm mẫu mô hình liệu Phát tri thức sở liệu qui trình nhận biết mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích, hiểu 1.1.1 Hình thành định nghĩa toán Đây bước tìm hiểu lĩnh vực ứng dụng hình thành toán, bước định cho việc rút tri thức hữu ích, đồng thời lựa chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu 1.1.2 Thu thập tiền xử lý liệu Trong bước liệu thu thập dạng thô (nguồn liệu thu thập từ kho liệu hay nguồn thông tin Internet) Trong giai đoạn liệu tiền xử lý để biến đổi cải thiện chất lượng liệu cho phù hợp với phương pháp khai phá liệu chọn lựa bước http://www.ictu.edu.vn Hình 1.2 Xử lí liệu Bước thường chiếm nhiều thời gian trình khám phá tri thức Các giải thuật tiền xử lý liệu bao gồm : Xử lý liệu bị mất/ thiếu: Các dạng liệu bị thiếu thay giá trị thích hợp Khử trùng lắp: đối tượng liệu trùng lắp bị loại bỏ Kỹ thuật không sử dụng cho tác vụ có quan tâm đến phân bố liệu Giảm nhiễu: nhiễu đối tượng tách rời khỏi phân bố chung bị loại khỏi liệu Chuẩn hoá: miền giá trị liệu chuẩn hoá Rời rạc hoá: dạng liệu số biến đổi giá trị rời rạc Rút trích xây dựng đặc trưng từ thuộc tính có Giảm chiều: thuộc tính chứa thông tin loại bỏ bớt 1.1.3 Khai phá liệu rút tri thức Đây bước quan trọng tiến trình khám phá tri thức Kết bước trích mẫu và/hoặc mô hình ẩn liệu Một mô hình biểu diễn cấu trúc tổng thể thành phần hệ thống hay http://www.ictu.edu.vn 10 hệ thống sở liệu, hay miêu tả cách liệu nảy sinh Còn mẫu cấu trúc cục có liên quan đến vài biến vài trường hợp sở liệu 1.1.4 Phân tích kiểm định kết Bước thứ tư hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đoán Trong bước này, kết tìm biến đổi sang dạng phù hợp với lĩnh vực ứng dụng dễ hiểu cho người dùng Hình 1.3 Tri thức 1.1.5 Sử dụng tri thức phát Trong bước này, tri thức khám phá củng cố, kết hợp lại thành hệ thống, đồng thời giải xung đột tiềm tri thức Các mô hình rút đưa vào hệ thống thông tin thực tế dạng modul hỗ trợ việc đưa định Các giai đoạn trình khám phá tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn Các bước trình khám http://www.ictu.edu.vn 51 Các đặc điểm dịch vụ OLAP: Dễ sử dụng: Bằng cách cung cấp giao diện người dùng trợ giúp thực Linh động: Mô hình liệu mạnh cho định nghĩa khối lưu trữ Các khối ghi : Cho kịch phân tích dạng “what if” Kiến trúc co dãn : Cung cấp đa dạng kịch lưu trữ giải pháp tự động “hội chứng bùng nổ liệu” mà gây khó chịu cho kỹ thuật OLAP Tích hợp công cụ quản trị, bảo mật, nguồn liệu khách/server Hỗ trợ rộng rãi hàm API kiến trúc mở để hỗ trợ ứng dụng tuỳ ý 3.2.4 So sánh OLAP với OLTP Đặc trưng ứng dụng OLTP tác vụ xử lý tự động ghi chép liệu xử lý tác vụ tổ chức ghi nhận đơn đặt hàng giao dịch ngân hàng (chúng công việc hàng ngày tổ chức thương mại) mà cần phải đọc cập nhật vài mẩu tin dựa khoá chúng Những tác vụ có cấu trúc, lặp lại, bao gồm giao dịch ngắn, tối giản tách biệt, yêu cầu liệu chi tiết cập nhật Các sở liệu tác nghiệp có xu hướng từ vài trăm megabyte đến hàng gigabyte kích thước lưu trữ liệu hành Tính quán khả phục hồi sở liệu then chốt, tối đa thông lượng giao dịch thước đo yếu Vì sở liệu thiết kế để tối thiểu xung đột trùng lắp Còn kho liệu, mục tiêu hỗ trợ định cho nhà quản lý Tính chi tiết riêng lẻ mẩu tin quan trọng tính lịch sử, tổng kết hợp liệu Do đó, kho liệu thường chứa liệu hợp từ nhiều sở liệu tác nghiệp thu thập qua thời gian dài Kết kích thước kho liệu có khuynh hướng từ vài trăm gigabyte đến hàng terabyte so với sở liệu tác nghiệp Kho liệu hỗ trợ truy vấn phức tạp với thời gian hồi đáp nhanh, truy vấn phức tạp truy xuất hàng triệu mẩu tin http://www.ictu.edu.vn 52 thực nhiều lần thao tác quét, kết tổng hợp Đối với kho liệu, số lượng truy vấn đưa vào thời gian hồi đáp quan trọng số lượng giao dịch đưa vào Mà OLAP công cụ cho phép thực hiệu truy vấn Căn vào đó, sở liệu tác nghiệp xây dựng để hỗ trợ tốt tác vụ OLTP, cố gắng thực thi truy vấn OLAP phức tạp sở liệu tác nghiệp cho kết hiệu thực chấp nhận 3.2.5 Các mô hình lưu trữ hỗ trợ OLAP Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ liệu khác nhau, mô hình có ưu khuyết điểm riêng, chúng sử dụng tuỳ theo mục đích khai thác 3.2.5.1 Mô hình OLAP nhiều chiều (MOLAP) Mô hình OLAP đa chiều (MOLAP) lưu trữ liệu sở (là liệu từ bảng kho liệu data mart) thông tin tổng hợp (là độ đo tính toán từ bảng) cấu trúc đa chiều gọi khối Các cấu trúc lưu bên sở liệu data mart kho liệu Hình 3.6 Mô hình liệu MOLAP http://www.ictu.edu.vn 53 Lưu trữ khối cấu trúc MOLAP tốt cho truy vấn tổng hợp liệu thường xuyên mà cần thời gian hồi đáp nhanh Ví dụ, tổng sản phẩm bán tất vùng theo quý Mô hình MOLAP cho phép thực truy vấn phân tích liệu tốt đặc điểm sau: Thông tin tổng hợp liệu sở lưu trữ cấu trúc đa chiều Các thao tác kết, thao tác tốn chi phí mô hình quan hệ, không cần thiết MOLAP sử dụng thuật toán nén liệu cho phép lưu trữ với không gian MOLAP sử dụng mục bitmap cho hiệu thực thi tốt MOLAP lấy liệu khối nhanh cách sử dụng xử lý truy vấn tốc độ cao cache liệu Thông tin nhận từ khối bảng OLAP sở truy xuất thông tin chi tiết MOLAP không sử dụng chế khoá liệu đọc MOLAP nạp trước vào nhớ cache Dữ liệu dễ dàng chép đến khách cho phân tích không trực tuyến 3.2.5.2 Mô hình OLAP quan hệ (ROLAP) Mô hình OLAP quan hệ (ROLAP) lưu trữ liệu sở thông tin tổng hợp bảng quan hệ Các bảng lưu trữ sở liệu bảng data mart kho liệu http://www.ictu.edu.vn 54 Hinh 3.7 Mô hình liệu ROLAP Lưu trữ khối cấu trúc ROLAP tốt cho truy vấn liệu không thường xuyên Ví dụ 80% người dùng truy vấn liệu vòng năm trở lại đây, liệu cũ năm đưa vào cấu trúc ROLAP để giảm không gian đĩa bị chiếm dụng, để loại trừ liệu trùng lắp Lưu trữ liệu cấu trúc ROLAP cung cấp lợi ích sau: ROLAP cho phép Cube Builder tự động tạo mục ROLAP ánh xạ tổng hợp có sẵn từ data mart kho liệu OLAP Manager phép sử dụng tổng hợp có sẵn để tổng hợp mà không cần tính toán lại cho truy vấn ROLAP tạo đòn bẩy cho hệ quản trị sở liệu quan hệ nhằm cho nhà quản trị hệ thống trì hiệu ROLAP hỗ trợ Microsoft SQL Server, Oracle, Access Open Database Connectivity (ODBC) 3.2.5.3 Mô hình lai OLAP (HOLAP): Mô hình OLAP lai (HOLAP) kết hợp MOLAP ROLAP http://www.ictu.edu.vn 55 Hình 3.8 Mô hình liệu HOLAP Lưu trữ khối cấu trúc HOLAP tốt cho truy vấn tổng hợp liệu thường xuyên dựa lượng lớn liệu sở Ví dụ, lưu trữ liệu bán hàng theo hàng quý, hàng năm cấu MOLAP liệu hàng tháng, hàng tuần hàng ngày cấu trúc ROLAP Lợi ích việc lưu trữ cấu trúc HOLAP là: Lấy liệu khối nhanh cách sử dụng xử lý truy vấn tốc độ cao MOLAP Tiêu thụ không gian lưu trữ MOLAP Tránh trùng lắp liệu 3.2.5.4 So sách mô hình: Bảng sau so sánh tổng hợp ba mô hình lưu trữ hỗ trợ OLAP: MOLAP Lưu trữ liệu sở Khối ROLAP Bảng quan hệ HOLAP Bảng quan hệ http://www.ictu.edu.vn 56 Lưu trữ thông tin tổng hợp Khối Bảng quan hệ Khối Hiệu suất thực truy vấn Nhanh Chậm Nhanh Tiêu thụ không gian lưu trữ Nhiều Thấp Trung bình Chi phí bảo trì Cao Thấp Trung bình 3.2.6.Kiến trúc khối OLAP Đối tượng OLAP khối, thể đa chiều liệu chi tiết tổng hợp Một khối bao gồm nguồn liệu, chiều, độ đo phần dành riêng Các khối thiết kế dựa yêu cầu phân tích người dùng Một kho liệu hỗ trợ nhiều khối khác khối Bán hàng, khối Bảng kiểm kê,… Dữ liệu nguồn khối nơi chứa kho liệu cung cấp liệu cho khối Các chiều ánh xạ từ thông tin bảng chiều kho liệu vào mức phân cấp, ví dụ chiều Địa lý gồm mức Lục địa, Quốc gia, Tỉnh-Thành phố Các chiều tạo cách độc lập chia sẻ khối nhằm xây dựng khối dễ dàng để chắn thông tin tổng hợp cho phân tích ổn định Ví dụ, chiều chia sẻ phân cấp sản phẩm sử dụng tất khối cấu tạo thông tin tổng hợp sản phẩm ổn định khối sử dụng chiều Một chiều ảo dạng đặc biệt chiều mà ánh xạ thuộc tính từ thành viên chiều khác để sau sử dụng khối Ví dụ, chiều ảo thuộc tính kích thước sản phẩm cho phép khối tổng hợp liệu số lượng sản phẩm bán theo kích thước, số lượng áo bán theo kiểu theo kích thước Các chiều ảo thuộc tính thành viên đánh giá cần thiết cho truy vấn chúng không đòi hỏi phải có khối lưu trữ vật lý http://www.ictu.edu.vn 57 Các độ đo xác định giá trị số từ bảng kiện (fact table) mà tổng hợp cho phân tích giá bán, chi phí số lượng bán Các phần dành riêng vật chứa lưu trữ đa chiều, giữ liệu khối Mỗi khối chứa phần, liệu khối kết hợp từ nhiều phần Mỗi phần lấy liệu nguồn liệu khác lưu vị trí riêng biệt Dữ liệu phần cập nhật độc lập với phần khác khối Ví dụ, liệu khối chia theo thời gian, với phần chứa liệu năm hành, phần khác chứa liệu năm trước, phần thứ ba chứa tất liệu năm trước Các phần khối lưu trữ độc lập cách thức khác với mức độ tổng kết khác Các phần người dùng, họ khối đối tượng đơn, chúng cung cấp tuỳ chọn đa dạng để quản lý liệu OLAP Một khối ảo khung nhìn luận lý (logic) phần chia nhiều khối Một khối ảo sử dụng để kết (join) khối khác để chia sẻ chiều chung đó, ví dụ kết khối Bán hàng khối Kho nhằm mục đích phân tích đặc biệt trì khối tách biệt cho đơn giản Các chiều (dimension) độ đo (measure) chọn từ khối kết để thể khối ảo 3.2.7 Mô hình kiến trúc dịch vụ OLAP Kiến trúc dịch vụ OLAP gồm thành phần: Server Khách http://www.ictu.edu.vn 58 Hình 3.9 Kiến trúc dịch vụ OLAP 3.2.7.1 Kiến trúc thành phần Server Hình 3.10 Kiến trúc thành phần Server http://www.ictu.edu.vn 59 Dịch vụ OLAP SQL Server cung cấp thành phần Server có khả tạo quản lý liệu OLAP đa chiều, đồng thời cung cấp liệu cho khách qua dịch vụ PivotTable Các thao tác thành phần Server bao gồm việc tạo khối liệu đa chiều từ kho sở liệu quan hệ lưu trữ chúng cấu trúc khối đa chiều (MOLAP), sở liệu quan hệ (ROLAP) kết hợp hai (HOLAP) Siêu liệu cấu trúc khối đa chiều lưu trữ kho sở liệu quan hệ Các thao tác thành phần Server cung cấp gồm: Khả tạo quản lý khối OLAP Phục vụ lấy liệu làm cho sử dụng từ ứng dụng khách 3.2.7.2 Kiến trúc thành phần Khách Hình 3.11 Kiến trúc thành phần Khách http://www.ictu.edu.vn 60 Thành phần khách dịch vụ PivotTable giao tiếp với OLAP server cung cấp giao diện cho ứng dụng khách sử dụng truy cập liệu OLAP server Các ứng dụng khách kết nối đến dịch vụ PivotTable cách sử dụng giao diện OLE DB mô hình ADO Các ứng dụng khách sử dụng dịch vụ PivotTable để lấy liệu từ sở liệu OLAP Dịch vụ PivotTable tạo khối cục mà tập khối cư trú server Các khối cục sử dụng để làm tăng hiệu thực sử dụng để thực phân tích không trực tuyến Dịch vụ PivotTable công cụ lưu trữ, duyệt phân tích khối PivotTable OLAP Server xử lý chỗ với đặc tính phân tích trực tuyến không trực tuyến mà: Cung cấp truy cập trực tuyến đến liệu OLAP khách dịch vụ OLAP Bao gồm đặc tính phân tích liệu, xây dựng khối quản lý cache Cho phép khối lưu trữ cục để phân tích không trực tuyến kết nối đến liệu dịch vụ OLAP trực tuyến 3.3 Dữ liệu đào tạo 3.3.1 Dữ liệu Dữ liệu công tác đào tạo xã thuộc huyện Lục Yên, tỉnh Yên bái lưu sở liệu Tuy nhiên hiển thị liệu trang tính để tiện thực thao tác khai phá liệu http://www.ictu.edu.vn 61 Hình 3.12 Dữ liệu gốc 3.3.2 Khai phá liệu Một số khai phá liệu nhờ công cụ khai phá liệu bảng tính MS EXCEL thực Dưới vài thí dụ minh hoạ tri thức phát Hình 3.13 Thí dụ sử dụng OLAP với bảng xoay http://www.ictu.edu.vn 62 Hình 3.14 Thí dụ sử dụng nhiều tham số cột xoay 3.4 Kết luận Chương thực hành phương pháp khai phá liệu thực với nhiều kĩ thuật OLAP, với công cụ xoay bảng bảng tính điện tử MS EXCEL Việc khai phá liệu giúp người quản lý đào tạo có định phù hợp lớp đạo tạo công nghệ thông tin, xã, tuỳ theo số dân, trình ICT xã http://www.ictu.edu.vn 63 KẾT LUẬN Luận văn kết luận với liệt kê công việc thực thời gian thực tập, đề xuất nhiệm vụ Khai phá liệu lĩnh vực mẻ, lý thú Luận văn trình bày, số vấn đề nhất, phương pháp để khai phá liệu Phương pháp khai phá liệu là: phân lớp, hồi quy, định, suy diễn, quy nạp, K- láng giềng gần, … Có nhiều phương pháp khai phá liệu khác nhau, luận văn đề cập đến việc sử dụng công cụ OLAP, công cụ xoay bảng tính Excel để bước đầu khai phá liệu cho việc quản lý đào tạo Trung tâm Một số vấn đề giải Chương đầu trình bày số phương pháp khai phá liệu, số kĩ thuật sử dụng nhiều ngành để tri thức hay liệu Khai phá liệu có nhu cầu công tác xử lí liệu, công tác quản lí nói chung Việc sử dụng phương pháp khai phá liệu có ý nghĩa quản lí đào tạo, đặc biệt cho Trung tâm đào tạo tỉnh miền núi đất nước Chương đề cập số phương pháp xử lí liệu dựa tính toán thông kê Đích ban đầu đặt luận văn áp dụng kiến thức PCA để phát yếu tố ảnh hưởng đến công tác đào tạo, huấn luyện quản lý đào tạo Trung tâm Giáo dục thường xuyên tỉnh Yên Bái Tuy nhiên liệu không nhiều, vấn đề đặt không phức tạp, chương liệt kê số phương pháp cách hệ thống để sử dụng thời gian tới Chương thực hành phương pháp khai phá liệu thực với nhiều kĩ thuật OLAP, với công cụ xoay bảng bảng tính điện tử MS EXCEL Việc khai phá liệu giúp người quản lý đào tạo có định phù hợp lớp đạo tạo công nghệ thông tin, xã, tuỳ theo số dân, trình ICT xã Tuy nhiên thời gian ngắn liệu không nhiều nên việc xử lý liệu chưa sâu http://www.ictu.edu.vn 64 Phương hướng tiếp tục nghiên cứu Qua việc tìm hiểu khai phá liệu, tri thức xử lí liệu đào tạo, người ta nhìn nhận lại trình xử lí liệu có số nhận xét phát triển Xử lí liệu với nhiều phương pháp khác nhau; Cần tiếp tục tìm hiểu để sử dụng phương pháp phân tích thành phần vấn đề đơn giản Trung tâm Đồng thời áp dụng cho CSDL lớn nhằm thấy rõ hiểu việc phân tích thành phần để khai phá sở liệu lớn Đánh giá hiệu công tác tin học hoá http://www.ictu.edu.vn 65 TÀI LIỆU THAM KHẢO Tiếng việt [1] Đỗ Trung Tuấn, Cơ sở liệu, Nhà xuất Giáo dục, 1999 [2] Lê Bá Long, Xác suất thống kê, Học viện Công nghệ bưu viễn thông, 2006 [3] Nguyễn Thị Hạnh, luận văn tốt nghiệp, Trường Đại học Sư phạm Hà Nội, 2008 [4] Vũ Ngọc Thanh, luận văn tốt nghiệp, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2009 [5] Nguyễn Nhật Quang, Khai phá liệu, Trường Đại học Bách khoa Hà Nội, 2011 Tiếng Anh [6] Ullman F., Nguyên lý hệ sở liệu tri thức, Nxb Thống kê, Tập1, 2, Bản dịch Trần Đức Quang, Cadasa, 1998 [7] Jiawei Han, Micheline Kamper, Datamining, concepts and technique, Nhà xuất Morgan Kaufmann, 2000 Địa trang web [8].http://vi.wikipedia.org/wiki/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB% 87u [9] http://en.wikipedia.org/wiki/PCA, 2011 [10] http://en.wikipedia.org/wiki/Principal_component_analysis, 2011 [11].http://www.cs.otago.ac/cosc453/student_tutorials/principal_components.pdf, 2011 [...]... phá dữ liệu http://www.ictu.edu.vn 14 1.3 Các phương pháp khai phá dữ liệu 1.3.1 Phân lớp dữ liệu Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu một lớp) Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận được Hình 1.6 Phân lớp dữ liệu 1.3.2 Phân cụm dữ liệu. .. dụng cho việc phân tích khai phá dữ liệu Quan hệ khởi tạo có thể phù hợp hoặc không phù hợp với quan hệ vật lý trong cơ sơ dữ liệu Vì vậy các quan hệ ảo được gọi là Khung nhìn trong trường của cơ sở dữ liệu, tập dữ liệu thích hợp cho khai phá dữ liệu được gọi là Khung nhìn nhỏ Trong một kho dữ liệu, dữ liệu có thể được lưu trữ trong một cơ sở dữ liệu đa chiều, được biết như là một khối dữ liệu mà có thể... phá dữ liệu Ở trong giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng để trích mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hoá dữ liệu tuần tự 6 Đánh giá kết quả mẫu : đây là giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. .. biến ngẫu nhiên 2.2 Khai phá dữ liệu với phương pháp thống kê Nhiệm vụ của khai phá dữ liệu là mỗi một người dùng sẽ có một chức năng, nhiệm vụ khai phá dữ liệu trong đầu Thí dụ người ta có dạng phân tích dữ liệu muốn thể hiện Một nhiệm vụ khai phá dữ liệu có thể được đặc tả theo dạng ngôn ngữ hỏi khai phá dữ liệu, xác định đầu vào, đầu ra của hệ thống Ngôn ngữ hỏi khai phá dữ liệu được định nghĩa theo... phá dữ liệu Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Nội dung của quá trình như sau: 1 Gom dữ liệu : Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu Bước này lấy dữ. .. Tập dữ liệu thích hợp có thể được đặc tả bởi việc lọc dữ liệu dựa trên điều kiện, lát cắt (lấy dữ liệu cho một giá trị thuộc tính được đưa ra hoặc lát cắt) hoặc là đào sâu (trích cái chung của một vài lát cắt) của khối dữ liệu Chú ý rằng trong một câu hỏi khai phá dữ liệu các điều kiện cung cấp cho việc lựa chọn dữ liệu có thể ở mức độ khái niệm cao hơn dữ liệu trong cơ sở dữ liệu hoặc trong kho dữ liệu. .. phá dữ liệu linh động, uyển chuyển để xử lý số lượng dữ liệu lớn một cách hiệu quả Tạo ra tương tác người sử dụng tốt, giúp người sử dụng tham gia điều khiển quá trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫu đáng quan tâm Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng... phá dữ liệu đó là vấn đề an toàn và bảo mật thông tin trong khai phá dữ liệu 1.5 Kết luận Chương đầu đã trình bày một số phương pháp khai phá dữ liệu, một số kĩ thuật đã sử dụng trong nhiều ngành để chỉ ra tri thức hay dữ liệu mới Khai phá dữ liệu có nhu cầu trong công tác xử lí dữ liệu, cũng như trong công tác quản lý nói chung Việc sử dụng các phương pháp khai phá dữ liệu có ý nghĩa trong quản lý đào. .. trọng Nếu dữ liệu không được làm sạch- tiền xử lý - chuẩn bị trước thì sẽ gây nên những kết quả sai lệch nghiêm trọng về sau http://www.ictu.edu.vn 12 Hình 1.4 Quá trình khai phá dữ liệu 4 Chuyển đổi dữ liệu : Trong giai đoạn này, dữ liệu có thể được tổ chức và sử dụng lại Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu 5 Phát hiện và trích mẫu dữ liệu. .. dữ liệu Bước này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web 2 Trích lọc dữ liệu : Ở giai đoạn này dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó 3 Làm sạch và tiền xử lý dữ liệu : Giai đoạn thứ ba này là giai đoạn hay bị sao nhãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu Một số lỗi thường ... cần xử lý cách khoa học Vấn đề khai phá liệu có áp dụng công nghệ ngày sử dụng nhiều nhiều lĩnh vực lĩnh vực giáo dục Chính vậy, chọn đề tài: Phân tích thành phần phục vụ xử lý liệu đào tạo ... dụng tri thức liệu Meta, điều khiển trình xử lý liệu Hiện nhiều sở đào tạo có nhiều phần mềm cho phép xử lý liệu Những liệu liên quan đến công tác đào tạo gồm: Các kết dạy học, học liệu điện tử,... phá liệu Chương 2: Một số phương pháp xử lí liệu nhờ thống kê Chương trình bày phương pháp thống kê, thành phần đặc trưng liệu cách chọn, phân tích đánh giá thành phần liệu Chương 3: Phân tích