Bai giang TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN *** BÀI GIẢNG KHAI PHÁ DỮ LIỆU TÊN HỌC PHẦN KHAI PHÁ DỮ LIỆU MÃ HỌC PHẦN 17409 TRÌNH ĐỘ ĐÀO TẠO ĐẠI HỌC CH[.]
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN -*** - BÀI GIẢNG KHAI PHÁ DỮ LIỆU TÊN HỌC PHẦN: MÃ HỌC PHẦN: TRÌNH ĐỘ ĐÀO TẠO: DÙNG CHO SV NGÀNH: KHAI PHÁ DỮ LIỆU 17409 ĐẠI HỌC CHÍNH QUY CƠNG NGHỆ THƠNG TIN HẢI PHỊNG - 2011 MỤC LỤC Nội dung Chương Tổng quan kho liệu (Data warehouse) 1.1 Các chiến lược xử lý khai thác thông tin 1.2 Định nghĩa kho liệu 1.3 Mục đích kho liệu 1.4 Đặc tính liệu kho liệu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Chương Tổng quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai phá liệu so với phương pháp 2.7 Lựa chọn phương pháp 2.8 Những thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu Chương Tiền xử lý liệu 3.1 Mục đích 3.2 Làm liệu 3.3 Tích hợp biến đổi liệu Chương Khai phá dựa mẫu phổ biến luật kết hợp 4.1 Khái niệm luật kết hợp 4.2 Giải thuật Apriori 4.3 Giải thuật FP-Growth 4.4 So sánh đánh giá Chương Phân lớp dự đoán 5.1 Khái niệm 5.2 Phân lớp dựa định Trang 5 10 13 13 13 14 16 17 21 23 24 28 28 29 31 40 Error: Referen ce source not found 40 45 51 54 54 56 Tên học phần: Khai phá liệu Loại học phần: Bộ môn phụ trách giảng dạy: Hệ thống Thông tin Khoa phụ trách: CNTT Mã học phần: 17409 Tổng số TC: Tổng số Lý thuyết Thực hành/ Tự học Bài tập Đồ án môn tiết Xemina lớn học 45 30 15 không không Học phần học trước: Cơ sở liệu; Cơ sở liệu nâng cao; Hệ quản trị CSDL Học phần tiên quyết: Không yêu cầu Học phần song song: Không yêu cầu Mục tiêu học phần: Cung cấp kiến thức kho liệu lớn kỹ thuật khai phá liệu Nội dung chủ yếu: Tổng quan kho liệu khai phá liệu; Phương pháp tổ chức lưu trữ liệu lớn, kỹ thuật khai phá liệu; Phân tích liệu sử dụng phương pháp phân cụm; Ứng dụng kỹ thuật khai phá liệu Nội dung chi tiết: TÊN CHƯƠNG MỤC Chương Tổng quan kho liệu (Data warehouse) 1.1 Các chiến lược xử lý khai thác thông tin 1.2 Định nghĩa kho liệu 1.3 Mục đích kho liệu 1.4 Đặc tính liệu kho liệu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Chương Tổng quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai phá liệu so với phương pháp 2.7 Lựa chọn phương pháp 2.8 Những thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu Chương Tiền xử lý liệu 3.1 Mục đích 3.2 Làm liệu 3.3 Tích hợp biến đổi liệu Chương Khai phá dựa mẫu phổ biến luật kết hợp 4.1 Khái niệm luật kết hợp 4.2 Giải thuật Apriori 4.3 Giải thuật FP-Growth 4.4 So sánh đánh giá Chương Phân lớp dự đoán PHÂN PHỐI SỐ TIẾT TS LT TH BT KT 9 12 TÊN CHƯƠNG MỤC 5.1 Khái niệm 5.2 Phân lớp dựa định PHÂN PHỐI SỐ TIẾT TS LT TH BT KT Nhiệm vụ sinh viên: Tham dự buổi học lý thuyết thực hành, làm tập giao, làm thi học phần thi kết thúc học phần theo quy định Tài liệu học tập: J Han, M Kamber, Data Mining: Concepts and Techniques, 2nd edition, Morgan Kaufmann, 2006 P N Tan, M Steinbach, V Kumar, Introduction to Data Mining, AddisonWesley, 2006 Paulraj Ponnian, Data Warehousing Fundamentals, John Wiley Hình thức tiêu chuẩn đánh giá sinh viên: - Hình thức thi: tự luận trắc nghiệm - Tiêu chuẩn đánh giá sinh viên: vào tham gia học tập sinh viên buổi học lý thuyết thực hành, kết làm tập giao, kết thi học phần thi kết thúc học phần Thang điểm: Thang điểm chữ A, B, C, D, F Điểm đánh giá học phần: Z = 0,3X + 0,7Y Bài giảng tài liệu thức thống Bộ mơn Hệ thống Thông tin, Khoa Công nghệ Thông tin dùng để giảng dạy cho sinh viên Ngày phê duyệt: Trưởng Bộ môn / / Chương Tổng quan kho liệu (Datawarehouse) 1.1 Các chiến lược xử lý khai thác thông tin Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Một vấn đề đặt làm để tổ chức, khai thác khối lượng liệu khổng lồ đa dạng được? Về phía người sử dụng, khó khăn gặp phải thường là: Khơng thể tìm thấy liệu cần thiết Dữ liệu rải rác nhiều hệ thống với giao diện công cụ khác nhau, khiến tốn nhiều thời gian chuyền từ hệ thống sang hệ thống khác Có thể có nhiều nguồn thơng tin đáp ứng địi hỏi, chúng lại có khác biệt khó phát thông tin Không thể lấy liệu cần thiết Thường xuyên phải có chuyên gia trợ giúp, dẫn đến cơng việc bị dồn đống Có loại thông tin lấy không mở rộng khả làm việc hệ thống có sẵn Khơng thể hiểu liệu tìm thấy Mơ tả liệu nghèo nàn thường xa rời với thuật ngữ nghiệp vụ quen thuộc Không thể sử dụng liệu tìm thấy Kết thường khơng đáp ứng chất liệu thời gian tìm kiếm Dữ liệu phải chuyên đổi tay vào môi trường làm việc người sử dụng Những vấn đề hệ thống thông tin: “Phát triển chương trình ứng dụng khác khơng đơn giản” Một chức thể nhiều chương trình, việc tổ chức sử dụng khó khăn hạn chế kỹ thuật Chuyển đổi liệu từ khuôn dạng tác nghiệp khác để phù hợp với người sử dụng khó khăn “Duy trì chương trình gặp nhiều vấn đề” Một thay đổi ứng dụng ảnh hưởng đến ứng dụng khác có liên quan Thông thường phụ thuộc lẫn chương trình khơng rõ ràng không xác định Do phức tạp công việc chuyển đổi tồn q trình bảo trì dẫn đến mã nguồn chương trình trở nên phức tạp “Khối lượng liệu lưu trữ tăng nhanh” Khơng kiểm sốt khả chồng chéo liệu môi trường thông tin dẫn đến khối lượng liệu tăng nhanh “Quản trị liệu phức tạp” Thiếu định nghĩa chuẩn, thống liệu dẫn đến việc khả kiểm sốt mơi trường thơng tin Một thành phần liệu tồn nhiều nguồn khác Giải pháp cho tất vấn đề nêu việc xây dựng kho liệu (Data Warehouse) phát triển khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Trước hết, nhắc lại vài khái niệm liên quan đến liệu, sở liệu, kho liệu… 1.2 Định nghĩa kho liệu Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thơng tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Theo John Ladley, kỹ nghệ kho liệu (DWT - Data Warehouse Technology) tập phương pháp, kỹ thuật cơng cụ kết hợp, hỗ trợ để cung cấp thông tin cho người sử dụng sở tích hợp từ nhiều nguồn liệu, nhiều môi trường khác Kho liệu (Data Warehouse), tuyển chọn sở liệu tích hợp, hướng theo chủ đề định, thiết kế để hỗ trợ cho chức trợ giúp định, mà đơn vị liệu liên quan đến khoảng thời gian cụ thể Kho liệu thường có dung lượng lớn, thường hàng Gigabytes hay có tới hàng Terabytes Kho liệu xây dựng để tiện lợi cho việc truy cập từ nhiều nguồn, nhiều kiểu liệu khác cho kết hợp ứng dụng cơng nghệ đại vừa kế thừa từ hệ thống có từ trước Dữ liệu phát sinh từ hoạt động hàng ngày thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể tổ chức, thường gọi liệu tác nghiệp hoạt động xử lý liệu gọi xử lý giao dịch trực tuyến (OLPT - On Line Transaction Processing) Dòng liệu tổ chức (cơ quan, xí nghiệp, cơng ty, vv…) mơ tả khái quát sau: Dữ liệu tác nghiệp Kho liệu HỆ THỐNG DI SẢN (có sẵn) Kho liệu cục Kho liệu cá nhân Siêu liệu Hình 1.1 Luồng liệu tổ chức Dữ liệu cá nhân không thuộc phạm vi quản lý hệ quản trị kho liệu Nó chứa thơng tin trích xuất từ hệ thống liệu tác nghiệp, kho liệu từ kho liệu cục chủ đề liên quan phép gộp, tổng hợp hay xử lý theo cách 1.3 Mục đích kho liệu Mục tiêu kho liệu nhằm đáp ứng tiêu chuẩn bản: Phải có khả đáp ứng yêu cầu thông tin người sử dụng Hỗ trợ để nhân viên tổ chức thực hiên tốt, hiệu công việc mình, có định hợp lý, nhanh bán nhiều hàng hơn, suất cao hơn, thu lợi nhuận cao v v Giúp cho tổ chức xác định, quản lý điều hành dự án, nghiệp vụ cách hiệu xác Tích hơp liệu siêu liệu từ nhiều nguồn khác Muốn đạt yêu cầu DW phải: Nâng cao chất lượng liệu phương pháp làm tinh lọc liệu theo hướng chủ đề định Tổng hợp kết nối liệu Đồng hoá nguồn liệu với DW Phân định đồng hệ quản trị sở liệu tác nghiệp công cụ chuẩn để phục vụ cho DW Quản lí siêu liệu (metadata) Cung cấp thơng tin tích hợp, tóm tắt liên kết, tổ chức theo chủ đề Các kết khai thác kho liệu dùng hệ thống hỗ trợ định (Decision Support System - DSS), hệ thống thông tin tác nghiệp hỗ trợ cho truy vấn đặc biệt Mục tiêu tổ chức lợi nhuận điều mô tả sau: Lợi nhuận Lợi tức Bán hàng Xác định giá Chi phí Chi phí cố định Đề xuất kinh doanh Chi phí biến đổi Chi phí sản xuất Hình 1.2 Mối quan hệ cách nhìn nhận hệ thống Để thực chiến lược kinh doanh hiệu quả, nhà lãnh đạo vạch phương hướng kinh doanh hàng hoá Việc xác định giá hàng hố q trình bán hàng sản sinh lợi tức Tuy nhiên, để có hàng hóa kinh doanh cần phải khoản chi phí Lợi tức trừ chi phí cho lợi nhuận đơn vị 1.4 Đặc tính liệu kho liệu Đặc điểm kho liệu tập hợp liệu có đặc tính sau : - Tính tích hợp - Tính hướng chủ đề - Tính ổn định - Dữ liệu tổng hợp 1.4.1 Tính tích hợp (Intergration) Dữ liệu kho liệu tổ chức theo nhiều cách khác cho phù hợp với quy ước đặt tên, thống số đo, cấu mã hoá cấu trúc vật lý liệu, v v Một kho liệu khung nhìn thơng tin mức tồn đơn vị sản xuất kinh doanh đó, thống tồn khung nhìn khác thành khung nhìn theo chủ điểm Ví dụ, hệ thống xử lý giao dịch trực tuyến (OLAP) truyền thống xây dựng vùng nghiệp vụ Một hệ thống bán hàng hệ thống tiếp thị (marketing) có chung dạng thơng tin khách hàng Tuy nhiên, vấn đề tài cần có khung nhìn khác khách hàng Khung nhìn bao gồm phần liệu khác tài marketing Tính tích hợp thể chỗ: liệu tập hợp kho liệu thu thập từ nhiều nguồn trộn ghép với thành thể thống 1.4.2 Tính hướng chủ đề Dữ liệu kho liệu tổ chức theo chủ đề phục vụ cho tổ chức dễ dàng xác định thông tin cần thiết hoạt động Ví dụ, hệ thống quản lý tài cũ có liệu tổ chức cho chức năng: cho vay, quản lý tín dụng, quản lý ngân sách, v v Ngược lại, kho liệu tài chính, liệu tổ chức theo chủ điểm dựa vào đối tượng: khách hàng, sản phẩm, xí nghiệp, v v Sự khác cách tiếp cận dẫn đến khác nội dung liệu lưu trữ hệ thống * Kho liệu không lưu trữ liệu chi tiết, cần lưu trữ liệu mang tính tổng hợp phục vụ chủ yếu cho trình phân tích để trợ giúp định * CSDL ứng dụng tác nghiệp lại cần xử lý liệu chi tiết, phục vụ trực tiếp cho yêu cầu xử lý theo chức lĩnh vực ứng dụng thời Do vậy, hệ thống ứng dụng tác nghiệp (Operational Application System - OAS) cần lưu trữ liệu chi tiết Mối quan hệ liệu hệ thống khác, đòi hỏi phải có tính xác, có tính thời sự, v v * Dữ liệu cần gắn với thời gian có tính lịch sử Kho chứa liệu bao hàm khối lượng lớn liệu có tính lịch sử Dữ liệu lưu trữ thành loạt snapshot (ảnh chụp liệu) Mỗi ghi phản ánh giá trị liệu thời điểm định thể khung nhìn chủ điểm giai đoạn Do cho phép khôi phục lại lịch sử so sánh tương đối xác giai đoạn khác Yếu tố thời gian có vai trị phần khố để đảm bảo tính đơn sản phẩm hàng hoá cà cung cấp đặc trưng thời gian cho liệu Ví dụ, hệ thống quản lý kinh doanh cần có liệu lưu trữ đơn giá cuả mặt hàng theo ngày (đó yếu tố thời gian) Cụ thể mặt hàng theo đơn vị tính thời điểm xác định phải có đơn giá khác (sự biến động giá mặt hàng xăng dầu thời gian qua minh chứng điển hình) Dữ liệu OAS cần phải xác thời điểm truy cập, cịn DW cần có hiệu lực khoảng thời gian đó, khoảng đến 10 năm lâu Dữ liệu CSDL tác nghiệp thường sau khoảng thời gian định trở thành liệu lịch sử chúng chuyển vào kho liệu Đó liệu hợp lý chủ điểm cần lưu trữ 10 So sánh CSDL tác nghiệp ảnh chụp liệu, ta thấy: CSDL tác nghiệp Ảnh chụp liệu Thời gian ngắn (30 – 60 ngày) Thời gian dài (5 – 10 năm) Có thể có yếu tố thời gian khơng Ln có yếu tố thời gian Dữ liệu cập nhật Khi liệu chụp lại khơng cập nhật Bảng 1.1 Tính thời gian liệu 1.4.3 Dữ liệu có tính ổn định (nonvolatility) Dữ liệu DW liệu đọc kiểm tra, khơng thể thay đổi người dùng đầu cuối (terminal users) Nó cho phép thực thao tác nạp liệu vào kho truy cập vào cung DW Do vậy, liệu không biến động Thông tin DW phải tải vào sau liệu hệ thống điều hành cho q cũ Tính khơng biến động thể chỗ: liệu lưu trữ lâu dài kho liệu Mặc dù có thêm liệu nhập vào liệu cũ kho liệu khơng bị xố thay đổi Điều cho phép cung cấp thông tin khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho mơ hình nghiệp vụ phân tích, dự báo Từ có định hợp lý, phù hợp với quy luật tiến hoá tự nhiên 1.4.4 Dữ liệu tổng hợp Dữ liệu tác nghiệp tuý không lưu trữ DW Dữ liệu tổng hợp tích hợp lại qua nhiều giai đoạn khác theo chủ điểm nêu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Trên sở đặc trưng DW, ta phân biệt DW với hệ quản trị CSDL tác nghiệp truyền thống: Kho liệu phải xác định hướng theo chủ đề Nó thực theo ý đồ người sử dụng đầu cuối Trong hệ CSDL tác nghiệp dùng để phục vụ mục đích áp dụng chung Những hệ CSDL thông thường quản lý lượng thông tin lớn mà quản lý lượng thông tin vừa nhỏ DW phải quản lý khối lượng lớn thông tin lưu trữ nhiều phương tiện lưu trữ xử lý khác Đó đặc thù DW DW ghép nối phiên (version) khác cấu trúc CSDL DW tổng hợp thông tin để thể chúng hình thức dễ hiểu người sử dụng DW tích hợp kết nối thơng tin từ nhiều nguồn khác nhiều loại phương tiện lưu trữ xử lý thông tin nhằm phục vụ cho ứng dụng xử lý tác nghiệp trực tuyến DW lưu trữ thơng tin tổng hợp theo chủ đề nghiệp vụ cho tạo thông tin phục vụ hiệu cho việc phân tích người sử dụng ... quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai. .. quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai. .. khai phá liệu 2.1 Khai phá liệu Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, Khai phá liệu