BÀI GIẢNG KHAI PHÁ DỮ LIỆU

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN -*** - BÀI GIẢNG KHAI PHÁ DỮ LIỆU TÊN HỌC PHẦN: MÃ HỌC PHẦN: TRÌNH ĐỘ ĐÀO TẠO: DÙNG CHO SV NGÀNH: KHAI PHÁ DỮ LIỆU 17409 ĐẠI HỌC CHÍNH QUY CÔNG NGHỆ THÔNG TIN HẢI PHÒNG - 2011 MỤC LỤC Nội dung Chƣơng Tổng quan kho liệu (Data warehouse) 1.1 Các chiến lược xử lý khai thác thông tin 1.2 Định nghĩa kho liệu 1.3 Mục đích kho liệu 1.4 Đặc tính liệu kho liệu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Chƣơng Tổng quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai phá liệu so với phương pháp 2.7 Lựa chọn phương pháp 2.8 Những thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu Chƣơng Tiền xử lý liệu 3.1 Mục đích 3.2 Làm liệu 3.3 Tích hợp biến đổi liệu Chƣơng Khai phá dựa mẫu phổ biến luật kết hợp 4.1 Khái niệm 4.2 Luật kết hợp 4.3 Phát biểu toán phát luật kết hợp 4.4 Phát luật kết hợp dựa hệ thông tin nhị phân 4.5 Khai phá luật kết hợp hệ thông tin mờ Chƣơng Phân lớp dự đoán 5.1 Khái niệm 5.2 Phân lớp dựa định Trang 5 10 13 13 13 14 16 17 21 23 24 28 28 29 31 40 40 41 44 45 51 68 68 70 Tên học phần: Khai phá liệu Bộ môn phụ trách giảng dạy: Hệ thống Thông tin Mã học phần: 17409 Tổng số tiết Lý thuyết Thực hành/ Xemina Tự học 45 30 15 Loại học phần: Khoa phụ trách: CNTT Tổng số TC: Bài tập lớn Đồ án môn học không không Học phần học trƣớc: Cơ sở liệu; Cơ sở liệu nâng cao; Hệ quản trị CSDL Học phần tiên quyết: Không yêu cầu Học phần song song: Không yêu cầu Mục tiêu học phần: Cung cấp kiến thức kho liệu lớn kỹ thuật khai phá liệu Nội dung chủ yếu: Tổng quan kho liệu khai phá liệu; Phương pháp tổ chức lưu trữ liệu lớn, kỹ thuật khai phá liệu; Phân tích liệu sử dụng phương pháp phân cụm; Ứng dụng kỹ thuật khai phá liệu Nội dung chi tiết: TÊN CHƢƠNG MỤC Chƣơng Tổng quan kho liệu (Data warehouse) 1.1 Các chiến lược xử lý khai thác thông tin 1.2 Định nghĩa kho liệu 1.3 Mục đích kho liệu 1.4 Đặc tính liệu kho liệu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Chƣơng Tổng quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai phá liệu so với phương pháp 2.7 Lựa chọn phương pháp 2.8 Những thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu Chƣơng Tiền xử lý liệu 3.1 Mục đích 3.2 Làm liệu 3.3 Tích hợp biến đổi liệu Chƣơng Khai phá dựa mẫu phổ biến luật kết hợp 4.1 Khái niệm 4.2 Luật kết hợp 4.3 Phát biểu toán phát luật kết hợp 4.4 Phát luật kết hợp dựa hệ thông tin nhị phân 4.5 Khai phá luật kết hợp hệ thông tin mờ Chƣơng Phân lớp dự đoán 5.1 Khái niệm 5.2 Phân lớp dựa định PHÂN PHỐI SỐ TIẾT TS LT TH BT KT 9 12 Nhiệm vụ sinh viên: Tham dự buổi học lý thuyết thực hành, làm tập giao, làm thi học phần thi kết thúc học phần theo quy định Tài liệu học tập: J Han, M Kamber, Data Mining: Concepts and Techniques, 2nd edition, Morgan Kaufmann, 2006 P N Tan, M Steinbach, V Kumar, Introduction to Data Mining, Addison-Wesley, 2006 Paulraj Ponnian, Data Warehousing Fundamentals, John Wiley Hình thức tiêu chuẩn đánh giá sinh viên: - Hình thức thi: tự luận trắc nghiệm - Tiêu chuẩn đánh giá sinh viên: vào tham gia học tập sinh viên buổi học lý thuyết thực hành, kết làm tập giao, kết thi học phần thi kết thúc học phần Thang điểm: Thang điểm chữ A, B, C, D, F Điểm đánh giá học phần: Z = 0,3X + 0,7Y Bài giảng tài liệu thức thống Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin dùng để giảng dạy cho sinh viên Ngày phê duyệt: Trƣởng Bộ môn / / Chương Tổng quan kho liệu (Datawarehouse) Các chiến lƣợc xử lý khai thác thông tin 1.1 Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại họ phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Một vấn đề đặt làm để tổ chức, khai thác khối lượng liệu khổng lồ đa dạng được? Về phía người sử dụng, khó khăn gặp phải thường là: Không thể tìm thấy liệu cần thiết Dữ liệu rải rác nhiều hệ thống với giao diện công cụ khác nhau, khiến tốn nhiều thời gian chuyền từ hệ thống sang hệ thống khác Có thể có nhiều nguồn thông tin đáp ứng đòi hỏi, chúng lại có khác biệt khó phát thông tin Không thể lấy liệu cần thiết Thường xuyên phải có chuyên gia trợ giúp, dẫn đến công việc bị dồn đống Có loại thông tin lấy không mở rộng khả làm việc hệ thống có sẵn Không thể hiểu liệu tìm thấy Mô tả liệu nghèo nàn thường xa rời với thuật ngữ nghiệp vụ quen thuộc Không thể sử dụng liệu tìm thấy Kết thường không đáp ứng chất liệu thời gian tìm kiếm Dữ liệu phải chuyên đổi tay vào môi trường làm việc người sử dụng Những vấn đề hệ thống thông tin:  “Phát triển chương trình ứng dụng khác không đơn giản” Một chức thể nhiều chương trình, việc tổ chức sử dụng khó khăn hạn chế kỹ thuật Chuyển đổi liệu từ khuôn dạng tác nghiệp khác để phù hợp với người sử dụng khó khăn  “Duy trì chương trình gặp nhiều vấn đề” Một thay đổi ứng dụng ảnh hưởng đến ứng dụng khác có liên quan Thông thường phụ thuộc lẫn chương trình không rõ ràng không xác định Do phức tạp công việc chuyển đổi toàn trình bảo trì dẫn đến mã nguồn chương trình trở nên phức tạp  “Khối lượng liệu lưu trữ tăng nhanh” Không kiểm soát khả chồng chéo liệu môi trường thông tin dẫn đến khối lượng liệu tăng nhanh  “Quản trị liệu phức tạp” Thiếu định nghĩa chuẩn, thống liệu dẫn đến việc khả kiểm soát môi trường thông tin Một thành phần liệu tồn nhiều nguồn khác Giải pháp cho tất vấn đề nêu việc xây dựng kho liệu (Data Warehouse) phát triển khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Trước hết, nhắc lại vài khái niệm liên quan đến liệu, sở liệu, kho liệu… 1.2 Định nghĩa kho liệu Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thông tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thông tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Theo John Ladley, kỹ nghệ kho liệu (DWT - Data Warehouse Technology) tập phương pháp, kỹ thuật công cụ kết hợp, hỗ trợ để cung cấp thông tin cho người sử dụng sở tích hợp từ nhiều nguồn liệu, nhiều môi trường khác Kho liệu (Data Warehouse), tuyển chọn sở liệu tích hợp, hướng theo chủ đề định, thiết kế để hỗ trợ cho chức trợ giúp định, mà đơn vị liệu liên quan đến khoảng thời gian cụ thể Kho liệu thường có dung lượng lớn, thường hàng Gigabytes hay có tới hàng Terabytes Kho liệu xây dựng để tiện lợi cho việc truy cập từ nhiều nguồn, nhiều kiểu liệu khác cho kết hợp ứng dụng công nghệ đại vừa kế thừa từ hệ thống có từ trước Dữ liệu phát sinh từ hoạt động hàng ngày thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể tổ chức, thường gọi liệu tác nghiệp hoạt động xử lý liệu gọi xử lý giao dịch trực tuyến (OLPT - On Line Transaction Processing) Dòng liệu tổ chức (cơ quan, xí nghiệp, công ty, vv…) mô tả khái quát sau: Dữ liệu tác nghiệp Kho liệu Kho liệu cá nhân HỆ THỐNG DI SẢN (có sẵn) Kho liệu cục Siêu liệu Hình 1.1 Luồng liệu tổ chức Dữ liệu cá nhân không thuộc phạm vi quản lý hệ quản trị kho liệu Nó chứa thông tin trích xuất từ hệ thống liệu tác nghiệp, kho liệu từ kho liệu cục chủ đề liên quan phép gộp, tổng hợp hay xử lý theo cách Mục đích kho liệu 1.3 Mục tiêu kho liệu nhằm đáp ứng tiêu chuẩn bản:  Phải có khả đáp ứng yêu cầu thông tin người sử dụng  Hỗ trợ để nhân viên tổ chức thực hiên tốt, hiệu công việc mình, có định hợp lý, nhanh bán nhiều hàng hơn, suất cao hơn, thu lợi nhuận cao v v  Giúp cho tổ chức xác định, quản lý điều hành dự án, nghiệp vụ cách hiệu xác  Tích hơp liệu siêu liệu từ nhiều nguồn khác Muốn đạt yêu cầu DW phải:  Nâng cao chất lượng liệu phương pháp làm tinh lọc liệu theo hướng chủ đề định  Tổng hợp kết nối liệu  Đồng hoá nguồn liệu với DW  Phân định đồng hệ quản trị sở liệu tác nghiệp công cụ chuẩn để phục vụ cho DW  Quản lí siêu liệu (metadata)  Cung cấp thông tin tích hợp, tóm tắt liên kết, tổ chức theo chủ đề Các kết khai thác kho liệu dùng hệ thống hỗ trợ định (Decision Support System - DSS), hệ thống thông tin tác nghiệp hỗ trợ cho truy vấn đặc biệt Mục tiêu tổ chức lợi nhuận điều mô tả sau: Lợi nhuận Lợi tức Chi phí Xác định giá Bán hàng Chi phí cố định Đề xuất kinh doanh Chi phí biến đổi Chi phí sản xuất Hình 1.2 Mối quan hệ cách nhìn nhận hệ thống Để thực chiến lược kinh doanh hiệu quả, nhà lãnh đạo vạch phương hướng kinh doanh hàng hoá Việc xác định giá hàng hoá trình bán hàng sản sinh lợi tức Tuy nhiên, để có hàng hóa kinh doanh cần phải khoản chi phí Lợi tức trừ chi phí cho lợi nhuận đơn vị 1.4 Đặc tính liệu kho liệu Đặc điểm kho liệu tập hợp liệu có đặc tính sau : - Tính tích hợp - Tính hướng chủ đề - Tính ổn định - Dữ liệu tổng hợp 1.4.1 Tính tích hợp (Intergration) Dữ liệu kho liệu tổ chức theo nhiều cách khác cho phù hợp với quy ước đặt tên, thống số đo, cấu mã hoá cấu trúc vật lý liệu, v v Một kho liệu khung nhìn thông tin mức toàn đơn vị sản xuất kinh doanh đó, thống toàn khung nhìn khác thành khung nhìn theo chủ điểm Ví dụ, hệ thống xử lý giao dịch trực tuyến (OLAP) truyền thống xây dựng vùng nghiệp vụ Một hệ thống bán hàng hệ thống tiếp thị (marketing) có chung dạng thông tin khách hàng Tuy nhiên, vấn đề tài cần có khung nhìn khác khách hàng Khung nhìn bao gồm phần liệu khác tài marketing Tính tích hợp thể chỗ: liệu tập hợp kho liệu thu thập từ nhiều nguồn trộn ghép với thành thể thống 1.4.2 Tính hướng chủ đề Dữ liệu kho liệu tổ chức theo chủ đề phục vụ cho tổ chức dễ dàng xác định thông tin cần thiết hoạt động Ví dụ, hệ thống quản lý tài cũ có liệu tổ chức cho chức năng: cho vay, quản lý tín dụng, quản lý ngân sách, v v Ngược lại, kho liệu tài chính, liệu tổ chức theo chủ điểm dựa vào đối tượng: khách hàng, sản phẩm, xí nghiệp, v v Sự khác cách tiếp cận dẫn đến khác nội dung liệu lưu trữ hệ thống * Kho liệu không lưu trữ liệu chi tiết, cần lưu trữ liệu mang tính tổng hợp phục vụ chủ yếu cho trình phân tích để trợ giúp định * CSDL ứng dụng tác nghiệp lại cần xử lý liệu chi tiết, phục vụ trực tiếp cho yêu cầu xử lý theo chức lĩnh vực ứng dụng thời Do vậy, hệ thống ứng dụng tác nghiệp (Operational Application System - OAS) cần lưu trữ liệu chi tiết Mối quan hệ liệu hệ thống khác, đòi hỏi phải có tính xác, có tính thời sự, v v * Dữ liệu cần gắn với thời gian có tính lịch sử Kho chứa liệu bao hàm khối lượng lớn liệu có tính lịch sử Dữ liệu lưu trữ thành loạt snapshot (ảnh chụp liệu) Mỗi ghi phản ánh giá trị liệu thời điểm định thể khung nhìn chủ điểm giai đoạn Do cho phép khôi phục lại lịch sử so sánh tương đối xác giai đoạn khác Yếu tố thời gian có vai trò phần khoá để đảm bảo tính đơn sản phẩm hàng hoá cà cung cấp đặc trưng thời gian cho liệu Ví dụ, hệ thống quản lý kinh doanh cần có liệu lưu trữ đơn giá cuả mặt hàng theo ngày (đó yếu tố thời gian) Cụ thể mặt hàng theo đơn vị tính thời điểm xác định phải có đơn giá khác (sự biến động giá mặt hàng xăng dầu thời gian qua minh chứng điển hình) Dữ liệu OAS cần phải xác thời điểm truy cập, DW cần có hiệu lực khoảng thời gian đó, khoảng đến 10 năm lâu Dữ liệu CSDL tác nghiệp thường sau khoảng thời gian định trở thành liệu lịch sử chúng chuyển vào kho liệu Đó liệu hợp lý chủ điểm cần lưu trữ 10 So sánh CSDL tác nghiệp ảnh chụp liệu, ta thấy: Ảnh chụp liệu CSDL tác nghiệp Thời gian ngắn (30 – 60 ngày) Thời gian dài (5 – 10 năm) Có thể có yếu tố thời gian không Luôn có yếu tố thời gian Dữ liệu cập nhật Khi liệu chụp lại không cập nhật Bảng 1.1 Tính thời gian liệu 1.4.3 Dữ liệu có tính ổn định (nonvolatility) Dữ liệu DW liệu đọc kiểm tra, thay đổi người dùng đầu cuối (terminal users) Nó cho phép thực thao tác nạp liệu vào kho truy cập vào cung DW Do vậy, liệu không biến động Thông tin DW phải tải vào sau liệu hệ thống điều hành cho cũ Tính không biến động thể chỗ: liệu lưu trữ lâu dài kho liệu Mặc dù có thêm liệu nhập vào liệu cũ kho liệu không bị xoá thay đổi Điều cho phép cung cấp thông tin khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho mô hình nghiệp vụ phân tích, dự báo Từ có định hợp lý, phù hợp với quy luật tiến hoá tự nhiên 1.4.4 Dữ liệu tổng hợp Dữ liệu tác nghiệp tuý không lưu trữ DW Dữ liệu tổng hợp tích hợp lại qua nhiều giai đoạn khác theo chủ điểm nêu Phân biệt kho liệu với sở liệu tác nghiệp 1.5 Trên sở đặc trưng DW, ta phân biệt DW với hệ quản trị CSDL tác nghiệp truyền thống:  Kho liệu phải xác định hướng theo chủ đề Nó thực theo ý đồ người sử dụng đầu cuối Trong hệ CSDL tác nghiệp dùng để phục vụ mục đích áp dụng chung  Những hệ CSDL thông thường quản lý lượng thông tin lớn mà quản lý lượng thông tin vừa nhỏ DW phải quản lý khối lượng lớn thông tin lưu trữ nhiều phương tiện lưu trữ xử lý khác Đó đặc thù DW  DW ghép nối phiên (version) khác cấu trúc CSDL DW tổng hợp thông tin để thể chúng hình thức dễ hiểu người sử dụng  DW tích hợp kết nối thông tin từ nhiều nguồn khác nhiều loại phương tiện lưu trữ xử lý thông tin nhằm phục vụ cho ứng dụng xử lý tác nghiệp trực tuyến  DW lưu trữ thông tin tổng hợp theo chủ đề nghiệp vụ cho tạo thông tin phục vụ hiệu cho việc phân tích người sử dụng Trong giai đoạn (giai đoạn sửa, tỉa): xoá bỏ tập c  Ck cho vài (k-1) – tập 64 c không nằm Lk-1 Thủ tục đầy đủ tập Lk với độ hỗ trợ tối thiểu tập kích cỡ (k-1) có độ hỗ trợ tối thiểu, ta mở rộng tập Lk-1 với tất tập mục sau xoá tất tập mà (k-1) – tập không nằm Lk-1, ta nhận tấp tập Lk Việc kết nối tương đương với việc mở rộng Lk-1 với mục nằm sở liệu sau xoá bỏ tập mà (k-1) –itemset nhận việc xoá mục thứ (k-1) không nằm Lk-1 Ở giai đoạn Ck  Lk Với lập luận vậy, giai đoạn tỉa giai đoạn người ta xoá khỏi Ck tất tập mà (k-1) tập không nằm Lk-1 , không xoá tập nằm Lk Hàm Subset: Các tập ứng cử viên Ck lưu trữ băm Một nút chứa danh sách tập (nút lá) bảng băm ( nút trong) Trong nút trong, bucket bảng băm đến nút khác Gốc băm xem độ sâu Một nút độ sâu d dẫn đến nút độ sâu d+1 Các tập lưu trữ Khi ta bổ sung thêm tập c, ta bắt từ nút gốc xuống ta chạm vào Tại nút độ sâu d, ta định theo cành việc áp dụng hàm băm mục thứ d tập theo trỏ Bucket tương ứng Tất nút ban đầu tạo nút Khi số tập nút vượt ngưỡng chọn, nút chuyển thành nút Bắt đầu từ nút gốc, hàm Subset tìm tất ứng cử viên chứa giao dịch t sau: Nếu ta bắt đầu lá, ta tìm tập nút chứa giao dịch t bổ sung mối quan hệ với chúng tập kết mong muốn Nếu ta nút ta đến việc băm mục i, ta băm mục sau i t áp dụng cách đệ quy thủ tục nút Bucket tương ứng Đối với nút gốc, ta băm theo mục t Để thấy hàm Subset trả lại tập tham khảo mong muốn để ý đến xảy nút gốc Đối với tập c chứa giao dịch t, mục cần phải có t Tại nút gốc, việc băm mục t đảm bảo ta tập mà bắt đầu với mục không nằm t Những lí luận tương tự áp dụng cho mức sâu Vì mục tập thứ tự, ta đến nút việc băm mục i, ta cần quan tâm đến mục t xuất sau i // Bước tỉa: Xoá bớt tất tập mục c  Ck mà (k-1) tập c không phụ thuộc Lk-1 for ( tập mục c  Ck) for ( (k-1) – tập s c) if(s  Lk-1) delete c khỏi Ck; 65 4.5.5.3 Ví dụ minh hoạ thuật toán Apriori CSDL C1 TID Mục Mục Hỗ trợ 100 134 {1} 200 235 {2} 300 1235 {3} 400 25 {4} {5} 1 TID Tập mục 100 {{1}, {3}, {4}} 200 {{2}, {3}, {5}} 300 {{1}, {2}, {3}, {5}} 400 {{2},{5}} L1 Mục Hỗ trợ {1} C2 {2} Mục {3} {1 2} {5} {1 3} {1 5} {2 3} {2 5} {3 5} 2 Hỗ trợ TID Tập mục 100 {{1 3}} 200 {{2 3},{2 5},{3 5} 300 {{1 2},{1 3},{1 5},{2 3},{2 5},{3 5}} 400 {{2 5}} L2 ItemSet Support {1 3} {2 3} {2 5} {3 5} 3 TID Tập mục 200 {{2 }} 300 {{2 5}} C3 ItemSet {2 5} Support L3 ItemSet {2 } Support 66 Bài tập: LÝ THUYẾT: Các giá trị thông thường sử dụng làm tham số cho độ support confidence thuật toán Apriori? Tại trình khám phá luật kết lợp đơn giản so sánh với việc phát sinh lượng lớn itemset sở liệu giao dịch? Cho sở liệu giao dịch sau: X: TID Items T01 A, B, C, D T02 A, C, D, F T03 C, D, E, G, A T04 A, D, F, B T05 B, C, G T06 D, F, G T07 A, B, G T08 C, D, F, G a Sử dụng giá trị ngưỡng support = 25% confidence = 60%, tìm: Tất tập itemsets sở liệu X Các luật kết hợp đáng tin cậy Cho sở liệu giao dịch sau: Y: TID Items T01 A1, B1, C2 T02 A2, C1, D1 T03 B2, C2, E2 T04 B1, C1, E1 T05 A3, C3, E2 T06 C1, D2, E2 a Sử dụng ngưỡng support s = 30% confidence c = 60%, tìm: Tất tập itemset Y 67 Nếu tập itemset cấu trúc cho A + {A1, A2, A3}, B= {B1, B2}, C = {C1, C2, C3}, D = {D1, D2} E = {E1, E2}, tìm tập itemset định nghĩa mức độ khái niệm? Tìm luật kết hợp đáng tin cậy cho tập itemset câu THỰC HÀNH: Sử dụng thuật toán Apriori để tìm kiếm tập itemset sở liệu Northwind? 68 Chương 5: Phân lớp dự đoán 5.1 Khái niệm Kho liệu chứa nhiều thông tin hữu ích dùng cho việc định liên quan đến điều hành, định hướng đơn vị, tổ chức Phân lớp dự đoán hai dạng trình phân tích liệu sử dụng để trích rút mô hình biểu diễn lớp liệu quan trọng dự doán liệu phát sinh tương lai Kỹ thuật phân tích giúp cho hiểu kỹ kho liệu lớn Ví dụ xây dựng mô hình phân lớp để xác định giao dịch cho vay ngân hàn an toàn hay có rủi ro, xây dựng mô hình dự đoán để phán đoán khả chi tiêu khách hàng tiềm năm dựa thông tin liên quan đến thu nhập họ Rất nhiều phương pháp phân lớp dự đoán nghiên cứu lĩnh vực máy học, nhận dạng mẫu thông kê Hầu hết thuật toán có hạn chế nhớ với giả định kích thước liệu đủ nhỏ Kỹ thuật khai phá liệu gần phát triển để xây dựng phương pháp phân lớp dự đoán phù hợp với nguồn liệu có kích thước lớn 5.1.1 Phân lớp Quá trình phân lớp thực nhiệm vụ xây dựng mô hình công cụ phân lớp giúp cho việc gán nhãn phân loại cho liệu Ví dụ nhãn “An toàn” “Rủi ro” cho yêu cầu vay vốn; “Có” “Không” cho thông tin thị trường… Các nhãn dùng phân loại biểu diễn giá trị rời rạc việc xếp chùng ý nghĩa Phân lớp liệu gồm hai trình Trong trình thứ công cụ phân lớp xây dựng để xem xét nguồn liệu Đây trình học, thuật toán phân lớp xây dựng cách phân tích “học” từ tập liệu huấn luyện xây dựng sẵn bao gồm nhiều liệu Một liệu X biểu diễn vector n chiều, X = (x1, x2,…, xn) , giá trị cụ thể tập n thuộc tính nguồn liệu {A1, A2, …, An} Mỗi giả sử thuộc lớp định nghĩa trước với nhãn xác định 69 Hình 5.1 Quá trình học Hình 5.2 Quá trình phân lớp Quá trình phân lớp xem việc xác định ánh xạ hàm y = f(X), hàm dự đoán nhãn y cho X Nghĩa với lớp liệu cần học (xây dựng) ánh xạ hàm tương ứng Trong bước thứ hai, mô hình thu sử dụng để phân lớp Để đảm bảo tính khách quan nên áp dụng mô hình tập kiểm thử làm tập liệu huấn luyện ban dầu Tính xác mô hình phân lớp tập liệu kiểm thử số phần trăm liệu kiểm tra đánh nhãn cách so sánh chúng với mẫu liệu huấn luyện 70 Nếu độ xác mô hình dự đoán chấp nhận sử dụng cho liệu với thông tin nhãn phân lớp chưa xác định 5.1.2 Dự đoán Dự đoán liệu trình gồm hai bước, gần giống với trình phân lớp Tuy nhiên để dự đoán, bỏ qua khái niệm nhãn phân lớp giá trị dự đoán liên tục (được xếp) giá trị phân loại Ví dụ thay phân loại xem khoản vay có an toàn hay rủi dự đoán xem tổng số tiền cho vay khoản vay khoản vay an toàn Có thể xem xét việc dự đoán hàm y = f(X), X liệu đầu vào, đầu giá trị y liên tục xếp Việc dự đoán phân lớp có vài điểm khác sử dụng phương pháp xây dựng mô hình Giống với phân lớp, tập liệu huấn luyện sử dụng để xây dựng mô hình dự đoán không dùng để đánh giá tính xác Tính xác mô hình dự đoán đánh giá dựa việc tính độ lệch giá giá trị dự đoán với giá trị thực nhận kiểm tra X 5.2 Phân lớp sử dụng định 5.2.1 Cây định Cuối năm 70 đầu năm 80, J.Ross Quinlan phát triển thuật toán sinh định Đây tiếp cận tham lam, xác định dịnh xây dựng từ xuống cách đệ quy theo hướng chia để trị Hầu hết thuật toán sinh định dựa tiếp cận top-down trình bày sau đây, tập huấn luyện nhãn phân lớp chúng Tập huấn luyện chia nhỏ đệ quy thành tập trình xây dựng Generate_decision_tree: Thuật toán sinh định từ liệu huấn luyện nguồn liệu D Đầu vào: - Nguồn liệu D, có chứa liệu huấn luyện nhãn phân lớp - Attribute_list - danh sách thuộc tính - Attribute_selection_method, thủ tục để xác định tiêu chí phân chia liệu tốt thành lớp Tiêu chí bao gồm thuộc tính phân chia splitting_attribute, điểm chia split_point tập phân chia splitting_subset Đầu ra: Một định Nội dung thuật toán: Tạo nút N If D có nhãn lớp C then Trả N thành nút với nhãn lớp C If danh sách thuộc tính attribute_list rỗng then 71 Trả N thành nút với nhãn lớp chiếm đa số D (Việc thực qua gọi hàm Attribute_selection_method(D, attribute_list) để tìm tiêu chí phân chia tốt splitting_criterion gán nhãn cho N tiêu chí đó) If splitting_attribute giá trị rời rạc có nhiều cách chia then Attribute_list = attribute_list – splitting_attribute // Loại bỏ thuộc tính splitting_attribute Foreach j in splitting_criterion // Phân chia xây dựng cho phân chia Đặt Dj tập D phù hợp với tiêu chí j 10 If Dj rỗng then 11 12 Gắn nhãn cho nút N với nhãn phổ biến D Else Gắn nút trả hàm Generate_decision_tree(Dj, attribute_list) cho nút N 13 Endfor 14 Return N 5.2.2 Lựa chọn thuộc tính Việc lựa chọn thuộc tính thực nhờ việc lựa chọn tiêu chí phân chia cho việc phân nguồn liệu D cho cách tốt thành lớp phân biệt Nếu chia D thành vùng nhỏ dựa kết tìm tiêu chí phân chia, vùng chủng (Nghĩa tập vùng phân chia hoàn toàn thuộc lớp) Điều giúp xác định cách giá trị nút xác định chia Cây tạo cho phân vùng D gán nhãn với tiêu chí phân chia, nhánh hình thành vào kết phân chia Giả sử D phân vùng liệu chứa huấn luyện gán nhãn Các nhãn có m giá trị phân biệt xác định m lớp, Ci (với i = 1, ,m) Gọi Ci,D tập lớp Ci D Thông tin cần thiết để phân lớp D cho Trong pi khả D thuộc lớp Ci xác định |Ci,D| /|D| Giờ giả sử phân chia D dựa số thuộc tính A có v giá trị phân biệt {a1, , av} Thuộc tính A dùng để chia D thành v phân vùng tập {D1, D2, …, Dv} Dj chứa D có kết đầu aj Các phân vùng tương đương với nhánh nút N Thông tin xác định xem việc phân chia gần tiếp cận đến phân lớp cho sau 72 trọng lượng phân vùng thứ j InfoA(D) thể thông tin cần thiết để phân lớp D dựa phân lớp theo A Giá trị thông tin nhỏ cho phân vùng túy tương ứng Độ đo thông tin thu được cho Gain(A) cho biết nhánh thu nhận từ A Thuộc tính A với độ đo thông tin thu lớn dùng làm thuộc tính phân chia nút N 73 MỘT SỐ ĐỀ THI MẪU 74 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Công nghệ Thông tin BỘ MÔN HỆ THỐNG THÔNG TIN -*** THI KẾT THÚC HỌC PHẦN Tên học phần: Năm học: x KHAI PHÁ DỮ LIỆU Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Trình bày khái niệm khai phá liệu? Câu 2: (4 điểm) Cho bảng tổng hợp sau biểu diễn liệu tổng hợp kết bán hàng siêu thị, hot-dogs thể số giao dịch có chứa hot-dog danh sách mặt hàng, thể số giao dịch chứa hot-dog danh sách, tương tự hamburgers Hot-dogs Hamburgers 2.000 500 2.500 1.000 1.500 2.500 3.000 a Giả sử luật kết hợp 2.000 5.000 khai phá Cho min_sup = 25% min_conf = 50% Luật có phải luật kết hợp mạnh hay không? Giải thích? b Dựa liệu cho, cho biết việc mua hot-dog có độc lập với việc mua humbergers hay không? Nếu không cho biết mối quan hệ tương quan hai mặt hàng trên? Câu 3: (2 điểm) Hãy trình bày ý nghĩa tiền xử lý liệu kỹ thuật khai phá liệu? Câu 4: (2 điểm) Cho tập liệu dùng để phân tích độ tuổi xếp tăng dần sau: {13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70} a Sử dụng phương pháp làm mịn biên với độ rộng bin Minh họa bước thực hiện? b Sử dụng phương phương pháp chuẩn hóa min-mã để biến đổi giá trị tuổi 35 khoảng [0.0, 1.0] ***HẾT*** -Lưu ý: - Không sửa, xóa đề thi, nộp lại đề sau thi 75 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Công nghệ Thông tin BỘ MÔN HỆ THỐNG THÔNG TIN -*** THI KẾT THÚC HỌC PHẦN Tên học phần: KHAI PHÁ DỮ LIỆU Năm học: x Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Trình bày thuật toán Apriori? Câu 2: (4 điểm) Cho sở liệu với giao dịch, giả sử độ min_sup = 60% min_conf= 80% TID Mặt hàng T100 {M, O, N, K, E, Y} T200 {D, O, N, K, E, Y} T300 {M, A, K, E} T400 {M, U, C, K, Y} T500 {C, O, O, K, I, E} a Tìm tất tất tập phổ biến Itemsets sử dụng thuật toán Apriori ? b Liệt kê tất luật kết hợp mạnh (với độ support s, confidence c) đáp ứng tân từ sau, X biến biểu diễn khách hàng itemi biến biểu diễn mặt hàng (ví dụ A, B, …) Câu 3: (2 điểm) Trình bày điểm khác biệt kho liệu sở liệu thông thường? Câu 4: (2 điểm) Cho tập liệu dùng để phân tích độ tuổi xếp tăng dần sau: {13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70} a Sử dụng phương pháp làm mịn trung vị với độ rộng bin Minh họa bước thực hiện? b Sử dụng phương phương pháp chuẩn hóa decimal-scale để biến đổi giá trị tuổi 35 ***HẾT*** -Lưu ý: - Không sửa, xóa đề thi, nộp lại đề sau thi 76 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Công nghệ Thông tin BỘ MÔN HỆ THỐNG THÔNG TIN -*** THI KẾT THÚC HỌC PHẦN Tên học phần: KHAI PHÁ DỮ LIỆU Năm học: x Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Cho ví dụ nguồn liệu lưu trữ có cấu trúc bảng, cấu trúc semi-structured, không cấu trúc? Câu 2: (4 điểm) Cho sở liệu với giao dịch, giả sử độ min_sup = 60% min_conf= 80% TID Mặt hàng T100 {M, O, N, K, E, Y} T200 {D, O, N, K, E, Y} T300 {M, A, K, E} T400 {M, U, C, K, Y} T500 {C, O, O, K, I, E} a Tìm tất tất tập phổ biến Itemsets sử dụng thuật toán Apriori ? b Liệt kê tất luật kết hợp mạnh (với độ support s, confidence c) đáp ứng tân từ sau, X biến biểu diễn khách hàng itemi biến biểu diễn mặt hàng (ví dụ A, B, …) Câu 3: (2 điểm) Các bước trình khai phá liệu? Câu 4: (2 điểm) Làm mịn liệu sử dụng kỹ thuật làm tròn cho tập sau: Y = {1.17, 2.59, 3.38, 4.23, 2.67, 1.73, 2.53, 3.28, 3.44} Sau biểu diễn tập thu với độ xác: a 0.1 b ***HẾT*** -Lưu ý: - Không sửa, xóa đề thi, nộp lại đề sau thi 77 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Công nghệ Thông tin BỘ MÔN HỆ THỐNG THÔNG TIN -*** THI KẾT THÚC HỌC PHẦN Tên học phần: KHAI PHÁ DỮ LIỆU Năm học: x Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Nhiệm vụ trình khai phá liệu? Câu 2: (4 điểm) Cho bảng tổng hợp sau biểu diễn liệu tổng hợp kết bán hàng siêu thị, hot-dogs thể số giao dịch có chứa hot-dog danh sách mặt hàng, thể số giao dịch chứa hot-dog danh sách, tương tự hamburgers Hot-dogs Hamburgers 2.000 500 2.500 1.000 1.500 2.500 3.000 a Giả sử luật kết hợp 2.000 5.000 khai phá Cho min_sup = 30% min_conf = 70% Luật có phải luật kết hợp mạnh hay không? Giải thích? b Dựa liệu cho, cho biết việc mua hot-dog có độc lập với việc mua humbergers hay không? Nếu không cho biết mối quan hệ hai mặt hàng trên? Câu 3: (2 điểm) Trình bày điểm khác biệt hai phương pháp phân lớp phân cụm liệu? Câu 4: (2 điểm) Cho tập mẫu với giá trị bị thiếu o X1 = {0, 1, 1, 2} o X2 = {2, 1, −, 1} o X3 = {1, −, −, 0} o X4 = {−, 2, 1, −} Nếu miền xác định tất thuộc tính [0, 1, 2], xác định giá trị bị thiếu biết giá trị số xác trị miền xác định? Hãy giải thích rút gọn chiều kho liệu lớn? ***HẾT*** -Lưu ý: - Không sửa, xóa đề thi, nộp lại đề sau thi 78 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Công nghệ Thông tin BỘ MÔN HỆ THỐNG THÔNG TIN -*** THI KẾT THÚC HỌC PHẦN Tên học phần: KHAI PHÁ DỮ LIỆU Năm học: x Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Kỹ thuật khai phá liệu bao gồm điểm nào? Câu 2: (4 điểm) Cho sở liệu với giao dịch, giả sử độ min_sup = 60% min_conf= 80% TID Mặt hàng T100 {M, O, N, K, E, Y} T200 {D, O, N, K, E, Y} T300 {M, A, K, E} T400 {M, U, C, K, Y} T500 {C, O, O, K, I, E} a Tìm tất tất tập phổ biến Itemsets sử dụng thuật toán Apriori ? b Liệt kê tất luật kết hợp mạnh (với độ support s, confidence c) đáp ứng tân từ sau, X biến biểu diễn khách hàng itemi biến biểu diễn mặt hàng (ví dụ A, B, …) Câu 3: (2 điểm) Trình bày khái niệm dự đoán, cho ví dụ phân tích? Câu 4: (2 điểm) Nếu tập itemset cấu trúc cho A + {A1, A2, A3}, B= {B1, B2}, C = {C1, C2, C3}, D = {D1, D2} E = {E1, E2} a Hãy tìm tập itemset định nghĩa mức độ khái niệm? b Tìm luật kết hợp đáng tin cậy cho tập itemset câu ***HẾT*** -Lưu ý: - Không sửa, xóa đề thi, nộp lại đề sau thi

Định dạng
Số trang	78
Dung lượng	1,4 MB