1. Trang chủ
  2. » Thể loại khác

BÀI GIẢNGKHAI PHÁ DỮ LIỆU TRÌNH ĐỘ ĐÀO TẠO: ĐẠI HỌC CHÍNH QUYDÙNG CHO SV NGÀNH: CÔNG NGHỆ THÔNG TIN

120 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • MỤC LỤC

  • Chương 1. Tổng quan về kho dữ liệu (Datawarehouse)

    • BÀI TẬP:

  • Chương 2: Tổng quan về khai phá dữ liệu

    • Bài tập:

  • 1. Kỹ thuật khai phá dữ liệu là gì?

  • 3. Trình bày các nét khác nhau cơ bản giữa kỹ thuật khai phá dữ liệu với các phương pháp như máy học, thống kê?

  • 4. Các bước của quá trình khai phá dữ liệu?

  • Chương 3: Tiền xử lý dữ liệu

  • 3.1. Mục đích

  • 3.2. Làm sạch dữ liệu

  • 3.2.1. Thiếu giá trị

  • 3.2.2. Dữ liệu nhiễu

  • 3.3. Tích hợp và biến đổi dữ liệu

  • 3.3.1. Tích hợp dữ liệu

  • 3.3.2. Biến đổi dữ liệu

  • 3.3.3. Thu nhỏ dữ liệu

    • Bài tập:

  • Chương 4: Luật kết hợp

Nội dung

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN -*** - BÀI GIẢNG KHAI PHÁ DỮ LIỆU TÊN HỌC PHẦN: MÃ HỌC PHẦN: TRÌNH ĐỘ ĐÀO TẠO: DÙNG CHO SV NGÀNH: KHAI PHÁ DỮ LIỆU 17409 ĐẠI HỌC CHÍNH QUY CƠNG NGHỆ THƠNG TIN HẢI PHỊNG - 2011 MỤC LỤC Nội dung Chương Tổng quan kho liệu (Data warehouse) 1.1 Các chiến lược xử lý khai thác thông tin 1.2 Định nghĩa kho liệu 1.3 Mục đích kho liệu 1.4 Đặc tính liệu kho liệu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Chương Tổng quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai phá liệu so với phương pháp 2.7 Lựa chọn phương pháp 2.8 Những thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu Chương Tiền xử lý liệu 3.1 Mục đích 3.2 Làm liệu 3.3 Tích hợp biến đổi liệu Chương Khai phá dựa mẫu phổ biến luật kết hợp 4.1 Khái niệm luật kết hợp 4.2 Giải thuật Apriori 4.3 Giải thuật FP-Growth 4.4 So sánh đánh giá Chương Phân lớp dự đoán 5.1 Khái niệm 5.2 Phân lớp dựa định Trang 5 10 13 13 13 14 16 17 21 23 24 28 28 29 31 41 Error: Referen ce source not found 40 45 51 54 54 56 Tên học phần: Khai phá liệu Loại học phần: Bộ môn phụ trách giảng dạy: Hệ thống Thông tin Khoa phụ trách: CNTT Mã học phần: 17409 Tổng số TC: Tổng số Lý thuyết Thực hành/ Tự học Bài tập Đồ án môn tiết Xemina lớn học 45 30 15 không không Học phần học trước: Cơ sở liệu; Cơ sở liệu nâng cao; Hệ quản trị CSDL Học phần tiên quyết: Không yêu cầu Học phần song song: Không yêu cầu Mục tiêu học phần: Cung cấp kiến thức kho liệu lớn kỹ thuật khai phá liệu Nội dung chủ yếu: Tổng quan kho liệu khai phá liệu; Phương pháp tổ chức lưu trữ liệu lớn, kỹ thuật khai phá liệu; Phân tích liệu sử dụng phương pháp phân cụm; Ứng dụng kỹ thuật khai phá liệu Nội dung chi tiết: TÊN CHƯƠNG MỤC Chương Tổng quan kho liệu (Data warehouse) 1.1 Các chiến lược xử lý khai thác thông tin 1.2 Định nghĩa kho liệu 1.3 Mục đích kho liệu 1.4 Đặc tính liệu kho liệu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Chương Tổng quan khai phá liệu 2.1 Khai phá liệu gì? 2.2 Phân loại hệ thống khai phá liệu 2.3 Những nhiệm vụ 2.4 Tích hợp hệ thống khai phá liệu với sở liệu kho 2.5 Các phương pháp khai phá liệu 2.6 Lợi khai phá liệu so với phương pháp 2.7 Lựa chọn phương pháp 2.8 Những thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu Chương Tiền xử lý liệu 3.1 Mục đích 3.2 Làm liệu 3.3 Tích hợp biến đổi liệu Chương Khai phá dựa mẫu phổ biến luật kết hợp 4.1 Khái niệm luật kết hợp 4.2 Giải thuật Apriori 4.3 Giải thuật FP-Growth 4.4 So sánh đánh giá Chương Phân lớp dự đoán PHÂN PHỐI SỐ TIẾT TS LT TH BT KT 9 12 TÊN CHƯƠNG MỤC 5.1 Khái niệm 5.2 Phân lớp dựa định PHÂN PHỐI SỐ TIẾT TS LT TH BT KT Nhiệm vụ sinh viên: Tham dự buổi học lý thuyết thực hành, làm tập giao, làm thi học phần thi kết thúc học phần theo quy định Tài liệu học tập: J Han, M Kamber, Data Mining: Concepts and Techniques, 2nd edition, Morgan Kaufmann, 2006 P N Tan, M Steinbach, V Kumar, Introduction to Data Mining, AddisonWesley, 2006 Paulraj Ponnian, Data Warehousing Fundamentals, John Wiley Hình thức tiêu chuẩn đánh giá sinh viên: - Hình thức thi: tự luận trắc nghiệm - Tiêu chuẩn đánh giá sinh viên: vào tham gia học tập sinh viên buổi học lý thuyết thực hành, kết làm tập giao, kết thi học phần thi kết thúc học phần Thang điểm: Thang điểm chữ A, B, C, D, F Điểm đánh giá học phần: Z = 0,3X + 0,7Y Bài giảng tài liệu thức thống Bộ mơn Hệ thống Thông tin, Khoa Công nghệ Thông tin dùng để giảng dạy cho sinh viên Ngày phê duyệt: Trưởng Bộ môn / / Chương Tổng quan kho liệu (Datawarehouse) 1.1 Các chiến lược xử lý khai thác thông tin Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Một vấn đề đặt làm để tổ chức, khai thác khối lượng liệu khổng lồ đa dạng được? Về phía người sử dụng, khó khăn gặp phải thường là: Khơng thể tìm thấy liệu cần thiết Dữ liệu rải rác nhiều hệ thống với giao diện công cụ khác nhau, khiến tốn nhiều thời gian chuyền từ hệ thống sang hệ thống khác Có thể có nhiều nguồn thơng tin đáp ứng địi hỏi, chúng lại có khác biệt khó phát thông tin Không thể lấy liệu cần thiết Thường xuyên phải có chuyên gia trợ giúp, dẫn đến cơng việc bị dồn đống Có loại thông tin lấy không mở rộng khả làm việc hệ thống có sẵn Khơng thể hiểu liệu tìm thấy Mơ tả liệu nghèo nàn thường xa rời với thuật ngữ nghiệp vụ quen thuộc Không thể sử dụng liệu tìm thấy Kết thường khơng đáp ứng chất liệu thời gian tìm kiếm Dữ liệu phải chuyên đổi tay vào môi trường làm việc người sử dụng Những vấn đề hệ thống thông tin:  “Phát triển chương trình ứng dụng khác khơng đơn giản” Một chức thể nhiều chương trình, việc tổ chức sử dụng khó khăn hạn chế kỹ thuật Chuyển đổi liệu từ khuôn dạng tác nghiệp khác để phù hợp với người sử dụng khó khăn  “Duy trì chương trình gặp nhiều vấn đề” Một thay đổi ứng dụng ảnh hưởng đến ứng dụng khác có liên quan Thông thường phụ thuộc lẫn chương trình khơng rõ ràng không xác định Do phức tạp công việc chuyển đổi tồn q trình bảo trì dẫn đến mã nguồn chương trình trở nên phức tạp  “Khối lượng liệu lưu trữ tăng nhanh” Khơng kiểm sốt khả chồng chéo liệu môi trường thông tin dẫn đến khối lượng liệu tăng nhanh  “Quản trị liệu phức tạp” Thiếu định nghĩa chuẩn, thống liệu dẫn đến việc khả kiểm sốt mơi trường thơng tin Một thành phần liệu tồn nhiều nguồn khác Giải pháp cho tất vấn đề nêu việc xây dựng kho liệu (Data Warehouse) phát triển khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Trước hết, nhắc lại vài khái niệm liên quan đến liệu, sở liệu, kho liệu… 1.2 Định nghĩa kho liệu Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thơng tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Theo John Ladley, kỹ nghệ kho liệu (DWT - Data Warehouse Technology) tập phương pháp, kỹ thuật cơng cụ kết hợp, hỗ trợ để cung cấp thông tin cho người sử dụng sở tích hợp từ nhiều nguồn liệu, nhiều môi trường khác Kho liệu (Data Warehouse), tuyển chọn sở liệu tích hợp, hướng theo chủ đề định, thiết kế để hỗ trợ cho chức trợ giúp định, mà đơn vị liệu liên quan đến khoảng thời gian cụ thể Kho liệu thường có dung lượng lớn, thường hàng Gigabytes hay có tới hàng Terabytes Kho liệu xây dựng để tiện lợi cho việc truy cập từ nhiều nguồn, nhiều kiểu liệu khác cho kết hợp ứng dụng cơng nghệ đại vừa kế thừa từ hệ thống có từ trước Dữ liệu phát sinh từ hoạt động hàng ngày thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể tổ chức, thường gọi liệu tác nghiệp hoạt động xử lý liệu gọi xử lý giao dịch trực tuyến (OLPT On Line Transaction Processing) Dòng liệu tổ chức (cơ quan, xí nghiệp, cơng ty, vv…) mơ tả khái quát sau: Dữ liệu tác nghiệp Kho liệu HỆ THỐNG DI SẢN (có sẵn) Kho liệu cục Kho liệu cá nhân Siêu liệu Hình 1.1 Luồng liệu tổ chức Dữ liệu cá nhân không thuộc phạm vi quản lý hệ quản trị kho liệu Nó chứa thơng tin trích xuất từ hệ thống liệu tác nghiệp, kho liệu từ kho liệu cục chủ đề liên quan phép gộp, tổng hợp hay xử lý theo cách 1.3 Mục đích kho liệu Mục tiêu kho liệu nhằm đáp ứng tiêu chuẩn bản:  Phải có khả đáp ứng yêu cầu thông tin người sử dụng  Hỗ trợ để nhân viên tổ chức thực hiên tốt, hiệu công việc mình, có định hợp lý, nhanh bán nhiều hàng hơn, suất cao hơn, thu lợi nhuận cao v v  Giúp cho tổ chức xác định, quản lý điều hành dự án, nghiệp vụ cách hiệu xác  Tích hơp liệu siêu liệu từ nhiều nguồn khác Muốn đạt yêu cầu DW phải:  Nâng cao chất lượng liệu phương pháp làm tinh lọc liệu theo hướng chủ đề định  Tổng hợp kết nối liệu  Đồng hoá nguồn liệu với DW  Phân định đồng hệ quản trị sở liệu tác nghiệp công cụ chuẩn để phục vụ cho DW  Quản lí siêu liệu (metadata)  Cung cấp thơng tin tích hợp, tóm tắt liên kết, tổ chức theo chủ đề Các kết khai thác kho liệu dùng hệ thống hỗ trợ định (Decision Support System - DSS), hệ thống thông tin tác nghiệp hỗ trợ cho truy vấn đặc biệt Mục tiêu tổ chức lợi nhuận điều mô tả sau: Lợi nhuận Lợi tức Bán hàng Xác định giá Đề xuất kinh doanh Chi phí Chi phí cố định Chi phí biến đổi Chi phí sản xuất Hình 1.2 Mối quan hệ cách nhìn nhận hệ thống Để thực chiến lược kinh doanh hiệu quả, nhà lãnh đạo vạch phương hướng kinh doanh hàng hoá Việc xác định giá hàng hố q trình bán hàng sản sinh lợi tức Tuy nhiên, để có hàng hóa kinh doanh cần phải khoản chi phí Lợi tức trừ chi phí cho lợi nhuận đơn vị 1.4 Đặc tính liệu kho liệu Đặc điểm kho liệu tập hợp liệu có đặc tính sau : - Tính tích hợp - Tính hướng chủ đề - Tính ổn định - Dữ liệu tổng hợp 1.4.1 Tính tích hợp (Intergration) Dữ liệu kho liệu tổ chức theo nhiều cách khác cho phù hợp với quy ước đặt tên, thống số đo, cấu mã hoá cấu trúc vật lý liệu, v v Một kho liệu khung nhìn thơng tin mức tồn đơn vị sản xuất kinh doanh đó, thống tồn khung nhìn khác thành khung nhìn theo chủ điểm Ví dụ, hệ thống xử lý giao dịch trực tuyến (OLAP) truyền thống xây dựng vùng nghiệp vụ Một hệ thống bán hàng hệ thống tiếp thị (marketing) có chung dạng thơng tin khách hàng Tuy nhiên, vấn đề tài cần có khung nhìn khác khách hàng Khung nhìn bao gồm phần liệu khác tài marketing Tính tích hợp thể chỗ: liệu tập hợp kho liệu thu thập từ nhiều nguồn trộn ghép với thành thể thống 1.4.2 Tính hướng chủ đề Dữ liệu kho liệu tổ chức theo chủ đề phục vụ cho tổ chức dễ dàng xác định thông tin cần thiết hoạt động Ví dụ, hệ thống quản lý tài cũ có liệu tổ chức cho chức năng: cho vay, quản lý tín dụng, quản lý ngân sách, v v Ngược lại, kho liệu tài chính, liệu tổ chức theo chủ điểm dựa vào đối tượng: khách hàng, sản phẩm, xí nghiệp, v v Sự khác cách tiếp cận dẫn đến khác nội dung liệu lưu trữ hệ thống * Kho liệu không lưu trữ liệu chi tiết, cần lưu trữ liệu mang tính tổng hợp phục vụ chủ yếu cho trình phân tích để trợ giúp định * CSDL ứng dụng tác nghiệp lại cần xử lý liệu chi tiết, phục vụ trực tiếp cho yêu cầu xử lý theo chức lĩnh vực ứng dụng thời Do vậy, hệ thống ứng dụng tác nghiệp (Operational Application System - OAS) cần lưu trữ liệu chi tiết Mối quan hệ liệu hệ thống khác, địi hỏi phải có tính xác, có tính thời sự, v v * Dữ liệu cần gắn với thời gian có tính lịch sử Kho chứa liệu bao hàm khối lượng lớn liệu có tính lịch sử Dữ liệu lưu trữ thành loạt snapshot (ảnh chụp liệu) Mỗi ghi phản ánh giá trị liệu thời điểm định thể khung nhìn chủ điểm giai đoạn Do cho phép khôi phục lại lịch sử so sánh tương đối xác giai đoạn khác Yếu tố thời gian có vai trị phần khố để đảm bảo tính đơn sản phẩm hàng hoá cà cung cấp đặc trưng thời gian cho liệu Ví dụ, hệ thống quản lý kinh doanh cần có liệu lưu trữ đơn giá cuả mặt hàng theo ngày (đó yếu tố thời gian) Cụ thể mặt hàng theo đơn vị tính thời điểm xác định phải có đơn giá khác (sự biến động giá mặt hàng xăng dầu thời gian qua minh chứng điển hình) Dữ liệu OAS cần phải xác thời điểm truy cập, cịn DW cần có hiệu lực khoảng thời gian đó, khoảng đến 10 năm lâu Dữ liệu CSDL tác nghiệp thường sau khoảng thời gian định trở thành liệu lịch sử chúng chuyển vào kho liệu Đó liệu hợp lý chủ điểm cần lưu trữ 10 So sánh CSDL tác nghiệp ảnh chụp liệu, ta thấy: CSDL tác nghiệp Thời gian ngắn (30 – 60 ngày) Có thể có yếu tố thời gian khơng Dữ liệu cập nhật Ảnh chụp liệu Thời gian dài (5 – 10 năm) Ln có yếu tố thời gian Khi liệu chụp lại khơng cập nhật Bảng 1.1 Tính thời gian liệu 1.4.3 Dữ liệu có tính ổn định (nonvolatility) Dữ liệu DW liệu đọc kiểm tra, khơng thể thay đổi người dùng đầu cuối (terminal users) Nó cho phép thực thao tác nạp liệu vào kho truy cập vào cung DW Do vậy, liệu không biến động Thông tin DW phải tải vào sau liệu hệ thống điều hành cho q cũ Tính khơng biến động thể chỗ: liệu lưu trữ lâu dài kho liệu Mặc dù có thêm liệu nhập vào liệu cũ kho liệu không bị xố thay đổi Điều cho phép cung cấp thông tin khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho mơ hình nghiệp vụ phân tích, dự báo Từ có định hợp lý, phù hợp với quy luật tiến hoá tự nhiên 1.4.4 Dữ liệu tổng hợp Dữ liệu tác nghiệp tuý không lưu trữ DW Dữ liệu tổng hợp tích hợp lại qua nhiều giai đoạn khác theo chủ điểm nêu 1.5 Phân biệt kho liệu với sở liệu tác nghiệp Trên sở đặc trưng DW, ta phân biệt DW với hệ quản trị CSDL tác nghiệp truyền thống:  Kho liệu phải xác định hướng theo chủ đề Nó thực theo ý đồ người sử dụng đầu cuối Trong hệ CSDL tác nghiệp dùng để phục vụ mục đích áp dụng chung  Những hệ CSDL thơng thường quản lý lượng thông tin lớn mà quản lý lượng thông tin vừa nhỏ DW phải quản lý khối lượng lớn thông tin lưu trữ nhiều phương tiện lưu trữ xử lý khác Đó đặc thù DW  DW ghép nối phiên (version) khác cấu trúc CSDL DW tổng hợp thơng tin để thể chúng hình thức dễ hiểu người sử dụng  DW tích hợp kết nối thơng tin từ nhiều nguồn khác nhiều loại phương tiện lưu trữ xử lý thông tin nhằm phục vụ cho ứng dụng xử lý tác nghiệp trực tuyến  DW lưu trữ thông tin tổng hợp theo chủ đề nghiệp vụ cho tạo thông tin phục vụ hiệu cho việc phân tích người sử dụng 106 mạnh (với độ support s, confiden ce c) đáp ứng tân từ sau, X biến biểu diễn khách hàng itemi biến biểu diễn mặt hàng (ví dụ A, B, …) Câu 3: (2 điểm) Trình bày điểm khác biệt kho liệu sở liệu thông thường? Câu 4: (2 điểm) Cho tập liệu dùng để phân tích độ tuổi xếp tăng dần sau: {13, 15, 16, 16, 19, 20, 20, 107 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70} a Sử dụng phương pháp làm mịn trung vị với độ rộng bin Minh họa bước thực hiện? b Sử dụng phương phương pháp chuẩn hóa decimalscale để biến đổi giá trị tuổi 35 -***HẾT** * -Lưu ý: Khơng sửa, xóa đề thi, nộp lại đề sau 108 thi Trường Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN *** THI KẾT THÚC HỌC PHẦN Tên học phần: KHAI PHÁ DỮ LIỆU Năm học: x Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Cho ví 109 dụ nguồn liệu lưu trữ có cấu trúc bảng, cấu trúc semistructure d, không cấu trúc? Câu 2: (4 điểm) Cho sở liệu với giao dịch, giả sử độ min_sup = 60% min_conf = 80% TID Mặt hàng T100 {M, O, N, K, E, Y} T200 {D, O, N, K, E, Y} T300 {M, A, K, E} T400 {M, U, C, K, Y} T500 {C, O, O, 110 K, I, E} Tìm tất tất tập phổ biến Itemsets sử dụng thuật toán Apriori ? Liệt kê tất luật kết hợp mạnh (với độ support s, confiden ce c) đáp ứng tân từ sau, X biến biểu diễn khách hàng itemi biến biểu diễn mặt hàng (ví dụ A, B, …) Câu 3: (2 điểm) Các bước trình khai phá liệu? Câu 4: (2 điểm) Làm mịn liệu sử dụng 111 kỹ thuật làm tròn cho tập sau: Y= {1.17, 2.59, 3.38, 4.23, 2.67, 1.73, 2.53, 3.28, 3.44} Sau biểu diễn tập thu với độ xác: 0.1 -***HẾT** * -Lưu ý: Khơng sửa, xóa đề thi, nộp lại đề sau thi Trường Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ 112 THỐNG THÔNG TIN *** THI KẾT THÚC HỌC PHẦN Tên học phần: KHAI PHÁ DỮ LIỆU Năm học: x Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Nhiệm vụ q trình khai phá liệu? Câu 2: (4 điểm) Cho bảng tổng hợp sau biểu 113 diễn liệu tổng hợp kết bán hàng siêu thị, hotdogs thể số giao dịch có chứa hot-dog danh sách mặt hàng,  thể số giao dịch khơng có chứa hot-dog danh sách, tương tự hamburg ers Hot-dogs Hamburg ers 2.000 500 2.500 1.000 1.500 2.500 3.000 114 2.000 5.000 Giả sử luật kết hợp  khai phá Cho min_sup = 30% min_conf = 70% Luật có phải luật kết hợp mạnh hay khơng? Giải thích? Dựa liệu cho, cho biết việc mua hot-dog có độc lập với việc mua humberg ers hay không? Nếu không cho biết mối quan hệ hai mặt hàng trên? Câu 3: (2 điểm) Trình bày điểm 115 khác biệt hai phương pháp phân lớp phân cụm liệu? Câu 4: (2 điểm) Cho tập mẫu với giá trị bị thiếu X1 = {0, 1, 1, 2} X2 = {2, 1, −, 1} X3 = {1, −, −, 0} X4 = {−, 2, 1, −} Nếu miền xác định tất thuộc tính [0, 1, 2], xác định giá trị bị thiếu biết giá trị số xác trị miền xác định? Hãy giải thích 116 rút gọn chiều kho liệu lớn? -***HẾT** * -Lưu ý: Khơng sửa, xóa đề thi, nộp lại đề sau thi Trường Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THÔNG TIN *** THI KẾT THÚC HỌC PHẦN Tên học phần: KHAI PHÁ DỮ LIỆU 117 Năm học: x Đề thi số: Ký duyệt đề: x x Thời gian: 60 phút Câu 1: (2 điểm) Kỹ thuật khai phá liệu bao gồm điểm nào? Câu 2: (4 điểm) Cho sở liệu với giao dịch, giả sử độ min_sup = 60% min_conf = 80% TID Mặt hàng T100 {M, O, N, K, E, Y} T200 118 {D, O, N, K, E, Y} T300 {M, A, K, E} T400 {M, U, C, K, Y} T500 {C, O, O, K, I, E} Tìm tất tất tập phổ biến Itemsets sử dụng thuật toán Apriori ? Liệt kê tất luật kết hợp mạnh (với độ support s, confiden ce c) đáp ứng tân từ sau, X biến biểu diễn khách hàng itemi biến biểu diễn mặt hàng (ví dụ A, B, …) 119 Câu 3: (2 điểm) Trình bày khái niệm dự đốn, cho ví dụ phân tích? Câu 4: (2 điểm) Nếu tập itemset cấu trúc cho A + {A1, A2, A3}, B= {B1, B2}, C = {C1, C2, C3}, D = {D1, D2} E = {E1, E2} a Hãy tìm tập itemset định nghĩa mức độ khái niệm? b Tìm luật kết hợp đáng tin cậy cho tập itemset câu - 120 -***HẾT** * -Lưu ý: Khơng sửa, xóa đề thi, nộp lại đề sau thi

Ngày đăng: 20/04/2021, 21:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w