1. Trang chủ
  2. » Giáo án - Bài giảng

Giáo trình kho dữ liệu và kỹ thuật khai phá

196 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 196
Dung lượng 2,24 MB

Nội dung

Học viện Cơng nghệ Bưu Chính Viễn thơng- Khoa Cơng nghệ thông tin I KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ BÀI GIẢNG DÀNH CHO SINH VIÊN CÔNG NGHỆ THÔNG TIN NGUYỄN QUỲNH CHI GIỚI THIỆU Học phần Kho liệu kỹ thuật khai phá cung cấp phương pháp luận lý thuyết sở liệu việc xây dựng kho liệu ứng dụng vào xử lý phân tích trực tuyến, đồng thời cung cấp kiến thức phương pháp tích hợp sở liệu phương pháp khai phá liệu để hỗ trợ cho hệ trợ giúp định Do đối tượng sinh viên năm cuối đại học nên trình bày phương pháp khai phá Đối tượng giảng sinh viên ngành Công nghệ thông tin hệ đại học, sinh viên hệ chuyên ngành khác dùng làm tài liệu tham khảo cần Để hiểu sâu thêm kiến thức trình bày giảng này, sinh viên cần đọc thêm sách nêu phần tài liệu tham khảo Sinh viên cần hồn thành mơn học: Cơ sở liệu, kỹ thuật lập trình, có khả làm việc với hệ quản trị CSDL, nhập môn xác suất thống kê trước tham gia học mơn học Đây mơn học tính điểm trung bình sau kết thúc cuối kỳ học, kiểm tra cuối kỳ chiếm 70%, kiểm tra kỳ chiếm 20%, trình tham dự lớp chiếm 10% Tổng số gồm tín 44 tiết lý thuyết giảng lớp, tiết cho việc giảng viên giải đáp thắc mắc tập tiết ôn tập trước thi cuối kỳ Yêu cầu đọc sách để chuẩn bị làm tập lớn theo hướng dẫn giảng viên trước buổi tham gia lớp học Nói chung sinh viên khuyến khích đặt câu hỏi phát biểu ý kiến riêng với vấn đề đặt trình nghe giảng lớp, tránh thái độ thụ động ngồi nghe Nội dung môn học trình bày mục lục giảng Mục lục CHƯƠNG I: Giới thiệu kho liệu khai phá liệu .7 1.1 Khai phá liệu 1.2 Các loại liệu kiểu mẫu liệu khai phá 1.3 Các toán phương pháp khai phá liệu .10 Định nghĩa toán phân loại 10 Định nghĩa toán phân cụm 11 Định nghĩa toán phát luật kết hợp 12 Bài toán phân loại cho liệu hồi quy 12 Phát sai lệch hay dị thường 13 Khai phá liệu Nguyên lý quy nạp 13 1.4 Sự tích hợp khai phá liệu với sở liệu hay kho liệu 14 Vai trò khai phá liệu trình phát tri thức từ liệu 14 Các bước trình phát tri thức từ liệu .14 Các chuyên ngành khác liên quan tới khai phá liệu 16 So sánh khai phá liệu với phân tích thống kê .16 So sánh khai phá liệu với sở liệu 17 So sánh khai phá liệu với công nghệ kho liệu .17 Kiến trúc mô tơ phân tích trực tuyến (OLAM) 17 So sánh Cơ sở liệu, xử lý phân tích trực tuyến khai phá liệu 18 1.5 Ứng dụng kho liệu khai phá liệu 21 Ứng dụng toán phân lớp (phân loại) 21 Ứng dụng toán phân cụm 22 Ứng dụng toán phát luật kết hợp 22 Những vấn đề lĩnh vực cơng nghệ kho liệu khai phá liệu .23 Câu hỏi ôn tập chương 24 Chương 2: Các cơng nghệ kỹ thuật tích hợp sở liệu 26 2.1 Giới thiệu Mơ hình liệu mở rộng XML 26 Giới thiệu ngôn ngữ XML (Extensible Markup Language) .26 Một hệ thống XML điển hình 27 Cú pháp XML 28 Khai báo kiểu văn – Data Type Declaration (DTD) 31 Nhắc lại kiến thức mơ hình thực thể liên kết mở rộng 39 Kiến trúc tích hợp nhiều sở liệu .46 Kỹ thuật chuyển đổi lược đồ quan hệ sang mơ hình thực thể liên kết mở rộng 46 Ví dụ việc chuyển đổi từ lược đồ quan hệ sang mơ hình thực thể liên kết 49 2.3 Tích hợp lược đồ liệu 53 Khái niệm tích hợp liệu 53 Các bước tích hợp ngữ nghĩa liệu .54 Bài thực hành 65 2.4 Chuyển đổi tích hợp liệu 67 Phương pháp luận cho công nghệ kho liệu OLAP 67 Các cách chuyển đổi liệu 67 Một ví dụ việc chuyển đổi 71 Tích hợp liệu .75 Câu hỏi ôn tập chương 81 Chương 3: Công nghệ kho liệu xử lý phân tích trực tuyến .83 3.1 Khái niệm kho liệu 83 3.2 Mơ hình liệu đa chiều 86 3.3 Kiến trúc kho liệu 95 3.4 Cài đặt kho liệu .97 3.5 Liên hệ công nghệ kho liệu với khai phá liệu .104 3.6 Xây dựng kho liệu với mục đích hỗ trợ định (DSS) 106 Nhắc lại chút khái niệm kho liệu tác nhân liên quan 106 Các giai đoạn xây dựng 106 Thiết kế sở liệu với lược đồ hình 109 Nghiên cứu xây dựng kho liệu 110 Câu hỏi ôn tập chương 114 Chương 4: Khai phá liệu 116 4.1 Tiền xử lý liệu trước khai phá .116 Khái niệm liệu 116 Tiền xử lý liệu 124 4.2 Phương pháp khai phá luật kết hợp 129 Nguồn gốc khai phá luật kết hợp 129 Các ứng dụng luật kết hợp 129 Khái niệm tốn tìm luật kết hợp 130 Cách tiếp cận theo kiểu vét cạn (Brute-force approach) 130 Khai phá luật kết hợp với cách tiếp cận hai bước 132 Phương thức giảm số lượng ứng cử viên: thuật toán Apriori 133 Một phương pháp sinh tập mặt hàng thường xuyên FP-growth 139 Sinh luật kết hợp 143 4.3 Phương pháp định 145 Những khái niệm toán phân loại 145 Phương pháp phân loại định 146 Các thuật tốn tìm định 149 Đánh giá mơ hình phân loại 160 4.4 Phương pháp phân nhóm phân đoạn 164 Khái niệm phân tích phân cụm 164 Độ đo phân cụm 166 Phân loại phân cụm 170 Phương pháp phân cụm 173 Câu hỏi ôn tập chương 178 Tài liệu tham khảo 188 CHƯƠNG I: Giới thiệu kho liệu khai phá liệu Vấn đề bùng nổ liệu: công cụ thu thập liệu tự động công nghệ sở liệu trở nên hoàn thiện, lượng lớn liệu thu thập lưu trữ sở liệu, kho liệu kho lưu trữ thông tin khác Lúc này, có nhiều liệu, chưa mang tính phục vụ có mục đích cho người sử dụng Chúng ta thiếu tri thức, liệu qua xử lý phục vụ riêng cho mục đích người sử dụng Vấn đề làm để khai thác tri thức từ đống liệu khổng lồ có tay Giải pháp cho việc khai phá tri thức đời công nghệ kho liệu phương pháp khai phá liệu Giải pháp liên quan tới khía cạnh sau đây: - Cơng nghệ để xây dựng kho liệu lớn phương thức để xử lý phân tích trực tuyến (sẽ nghiên cứu học sau) - Trích lọc tri thức có ích cho người bao gồm luật, thể chế, mẫu, ràng buộc từ khối lượng lớn liệu hay nhiều sở liệu có kích cỡ lớn Các lý cần khai phá liệu quan điểm thương mại giới thực - Rất nhiều liệu thu thập giới thực lưu trữ cách hệ thống kho liệu bao gồm: o Các liệu web, liệu thương mại điện tử o Các liệu mua bán cửa hàng, gian hàng siêu thị o Các liệu giao dịch ngân hàng, thẻ tín dụng - Máy tính trở nên rẻ có sức mạnh xử lý liệu - Sức ép cạnh tranh mạnh mẽ hơn: cần cung cấp dịch vụ tốt tùy biến với khách hàng (nhất quan hệ với khách hàng) Các lý cần khai phá liệu quan điểm khoa học - Các liệu thu thập lưu trữ với tốc độ nhanh (GB/h) thông qua o Bộ cảm biến (sensor) điều khiển từ xa trạm vệ tinh o Kính viễn vọng quan sát bầu trời o Dùng công cụ microarray để sinh liệu thể đặc tính gene (gene expression data) o Dùng mô khoa học để tạo hàng tera byte liệu - Các kỹ thuật truyền thống khơng cịn khả thi cho lượng lớn liệu thô - Các kỹ thuật khai phá liệu giúp ích nhà khoa học công việc o Phân loại phân mảnh liệu o Hình thành giả thuyết nghiên cứu khoa học 1.1 Khai phá liệu Khai phá liệu (phát tri thức sở liệu sẵn có) việc trích lọc thơng tin có ích (khơng hiển nhiên, khơng tường minh, khơng biết trước, có ích cách tiềm năng), mẫu liệu sở liệu lớn Khai phá liệu có số tên gọi khác sử dụng đề cập đến sống sách tạp chí khoa học như: - Khám phá tri thức (knowledge discovery) sở liệu (thường viết tắt theo tiếng anh KDD) - Trích lọc tri thức - Phân tích mẫu/dữ liệu - Khảo cổ liệu - Tri thức kinh doanh (business intelligence) cịn nhiều tên khác dùng Xem xét ví dụ sau để phân biệt khái niệm khai phá liệu với khái niệm sở liệu, mà dễ nhầm tưởng khai phá liệu Những xử lý khai phá liệu Những xử lý khai phá liệu Tra cứu số điện thoại danh bạ điện Xác định tên cho phổ biến thoại địa danh cụ thể Truy vấn mơ tơ tìm kiếm thơng tin Gộp nhóm tài liệu giống trả Web liên quan tới từ “Amazon” cơng cụ tìm kiếm thơng tin dựa vào ngữ cảnh chúng (ví dụ rừng Amazon, hay vùng miền Amazon.com) 1.2 Các loại liệu kiểu mẫu liệu khai phá Khi thực công việc khai phá liệu, để đưa định cần thiết cho công việc khai phá, cần xác định yếu tố sau: - Loại sở liệu cần khai phá Các loại sở liệu dùng cho khai phá bao gồm sở liệu quan hệ, sở liệu giao dịch, hướng đối tượng, sở liệu quan hệ- đối tượng, không gian, sở liệu văn bản, chuỗi thời gian, đa phương tiện, sở liệu hỗn tạp, sở liệu luật, sở liệu Web, loại sở liệu khác - Loại tri thức cần phát Bao gồm tri thức miêu tả đặc điểm cá thể tập cá thể xét, phân biệt cá thể với cá thể khác, luật kết hợp, tìm xu hướng, phân loại cá thể tập hợp, phân cụm gộp nhóm cá thể giống nhau, phân tích tìm cá thể ngoại lai khác biệt phần đông cá thể khác, v.v… Ngồi ra, tri thức cịn chức tích hợp, đa chức khai phá nhiều mức độ khác - Loại kỹ thuật cần sử dụng để giải vấn đề Bao gồm kỹ thuật theo hướng sở liệu, kỹ thuật kho liệu (xử lý phân tích trực tuyến), phương pháp học máy, phương pháp thống kê, biểu diễn trực quan, mạng nơron nhân tạo, phương pháp khác - Loại ứng dụng cần xây dựng, áp dụng cho vấn đề khai phá Bao gồm ứng dụng lĩnh vực bán lẻ, truyền thơng, ngân hàng, phân tích lỗi, khai phá liệu gen, phân tích thị trường chứng khốn, khai phá liệu Web, phân tích Weblog Một cơng việc cần xác định nhận thức rõ nhiệm vụ toán khai phá liệu thuộc loại hai loại sau đây: - Bài toán khai phá liệu dạng mô tả Nhiệm vụ tốn dạng tìm mẫu mơ tả liệu mà người hiểu - Bài toán khai phá liệu dạng tiên đoán Sử dụng vài biến để tiên đoán giá trị chưa biết tương lai biến khác Các nhiệm vụ thường gặp việc khai phá liệu - Phân loại: thuộc loại toán tiên đoán - Phân cụm: thuộc loại tốn mơ tả - Phát luật kết hợp: thuộc loại toán mô tả - Phát mẫu dạng liên tục: thuộc loại tốn mơ tả - Bài tốn hồi quy: thuộc loại toán tiên đoán - Phát khác biệt: thuộc loại toán tiên đoán 1.3 Các toán phương pháp khai phá liệu Định nghĩa toán phân loại - Cho tập ghi gọi tập huấn luyện, ghi chứa tập thuộc tính, thuộc tính gắn nhãn phân loại gọi thuộc tính lớp - Nhiệm vụ tốn phân loại tìm mơ hình thể thuộc tính lớp hàm giá trị thuộc tính khác - Sau tìm mơ hình thích hợp cho tốn, mục đích cuối áp dụng mơ hình (hàm tìm được) để tiên đốn ghi chưa biết đến trước thuộc lớp cách xác tốt - Một tập ghi kiểm thử dùng để xác định độ xác mơ hình Thơng thường, tập liệu đưa chia thành tập huấn luyện tập kiểm thử, tập huấn luyện dùng để xây dựng mô hình tập kiểm thử dùng để kiểm tra Một ví dụ minh họa cho tốn phân loại: Cho tập ghi coi tập huấn luyện hình vẽ Tid Refund Marital Status Taxable Income Cheat Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 10 10 - Thuật toán K-mean hội tụ cho hầu hết độ đo độ tương tự phổ biến đề cập đến - Hầu hết hội tụ xảy vài vịng lặp lại o Thơng thường điều kiện dừng chuyển thành “tới cịn điểm thay đổi cluster” - Độ phức tạp thuật toán O( n * K * I * d ) n = số điểm khơng gian liệu xét, K = số cluster ấn định khởi tạo, I = số vòng lặp, d = số thuộc tính liệu Khi chạy thuật tốn K-mean, kết khác lần chạy cho dù chọn số cụm tâm điểm khởi tạo chọn ngẫu nhiên nên lần chạy sinh giá trị khác Xét ví dụ minh họa hình vẽ để thấy kết khác sinh chạy K-mean tập liệu 2.5 Điểm ban đầu y 1.5 0.5 -2 -1.5 -1 -0.5 0.5 1.5 x 3 2.5 2.5 y 1.5 y 1.5 1 0.5 0.5 0 -2 -1.5 -1 -0.5 0.5 1.5 -2 x -1.5 -1 -0.5 0.5 1.5 x Cụm tối ưu Cụm tối ưu Để đánh giá cụm tìm thấy phương pháp K-mean dùng độ đo lỗi phổ biến tổng bình phương lỗi (Sum of Squared Error –SSE) - Đối với điểm, lỗi tính khoảng cách tới cụm gần - Để tính SSE, lỗi tính bình phương lên lấy tổng chúng, theo công thức K SSE =∑ ∑ i=1 x ∈C i 182 dist ( mi , x ) Trong – - x điểm liệu cụm Ci mi điểm đại diện cho cluster Ci Nếu kết chạy thuật tốn cho cụm thường chọn cụm với lỗi nhỏ Thông thường muốn lỗi nhỏ để thu cách phân cụm tốt Một cách đơn giản làm giảm SSE tăng số lượng K cụm, K tăng SSE giảm điều khơng có ý nghĩa thực tế K tăng lên giá trị lớn số điểm khơng gian liệu lỗi SSE nhỏ khơng có ý nghĩa Vì lưu ý cách phân cụm tốt với số cụm K nhỏ có lỗi SSE nhỏ phân cụm tồi với số lượng K lớn Như phân tích việc lựa chọn tâm điểm khởi tạo gây ảnh hưởng lớn tới kết chạy thuật toán (tới thời gian hội tụ, kết phân cụm khác nhau) Một số giải pháp thực để giải vấn đề o Chạy nhiều lần o Lấy mẫu sử dụng phương pháp phân cụm dạng phân cấp để xác định tâm điểm khoiử tạo ban đầu o Có thể lựa chọn nhiều K tâm điểm ban đầu sau lựa chọn số tâm khởi tạo với độ phân tách rộng o Dùng phương pháp hậu xử lý liệu (xử lý sau tìm cụm) o Dùng phương pháp K-means dạng phân đôi: không dễ bị vấn đề thường xảy khởi tạo Giải vấn đề có cụm rỗng kết phân cụm o Thuật tốn K-mean cho kết cụm rỗng (cụm khơng có phần tử nào) o Một số chiến lược sử dụng để loại bỏ cụm rỗng vô nghĩa o Lựa chọn điểm có đóng góp nhiều tới tổng bình phương lỗi SSE đưa điểm vào cụm liệu rỗng o Lựa chọn điểm cụm có SSE cao đưa vào cụm rỗng để giảm SSE nhiều đồng thời làm cụm rỗng có phần tử o Nếu có nhiều cụm rỗng cơng việc lặp lại nhiều lần Quá trình phân cụm cần trình tiền xử lý liệu hậu xử lý liệu 183 giống sử dụng số phương pháp chung khai phá liệu Tiền xử lý liệu cần thiết trình phân cụm liệu cần chuẩn hóa loại bỏ phần tử ngoại lai trước đưa vào thuật toán Hậu xử lý liệu cần thiết trường hợp sau: o Cần loại bỏ cụm nhỏ (số lượng phần tử cụm ít) chúng chứa đựng phần tử ngoại lai, khơng có ý nghĩa ứng dụng thực tế o Phân chia cụm lỏng lẻo (hay mật độ phần tử cụm không đồng đều, chỗ dày đặc, chỗ thưa thớt), hay nói cách khác cụm có tổng bình phương lỗi lớn thành cụm nhỏ o Trộn cụm có khoảng cách gần nhau, hay có tổng bình phương lỗi SSE thấp o Có thể sử dụng bước trình phân cụm Phương pháp K-mean phân đôi Là biến đổi K-mean mà sinh phân cụm có phân cấp phân cụm dạng phân mảnh Thuật toán thể bước Khởi tạo danh sách L cụm để chứa cụm tìm được, ban đầu chứa có cụm bao gồm tất điểm Lặp bước sau Chọn cụm danh sách L cụm For i=1 to số lượng vòng lặp định trước Phân đôi cụm lựa chọn thành hai phân cụm phương pháp K-mean End for Thêm hai phân cụm kết lần phân đơi cụm với tổng bình phương lỗi SSE nhỏ vào danh sách cụm Cho đến danh sách cụm chứa K cụm dừng Những hạn chế K-means o K-mean có nhiều vấn đề cụm khác o Về kích cỡ: số cụm có cụm có kích cỡ lớn nhiều so với cụm khác dùng K-mean để phân cụm cho kết sai nhiều kích cỡ 184 cụm kết phương pháp thường tương đương Ví dụ minh họa hình vẽ cụm kết sinh K-means Các điểm ban đầu o Về mật độ liệu: mật độ liệu không đủ dầy đặc cụm khiến cho chúng bị phân tách làm nhiều cụm khác sử dụng phương pháp K-means, ngược lại mật độ tương đối dày đặc hai cụm gần dễ bị ghép lại thành cụm hình vẽ minh họa sau cụm kết k-means Các điểm ban đầu o Hình dạng khơng phải hình cầu: với trường hợp điểmdữ liệu phân bố theo hình dạng khơng phải hình cầu (khơng phải hình lồi) gây ảnh hưởng lớn tới kết phương pháp K-means Ví dụ minh họa hình vẽ đây, hình dạng hai cụm liệu (màu xanh màu đỏ) ban đầu dạng phi cầu nên dùng K-means để phân cụm có lỗi hình vẽ 185 Các điểm ban đầu o cụm kết k-means K-mean có vấn đề liệu chứa phần tử ngoại lai Để giải hạn chế phương pháp K-means có khác kích cỡ liệu mật độ điểm liệu cụm, giải pháp đưa sử dụng nhiều cụm, lúc cụm to kết phân thành nhiều phân cụm khác nhau, sau cần kết hợp chúng lại với để thành cụm to ban đầu Hình vẽ sau mơ tả điều Các điểm liệu ban đầu Các điểm liệu ban đầu Các cụm kết sau K-means Các cụm kết sau K-means Câu hỏi ôn tập chương 186 4.1 Chất lượng liệu đánh giá độ xác, đầy đủ quán Đề xuất hai chiều khác chất lượng liệu 4.2 Giả sử giá trị cho tập liệu định nhóm thành khoảng giá trị Các khoảng giá trị tần số tương ứng sau tần số tuổi 1–5 200 5–15 450 15–20 300 20–50 1500 50–80 700 80–110 44 Tính tốn giá trị trung vị xấp xỉ cho liệu 4.3 Cung cấp thêm độ đo thống kê thường sử dụng (ví dụ: khơng minh họa chương này) để mơ tả đặc tính phân tán liệu thảo luận cách chúng tính toán hiệu sở liệu lớn 4.4 Trong nhiều ứng dụng, liệu bổ sung thêm vào tập liệu lớn có Do đó, cân nhắc quan trọng để tính tốn tóm tắt liệu mơ tả liệu độ đo tính hiệu theo cách gia tăng Sử dụng hàm đếm số lượng, độ lệch chuẩn trung vị làm ví dụ thấy đo lường phân phối đại số tạo điều kiện thuận lợi tính tốn gia tăng hiệu quả, đo lường tồn diện khơng 4.5 Trong liệu giới thực, liệu có giá trị thiếu số thuộc tính xuất phổ biến Hãy mô tả phương pháp khác để xử lý vấn đề 4.6 Phạm vi giá trị phương pháp chuẩn hóa sau gì? (a) chuẩn hóa min-max (b) chuẩn hóa z-score (c) chuẩn hóa theo tỷ lệ thập phân 187 4.7 Sử dụng hai phương pháp bên để chuẩn hóa nhóm liệu sau: 200, 300, 400, 600, 1000 (a) chuẩn hóa min-max cách thiết lập = max = (b) chuẩn hóa z-score 4.8 Sử dụng sơ đồ để tóm tắt thủ tục sau để lựa chọn tập thuộc tính: (a) lựa chọn chuyển tiếp bước (stepwise forward selection) (b) loại bỏ lùi bước (stepwise backward elimination) (c) kết hợp lựa chọn chuyển tiếp loại bỏ lùi 4.9 Giả sử nhóm 12 giá bán xếp sau: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 Phân vùng chúng thành ba thùng theo phương pháp sau: (a) phân vùng tần số (equidepth) (b) phân vùng theo chiều rộng (c) phân cụm 4.10 Tính trung vị biện pháp tổng thể quan trọng phân tích liệu Đề xuất số phương pháp cho xấp xỉ trung vị Phân tích độ phức tạp tương ứng cài đặt thông số khác định mức độ giá trị thực xấp xỉ Hơn nữa, đề xuất chiến lược heuristic để cân tính xác phức tạp sau áp dụng cho tất phương pháp bạn đưa 4.11 Điều quan trọng phải xác định chọn độ đo tương tự trình phân tích liệu Tuy nhiên, khơng có độ đo tương tự chủ quan chấp nhận phổ biến Sử dụng độ đo tương tự khác suy kết khác Tuy nhiên, số độ đo tương tự khác tương đương sau số phép biến đổi Giả sử có tập liệu hai chiều sau đây: X1 X2 X3 X4 X5 A1 1.5 1.6 1.2 1.5 A2 1.7 1.9 1.8 1.5 1.0 188 (a) Xem xét liệu dạng điểm liệu hai chiều Cho điểm liệu mới, x = (1.4, 1.6) truy vấn, xếp hạng điểm sở liệu dựa giống với truy vấn sử dụng (1) Khoảng cách Euclide (2) độ tương tự cosin (b) Chuẩn hóa tập liệu để làm cho norm điểm liệu Sử dụng khoảng cách Euclide liệu chuyển đổi để xếp hạng điểm liệu 4.12 Đề xuất thuật toán, viết mã giả ngơn ngữ lập trình u thích bạn, cho điều sau đây: (a) Tự động tạo hệ thống phân cấp khái niệm cho liệu phân loại dựa số giá trị khác biệt thuộc tính lược đồ cho (b) Tự động tạo hệ thống phân cấp khái niệm cho liệu số dựa quy tắc phân vùng có chiều rộng (c) Tự động tạo hệ thống phân cấp khái niệm cho liệu số dựa quy tắc phân vùng tần số 4.13 Tải liệu nhanh đặt thách thức hệ thống sở liệu liệu đầu vào thường bẩn Trong nhiều trường hợp, ghi đầu vào có nhiều giá trị bị thiếu số ghi bị nhiễm (tức là, với số giá trị liệu nằm phạm vi kiểu khác loại liệu thực tế) Làm việc với thuật toán tải làm liệu tự động để liệu sai đánh dấu không chẳng may chèn vào sở liệu trình tải liệu 4.14 (Bài tập cài đặt) Thực ba thuật toán khai phá tập mặt hàng thường xuyên giới thiệu chương này: (1) Apriori, (2) Tăng trưởng FP (3) ECLAT (khai phá sử dụng định dạng liệu theo chiều dọc), sử dụng ngơn ngữ lập trình mà bạn quen thuộc với, chẳng hạn C ++ Java So sánh hiệu suất thuật toán với loại tập liệu lớn khác Viết báo cáo để phân tích tình (chẳng hạn kích thước liệu, phân phối liệu, cài đặt ngưỡng hỗ trợ tối thiểu mật độ mẫu) thuật tốn hoạt động tốt thuật tốn khác nêu rõ lý 4.15 Giả sử cửa hàng lớn có sở liệu giao dịch lưu trữ phân tán số bốn vị trí Các giao dịch sở liệu thành phần có định dạng, cụ thể T j: 189 {i1, , im}, Tj mã định danh giao dịch ik (1 ≤ k ≤ m) mã định danh mặt hàng mua giao dịch Đề xuất thuật toán hiệu để khai phá luật kết hợp toàn cục (không xem xét kết hợp đa cấp) Bạn trình bày thuật tốn dạng phác thảo Thuật tốn bạn khơng u cầu gửi tất liệu vào vị trí khơng gây truyền thông mạng mức 4.16 Giả sử tập mặt hàng thường xuyên lưu cho sở liệu giao dịch lớn, DB Thảo luận cách khai phá hiệu luật kết hợp (toàn cầu) với ngưỡng hỗ trợ tối thiểu tập hợp giao dịch mới, biểu thị ∆DB, (từng bước) thêm vào? 4.17 Các thuật toán khai phá mẫu xuất thường xuyên xem xét mặt hàng khác biệt giao dịch Tuy nhiên, nhiều lần xuất mặt hàng giỏ mua hàng, chẳng hạn bốn bánh ba bình sữa, quan trọng phân tích liệu giao dịch Làm tơi khai phá tập mặt hàng thường xuyên cách hiệu xem xét nhiều lần xuất mặt hàng? Đề xuất sửa đổi thuật toán tiếng, chẳng hạn Apriori FP-tăng trưởng, để thích nghi với tình 4.18 (Bài tập cài đặt) Cài đặt ba phương pháp khai phá mặt hàng thường xuyên đóng (1) AClose [PBTL99] (dựa phần mở rộng Apriori [AS94b]), (2) CLOSET + [WHP03] (dựa phần mở rộng tăng trưởng FP [HPY00]) (3) CHARM [ZH02] (dựa mở rộng ECLAT [Zak00]) So sánh hiệu suất chúng với nhiều loại liệu lớn Viết báo cáo để trả lời câu hỏi sau: (a) Tại việc khai phá tập thường xuyên đóng thường hấp dẫn khai phá tập hợp mặt hàng thường xuyên hoàn chỉnh (dựa thử nghiệm bạn tập liệu Bài tập 4.14)? (b) Phân tích tình (chẳng hạn kích thước liệu, phân phối liệu, thiết lập ngưỡng hỗ trợ tối thiểu mật độ mẫu) thuật toán hoạt động tốt thuật toán khác 190 4.19 Đề xuất phác thảo cách tiếp cận khai phá mức chia sẻ để khai phá luật kết hợp đa cấp mục mã hóa theo vị trí cấp lần quét ban đầu sở liệu thu thập số lượng cho mục cấp độ khái niệm, xác định mục thường xuyên thường xuyên Nhận xét chi phí xử lý khai phá luật kết hợp đa cấp với phương pháp so với khai phá luật kết hợp đơn cấp 4.20 (Bài tập cài đặt) Nhiều kỹ thuật đề xuất để cải thiện hiệu suất thuật toán khai phá tập mặt hang thường xuyên Lấy thuật toán tăng trưởng mẫu thường xuyên dựa FP-tree, chẳng hạn tăng trưởng FP, làm ví dụ, triển khai thuật tốn kỹ thuật tối ưu hóa sau so sánh hiệu suất kỹ thuật bạn thực với kỹ thuật không kết hợp tối ưu hóa (a) Khai thác mẫu thường xuyên đề xuất trước với FP-tree tạo điều kiện sở mẫu cách sử dụng kỹ thuật chiếu từ lên (tức là, dự án đường dẫn tiền tố mặt hàng p) Tuy nhiên, người ta phát triển kỹ thuật chiếu từ xuống (tức là, dự án đường dẫn hậu tố mặt hàng p trình tạo mẫu sở có điều kiện) Thiết kế cài đặt phương pháp khai phá FP từ xuống so sánh hiệu suất bạn với phương pháp chiếu từ lên (b) Các nút trỏ sử dụng thống FP thiết kế thuật toán FP tăng trưởng Tuy nhiên, cấu trúc tiêu tốn nhiều không gian liệu thưa thớt Một thiết kế thay khám phá cài đặt lai dựa mảng trỏ, nút lưu trữ nhiều mặt hàng không chứa điểm chia tách cho nhiều nhánh Phát triển việc cài đặt so sánh với gốc (c) Việc tốn nhiều thời gian khơng gian để tạo nhiều sở mẫu có điều kiện trình khai phá mẫu tăng trưởng Một thay thú vị đẩy phải (push right) nhánh khai phá cho mặt hàng cụ thể p, tức đẩy chúng vào nhánh lại FP Điều thực để sở mẫu điều kiện phải tạo việc chia sẻ thêm khai thác khai phá chi nhánh lại FP Thiết kế cài đặt phương pháp kiểu tiến hành nghiên cứu hiệu suất 4.21 Đưa ví dụ ngắn để mục luật kết hợp mạnh tương quan âm (negatively correlated) thực tế 191 4.22 Bảng sau tóm tắt liệu giao dịch siêu thị, nơi mặt hàng hotdogs đề cập đến giao dịch có chứa xúc xích, nohotdogs đề cập đến giao dịch khơng chứa xúc xích, hamburgers đề cập đến giao dịch có chứa bánh mì kẹp thịt nohamburgers đề cập đến giao dịch khơng chứa bánh mì kẹp thịt hotdogs nohotdogs Σrow hamburgers 2000 500 2500 nohamburgers 1000 1500 2500 Σcol 3000 2000 5000 (a) Giả sử luật kết hợp “hotdogs ⇒ hamburgers” khai phá Với ngưỡng hỗ trợ tối thiểu 25% ngưỡng tin cậy tối thiểu 50%, có phải luật kết hợp mạnh không? (b) Dựa liệu cho, việc mua xúc xích có độc lập với việc mua bánh mì kẹp thịt khơng? 4.23 Trong phân tích liệu đa chiều, thật thú vị trích xuất cặp ô tương tự với thay đổi đáng kể phép đo khối liệu, trường hợp coi tương tự chúng có liên quan theo dạng cuộn lên (tức là, tổ tiên), khoan xuống (tức cháu), đột biến chiều (tức là, anh chị em ruột) Phân tích gọi phân tích gradient khối Giả sử độ đo khối liệu phép tốn trung bình (average) Một người sử dụng tế bào thăm dị muốn tìm tương ứng gradient ơ, số thỏa mãn ngưỡng gradient định Ví dụ, tìm tập hợp gradient tương ứng có giá bán trung bình lớn 20% so với thăm dị cho Phát triển thuật toán khai phá hiệu tập hợp ô gradient bị hạn chế khối liệu lớn 4.24 Khai phá luật kết hợp thường tạo số lượng lớn luật Thảo luận phương thức hiệu sử dụng để giảm số lượng luật tạo bảo toàn hầu hết luật có giá trị 4.25 Các mẫu khai phá phương thức tương tự khai phá luật kết hợp.Thiết kế thuật toán hiệu để khai phá mẫu đa cấp từ sở liệu giao dịch Một ví dụ mẫu sau: “Khách hàng mua PC mua phần mềm Microsoft vòng ba tháng,” người dùng tìm hiểu phiên cải tiến mẫu, chẳng hạn “Khách hàng mua máy tính Pentium mua Microsoft Office vịng ba tháng.” 192 4.26 Giá sản phẩm cửa hàng không âm Người quản lý cửa hàng quan tâm đến luật có dạng: “một mặt hàng miễn phí nhận với giao dịch có tổng số tiền mua hàng 200 đô la” Hãy phát biểu cách khai phá luật cách hiệu 4.27 Giá mặt hàng cửa hàng không âm Đối với trường hợp sau, xác định loại ràng buộc mà chúng đại diện thảo luận ngắn gọn cách khai phá luật kết hợp cách hiệu (a) Chứa trò chơi Nintendo (b) Chứa mặt hàng có tổng giá thấp $150 (c) Chứa mặt hàng miễn phí mặt hàng khác với tổng giá $200 (d) Trường hợp giá trung bình tất mặt hàng từ $100 đến $500 4.28 Tóm tắt bước việc phân loại định 4.29 Tại kỹ thuật tỉa cành hữu ích việc suy diễn định? Nhược điểm việc sử dụng tập hợp liệu riêng biệt để đánh giá việc cắt tỉa? 4.30 Với định, bạn có tùy chọn (a) chuyển đổi định thành luật sau cắt tỉa luật kết quả, (b) cắt tỉa định sau chuyển đổi tỉa cành thành luật Lợi (a) (b) nào? 4.31 Việc xác định độ phức tạp tính tốn trường hợp tồi tệ thuật toán định quan trọng Cho trước tập liệu D, số thuộc tính n số lượng liệu dùng để huấn luyện | D |, chi phí tính tốn việc dựng tối đa n × | D | × log (| D |) 4.32 Cho tập liệu GB với 50 thuộc tính (mỗi thuộc tính chứa 100 giá trị riêng biệt) 512 MB nhớ máy tính xách tay bạn, phác thảo phương pháp hiệu mà xây dựng cấu trúc định tập liệu lớn Giải thích câu trả lời bạn cách tính tốn sơ sử dụng nhớ 193 4.33 Rất khó để đánh giá độ xác phân loại đối tượng liệu riêng lẻ thuộc cho nhiều lớp thời điểm Trong trường hợp vậy, bình luận tiêu chí bạn sử dụng để so sánh phân loại khác mơ hình hóa liệu 4.34 Tóm tắt phác thảo cách tính tốn khác biệt đối tượng mô tả loại biến sau: (a) Các biến số (dạng phân khoảng) (b) Biến nhị phân bất đối xứng (c) Các biến phân loại (d) Biến số tỷ lệ (e) Đối tượng vector phi độ đo 4.35 Cho phép đo sau cho biến tuổi: 18, 22, 25, 42, 28, 43, 33, 35, 56, 28, chuẩn hóa biến cách sau: (a) Tính tốn độ lệch tuyệt đối trung bình tuổi (b) Tính tốn z-score bốn phép đo 4.36 Cho hai đối tượng đại diện liệu (22, 1, 42, 10) (20, 0, 36, 8): (a) Tính tốn khoảng cách Euclide hai đối tượng (b) Tính khoảng cách Manhattan hai đối tượng (c) Tính tốn khoảng cách Minkowski hai đối tượng trên, sử dụng q = 4.37 Cả hai thuật tốn k-means k-medoids thực phân cụm hiệu Minh họa sức mạnh điểm yếu k-means so với thuật tốn k-medoids 4.38 Ví dụ cách phương thức phân cụm cụ thể tích hợp, ví dụ, nơi thuật toán phân cụm sử dụng làm bước tiền xử lý cho thuật tốn khác Ngồi ra, cung cấp lý việc tích hợp hai phương pháp đơi dẫn tới cải thiện chất lượng hiệu phân cụm 194 4.39 Phân cụm công nhận rộng rãi nhiệm vụ khai phá liệu quan trọng với phạm vi rộng ứng dụng Đưa ví dụ ứng dụng cho trường hợp sau: (a) Một ứng dụng lấy phân cụm chức khai phá liệu (b) Một ứng dụng lấy phân cụm công cụ tiền xử lý để chuẩn bị liệu cho nhiệm vụ khai phá liệu khác 4.40 Mô tả thuật toán phân cụm sau với tiêu chí sau: (i) hình dạng cụm xác định; (ii) thông số đầu vào phải xác định; (iii) hạn chế (a) k-means (b) k-medoids (c) CLARA (d) DBSCAN 195 Tài liệu tham khảo Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kanfmann Publishers, Second Edition Joseph Fong, “Information Systems Reengineering and Integration”, Springer Verlag, 2006, ISBN 978-1-84628-382-6, Second edition http://www-sal.cs.uiuc.edu/~hanj/DM_Book.html http://www-users.cs.umn.edu/~kumar/csci5980/index.html http://www.cs.cityu.edu.hk/~jfong/course/cs5483/ http://www.ist.temple.edu/~vucetic/cis526fall2004.htm 196 ... sở liệu dẫn đến khai phá liệu (c) Mô tả bước liên quan đến khai phá liệu xem trình phát tri thức 24 1.2 Trình bày ví dụ khai phá liệu quan trọng thành công doanh nghiệp Nêu chức khai phá liệu. .. nghệ kho liệu khai phá liệu Một vấn đề cần giải liên quan tới đa dạng loại liệu dùng khai phá tích hợp vào kho liệu bao gồm - Xử lý loại liệu quan hệ liệu loại tổng hợp phức tạp - Khai phá thông... liệu với sở liệu hay kho liệu 14 Vai trò khai phá liệu trình phát tri thức từ liệu 14 Các bước trình phát tri thức từ liệu .14 Các chuyên ngành khác liên quan tới khai phá liệu

Ngày đăng: 19/03/2021, 16:57

TỪ KHÓA LIÊN QUAN

w