Bài giảng Kho dữ liệu và kỹ thuật khai phá: Phần 2

112 10 0
Bài giảng Kho dữ liệu và kỹ thuật khai phá: Phần 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nối tiếp phần 1, Bài giảng Kho dữ liệu và kỹ thuật khai phá: Phần 2 tiếp tục trình bày những nội dung về công nghệ kho dữ liệu và xử lý phân tích trực tuyến; xây dựng kho dữ liệu với mục đích hỗ trợ quyết định (DSS); khai phá dữ liệu; tiền xử lý dữ liệu trước khi khai phá; phương pháp khai phá bằng luật kết hợp; phương pháp cây quyết định; phương pháp phân nhóm và phân đoạn;... Mời các bạn cùng tham khảo!

Học viện Cơng nghệ Bưu Chính Viễn thơng- Khoa Cơng nghệ thông tin I KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ BÀI GIẢNG DÀNH CHO SINH VIÊN CÔNG NGHỆ THƠNG TIN NGUYỄN QUỲNH CHI Chương 3: Cơng nghệ kho liệu xử lý phân tích trực tuyến Nội dung chương bao gồm: Khái niệm kho liệu Mơ hình liệu đa chiều Kiến trúc kho liệu Cài đặt kho liệu Tương lai phát triển công nghệ khối liệu Từ công nghệ kho liệu đến khai phá liệu 3.1 Khái niệm kho liệu Kho liệu định nghĩa theo nhiều cách khác nhau, khơng chặt chẽ: - Có thể coi sở liệu hỗ trợ định mà trì cách riêng biệt từ sở liệu tác nghiệp tổ chức - Hỗ trợ xử lý thông tin cách cung cấp tảng vững liệu lịch sử hợp cho việc phân tích Một định nghĩa hay gặp kho liệu W.H Inmon đuợc phát biểu sau: "Một kho liệu liệu hướng chủ đề, tích hợp, biến động theo thời gian, không sử dụng để hỗ trợ trình định quản lý “ Khái niệm công nghệ kho liệu dùng để trình xây dựng sử dụng kho liệu Tiếp tới phân tích kỹ đặc điểm kho liệu nêu định nghĩa - Đặc điểm hướng chủ đề liệu thể hiện: o Qua việc cung cấp khung nhìn xúc tích đơn giản xung quanh vấn đề chủ đề cụ thể Chúng ta thực đặc điểm cách loại trừ liệu không hữu ích tiến trình hỗ trợ định o Qua việc tổ chức xung quanh đối tượng chính, chẳng hạn khách hàng, sản phẩm, bán hàng o Qua viêc tập trung vào mơ hình hóa phân tích liệu cho người định, cho hoạt động tác nghiệp hàng ngày cho xử lý giao dịch - Kho liệu có tính tích hợp thể qua đặc điểm sau: 86 o Được xây dựng cách tích hợp nhiều nguồn liệu khơng đồng sở liệu quan hệ, tệp lưu trữ văn bản, ghi giao dịch trực tuyến o Dữ liệu làm tích hợp kỹ thuật tích hợp liệu để đảm bảo tính quán quy ước đặt tên, mã hóa cấu trúc, độ đo thuộc tính , v.v…giữa nguồn liệu khác ví dụ Giá khách sạn bao gồm đơn vị tiền tệ, thuế, giá ăn sáng o Khi liệu chuyển đến kho, cần chuyển đổi sang dạng thống - Kho liệu biến đổi theo thời gian thể đặc điểm sau: o Trục hoành thời gian kho liệu dài đáng kể so với hệ thống tác nghiệp sở liệu tác nghiệp thể giá trị hành liệu kho liệu cung cấp thơng tin từ khung nhìn lịch sử (ví dụ, liệu qua 510 năm) o Tất cấu trúc quan trọng kho liệu chứa yếu tố thời gian cách tường minh không tường minh Cách thể thời gian cách tường minh cấu trúc liệu có thuộc tính thời gian, cách khơng tường minh thường thể thông qua số thuộc tính khác mà khơng nói rõ thời gian, không tường minh thể khác trường hợp khác Tuy nhiên, khóa liệu tác nghiệp chứa khơng chứa "yếu tố thời gian" - Kho liệu không tắt điện thể đặc điểm sau o Là kho lưu trữ riêng biệt mặt vật lý liệu chuyển đổi từ môi trường tác nghiệp vào o Thao tác cập nhật liệu tác nghiệp không thiết xảy môi trường kho liệu Lý  Kho liệu khơng chứa thông tin xử lý giao dịch, phục hồi liệu chế kiểm soát việc xảy đồng thời  Thường địi hỏi có hai thao tác truy xuất liệu tải liệu vào kho lúc khởi tạo truy nhập liệu có sẵn kho So sánh kho liệu với sở liệu hỗn tạp 87 Chúng ta dễ nhầm lẫn kho liệu với sở liệu hỗn tạp hai chứa nhiều loại liệu khác liệu tích hợp lại thể thống Tuy nhiên kho liệu khác hẳn sở liệu hỗn tạp chất: - Việc tích hợp sở liệu hỗn tạp truyền thống cần o Xây dựng thành phần đóng gói (trung gian, bao bọc) cho tồn liệu hỗn tạp khác o Có cách tiếp cận hướng truy vấn có nghĩa truy vấn người dùng yêu cầu dịch sang câu truy vấn tương ứng với thành phần hỗn tạp; kết trả tích hợp thành tập câu trả lời toàn cục o Liên quan tới việc lọc thông tin phức tạp o Cạnh tranh tài nguyên nguồn cục địa phương - Kho liệu có xu hướng thực thao tác cập nhật với hiệu cao o Thông tin từ nguồn hỗn tạp tích hợp trước lưu trữ kho để phân tích truy vấn trực tiếp So sánh kho liệu với sở liệu tác nghiệp Hai loại khác chủ yếu cách sử dụng liệu lưu trữ chúng: - Nhiệm vụ sở liệu quan hệ truyền thống thực xử lý giao dịch trực tuyến, chủ yếu thực hoạt động hàng ngày mua bán, thống kê hàng tồn kho, giao dịch ngân hàng, quản lý sản xuất, tiền lương, đăng ký, kế toán sổ sách, v.v… - Nhiệm vụ kho liệu thực phân tích trực tuyến, chủ yếu thực cơng việc phân tích hỗ trợ định cho tổ chức - Đặc điểm phân biệt phân tích trực tuyến (OLAP) xử lý trực tuyến (OLTP) khác kho liệu sở liệu truyền thống, thể điểm sau: o OLTP có định hướng người sử dụng cịn OLAP có định hướng hệ thống: OLTP phục vụ khách hàng OLAP phục vụ thị trường o Nội dung liệu khác nhau: OLTP mang nội dung tại, chi tiết OLAP mang nội dung lịch sử, hợp o Thiết kế sở liệu: OLTP sử dụng mơ hình thực thể liên kết ER với ứng dụng OLAP sử dụng mơ hình với chủ thể 88 o Khung nhìn liệu: OLTP cung cấp khung nhìn tại, cục cịn OLAP cung cấp khung nhìn liệu cho thao tác đọc cho truy vấn phức tạp o Các mẫu truy cập liệu: OLTP cần truy vấn cập nhật đơn giản OLAP sử dụng truy vấn đọc phức tạp Tách rời kho liệu khỏi sở liệu tác nghiệp Cần thực việc lý sau: - Hiệu suất cao cho hai hệ thống: o Hệ quản trị sở liệu thiết kế tốt để phục vụ cho hoạt động xử lý trực tuyến phương pháp truy cập liệu, đánh mục, kiểm soát xử lý đồng thời, phục hồi liệu o Kho liệu thiết kế tốt phục vụ hoạt động xử lý phân tích trực tuyến bao gồm xử lý truy vấn OLAP, tạo khung nhìn đa chiều củng cố liệu - Chức khác liệu khác nhau: o Hệ hỗ trợ định mà kho liệu cung cấp yêu cầu liệu lịch sử sở liệu tác nghiệp thường khơng trì o Hệ hỗ trợ định cần củng cố liệu (tích hợp, tổng hợp) từ nguồn liệu hỗn tạp khác o Các nguồn khác thường sử dụng liệu không quán, mã số định dạng chúng cần phải đối chiếu 3.2 Mơ hình liệu đa chiều - Một kho liệu thiết kế dựa mơ hình liệu đa chiều, mơ hình cung cấp khả xem liệu dạng khối liệu - Một khối liệu cho phép liệu mô hình hóa xem nhiều chiều (thuộc tính) khác nhau: o Các chiều khối liệu thể thông qua bảng theo chiều (Dimension), chẳng hạn bảng mặt hàng bao gồm thuộc tính (tên mặt hàng, thương hiệu, loại hàng), bảng thời gian bao gồm thuộc tính (ngày, tuần, tháng, quý, năm) o Bảng kiện (Fact) chứa giá trị đo lường (như số tiền bán dollars_sold) khóa tới bảng theo chiều liên quan 89 - Trong tài liệu nói cơng nghệ kho liệu, khối liệu sở n chiều (n-D base cube) gọi khối (hình bao bọc mặt- cuboid) Khối mức khối 0-D với số chiều chứa số liệu tổng hợp mức cao gọi khối liệu mức đỉnh Lưới chia ngăn khối liệu tạo thành khối liệu mức thấp Chúng ta xem xét ví dụ để hiểu rõ khái niệm khối liệu Một ví dụ khối liệu thể hình vẽ Tổng lượng Tivi bán Thời gian Tổng Mỹ hàng năm 2Qtr 1Qtr Qtr 4Qtr TV U.S.A PC VCR Tổng Canada Mexico Tổng Địa điểm - Tổng, Tổng, Tổng 90 Nhà cung cấp Nhà cung cấp Nhà cung cấp all time item time,location 0-D(apex) cuboid locationsupplier item,location time,supplier 1-D cuboids location,supplier item,supplier time,location,supplier 2-D cuboids 3-D cuboids time,item,supplier item,location,supplier 4-D(base) cuboid Mơ hình hóa liệu cho kho liệu Bao gồm loại lược đồ: hình sao, hình bơng tuyết dải thiên hà - Lược đồ hình sao: Một bảng Fact kết nối với nhiều bảng theo chiều 91 - Lược đồ hình bơng tuyết: Là dạng chuẩn hóa mơ hình hình phân cấp chiều chuẩn hóa thành tập hợp bảng theo chiều có kích thước nhỏ hơn, tạo thành hình dạng tương tự bơng tuyết - Lược đồ dải thiên hà: gồm nhiều bảng Fact có chung bảng theo chiều, mà bảng Fact bảng theo chiều mơ hình hình sao, coi ngơi mơ hình xem sưu tập sao, gọi lược đồ dải thiên hà hay dải bảng fact Ví dụ lược đồ hình time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Meas ures item Sales Fact Table item_key time_key branch_key location_key units_sold dollars_sold avg_sales Ví dụ lược đồ hình bơng tuyết 92 item_key item_name brand type supplier_type location location_key street city province_or_street country item time item_key supplier time_key Sales Fact Table item_name supplier_key day supplier_type brand day_of_the_week item_keytype time_key month branch_keysupplier_key location quarter branch location_key locatio year branch_key units_sold n_key branch_name city dollars_sold street city_key branch_type avg_sales city_ke city Meas y province ures country Ví dụ lược đồ dải thiên hà time item Shipping Fact Table time_ke item_key item_name y brand item_ke type shipper_ from_location y supplier_type key to_location branch_ location_key y location dollars_cost key units_soldlocation_key units_shipped dollars_soldstreet shipper avg_salescity time_key day Sales Fact Table day_of_the_week time_ke month y quarter item_ke year branch branch_key branch_name branch_type Meas ures province_or_street shipper_key country shipper_name location_key shipper_type Ngôn ngữ truy vấn khai phá liệu (Data Mining Query Language) 93 Bao gồm hàm nguyên thủy sau - Định nghĩa khối liệu: bảng Fact khối liệu mức thấp nhất, chứa thông tin mức chi tiết nên câu lệnh để định nghĩa bảng Fact define cube []: - Định nghĩa chiều (bảng theo chiều) define dimension as () - Trường hợp đặc biệt (dùng chung bảng theo chiều) o Bảng theo chiều khai báo lần đầu định nghĩa khối liệu liên quan o Nếu muốn dùng lại bảng theo chiều trường hợp sau khai báo với cú pháp sau define dimension < tên_chiều > as in cube Sử dụng hàm nguyên thủy định nghĩa lược đồ hình thể ví dụ sau: define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) Định nghĩa lược đồ hình bơng tuyết thể ví dụ sau: define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country)) Định nghĩa lược đồ dải thiên hà thể ví dụ sau: define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) 94 - Thuật toán K-mean hội tụ cho hầu hết độ đo độ tương tự phổ biến đề cập đến - Hầu hết hội tụ xảy vài vịng lặp lại o Thơng thường điều kiện dừng chuyển thành “tới cịn điểm thay đổi cluster” - Độ phức tạp thuật toán O( n * K * I * d ) n = số điểm khơng gian liệu xét, K = số cluster ấn định khởi tạo, I = số vòng lặp, d = số thuộc tính liệu Khi chạy thuật tốn K-mean, kết khác lần chạy cho dù chọn số cụm tâm điểm khởi tạo chọn ngẫu nhiên nên lần chạy sinh giá trị khác Xét ví dụ minh họa hình vẽ để thấy kết khác sinh chạy K-mean tập liệu 2.5 Điểm ban đầu y 1.5 0.5 -2 -1.5 -1 -0.5 0.5 1.5 x 3 2.5 2.5 y 1.5 y 1.5 1 0.5 0.5 0 -2 -1.5 -1 -0.5 0.5 1.5 -2 x -1.5 -1 -0.5 0.5 1.5 x Cụm tối ưu Cụm tối ưu Để đánh giá cụm tìm thấy phương pháp K-mean dùng độ đo lỗi phổ biến tổng bình phương lỗi (Sum of Squared Error –SSE) - Đối với điểm, lỗi tính khoảng cách tới cụm gần - Để tính SSE, lỗi tính bình phương lên lấy tổng chúng, theo công thức K SSE =∑ ∑ i=1 x ∈C i 182 dist ( mi , x ) Trong – - x điểm liệu cụm Ci mi điểm đại diện cho cluster Ci Nếu kết chạy thuật tốn cho cụm thường chọn cụm với lỗi nhỏ Thông thường muốn lỗi nhỏ để thu cách phân cụm tốt Một cách đơn giản làm giảm SSE tăng số lượng K cụm, K tăng SSE giảm điều khơng có ý nghĩa thực tế K tăng lên giá trị lớn số điểm khơng gian liệu lỗi SSE nhỏ khơng có ý nghĩa Vì lưu ý cách phân cụm tốt với số cụm K nhỏ có lỗi SSE nhỏ phân cụm tồi với số lượng K lớn Như phân tích việc lựa chọn tâm điểm khởi tạo gây ảnh hưởng lớn tới kết chạy thuật toán (tới thời gian hội tụ, kết phân cụm khác nhau) Một số giải pháp thực để giải vấn đề o Chạy nhiều lần o Lấy mẫu sử dụng phương pháp phân cụm dạng phân cấp để xác định tâm điểm khoiử tạo ban đầu o Có thể lựa chọn nhiều K tâm điểm ban đầu sau lựa chọn số tâm khởi tạo với độ phân tách rộng o Dùng phương pháp hậu xử lý liệu (xử lý sau tìm cụm) o Dùng phương pháp K-means dạng phân đôi: không dễ bị vấn đề thường xảy khởi tạo Giải vấn đề có cụm rỗng kết phân cụm o Thuật tốn K-mean cho kết cụm rỗng (cụm khơng có phần tử nào) o Một số chiến lược sử dụng để loại bỏ cụm rỗng vô nghĩa o Lựa chọn điểm có đóng góp nhiều tới tổng bình phương lỗi SSE đưa điểm vào cụm liệu rỗng o Lựa chọn điểm cụm có SSE cao đưa vào cụm rỗng để giảm SSE nhiều đồng thời làm cụm rỗng có phần tử o Nếu có nhiều cụm rỗng cơng việc lặp lại nhiều lần Quá trình phân cụm cần trình tiền xử lý liệu hậu xử lý liệu 183 giống sử dụng số phương pháp chung khai phá liệu Tiền xử lý liệu cần thiết trình phân cụm liệu cần chuẩn hóa loại bỏ phần tử ngoại lai trước đưa vào thuật toán Hậu xử lý liệu cần thiết trường hợp sau: o Cần loại bỏ cụm nhỏ (số lượng phần tử cụm ít) chúng chứa đựng phần tử ngoại lai, khơng có ý nghĩa ứng dụng thực tế o Phân chia cụm lỏng lẻo (hay mật độ phần tử cụm không đồng đều, chỗ dày đặc, chỗ thưa thớt), hay nói cách khác cụm có tổng bình phương lỗi lớn thành cụm nhỏ o Trộn cụm có khoảng cách gần nhau, hay có tổng bình phương lỗi SSE thấp o Có thể sử dụng bước trình phân cụm Phương pháp K-mean phân đôi Là biến đổi K-mean mà sinh phân cụm có phân cấp phân cụm dạng phân mảnh Thuật toán thể bước Khởi tạo danh sách L cụm để chứa cụm tìm được, ban đầu chứa có cụm bao gồm tất điểm Lặp bước sau Chọn cụm danh sách L cụm For i=1 to số lượng vòng lặp định trước Phân đôi cụm lựa chọn thành hai phân cụm phương pháp K-mean End for Thêm hai phân cụm kết lần phân đơi cụm với tổng bình phương lỗi SSE nhỏ vào danh sách cụm Cho đến danh sách cụm chứa K cụm dừng Những hạn chế K-means o K-mean có nhiều vấn đề cụm khác o Về kích cỡ: số cụm có cụm có kích cỡ lớn nhiều so với cụm khác dùng K-mean để phân cụm cho kết sai nhiều kích cỡ 184 cụm kết phương pháp thường tương đương Ví dụ minh họa hình vẽ cụm kết sinh K-means Các điểm ban đầu o Về mật độ liệu: mật độ liệu không đủ dầy đặc cụm khiến cho chúng bị phân tách làm nhiều cụm khác sử dụng phương pháp K-means, ngược lại mật độ tương đối dày đặc hai cụm gần dễ bị ghép lại thành cụm hình vẽ minh họa sau cụm kết k-means Các điểm ban đầu o Hình dạng khơng phải hình cầu: với trường hợp điểmdữ liệu phân bố theo hình dạng khơng phải hình cầu (khơng phải hình lồi) gây ảnh hưởng lớn tới kết phương pháp K-means Ví dụ minh họa hình vẽ đây, hình dạng hai cụm liệu (màu xanh màu đỏ) ban đầu dạng phi cầu nên dùng K-means để phân cụm có lỗi hình vẽ 185 Các điểm ban đầu o cụm kết k-means K-mean có vấn đề liệu chứa phần tử ngoại lai Để giải hạn chế phương pháp K-means có khác kích cỡ liệu mật độ điểm liệu cụm, giải pháp đưa sử dụng nhiều cụm, lúc cụm to kết phân thành nhiều phân cụm khác nhau, sau cần kết hợp chúng lại với để thành cụm to ban đầu Hình vẽ sau mơ tả điều Các điểm liệu ban đầu Các điểm liệu ban đầu Các cụm kết sau K-means Các cụm kết sau K-means Câu hỏi ôn tập chương 186 4.1 Chất lượng liệu đánh giá độ xác, đầy đủ quán Đề xuất hai chiều khác chất lượng liệu 4.2 Giả sử giá trị cho tập liệu định nhóm thành khoảng giá trị Các khoảng giá trị tần số tương ứng sau tần số tuổi 1–5 200 5–15 450 15–20 300 20–50 1500 50–80 700 80–110 44 Tính tốn giá trị trung vị xấp xỉ cho liệu 4.3 Cung cấp thêm độ đo thống kê thường sử dụng (ví dụ: khơng minh họa chương này) để mơ tả đặc tính phân tán liệu thảo luận cách chúng tính toán hiệu sở liệu lớn 4.4 Trong nhiều ứng dụng, liệu bổ sung thêm vào tập liệu lớn có Do đó, cân nhắc quan trọng để tính tốn tóm tắt liệu mơ tả liệu độ đo tính hiệu theo cách gia tăng Sử dụng hàm đếm số lượng, độ lệch chuẩn trung vị làm ví dụ thấy đo lường phân phối đại số tạo điều kiện thuận lợi tính tốn gia tăng hiệu quả, đo lường tồn diện khơng 4.5 Trong liệu giới thực, liệu có giá trị thiếu số thuộc tính xuất phổ biến Hãy mô tả phương pháp khác để xử lý vấn đề 4.6 Phạm vi giá trị phương pháp chuẩn hóa sau gì? (a) chuẩn hóa min-max (b) chuẩn hóa z-score (c) chuẩn hóa theo tỷ lệ thập phân 187 4.7 Sử dụng hai phương pháp bên để chuẩn hóa nhóm liệu sau: 200, 300, 400, 600, 1000 (a) chuẩn hóa min-max cách thiết lập = max = (b) chuẩn hóa z-score 4.8 Sử dụng sơ đồ để tóm tắt thủ tục sau để lựa chọn tập thuộc tính: (a) lựa chọn chuyển tiếp bước (stepwise forward selection) (b) loại bỏ lùi bước (stepwise backward elimination) (c) kết hợp lựa chọn chuyển tiếp loại bỏ lùi 4.9 Giả sử nhóm 12 giá bán xếp sau: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 Phân vùng chúng thành ba thùng theo phương pháp sau: (a) phân vùng tần số (equidepth) (b) phân vùng theo chiều rộng (c) phân cụm 4.10 Tính trung vị biện pháp tổng thể quan trọng phân tích liệu Đề xuất số phương pháp cho xấp xỉ trung vị Phân tích độ phức tạp tương ứng cài đặt thông số khác định mức độ giá trị thực xấp xỉ Hơn nữa, đề xuất chiến lược heuristic để cân tính xác phức tạp sau áp dụng cho tất phương pháp bạn đưa 4.11 Điều quan trọng phải xác định chọn độ đo tương tự trình phân tích liệu Tuy nhiên, khơng có độ đo tương tự chủ quan chấp nhận phổ biến Sử dụng độ đo tương tự khác suy kết khác Tuy nhiên, số độ đo tương tự khác tương đương sau số phép biến đổi Giả sử có tập liệu hai chiều sau đây: X1 X2 X3 X4 X5 A1 1.5 1.6 1.2 1.5 A2 1.7 1.9 1.8 1.5 1.0 188 (a) Xem xét liệu dạng điểm liệu hai chiều Cho điểm liệu mới, x = (1.4, 1.6) truy vấn, xếp hạng điểm sở liệu dựa giống với truy vấn sử dụng (1) Khoảng cách Euclide (2) độ tương tự cosin (b) Chuẩn hóa tập liệu để làm cho norm điểm liệu Sử dụng khoảng cách Euclide liệu chuyển đổi để xếp hạng điểm liệu 4.12 Đề xuất thuật toán, viết mã giả ngơn ngữ lập trình u thích bạn, cho điều sau đây: (a) Tự động tạo hệ thống phân cấp khái niệm cho liệu phân loại dựa số giá trị khác biệt thuộc tính lược đồ cho (b) Tự động tạo hệ thống phân cấp khái niệm cho liệu số dựa quy tắc phân vùng có chiều rộng (c) Tự động tạo hệ thống phân cấp khái niệm cho liệu số dựa quy tắc phân vùng tần số 4.13 Tải liệu nhanh đặt thách thức hệ thống sở liệu liệu đầu vào thường bẩn Trong nhiều trường hợp, ghi đầu vào có nhiều giá trị bị thiếu số ghi bị nhiễm (tức là, với số giá trị liệu nằm phạm vi kiểu khác loại liệu thực tế) Làm việc với thuật toán tải làm liệu tự động để liệu sai đánh dấu không chẳng may chèn vào sở liệu trình tải liệu 4.14 (Bài tập cài đặt) Thực ba thuật toán khai phá tập mặt hàng thường xuyên giới thiệu chương này: (1) Apriori, (2) Tăng trưởng FP (3) ECLAT (khai phá sử dụng định dạng liệu theo chiều dọc), sử dụng ngơn ngữ lập trình mà bạn quen thuộc với, chẳng hạn C ++ Java So sánh hiệu suất thuật toán với loại tập liệu lớn khác Viết báo cáo để phân tích tình (chẳng hạn kích thước liệu, phân phối liệu, cài đặt ngưỡng hỗ trợ tối thiểu mật độ mẫu) thuật tốn hoạt động tốt thuật tốn khác nêu rõ lý 4.15 Giả sử cửa hàng lớn có sở liệu giao dịch lưu trữ phân tán số bốn vị trí Các giao dịch sở liệu thành phần có định dạng, cụ thể T j: 189 {i1, , im}, Tj mã định danh giao dịch ik (1 ≤ k ≤ m) mã định danh mặt hàng mua giao dịch Đề xuất thuật toán hiệu để khai phá luật kết hợp toàn cục (không xem xét kết hợp đa cấp) Bạn trình bày thuật tốn dạng phác thảo Thuật tốn bạn khơng u cầu gửi tất liệu vào vị trí khơng gây truyền thông mạng mức 4.16 Giả sử tập mặt hàng thường xuyên lưu cho sở liệu giao dịch lớn, DB Thảo luận cách khai phá hiệu luật kết hợp (toàn cầu) với ngưỡng hỗ trợ tối thiểu tập hợp giao dịch mới, biểu thị ∆DB, (từng bước) thêm vào? 4.17 Các thuật toán khai phá mẫu xuất thường xuyên xem xét mặt hàng khác biệt giao dịch Tuy nhiên, nhiều lần xuất mặt hàng giỏ mua hàng, chẳng hạn bốn bánh ba bình sữa, quan trọng phân tích liệu giao dịch Làm tơi khai phá tập mặt hàng thường xuyên cách hiệu xem xét nhiều lần xuất mặt hàng? Đề xuất sửa đổi thuật toán tiếng, chẳng hạn Apriori FP-tăng trưởng, để thích nghi với tình 4.18 (Bài tập cài đặt) Cài đặt ba phương pháp khai phá mặt hàng thường xuyên đóng (1) AClose [PBTL99] (dựa phần mở rộng Apriori [AS94b]), (2) CLOSET + [WHP03] (dựa phần mở rộng tăng trưởng FP [HPY00]) (3) CHARM [ZH02] (dựa mở rộng ECLAT [Zak00]) So sánh hiệu suất chúng với nhiều loại liệu lớn Viết báo cáo để trả lời câu hỏi sau: (a) Tại việc khai phá tập thường xuyên đóng thường hấp dẫn khai phá tập hợp mặt hàng thường xuyên hoàn chỉnh (dựa thử nghiệm bạn tập liệu Bài tập 4.14)? (b) Phân tích tình (chẳng hạn kích thước liệu, phân phối liệu, thiết lập ngưỡng hỗ trợ tối thiểu mật độ mẫu) thuật toán hoạt động tốt thuật toán khác 190 4.19 Đề xuất phác thảo cách tiếp cận khai phá mức chia sẻ để khai phá luật kết hợp đa cấp mục mã hóa theo vị trí cấp lần quét ban đầu sở liệu thu thập số lượng cho mục cấp độ khái niệm, xác định mục thường xuyên thường xuyên Nhận xét chi phí xử lý khai phá luật kết hợp đa cấp với phương pháp so với khai phá luật kết hợp đơn cấp 4.20 (Bài tập cài đặt) Nhiều kỹ thuật đề xuất để cải thiện hiệu suất thuật toán khai phá tập mặt hang thường xuyên Lấy thuật toán tăng trưởng mẫu thường xuyên dựa FP-tree, chẳng hạn tăng trưởng FP, làm ví dụ, triển khai thuật tốn kỹ thuật tối ưu hóa sau so sánh hiệu suất kỹ thuật bạn thực với kỹ thuật không kết hợp tối ưu hóa (a) Khai thác mẫu thường xuyên đề xuất trước với FP-tree tạo điều kiện sở mẫu cách sử dụng kỹ thuật chiếu từ lên (tức là, dự án đường dẫn tiền tố mặt hàng p) Tuy nhiên, người ta phát triển kỹ thuật chiếu từ xuống (tức là, dự án đường dẫn hậu tố mặt hàng p trình tạo mẫu sở có điều kiện) Thiết kế cài đặt phương pháp khai phá FP từ xuống so sánh hiệu suất bạn với phương pháp chiếu từ lên (b) Các nút trỏ sử dụng thống FP thiết kế thuật toán FP tăng trưởng Tuy nhiên, cấu trúc tiêu tốn nhiều không gian liệu thưa thớt Một thiết kế thay khám phá cài đặt lai dựa mảng trỏ, nút lưu trữ nhiều mặt hàng không chứa điểm chia tách cho nhiều nhánh Phát triển việc cài đặt so sánh với gốc (c) Việc tốn nhiều thời gian khơng gian để tạo nhiều sở mẫu có điều kiện trình khai phá mẫu tăng trưởng Một thay thú vị đẩy phải (push right) nhánh khai phá cho mặt hàng cụ thể p, tức đẩy chúng vào nhánh lại FP Điều thực để sở mẫu điều kiện phải tạo việc chia sẻ thêm khai thác khai phá chi nhánh lại FP Thiết kế cài đặt phương pháp kiểu tiến hành nghiên cứu hiệu suất 4.21 Đưa ví dụ ngắn để mục luật kết hợp mạnh tương quan âm (negatively correlated) thực tế 191 4.22 Bảng sau tóm tắt liệu giao dịch siêu thị, nơi mặt hàng hotdogs đề cập đến giao dịch có chứa xúc xích, nohotdogs đề cập đến giao dịch khơng chứa xúc xích, hamburgers đề cập đến giao dịch có chứa bánh mì kẹp thịt nohamburgers đề cập đến giao dịch khơng chứa bánh mì kẹp thịt hotdogs nohotdogs Σrow hamburgers 2000 500 2500 nohamburgers 1000 1500 2500 Σcol 3000 2000 5000 (a) Giả sử luật kết hợp “hotdogs ⇒ hamburgers” khai phá Với ngưỡng hỗ trợ tối thiểu 25% ngưỡng tin cậy tối thiểu 50%, có phải luật kết hợp mạnh không? (b) Dựa liệu cho, việc mua xúc xích có độc lập với việc mua bánh mì kẹp thịt khơng? 4.23 Trong phân tích liệu đa chiều, thật thú vị trích xuất cặp ô tương tự với thay đổi đáng kể phép đo khối liệu, trường hợp coi tương tự chúng có liên quan theo dạng cuộn lên (tức là, tổ tiên), khoan xuống (tức cháu), đột biến chiều (tức là, anh chị em ruột) Phân tích gọi phân tích gradient khối Giả sử độ đo khối liệu phép tốn trung bình (average) Một người sử dụng tế bào thăm dị muốn tìm tương ứng gradient ơ, số thỏa mãn ngưỡng gradient định Ví dụ, tìm tập hợp gradient tương ứng có giá bán trung bình lớn 20% so với thăm dị cho Phát triển thuật toán khai phá hiệu tập hợp ô gradient bị hạn chế khối liệu lớn 4.24 Khai phá luật kết hợp thường tạo số lượng lớn luật Thảo luận phương thức hiệu sử dụng để giảm số lượng luật tạo bảo toàn hầu hết luật có giá trị 4.25 Các mẫu khai phá phương thức tương tự khai phá luật kết hợp.Thiết kế thuật toán hiệu để khai phá mẫu đa cấp từ sở liệu giao dịch Một ví dụ mẫu sau: “Khách hàng mua PC mua phần mềm Microsoft vòng ba tháng,” người dùng tìm hiểu phiên cải tiến mẫu, chẳng hạn “Khách hàng mua máy tính Pentium mua Microsoft Office vịng ba tháng.” 192 4.26 Giá sản phẩm cửa hàng không âm Người quản lý cửa hàng quan tâm đến luật có dạng: “một mặt hàng miễn phí nhận với giao dịch có tổng số tiền mua hàng 200 đô la” Hãy phát biểu cách khai phá luật cách hiệu 4.27 Giá mặt hàng cửa hàng không âm Đối với trường hợp sau, xác định loại ràng buộc mà chúng đại diện thảo luận ngắn gọn cách khai phá luật kết hợp cách hiệu (a) Chứa trò chơi Nintendo (b) Chứa mặt hàng có tổng giá thấp $150 (c) Chứa mặt hàng miễn phí mặt hàng khác với tổng giá $200 (d) Trường hợp giá trung bình tất mặt hàng từ $100 đến $500 4.28 Tóm tắt bước việc phân loại định 4.29 Tại kỹ thuật tỉa cành hữu ích việc suy diễn định? Nhược điểm việc sử dụng tập hợp liệu riêng biệt để đánh giá việc cắt tỉa? 4.30 Với định, bạn có tùy chọn (a) chuyển đổi định thành luật sau cắt tỉa luật kết quả, (b) cắt tỉa định sau chuyển đổi tỉa cành thành luật Lợi (a) (b) nào? 4.31 Việc xác định độ phức tạp tính tốn trường hợp tồi tệ thuật toán định quan trọng Cho trước tập liệu D, số thuộc tính n số lượng liệu dùng để huấn luyện | D |, chi phí tính tốn việc dựng tối đa n × | D | × log (| D |) 4.32 Cho tập liệu GB với 50 thuộc tính (mỗi thuộc tính chứa 100 giá trị riêng biệt) 512 MB nhớ máy tính xách tay bạn, phác thảo phương pháp hiệu mà xây dựng cấu trúc định tập liệu lớn Giải thích câu trả lời bạn cách tính tốn sơ sử dụng nhớ 193 4.33 Rất khó để đánh giá độ xác phân loại đối tượng liệu riêng lẻ thuộc cho nhiều lớp thời điểm Trong trường hợp vậy, bình luận tiêu chí bạn sử dụng để so sánh phân loại khác mơ hình hóa liệu 4.34 Tóm tắt phác thảo cách tính tốn khác biệt đối tượng mô tả loại biến sau: (a) Các biến số (dạng phân khoảng) (b) Biến nhị phân bất đối xứng (c) Các biến phân loại (d) Biến số tỷ lệ (e) Đối tượng vector phi độ đo 4.35 Cho phép đo sau cho biến tuổi: 18, 22, 25, 42, 28, 43, 33, 35, 56, 28, chuẩn hóa biến cách sau: (a) Tính tốn độ lệch tuyệt đối trung bình tuổi (b) Tính tốn z-score bốn phép đo 4.36 Cho hai đối tượng đại diện liệu (22, 1, 42, 10) (20, 0, 36, 8): (a) Tính tốn khoảng cách Euclide hai đối tượng (b) Tính khoảng cách Manhattan hai đối tượng (c) Tính tốn khoảng cách Minkowski hai đối tượng trên, sử dụng q = 4.37 Cả hai thuật tốn k-means k-medoids thực phân cụm hiệu Minh họa sức mạnh điểm yếu k-means so với thuật tốn k-medoids 4.38 Ví dụ cách phương thức phân cụm cụ thể tích hợp, ví dụ, nơi thuật toán phân cụm sử dụng làm bước tiền xử lý cho thuật tốn khác Ngồi ra, cung cấp lý việc tích hợp hai phương pháp đơi dẫn tới cải thiện chất lượng hiệu phân cụm 194 4.39 Phân cụm công nhận rộng rãi nhiệm vụ khai phá liệu quan trọng với phạm vi rộng ứng dụng Đưa ví dụ ứng dụng cho trường hợp sau: (a) Một ứng dụng lấy phân cụm chức khai phá liệu (b) Một ứng dụng lấy phân cụm công cụ tiền xử lý để chuẩn bị liệu cho nhiệm vụ khai phá liệu khác 4.40 Mô tả thuật toán phân cụm sau với tiêu chí sau: (i) hình dạng cụm xác định; (ii) thông số đầu vào phải xác định; (iii) hạn chế (a) k-means (b) k-medoids (c) CLARA (d) DBSCAN 195 Tài liệu tham khảo Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kanfmann Publishers, Second Edition Joseph Fong, “Information Systems Reengineering and Integration”, Springer Verlag, 2006, ISBN 978-1-84628-382-6, Second edition http://www-sal.cs.uiuc.edu/~hanj/DM_Book.html http://www-users.cs.umn.edu/~kumar/csci5980/index.html http://www.cs.cityu.edu.hk/~jfong/course/cs5483/ http://www.ist.temple.edu/~vucetic/cis526fall2004.htm 196 ... 10 .23 5 .27 15 .22 2. 7 1 .2 12. 65 6 .25 16 .22 2. 2 1.1 Dữ liệu văn • Mỗi văn tài liệu trở thành vectơ thuật ngữ hay từ khóa 124 – Mỗi từ khóa thành phần (thuộc tính) vecto, – Giá trị thành phần số... nghệ kho liệu, khung nhìn đa chiều thực kỹ thuật sở liệu quan hệ (ROLAP), kỹ thuật sở liệu đa chiều (MOLAP), kỹ thuật sở liệu lai (HOLAP) (a) Mô tả ngắn gọn kỹ thuật cài đặt (b) Đối với kỹ thuật, ... truy nhập liệu có sẵn kho So sánh kho liệu với sở liệu hỗn tạp 87 Chúng ta dễ nhầm lẫn kho liệu với sở liệu hỗn tạp hai chứa nhiều loại liệu khác liệu tích hợp lại thể thống Tuy nhiên kho liệu khác

Ngày đăng: 02/03/2022, 08:46

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan