1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 2

97 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 97
Dung lượng 5,26 MB

Nội dung

Nối tiếp phần 1, Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 2 tiếp tục trình bày những nội dung về công nghệ kho dữ liệu và xử lý phân tích trực tuyến; mô hình dữ liệu đa chiều; cài đặt kho dữ liệu; xây dựng kho dữ liệu với mục đích hỗ trợ quyết định (DSS); khai phá dữ liệu; tiền xử lý dữ liệu trước khi khai phá; phương pháp khai phá bằng luật kết hợp; phương pháp cây quyết định;... Mời các bạn cùng tham khảo!

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG  KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU NGUYỄN QUỲNH CHI HàNội 2014 Chƣơng 3: Công nghệ kho liệu xử lý phân tích trực tuyến Nội dung chƣơng bao gồm: Khái niệm kho liệu Mơ hình liệu đa chiều Kiến trúc kho liệu Cài đặt kho liệu Tƣơng lai phát triển công nghệ khối liệu Từ công nghệ kho liệu đến khai phá liệu 3.1 Khái niệm kho liệu Kho liệu đƣợc định nghĩa theo nhiều cách khác nhau, nhƣng không chặt chẽ: - Có thể đƣợc coi nhƣ sở liệu hỗ trợ định mà đƣợc trì cách riêng biệt từ sở liệu tác nghiệp tổ chức - Hỗ trợ xử lý thông tin cách cung cấp tảng vững liệu lịch sử hợp cho việc phân tích Một định nghĩa hay gặp kho liệu W.H Inmon đuợc phát biểu nhƣ sau: "Một kho liệu liệu hƣớng chủ đề, tích hợp, biến động theo thời gian, khơng đƣợc sử dụng để hỗ trợ trình định quản lý “ Khái niệm công nghệ kho liệu đƣợc dùng để trình xây dựng sử dụng kho liệu Tiếp tới phân tích kỹ đặc điểm kho liệu đƣợc nêu định nghĩa - Đặc điểm hƣớng chủ đề liệu đƣợc thể hiện: o Qua việc cung cấp khung nhìn xúc tích đơn giản xung quanh vấn đề chủ đề cụ thể Chúng ta thực đặc điểm cách loại trừ liệu khơng hữu ích tiến trình hỗ trợ định o Qua việc đƣợc tổ chức xung quanh đối tƣợng chính, chẳng hạn nhƣ khách hàng, sản phẩm, bán hàng o Qua viêc tập trung vào mơ hình hóa phân tích liệu cho ngƣời định, cho hoạt động tác nghiệp hàng ngày cho xử lý giao dịch - Kho liệu có tính tích hợp đƣợc thể qua đặc điểm sau: 79 o Đƣợc xây dựng cách tích hợp nhiều nguồn liệu không đồng nhƣ sở liệu quan hệ, tệp lƣu trữ văn bản, ghi giao dịch trực tuyến o Dữ liệu đƣợc làm tích hợp kỹ thuật tích hợp liệu để đảm bảo tính quán quy ƣớc đặt tên, mã hóa cấu trúc, độ đo thuộc tính , v.v…giữa nguồn liệu khác ví dụ nhƣ Giá khách sạn bao gồm đơn vị tiền tệ, thuế, giá ăn sáng o Khi liệu đƣợc chuyển đến kho, cần đƣợc chuyển đổi sang dạng thống - Kho liệu biến đổi theo thời gian đƣợc thể đặc điểm sau: o Trục hoành thời gian kho liệu dài đáng kể so với hệ thống tác nghiệp sở liệu tác nghiệp thể giá trị hành liệu cịn kho liệu cung cấp thơng tin từ khung nhìn lịch sử (ví dụ, liệu qua 510 năm) o Tất cấu trúc quan trọng kho liệu chứa yếu tố thời gian cách tƣờng minh không tƣờng minh Cách thể thời gian cách tƣờng minh cấu trúc liệu có thuộc tính thời gian, cách không tƣờng minh thƣờng đƣợc thể thơng qua số thuộc tính khác mà khơng nói rõ thời gian, khơng tƣờng minh đƣợc thể khác trƣờng hợp khác Tuy nhiên, khóa liệu tác nghiệp chứa không chứa "yếu tố thời gian" - Kho liệu không tắt điện đƣợc thể đặc điểm sau o Là kho lƣu trữ riêng biệt mặt vật lý liệu đƣợc chuyển đổi từ môi trƣờng tác nghiệp vào o Thao tác cập nhật liệu tác nghiệp không thiết xảy môi trƣờng kho liệu Lý  Kho liệu không chứa thông tin xử lý giao dịch, phục hồi liệu chế kiểm sốt việc xảy đồng thời  Thƣờng địi hỏi có hai thao tác truy xuất liệu tải liệu vào kho lúc khởi tạo truy nhập liệu có sẵn kho So sánh kho liệu với sở liệu hỗn tạp 80 Chúng ta dễ nhầm lẫn kho liệu với sở liệu hỗn tạp hai chứa nhiều loại liệu khác liệu đƣợc tích hợp lại thể thống Tuy nhiên kho liệu khác hẳn sở liệu hỗn tạp chất: - Việc tích hợp sở liệu hỗn tạp truyền thống cần o Xây dựng thành phần đóng gói (trung gian, bao bọc) cho toàn liệu hỗn tạp khác o Có cách tiếp cận hƣớng truy vấn có nghĩa truy vấn ngƣời dùng yêu cầu đƣợc dịch sang câu truy vấn tƣơng ứng với thành phần hỗn tạp; kết trả đƣợc tích hợp thành tập câu trả lời tồn cục o Liên quan tới việc lọc thông tin phức tạp o Cạnh tranh tài nguyên nguồn cục địa phƣơng - Kho liệu có xu hƣớng thực thao tác cập nhật với hiệu cao o Thông tin từ nguồn hỗn tạp đƣợc tích hợp trƣớc đƣợc lƣu trữ kho để phân tích truy vấn trực tiếp So sánh kho liệu với sở liệu tác nghiệp Hai loại khác chủ yếu cách sử dụng liệu đƣợc lƣu trữ chúng: - Nhiệm vụ sở liệu quan hệ truyền thống thực xử lý giao dịch trực tuyến, chủ yếu thực hoạt động hàng ngày nhƣ mua bán, thống kê hàng tồn kho, giao dịch ngân hàng, quản lý sản xuất, tiền lƣơng, đăng ký, kế toán sổ sách, v.v… - Nhiệm vụ kho liệu thực phân tích trực tuyến, chủ yếu thực cơng việc phân tích hỗ trợ định cho tổ chức - Đặc điểm phân biệt phân tích trực tuyến (OLAP) xử lý trực tuyến (OLTP) khác kho liệu sở liệu truyền thống, đƣợc thể điểm sau: o OLTP có định hƣớng ngƣời sử dụng cịn OLAP có định hƣớng hệ thống: OLTP phục vụ khách hàng OLAP phục vụ thị trƣờng o Nội dung liệu khác nhau: OLTP mang nội dung tại, chi tiết OLAP mang nội dung lịch sử, hợp o Thiết kế sở liệu: OLTP sử dụng mơ hình thực thể liên kết ER với ứng dụng cịn OLAP sử dụng mơ hình với chủ thể 81 o Khung nhìn liệu: OLTP cung cấp khung nhìn tại, cục cịn OLAP cung cấp khung nhìn liệu cho thao tác đọc nhƣng cho truy vấn phức tạp o Các mẫu truy cập liệu: OLTP cần truy vấn cập nhật đơn giản OLAP sử dụng truy vấn đọc nhƣng phức tạp Tách rời kho liệu khỏi sở liệu tác nghiệp Cần thực việc lý sau: - Hiệu suất cao cho hai hệ thống: o Hệ quản trị sở liệu đƣợc thiết kế tốt để phục vụ cho hoạt động xử lý trực tuyến phƣơng pháp truy cập liệu, đánh mục, kiểm soát xử lý đồng thời, phục hồi liệu o Kho liệu đƣợc thiết kế tốt phục vụ hoạt động xử lý phân tích trực tuyến bao gồm xử lý truy vấn OLAP, tạo khung nhìn đa chiều củng cố liệu - Chức khác liệu khác nhau: o Hệ hỗ trợ định mà kho liệu cung cấp yêu cầu liệu lịch sử sở liệu tác nghiệp thƣờng khơng trì o Hệ hỗ trợ định cần củng cố liệu (tích hợp, tổng hợp) từ nguồn liệu hỗn tạp khác o Các nguồn khác thƣờng sử dụng liệu không quán, mã số định dạng chúng cần phải đƣợc đối chiếu 3.2 Mơ hình liệu đa chiều - Một kho liệu đƣợc thiết kế dựa mơ hình liệu đa chiều, mơ hình cung cấp khả xem liệu dƣới dạng khối liệu - Một khối liệu cho phép liệu đƣợc mơ hình hóa xem nhiều chiều (thuộc tính) khác nhau: o Các chiều khối liệu đƣợc thể thông qua bảng theo chiều (Dimension), chẳng hạn nhƣ bảng mặt hàng bao gồm thuộc tính (tên mặt hàng, thƣơng hiệu, loại hàng), bảng thời gian bao gồm thuộc tính (ngày, tuần, tháng, quý, năm) o Bảng kiện (Fact) chứa giá trị đo lƣờng đƣợc (nhƣ số tiền bán đƣợc dollars_sold) khóa tới bảng theo chiều liên quan 82 - Trong tài liệu nói công nghệ kho liệu, khối liệu sở n chiều (n-D base cube) đƣợc gọi khối (hình đƣợc bao bọc mặt- cuboid) Khối mức khối 0-D với số chiều chứa số liệu tổng hợp mức cao đƣợc gọi khối liệu mức đỉnh Lƣới chia ngăn khối liệu tạo thành khối liệu mức thấp Chúng ta xem xét ví dụ dƣới để hiểu rõ khái niệm khối liệu - Một ví dụ khối liệu đƣợc thể hình vẽ dƣới 83 Mơ hình hóa liệu cho kho liệu Bao gồm loại lƣợc đồ: hình sao, hình bơng tuyết dải thiên hà - Lƣợc đồ hình sao: Một bảng Fact kết nối với nhiều bảng theo chiều - Lƣợc đồ hình bơng tuyết: Là dạng chuẩn hóa mơ hình hình phân cấp chiều đƣợc chuẩn hóa thành tập hợp bảng theo chiều có kích thƣớc nhỏ hơn, tạo thành hình dạng tƣơng tự nhƣ bơng tuyết - Lƣợc đồ dải thiên hà: gồm nhiều bảng Fact có chung bảng theo chiều, mà bảng Fact bảng theo chiều mơ hình hình sao, đƣợc coi nhƣ ngơi mơ hình đƣợc xem nhƣ sƣu tập sao, đƣợc gọi lƣợc đồ dải thiên hà hay dải bảng fact Ví dụ lƣợc đồ hình 84 Ví dụ lƣợc đồ hình bơng tuyết Ví dụ lƣợc đồ dải thiên hà 85 Ngơn ngữ truy vấn khai phá liệu (Data Mining Query Language) Bao gồm hàm nguyên thủy nhƣ sau - Định nghĩa khối liệu: bảng Fact khối liệu mức thấp nhất, chứa thông tin mức chi tiết nên câu lệnh để định nghĩa bảng Fact define cube []: - Định nghĩa chiều (bảng theo chiều) define dimension as () - Trƣờng hợp đặc biệt (dùng chung bảng theo chiều) o Bảng theo chiều đƣợc khai báo lần đầu định nghĩa khối liệu liên quan o Nếu muốn dùng lại bảng theo chiều trƣờng hợp sau khai báo với cú pháp nhƣ sau define dimension < tên_chiều > as in cube Sử dụng hàm nguyên thủy định nghĩa lƣợc đồ hình đƣợc thể ví dụ nhƣ sau: define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) 86 define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) Định nghĩa lƣợc đồ hình bơng tuyết đƣợc thể ví dụ nhƣ sau: define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country)) Định nghĩa lƣợc đồ dải thiên hà đƣợc thể ví dụ nhƣ sau: define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales Thuộc tính độ đo lƣợc đồ đƣợc hàm đƣợc tính tốn liệu đƣợc tích hợp lại dựa cặp giá trị theo chiều cho trƣớc Thuộc tính độ đo thuộc ba loại nhƣ sau: 87 o Phân loại tài liệu trang Web o Phân cụm liệu Weblog để phát nhóm mẫu truy nhập giống Các ví dụ ứng dụng phân cụm - Ứng dụng tiếp thị: giúp cho ngƣời tiếp thị phát nhóm đặc biệt liệu khách hàng họ sau sử dụng tri thức để phát triển chƣơng trình tiếp thị có mục tiêu - Ứng dụng việc sử dụng đất: Xác định vùng sử dụng đất giống sở liệu quan sát toàn trái đất - Ứng dụng bảo hiểm: Xác định nhóm ngƣời có bảo hiểm tơ với chi phí trung bình đƣợc chi trả bảo hiểm cao - Ứng dụng lập kế hoạch cho thành phố: Xác định nhóm nhà dựa kiểu nhà, giá trị vị trí địa lý ngơi nhà họ - Nghiên cứu động đất: địa chấn trận động đất đƣợc phân cụm dựa lỗi lục địa Khái niệm phân cụm tốt Một phƣơng pháp phân cụm tốt sinh phân cụm có chất lƣợng cao hai phần tử cụm có độ giống cao giống hai phần tử khác cụm Chất lƣợng kết phân cụm phụ thuộc vào độ đo giống đƣợc sử dụng cho phƣơng pháp phân cụm việc cài đặt độ đo Chất lƣợng phƣơng pháp phân cụm đƣợc đo khả phát tất mẫu tiềm ẩn liệu Những yêu cầu việc phân cụm khai phá liệu Tồn nhiều phƣơng pháp phân cụm khai phá liệu, muốn đề xuất phƣơng pháp phải thỏa mãn đặc tính sau - Tính mở rộng kích cỡ - Khả phân cụm với kiểu thuộc tính khác - Có thể phát cụm với hình thù - Địi hỏi u cầu nhỏ tri thức miền liệu để xác định tham số đầu vào - Có khả giải với nhiễu thành phần ngoại lai - Trật tự ghi đầu vào cho phƣơng pháp không làm ảnh hƣởng tới kết việc phân cụm - Có khả làm việc liệu có nhiều chiều - Cho phép chấp nhận thêm ràng buộc ngƣời sử dụng định nghĩa 160 - Có tính phiên dịch sử dụng đƣợc Độ đo phân cụm Cấu trúc liệu đƣợc sử dụng việc phân cụm Trong phân cụm, liệu đƣợc lƣu trữ dƣới hai dạng: dạng ma trận liệu hai chiều có n hàng p cột n số phần tử tập liệu xét p số đặc tính quan tâm phân cụm phần tử dạng ma trận khác  x11   x  i1    xn1 x 1f x if x nf   d(2,1)    d(3,1) d (3,2)    : :  :  d (n,1) d (n,2) 0 x  1p   x  ip    x  np  Trong ma trận thể khác nhau, phần tử d(i,j) thể khoảng cách hay khác phần tử thứ i thứ j Ma trận ma trận đối xứng khác phần tử i phần tử j j i, đồng thời đƣờng chéo ma trận khoảng cách phần tử i Đo giống Đơn vị đo lƣờng để đo giống hay khác hai phần tử tập liệu xét đƣợc biểu diễn hàm khoảng cách, độ đo điển hình d(i,j) khoảng cách phần tử (i) phần tử (j) Để đánh giá chất lƣợng cụm, hàm chất lƣợng riêng biết đƣợc sử dụng tới Việc định nghĩa hàm khoảng cách thƣờng khác biến phạm vi, phân khoảng, biến nhị phân, phân loại, biến có trật tự biến tỉ lệ Các trọng số đƣợc sử dụng với biến khác dựa loại ứng dụng ngữ nghĩa liệu Rất khó để định nghĩa “đủ giống nhau” “đủ tốt” trình xác định giống phần tử tập liệu Câu trả lời thƣờng mang tính chủ quan, khác đối tƣợng cảm nhận đối tƣợng Đối với biến có giá trị nằm khoảng đó, cần chuẩn hóa liệu trƣớc thực phân cụm Sở dĩ nhƣ khiến cho thuật tốn phân cụm đƣa kết xác Chuẩn hóa cách - Tính tốn trung bình phƣơng sai bình phƣơng 2 sf  n (| x1 f  m f |  | x2 f  m f |   | xnf  m f | ) 161 mf  n (x1 f  x2 f phần tử ma trận hai chiều   xnf ) sau tính độ đo đƣợc chuẩn hóa (z-score) xif  m f zif  sf Sử dụng phƣơng sai trị tuyệt đối trung bình (khơng phải phƣơng sai bình phƣơng trung bình trên) khiến thuật tốn đƣợc thực nhanh chóng sử dụng phƣơng sai chuẩn Sự giống khác đối tƣợng liệu Các khoảng cách thông thƣờng đƣợc sử dụng để đo giống hay khác hai đối tƣợng liệu Một số khoảng cách phổ biến thƣờng đƣợc dùng bao gồm - Khoảng cách Minkowski đƣợc tính theo cơng thức Trong d (i, j)  q (| x  x |q  | x  x |q   | x  x |q ) i1 j1 i2 j2 ip jp i = (xi1, xi2, …, xip) j = (xj1, xj2, …, xjp) hai đối tượng liệu có p chiều q số nguyên dương Nếu q=1thì d đƣợc gọi khoảng cách Manhattan d (i, j) | x  x |  | x  x |   | x  x | i1 j1 i2 j2 ip jp Nếu q=2 d khoảng cách Ơclit (Euclit) d (i, j)  (| x  x |2  | x  x |2   | x  x |2 ) i1 j1 i2 j2 ip jp Với thuộc tính • d(i,j)  • d(i,i) = • d(i,j) = d(j,i) • d(i,j)  d(i,k) + d(k,j) Ngồi sử dụng khoảng cách có trọng số, tƣơng hỗ tích mơmen có tham số Pearson độ đo khác khác, miễn thỏa mãn thuộc tính khoảng cách trình bày - Độ giống Cosin Nếu d1 d2 hai vectơ tài liệu cos( d1, d2 ) = (d1  d2) / ||d1|| ||d2||  thể phép tốn nhân vectơ || d || độ dài vectơ d Ví dụ: d1 = 0 0 162 d2 = 0 0 0 d1  d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = 3150 - Độ giống biến nhị phân Bảng sau đƣợc sử dụng để tính độ giống biến nhị phân, thành phần phần tử bảng số thuộc tính đối tƣợng i đối tƣợng j nhận giá trị hay Chẳng hạn a số thuộc tính đối tƣợng i j có giá trị 1, cịn b là số thuộc tính đối tƣợng i đối tƣợng j Đo độ tuơng đồng hai đối tƣợng, dùng khoảng cách đơn giản sau (là bất biến biến nhị phân đối xứng d (i, j)  bc a b c  d Nếu biến nhị phân khơng đối xứng độ tƣơng quan không bất biến, đƣợc gọi độ tƣơng bc quan Jaccard có cơng thức tính nhƣ sau d (i, j)  a  b  c Ví dụ: Cho bảng liệu nhƣ sau Name Jack Mary Jim Gender M F M Fever Y Y Y Cough N N P Test-1 P P N Test-2 N N N Test-3 N P N Test-4 N N N Trong Gender thuộc tính đối xứng thể giới tính đối tƣợng có tên thuộc tính Name xét Các thuộc tính cịn lại lần lƣợt biểu có sốt, có ho không kết xét nghiệm 1, 2, 3, Tất thuộc tính cịn lại thuộc loại nhị phân không đối xứng Giả sử giá trị Y (yes-có) P (positive- dƣơng tính) đƣợc đặt giá trị N (No- không hay âm tính) đƣợc đặt ta có khoảng cách Jaccard nhƣ sau 163 1  0.33  1 11 d ( jack , jim )   0.67 111 1 d ( jim , mary)   0.75 11 d ( jack , mary)  - Độ giống biến tên Là tổng quát hóa biến nhị phân biến có nhiều hai trạng thái (trong biến nhị phân có hai trạng thái 1), ví dụ nhƣ biến dạng tên nhận giá trị màu sắc đỏ, vàng, xanh nƣớc biển xanh Để đo độ giống biến dùng số cách đề xuất sau Cách 1: so sánh giống cách đơn giản m Trong p tổng số thuộc tính đối tƣợng, m số d (i, j)  p  p i j có giá trị thuộc tính hai đối tƣợng Cách 2: sử dụng số lƣợng lớn biến nhị phân cách tạo biến nhị phân cho M trạng thái biến tên - Độ đo giống cho biến trật tự: Một biến có trật tự rời rạc liên tục Trật tự biến quan trọng ví dụ nhƣ biến thể phân bậc đối tƣợng Chúng ta coi loại biến có trật tự nhƣ dạng biến khoảng phạm vi cách o Thay xif cấp bậc rif {1, , M f } o Ánh xạ phạm vi biến vào khoảng [0,1] cách thay đối tƣợng thứ i biến thứ f z-score zif  rif 1 M f 1 o Tính tốn khác sử dụng cách thức dùng cho biến khoảng phạm vi - Độ đo cho biến tỉ lệ Biến tỉ lệ đơn vị đo lƣờng dƣơng phạm vi phi tuyến dạng lũy thừa xấp xỉ ví dụ nhƣ AeBt Ae-Bt Cách thức để tính tốn độ đo giống/khác biến loại nhƣ sau: - Coi chúng nhƣ biến phạm vi lựa chọn tốt - Áp dụng số chuyển đổi logarit yif = log(xif) 164 - Coichúng nhƣ liệu có trật tự liên tục coi cấp bậc chúng nhƣ khoảng phạm vi - Độ đo cho loại liệu hỗn hợp (trộn nhiều loại khác nhau) Một sở liệu chứa tất sáu loại biến: nhị phân đối xứng, nhị phân không đối xứng, loại tên thƣờng, loại có trật tự, loại tỉ lệ phạm vi Chúng ta sử dụng cơng thức có trọng số để kết hợp hiệu chúng vào với theo cơng thức sau Trong  pf  1 ij( f )dij( f ) d (i, j)   pf  1 ij( f ) - f làdạng nhị phân dạng tên dij(f) = xif = xjf , dij(f) = - f dạng phạm vi: sử dụng khoảng cách chuẩn - f dạng trật tự khoảng tỉ lệ cần o tính cấp bậc rif o coi zif nhƣ dạng biến khoảng phạm vi zif  r M if 1 f 1 Phân loại phân cụm Khái niệm không rõ ràng cụm không gian điểm liệu Đây vấn đề trình phân cụm: với tập hợp điểm khơng gian liệu, có nhiều cách phân cụm với số lƣợng cụm khác với tiêu chí khác Xem ví dụ sau để minh họa điều với khơng gian liệu ban đầu phân thành cụm, cụm hay cụm nhƣ hình vẽ dƣới (mỗi phần tử cụm đƣợc thể hình giống nhau) Sự khác biệt loại phân cụm 165 - Loại trừ không loại trừ: phân cụm không loại trừ, điểm không gian liệu thuộc nhiều phân cụm đại diện nhiều lớp điểm nằm biên giới lớp - Cụm mờ không mờ: o Trong phân cụm mờ, điểm thuộc vào cụm với trọng số (xác suất điểm thuộc cụm đó) o Tổng trọng số phải o Các phân cụm xác suất có đặc tính giống - Cụm phần toàn bộ: số trƣờng hợp muốn phân cụm vài liệu khơng phải tồn liệu - Hỗn tạp đồng điệu: cụm có kích cỡ, hình dạng mật độ khác thuộc loại hỗn tạp, cịn tƣơng đồng thuộc loại đồng điệu Các loại cụm Cụm phân chia rõ ràng: Là loại cụm bao gồm tập điểm mà điểm cụm - gần (hay giống) điểm khác cụm tới điểm cụm khác Ví dụ loại cụm phân chia rõ ràng đƣợc thể hình vẽ sau với cụm đƣợc biểu diễn hình trịn màu đỏ, màu xanh da trời màu xanh nõn chuối sau - Cụm có tâm điểm: o Là loại cụm bao gồm tập đối tƣợng cho đối tƣợng cụm gần (hay giống) “trung tâm ” cụm “trung tâm “ cụm khác o Trung tâm cụm thƣờng đƣợc gọi “tâm điểm” (centroid), trung bình tất điểm cụm gọi medoid, điểm đại diện cụm o Ví dụ loại cụm dựa vào tâm điểm đƣợc mơ tả hình vẽ dƣới có cụm đƣợc thể hình trịn màu khác 166 - Cụm dựa tiếp giáp (hay hàng xóm gần bắc cầu) o Là loại cụm bao gồm tập hợp điểm cho điểm cụm gần (hay giống) nhiều điểm khác cụm tới điểm khơng nằm cụm ây o Ví dụ loại cụm đƣợc thể hình vẽ dƣới màu thể cụm - Cụm dựa mật độ: o Là loại cụm cụm mộtvùng điểm dày đặc, tách biệt với vùng có mật độ điểm thƣa thớt, từ vùng có mật độ dày đặc o Đƣợc sử dụng cụm có hình dạng đặc biệt gắn kết với có nhiễu phần tử ngoại lai xuất tập liệu o Ví dụ loại cụm đƣợc thể hình vẽ dƣới màu thể - cụm phân tách Cụm theo thuộc tính khái niệm o Là cụm có chia sẻ thuộc tính chung thể khái niệm cụ thể o Ví dụ loại cụm đƣợc mơ tả nhƣ hình vẽ dƣới 167 Phƣơng pháp phân cụm Các cách tiếp cận phân cụm - Các thuật tốn phân mảnh: xây dựng nhiều mảnh khác sau đánh giá chúng theo tiêu chí Các thuật tốn phân cấp: tạo phân chia theo cấp tập liệu (hoặc đối tƣợng) sử dụng tiêu chí Các thuật tốn dựa mật độ: dựa hàm kết nối hàm mật độ để phân cụm đối tƣợng liệu Các thuật toán dựa lƣới: dựa cấu trúc lõi đa mức Các thuật tốn dựa mơ hình: Một mơ hình đƣợc giả thiết cụm ý tƣởng tìm mơ hình phù hợp với cụm Trong phạm vi giảng xem xét loại nhóm thuật tốn Phƣơng pháp phân cụm K-means Phƣơng pháp có số đặc tính sau: - Đây cách tiếp cận phân cụm dạng phân mảnh - Mỗi cụm liên quan tới tâm điểm (đƣợc gọi centroid) - Mỗi điểm đƣợc gán tới cụm mà có tâm điểm gần - Số lƣợng cụm K, phải đƣợc xác định cụ thể từ đầu - Ý tƣởng thuật toán đơn giản đƣợc thể dƣới dạng mã giả dƣới Lựa chọn K điểm làm tâm điểm khởi tạo cụm Lặp cơng việc sau Hình thành K cụm cách gán tất điểm tới tâm điểm gần Tính tốn lại tâm điểm cụm Cho đến tâm điểm không thay đổi Một số nhận xét K-means 168 - Tâm điểm khởi tạo thƣờng đƣợc chọn cách ngẫu nhiên thực tế thấy cụm đƣợc sinh thay đổi lần chạy thuật toán khác - Tâm điểm thƣờng kết trung bình điểm cụm - Đặc tính “gần nhau” đƣợc đo khoảng cách Ơclit, giống Cosine, độ tƣơng hỗ,v.v… - Thuật toán K-mean hội tụ cho hầu hết độ đo độ tƣơng tự phổ biến đƣợc đề cập đến - Hầu hết hội tụ xảy vài vòng lặp lại o Thông thƣờng điều kiện dừng đƣợc chuyển thành “tới cịn điểm thay đổi cluster” - Độ phức tạp thuật toán O( n * K * I * d ) n = số điểm không gian liệu xét, K = số cluster đƣợc ấn định khởi tạo, I = số vòng lặp, d = số thuộc tính liệu Khi chạy thuật tốn K-mean, kết khác lần chạy cho dù chọn số cụm nhƣ tâm điểm khởi tạo đƣợc chọn ngẫu nhiên nên lần chạy đƣợc sinh giá trị khác Xét ví dụ minh họa hình vẽ dƣới để thấy đƣợc kết khác sinh chạy K-mean tập liệu Để đánh giá cụm đƣợc tìm thấy phƣơng pháp K-mean dùng độ đo lỗi phổ biến tổng bình phƣơng lỗi (Sum of Squared Error –SSE) - Đối với điểm, lỗi đƣợc tính khoảng cách tới cụm gần 169 - Để tính đƣợc SSE, lỗi tính đƣợc đƣợc bình phƣơng lên lấy tổng chúng, theo nhƣ công thức dƣới K SSE    dist (mi , x) i 1 xCi Trong – - x điểm liệu cụm Ci mi điểm đại diện cho cluster Ci Nếu kết chạy thuật tốn cho cụm thƣờng chọn cụm với lỗi nhỏ Thông thƣờng muốn lỗi nhỏ để thu đƣợc cách phân cụm tốt Một cách đơn giản làm giảm SSE tăng số lƣợng K cụm, K tăng SSE giảm nhƣng điều khơng có ý nghĩa thực tế K tăng lên giá trị lớn số điểm khơng gian liệu lỗi SSE nhỏ nhƣng khơng có ý nghĩa Vì lƣu ý cách phân cụm tốt với số cụm K nhỏ có lỗi SSE nhỏ phân cụm tồi với số lƣợng K lớn Nhƣ phân tích việc lựa chọn tâm điểm khởi tạo gây ảnh hƣởng lớn tới kết chạy thuật toán (tới thời gian hội tụ, kết phân cụm khác nhau) Một số giải pháp thực để giải vấn đề o Chạy nhiều lần o Lấy mẫu sử dụng phƣơng pháp phân cụm dạng phân cấp để xác định tâm điểm khoiử tạo ban đầu o Có thể lựa chọn nhiều K tâm điểm ban đầu sau lựa chọn số tâm khởi tạo với độ phân tách rộng o Dùng phƣơng pháp hậu xử lý liệu (xử lý sau tìm đƣợc cụm) o Dùng phƣơng pháp K-means dạng phân đôi: không dễ bị vấn đề thƣờng xảy khởi tạo Giải vấn đề có cụm rỗng kết phân cụm o Thuật tốn K-mean cho kết cụm rỗng (cụm khơng có phần tử nào) o Một số chiến lƣợc đƣợc sử dụng để loại bỏ cụm rỗng vô nghĩa o Lựa chọn điểm có đóng góp nhiều tới tổng bình phƣơng lỗi SSE đƣa điểm vào cụm liệu rỗng o Lựa chọn điểm cụm có SSE cao đƣa vào cụm rỗng để giảm SSE nhiều đồng thời làm cụm rỗng có phần tử 170 o Nếu có nhiều cụm rỗng cơng việc đƣợc lặp lại nhiều lần Quá trình phân cụm cần trình tiền xử lý liệu hậu xử lý liệu giống nhƣ sử dụng số phƣơng pháp chung khai phá liệu Tiền xử lý liệu cần thiết trình phân cụm liệu cần đƣợc chuẩn hóa loại bỏ phần tử ngoại lai trƣớc đƣa vào thuật toán Hậu xử lý liệu cần thiết trƣờng hợp sau: o Cần loại bỏ cụm nhỏ (số lƣợng phần tử cụm ít) chúng chứa đựng phần tử ngoại lai, ý nghĩa ứng dụng thực tế o Phân chia cụm lỏng lẻo (hay mật độ phần tử cụm không đồng đều, chỗ dày đặc, chỗ thƣa thớt), hay nói cách khác cụm có tổng bình phƣơng lỗi lớn thành cụm nhỏ o Trộn cụm có khoảng cách gần nhau, hay có tổng bình phƣơng lỗi SSE thấp o Có thể sử dụng bƣớc trình phân cụm Phƣơng pháp K-mean phân đôi Là biến đổi K-mean mà sinh phân cụm có phân cấp phân cụm dạng phân mảnh Thuật toán đƣợc thể nhƣ bƣớc dƣới Khởi tạo danh sách L cụm để chứa cụm tìm đƣợc, ban đầu chứa có cụm bao gồm tất điểm Lặp bƣớc sau Chọn cụm danh sách L cụm For i=1 to số lƣợng vòng lặp định trƣớc Phân đôi cụm đƣợc lựa chọn thành hai phân cụm phƣơng pháp K-mean Ènd for Thêm hai phân cụm kết lần phân đơi cụm với tổng bình phƣơng lỗi SSE nhỏ vào danh sách cụm Cho đến danh sách cụm chứa K cụm dừng Những hạn chế K-means o K-mean có nhiều vấn đề cụm khác 171 o kích cỡ: số cụm có cụm có kích cỡ lớn nhiều so với cụm khác dùng K-mean để phân cụm cho kết sai nhiều kích cỡ cụm kết phƣơng pháp thƣờng tƣơng đƣơng Ví dụ minh họa nhƣ hình vẽ dƣới o mật độ liệu: mật độ liệu không đủ dầy đặc cụm khiến cho chúng bị phân tách làm nhiều cụm khác sử dụng phƣơng pháp K-means, ngƣợc lại mật độ tƣơng đối dày đặc hai cụm gần dễ bị ghép lại thành cụm nhƣ hình vẽ minh họa sau o Hình dạng khơng phải hình cầu: với trƣờng hợp điểmdữ liệu phân bố theo hình dạng khơng phải hình cầu (khơng phải hình lồi) gây ảnh hƣởng lớn tới kết phƣơng pháp K-means Ví dụ nhƣ đƣợc minh họa hình vẽ dƣới đây, hình dạng hai cụm liệu (màu xanh màu đỏ) ban đầu dạng phi cầu nên dùng K-means để phân cụm có lỗi nhƣ hình vẽ 172 o K-mean có vấn đề liệu chứa phần tử ngoại lai Để giải hạn chế phƣơng pháp K-means có khác kích cỡ liệu mật độ điểm liệu cụm, giải pháp đƣợc đƣa sử dụng nhiều cụm, lúc cụm to kết đƣợc phân thành nhiều phân cụm khác nhau, sau cần kết hợp chúng lại với để thành cụm to ban đầu Hình vẽ sau mơ tả điều 173 Tài liệu tham khảo Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kanfmann Publishers, Second Edition Joseph Fong, “Information Systems Reengineering and Integration”, Springer Verlag, 2006, ISBN 978-1-84628-382-6, Second edition http://www-sal.cs.uiuc.edu/~hanj/DM_Book.html http://www-users.cs.umn.edu/~kumar/csci5980/index.html http://www.cs.cityu.edu.hk/~jfong/course/cs5483/ http://www.ist.temple.edu/~vucetic/cis526fall2004.htm 174 ... Thickness 10 .23 5 .27 15 .22 2. 7 1 .2 12. 65 6 .25 16 .22 2. 2 1.1 Dữ liệu văn • Mỗi văn tài liệu trở thành vectơ thuật ngữ hay từ khóa 114 – Mỗi từ khóa thành phần (thuộc tính) vecto, – Giá trị thành phần. .. liệu đích - Xem xét lại kế hoạch hiệu Pha 5: Hình thành kho liệu - Phát triển thủ tục để trích xuất di chuyển liệu vào kho - Phát triển thủ tục để nạp liệu vào kho - Phát triển chƣơng trình phần. .. nhập liệu có sẵn kho So sánh kho liệu với sở liệu hỗn tạp 80 Chúng ta dễ nhầm lẫn kho liệu với sở liệu hỗn tạp hai chứa nhiều loại liệu khác liệu đƣợc tích hợp lại thể thống Tuy nhiên kho liệu

Ngày đăng: 02/03/2022, 08:46

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN