1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỒ án tìm HIỂU đề tài (4)

36 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai thác thường xuyên mẫu, hiệp hội, và mối tương quan: Các khái niệm và phương pháp cơ bản
Trường học Elsevier Inc.
Chuyên ngành Khai thác dữ liệu
Thể loại tài liệu
Năm xuất bản 2012
Định dạng
Số trang 36
Dung lượng 405,39 KB

Nội dung

CHAPTER 6- Mining Frequent 6Patterns, Associations, and Correlations: Basic Concepts and Methods Khai thác thường xuyên mẫu, hiệp hội, mối tương quan: Các khái niệm phương pháp Hãy tưởng tượng bạn quản lý bán hàng AllElectronics, bạn nói chuyện với khách hàng vừa mua máy tính máy ảnh kỹ thuật số từ cửa hàng Bạn nên khun với tới? Thơng tin sản phẩm thường xuyên mua khách cus- bạn sau mua hàng máy tính máy ảnh kỹ thuật số chuỗi hữu ích việc đưa đề nghị bạn Mơ hình thường xun luật kết hợp kiến thức mà bạn muốn khai thác kịch Mơ hình thường xun hình mẫu (ví dụ, tập phổ biến, subsequences, hạ tầng) xuất thường xuyên tập liệu Ví dụ, số mặt hàng, chẳng hạn sữa bánh mì, mà thường xuyên xuất liệu giao dịch tập phổ biến Một dãy, chẳng hạn mua máy tính, sau máy ảnh kỹ thuật số, sau thẻ nhớ, xảy fre- xuyên sở liệu lịch sử mua sắm, (thường xun) mơ hình Một cấu trúc tham khảo hình thức cấu trúc khác nhau, chẳng hạn đồ thị con, subtrees, sublattices, kết hợp với tập phổ biến subsequences Nếu Hạ tầng xảy thường xuyên, gọi (thường xun) có cấu trúc mơ hình Tìm kiếm mẫu thường xun đóng vai trị thiết yếu hiệp hội khai thác, liên hệ, nhiều mối quan hệ thú vị khác liệu Hơn nữa, giúp việc phân loại liệu, phân nhóm, nhiệm vụ khai thác liệu khác Vì vậy, thường xun khai thác mơ hình trở thành nhiệm vụ khai thác liệu quan trọng chủ đề tập trung vào nghiên cứu khai thác liệu Trong chương này, giới thiệu khái niệm mơ hình thường xun, hiệp hội, mối tương quan (mục 6.1) nghiên cứu làm họ khai thác cách hiệu (mục 6.2) Chúng thảo luận làm để đánh giá liệu mẫu tìm thấy thú vị (Phần 6.3) Trong Chương 7, mở rộng thảo luận với phương pháp tiên tiến khai thác mơ hình thường xun, khai thác hình thức phức tạp mơ hình thường xun xem xét sở thích người dùng hạn chế để tăng tốc độ trình khai thác 6.1 Các khái niệm thường xun tìm kiếm khai thác mơ hình cho kỳ mối quan hệ định tập liệu Phần giới thiệu khái niệm khai thác mơ hình thường xun cho việc khám phá Khai thác liệu: Các khái niệm kỹ thuật 243 §c 2012 Elsevier Inc Tất quyền bảo lưu Hiệp hội thú vị mối tương quan tập phổ biến sở liệu giao dịch quan hệ.Chúng ta bắt đầu Mục 6.1.1 cách trình bày ví dụ phân tích giỏ thị trường, hình thức sớm khai thác mơ hình thường xun cho luật kết hợp Các khái niệm khai thác mơ hình hiệp hội thường xuyên đưa mục 6.1.2 6.1.1 Market Basket - Thị trường giá giỏ hang - giỏ thị trường Phân tích: Một Sự động viên Ví dụ khai thác tập phổ biến thường xuyên dẫn đến phát hiệp hội mối tương quan mục tập liệu lớn giao dịch quan hệ Với số lượng lớn liệu tiếp tục uously thu thập lưu trữ, nhiều ngành công nghiệp trở nên quan tâm đến việc khai thác mơ từ sở liệu họ Việc phát mối quan hệ tương quan hệ tàu lượng lớn hồ sơ giao dịch kinh doanh giúp đỡ nhiều busiNess trình định thiết kế catalogue, qua tiếp thị, phân tích hành vi mua sắm khách hàng Một ví dụ điển hình khai thác tập phổ biến thị trường phân tích giỏ Q trình phân tích thói quen mua sắm khách hàng cách tìm mối liên hệ mục khác mà khách hàng đặt "giỏ hàng" họ (Hình 6.1) Việc phát các hiệp hội giúp nhà bán lẻ phát triển chiến lược tiếp thị cách đạt nhìn sâu sắc vào mục thường xuyên mua lại với khách hàng Ví dụ, khách hàng mua sữa, làm có khả họ mua bánh mì (và loại bánh mì) chuyến hàng Chuyên viên phân tích thị trường khách hàng n Hình 6.1 phân tích giỏ thị trường tới siêu thị? Thơng tin dẫn đến tăng doanh thu cách giúp nhà bán lẻ làm tiếp thị có chọn lọc có kế hoạch không gian trưng bày họ Chúng ta xem xét ví dụ cách phân tích giỏ thị trường có ích Phân tích giỏ Ví dụ 6.1 Market Giả sử, người quản lý chi nhánh AllElectronics, bạn muốn tìm hiểu thêm thói quen mua sắm khách hàng Cụ thể, bạn tự hỏi, "Những nhóm mặt hàng khách hàng có khả mua hàng chuyến cho cửa hàng?" Để trả lời câu hỏi bạn, phân tích giỏ thị trường thực liệu bán lẻ khách hàng giao dịch cửa hàng bạn Sau bạn sử dụng kết để hoạch định chiến lược tiếp thị hay quảng cáo, thiết kế cửa hàng Ví dụ, giỏ thị trường ysis giúp bạn thiết kế bố trí cửa hàng khác Trong chiến lược, mục thường xuyên mua lại với đặt gần khuyến khích việc bán tổng hợp mặt hàng Nếu khách hàng mua máy tính có xu hướng mua phần mềm diệt virus lúc, sau đặt hình phần cứng gần với phần mềm hiển thị giúp tăng doanh số bán hàng hai mục Trong chiến lược thay thế, đặt phần cứng phần mềm hai đầu đối diện cửa hàng lơi kéo khách hàng mua sản phẩm để chọn lên mặt hàng khác đường Ví dụ, sau định máy tính đắt tiền, khách hàng quan sát thống an ninh Hướng dẫn toán để bán hướng phía phần mềm hiển thị để mua phần mềm chống virus, định mua hệ thống an ninh nhà tốt Phân tích giỏ thị trường giúp nhà bán lẻ có kế hoạch mục để đưa vào bán với giá giảm Nếu khách hàng có xu hướng mua máy tính máy in với nhau, sau có bán máy in khuyến khích việc bán máy in máy tính Nếu nghĩ vũ trụ tập hợp mặt hàng có sẵn cửa hàng, sau mục có biến Boolean đại diện cho diện hay vắng mặt mục Mỗi giỏ sau biểu diễn vectơ Boolean giá trị gán cho biến Các vectơ Boolean phân tích cho mua mơ hình phản ánh mặt hàng thường xuyên liên quan chặt chẽ mua lại với Những mơ hình biểu diễn dạng luật kết hợp Ví dụ, thơng tin mà khách hàng mua máy tính có xu hướng mua phần mềm chống virus đồng thời đại diện luật kết hợp sau đây: máy tính ⇒ phần mềm diệt virus [hỗ trợ = 2%, tin cậy = 60%] (6.1) hỗ trợ Rule tự tin hai biện pháp cai trị lý thú Họ người nhiễm phản ánh tính hữu ích chắn quy tắc phát Một hỗ trợ 2% cho Rule (6.1) có nghĩa 2% tất giao dịch theo phân tích cho máy tính phần mềm chống virus mua lại với Một niềm tin 60% có nghĩa 60% khách hàng mua máy tính mua lại phần mềm Thông thường, quy tắc liên coi thú vị họ đáp ứng hai ngưỡng hỗ trợ tối thiểu ngưỡng tin cậy tối thiểu Các ngưỡng tập hợp người sử dụng chuyên gia tên miền Phân tích bổ sung thực để phát mối tương quan thống kê thú vị hạng mục liên quan 6.1.2 tập phổ biến, đóng tập phổ biến luật kết hợp Hãy I = {I1, I2, , Im} tập phổ biến Cho D, liệu công việc có liên quan, tập hợp giao dịch sở liệu, nơi giao dịch T tập phổ biến khác rỗng mà T ⊆ I Mỗi giao dịch kết hợp với định danh, gọi TID Cho A tập hợp mặt hàng T hành động xuyên cho chứa A A ⊆ T Một luật kết hợp ý nghĩa mẫu A ⇒ B, A ⊂ I, B ⊂ I, A / = ∅, B / = ∅, A ∩ B = φ Các quy tắc A ⇒ B giữ giao dịch D với hỗ trợ của, s tỷ lệ giao dịch D có chứa A ∪ B (tức là, cơng đồn A B nói, hay, A B) Điều thực để có xác suất P (A ∪ B) 0,1 Các quy tắc A ⇒ B có tự tin c giao dịch thiết lập D, c tỷ lệ phần trăm giao dịch D chứa A mà chứa B Điều thực để xác suất có điều kiện, P (B | A) Đó là, hỗ trợ (A⇒B) = P (A ∪ B) (6.2) tự tin (A⇒B) = P (B | A) (6.3) Quy định thoả mãn ngưỡng tối thiểu hỗ trợ (min sup) tối thiểu ngưỡng fidence nhiễm (conf phút) gọi mạnh mẽ Theo quy ước, viết thư ủng hộ niềm tin giá trị để xảy 0% 100%, 0-1,0 Một số mặt hàng gọi itemset.2 Một tập phổ biến có chứa mục k k-itemset Các tập {máy tính, phần mềm chống virus} 2-itemset Sự xuất fre- tần tập phổ biến số lượng giao dịch có chứa tập phổ biến Điều biết đến, đơn giản, tần số, số lượng hỗ trợ, số tập phổ biến Lưu ý hỗ trợ tập phổ biến xác định phương (6.2) gọi hỗ trợ tương đối, tần số xảy gọi hỗ trợ tuyệt đối Nếu hỗ trợ tương đối tập phổ biến thỏa mãn ngưỡng hỗ trợ tối thiểu xác định trước (tức là, ủng hộ tuyệt đối đáp ứng ngưỡng hỗ trợ tối thiểu số lượng tương ứng), sau tơi thường xun itemset.3 Các thường xuyên k-tập phổ biến thường ký hiệu Lc 0,4 Từ phương trình (6.3), chúng tơi có tự tin (A⇒B)= P (B | A) = hỗ trợ (A ∪ B) /hỗ trợ (A) = số hỗ trợ(A ∪ B)/số hỗ trợ (A) (6.4) 1Notice ký hiệu P (A ∪ B) cho thấy xác suất mà giao dịch có chứa cơng đồn A B (tức là, có chứa tất mục A B) Điều không nên nhầm lẫn với P (A B), cho biết xác suất mà giao dịch có chứa A B 2in tài liệu nghiên cứu khai thác liệu ", tập phổ biến" sử dụng nhiều "mục thiết lập." 3in công việc sớm, tập phổ biến đáp ứng hỗ trợ tối thiểu gọi lớn Thuật ngữ này, nhiên, khó hiểu có ý nghĩa số lượng mục tập phổ biến tần số xuất Do đó, sử dụng thuật ngữ gần thường xuyên 4Although thuật ngữ thường xuyên ưa thích lớn, lý lịch sử thường xuyên k-tập phổ biến biểu thị Lc Phương trình (6.4) cho thấy niềm tin quy tắc A ⇒ B dễ dàng bắt nguồn từ tính hỗ trợ A A ∪ B Đó là, số lượng hỗ trợ A, B, A ∪ B tìm thấy, đơn giản để lấy hiệp hội tương ứng với quy tắc A ⇒ B B ⇒ A kiểm tra xem họ mạnh Như vậy, vấn đề luật kết hợp khai thác khống sản giảm xuống mà khai thác tập phổ biến Nói chung, hiệp hội khai thác quy tắc xem trình hai bước: Tìm tất tập phổ biến: Theo định nghĩa, tập phổ biến xảy thường xuyên số hỗ trợ tối thiểu xác định trước, sup Tạo luật kết hợp mạnh mẽ từ tập phổ biến: Theo định nghĩa, quy định phải đáp ứng hỗ trợ tối thiểu tin cậy tối thiểu Pháp lý thú bổ sung áp dụng cho việc phát mối quan hệ tương quan hạng mục liên quan, thảo luận Phần 6.3 Bởi bước thứ hai tốn so với lần đầu tiên, hiệu suất tổng thể luật kết hợp khai thác khoáng sản xác định bước Một thách thức lớn khai thác tập phổ biến từ tập liệu lớn thực tế việc khai thác thường tạo số lượng lớn tập phổ biến đáp ứng hỗ trợ tối thiểu (min sup) ngưỡng, đặc biệt phút sup thiết lập thấp Điều tập phổ biến thường xuyên, tập thường xuyên tốt Một itemset dài chứa số Rial combinato- ngắn hơn, thường xuyên tiểu tập phổ biến Ví dụ, tập phổ biến có chiều dài 100, chẳng hạn {a1, a2, , A100}, chứa 0,100 = 100 thường xuyên 1-tập phổ biến: {a1}, {a2} , {A100}; 100 thường xuyên tập phổ biến: {a1, a2}, {a1, a3} , {A99, A100}; vậy.Tổng số tập phổ biến mà chứa Điều lớn số tập phổ biến cho máy tính để tính tốn hay lưu trữ Để đến khó khăn này, chúng tơi giới thiệu khái niệm tập phổ biến đóng tập phổ biến tối đại Một itemset X đóng liệu D có tồn khơng thích hợp siêu itemset Y mà Y có tính hỗ trợ tương tự X D itemset X tập phổ biến đóng tập D X hai đóng cửa thường xuyên D itemset X tập phổ biến tối đa thường xuyên (hoặc max-itemset) tập liệu D X thường xuyên, có tồn khơng có siêu itemset Y X ⊂ Y Y thường xuyên D Hãy C tập tập phổ biến đóng cho tập liệu D thỏa mãn ngưỡng hỗ trợ tối thiểu, sup Gọi M tập tập phổ biến tối đa cho D thỏa mãn sup Giả sử có tính hỗ trợ tập phổ biến C M Chú ý C thơng tin số sử dụng để lấy toàn tập phổ biến 5y siêu tập phổ biến thích hợp X X phụ thích hợp tập phổ biến Y, có nghĩa là, X ⊂ Y Nói cách khác, tất mục X chứa Y có mục Y mà khơng có X Như vậy, nói C có chứa đầy đủ thơng tin liên quan đến tập phổ biến tương ứng Mặt khác, M ghi lại hỗ trợ tập phổ biến tối đa Nó thường khơng có thơng tin hỗ trợ đầy đủ tập phổ biến tương ứng Chúng tơi minh họa khái niệm với Ví dụ 6.2 Ví dụ 6.2 tập phổ biến đóng tối đa Giả sử sở liệu giao dịch có hai giao dịch: {( A1, a2,, A100); (a1, a2, , A50)} Hãy để ngưỡng hỗ trợ số lượng tối thiểu sup = Chúng tìm thấy hai đóng tập phổ biến số lượng hỗ trợ họ, là, C = {{a1, a2, , A100}: 1; {a1, a2, , A50}: 2} Chỉ có imal max- tập phổ biến: M = {{a1, a2, , A100}: 1} Chú ý bao gồm {a1, a2, , A50} tập phổ biến tối đại có siêu thường xun, {a1, a2, , A100} So sánh với trước mà chúng tơi xác định có 2100-1 tập phổ biến, nhiều để liệt kê! Tập hợp tập phổ biến đóng chứa thơng tin đầy đủ fretập phổ biến quent Ví dụ, từ C, lấy được, nói, (1) {a2, A45: 2} từ {a2, A45} tiểu tập phổ biến itemset {a1, a2, , A50: 2}; (2) {a8, a55: 1} từ {a8, a55} tiểu tập phổ biến tập phổ biến trước itemset {a1, a2, , A100: 1} Tuy nhiên, từ tập phổ biến tối đại, chúng tơi khẳng định hai tập phổ biến ({a2, A45} {a8, a55}) thường xuyên, khẳng định tính hỗ trợ thực tế họ 6.2 tập phổ biến phương pháp khai thác Trong phần này, bạn tìm hiểu phương pháp để khai thác hình thức đơn giản đàn chim nhạn pat- thường xuyên thảo luận để phân tích giỏ thị trường mục 6.1.1 Chúng ta bắt đầu cách trình bày Apriori, thuật tốn cho việc tìm kiếm tập phổ biến (mục 6.2.1) Trong phần 6.2.2, nhìn để tạo luật kết hợp mạnh mẽ từ item- thường xuyên Mục 6.2.3 mô tả số biến thể thuật toán Apriori để cải thiện hiệu suất khả mở rộng Mục 6.2.4 trình bày phương pháp mơ hình tăng trưởng cho khai thác tập phổ biến mà giới hạn khơng gian tìm kiếm để liệu hộp đựng ing tập phổ biến Mục 6.2.5 trình bày phương pháp khai thác tập phổ biến mà tận dụng lợi định dạng liệu theo chiều dọc 6.2.1 Apriori Thuật tốn: Tìm tập phổ biến có hạn chế Candidate hệ Apriori thuật toán chuyên đề R Agrawal R Srikant đề xuất vào năm 1994 cho - ing tập phổ biến cho hiệp hội Boolean cai [AS94b] Tên thuật toán dựa thực tế thuật toán sử dụng kiến thức erties prop- tập phổ biến, thấy sau Apriori sử dụng cách tiếp cận lặp biết đến tìm kiếm mức độ khơn ngoan, với k-tập phổ biến sử dụng để khám phá (k + 1) -itemsets Đầu tiên, thường xuyên 1-tập phổ biến tìm thấy cách quét sở liệu để tích lũy tính cho mục, 249 thu thập vật phẩm đáp ứng hỗ trợ tối thiểu Các kết biểu thị L1 Tiếp theo, L1 sử dụng để tìm L2, thường xuyên tập phổ biến, sử dụng để tìm L3, vậy, khơng thường xun k-tập phổ biến tìm thấy Phát Lc đòi hỏi quét toàn sở liệu để nâng cao hiệu hệ trình độ khơn ngoan tập phổ biến, tài sản quan trọng gọi tài sản Apriori sử dụng để giảm không gian tìm kiếm Tài sản Apriori: Tất tập khác rỗng tập phổ biến phải thường xuyên tài sản Apriori dựa quan sát sau Theo định nghĩa, item- không đáp ứng ngưỡng hỗ trợ tối thiểu, sup, sau tơi khơng phải thường xuyên, nghĩa P (I)

Ngày đăng: 23/12/2021, 10:23

TỪ KHÓA LIÊN QUAN

w