1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo seminar Đề tài tìm hiểu thuật toán fp growth trong khai phá luật kết hợp và Ứng dụng

41 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Thuật Toán FP-Growth Trong Khai Phá Luật Kết Hợp Và Ứng Dụng
Tác giả Nguyễn Tiến Thiện, Phạm Tiến Nam, Nguyễn Thị My, Nguyễn Trúc Quỳnh
Người hướng dẫn Ths. Bùi Thị Vân Anh
Trường học Trường Đại Học Mỏ - Địa Chất
Thể loại báo cáo seminar
Định dạng
Số trang 41
Dung lượng 1,47 MB

Cấu trúc

  • 1.5.1 Ý nghĩa khoa học (8)
  • 1.5.2 Ý nghĩa thực tiễn (8)
  • CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 8 (10)
    • 2.1 Giới thiệu về khai phá dữ liệu 8 (10)
    • 2.2 Tổng quan về khai phá luật kết hợp 9 (11)
      • 2.2.1 Quá trình khai phá luật kết hợp (12)
      • 2.2.2 Các khái niệm cơ bản (12)
      • 2.2.3 Phân loại luật kết hợp (14)
      • 2.2.4 Biểu diễn luật kết hợp (15)
      • 2.2.5 Khám phá các luật kết hợp dựa trên ràng buộc (16)
    • 2.3 Thuật toán FP-growth 14 (17)
      • 2.3.1 Ý tưởng về thuật toán (17)
      • 2.3.2 Giải thuật FP-growth (18)
      • 2.3.3 Đặc điểm của FP-Grow (22)
      • 2.3.4 So sánh giữa giải thuật Apriori và giải thuật FP-Growth (22)
      • 2.3.5 Ứng dụng của FP-Tree (23)

Nội dung

Ngày nay, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiềulĩnh vực như: Trong kinh doanh business; trong tài chính finance và tiếp thịbán hàng sales marketing; trong thươ

Ý nghĩa khoa học

Đề tài này có ý nghĩa khoa học quan trọng, góp phần mở rộng kiến thức về thuật toán FP-growth, một công cụ khai phá dữ liệu hiệu quả trong khai phá luật kết hợp Nghiên cứu và hiểu rõ thuật toán này giúp nâng cao nhận thức về cách thức hoạt động và ứng dụng của nó trong khai phá dữ liệu Chúng ta có thể áp dụng các phương pháp như Apriori và FP-growth để khám phá các luật kết hợp quan trọng từ dữ liệu giao dịch, từ đó thu thập thông tin giá trị về hành vi mua sắm, sở thích của khách hàng và các xu hướng thị trường.

Đề xuất các giải pháp tối ưu hóa thuật toán FP-growth nhằm cải thiện tốc độ xử lý và khả năng xử lý dữ liệu lớn, giúp đáp ứng yêu cầu của các ứng dụng thực tế Nghiên cứu này sẽ góp phần phát triển và nâng cao hiệu quả của khai phá luật kết hợp trong thực tế và các lĩnh vực ứng dụng khác.

Ý nghĩa thực tiễn

Nhờ vào phương pháp FP-growth, các chuyên gia có thể khai thác mẫu và quy tắc từ dữ liệu giao dịch, từ đó rút ra thông tin giá trị Điều này giúp họ hiểu rõ hơn về hành vi và sở thích của khách hàng, cũng như nhận diện các xu hướng thị trường.

Nâng cao hiệu quả hoạt động trong nhiều lĩnh vực như phân tích giỏ hàng thị trường, phân tích web, khai phá kiến thức y tế và phân tích dữ liệu mạng xã hội là rất quan trọng Nhờ vào FP-growth và các phương pháp khai phá luật kết hợp, chuyên gia có thể phát hiện các mẫu và quy tắc quan trọng từ dữ liệu, giúp cải thiện quy trình ra quyết định và tối ưu hóa hoạt động Các kết quả khai phá từ FP-growth cung cấp thông tin giá trị về mối quan hệ và mẫu tự nhiên trong dữ liệu giao dịch, hỗ trợ việc ra quyết định sáng suốt dựa trên thông tin chi tiết từ dữ liệu.

CƠ SỞ LÝ THUYẾT 8

Giới thiệu về khai phá dữ liệu 8

Sự bùng nổ của công nghệ thông tin và Internet đã tạo ra nhiều cơ sở dữ liệu khổng lồ trong các lĩnh vực như quản lý kinh tế, y học và khoa học kỹ thuật Ví dụ, CSDL siêu thị Walmart tại Mỹ ghi nhận hơn 20 triệu giao dịch bán hàng, trong khi CSDL nhân khẩu tại Tp HCM chứa hơn 7,5 triệu nhân khẩu Để khai thác hiệu quả thông tin từ những CSDL lớn này, các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và phần mềm mới nhằm hỗ trợ quá trình khám phá và phân tích tổng hợp thông tin, góp phần quan trọng trong việc ra quyết định.

Theo IBM, các phương pháp khai phá thông tin truyền thống chỉ khai thác được khoảng 80% dữ liệu từ cơ sở dữ liệu (CSDL), trong khi phần còn lại chứa những thông tin khái quát và quy luật tiềm ẩn Mặc dù lượng thông tin này nhỏ, nhưng nó đóng vai trò cốt lõi và cần thiết cho quá trình ra quyết định.

Khai phá dữ liệu là quá trình khám phá tri thức tiềm ẩn trong cơ sở dữ liệu (CSDL), nhằm trích xuất và tạo ra những thông tin hoặc mẫu chưa được biết đến nhưng có giá trị từ các CSDL lớn.

Khai phá dữ liệu là quá trình tổng hợp các sự kiện rời rạc trong dữ liệu thành những tri thức tổng quát, giúp phát hiện các quy luật hỗ trợ cho các quyết định.

Nguồn dữ liệu cho khai phá dữ liệu có thể đến từ các cơ sở dữ liệu lớn hoặc kho dữ liệu có cấu trúc và không có cấu trúc Khai phá dữ liệu (KPDL) phát huy hiệu quả tối đa trên các cơ sở dữ liệu lớn, nơi mà khả năng diễn giải và trực giác của con người cũng như các kỹ thuật truyền thống không thể thực hiện hoặc đạt hiệu quả thấp.

Khai phá dữ liệu được chia thành hai dạng chính: theo hướng kiểm tra và theo hướng khám phá Trong khai phá theo hướng kiểm tra, người dùng đưa ra giả thuyết và hệ thống xác minh tính đúng đắn của chúng thông qua các phương pháp như truy vấn, báo cáo, phân tích đa chiều và phân tích thống kê Ngược lại, khai phá theo hướng khám phá tập trung vào việc tìm kiếm tri thức tiềm ẩn trong cơ sở dữ liệu bằng cách xem xét tất cả các giả thuyết khả dĩ Do không gian tìm kiếm rộng lớn, nhiều phương pháp heuristic đã được đề xuất để cải thiện hiệu suất của các thuật toán tìm kiếm.

Ngày nay, với sự phát triển của công nghệ thu thập và lưu trữ dữ liệu, nhu cầu nắm bắt và trích xuất thông tin từ các cơ sở dữ liệu và kho dữ liệu trở nên cấp thiết Con người không còn hài lòng với những dữ liệu đơn giản từ các kỹ thuật trước đây, mà thay vào đó, họ mong muốn hiểu rõ hơn về các mối quan hệ giữa các sự kiện và phát hiện những quy luật trong lĩnh vực ứng dụng Khoa học Dữ liệu (KPDL) ra đời để đáp ứng những nhu cầu này.

Tổng quan về khai phá luật kết hợp 9

Luật kết hợp, được giới thiệu lần đầu vào năm 1993, là một trong những kỹ thuật quan trọng và được nghiên cứu kỹ lưỡng trong khai phá dữ liệu Kỹ thuật này giúp phát hiện các mối liên hệ giữa các trường mô tả đối tượng trong cơ sở dữ liệu (CSDL) và xây dựng các luật cụ thể từ những mối quan hệ đó Luật kết hợp được coi là tri thức quan trọng nhất tiềm ẩn trong CSDL.

Luật kết hợp nhằm mục đích phát hiện các mối liên quan và mẫu phổ biến giữa các tập hợp Items trong cơ sở dữ liệu giao tác (transaction database) và kho dữ liệu (data warehouse).

Hiện nay, các công ty cần quản lý một lượng lớn dữ liệu bán hàng, trong đó mỗi bản ghi trong cơ sở dữ liệu (CSDL) chứa thông tin về ngày mua và doanh thu Từ CSDL này, chúng ta có thể phân tích và phát hiện các mối quan hệ giữa các thuộc tính và giá trị của chúng, giúp tối ưu hóa chiến lược kinh doanh Một ví dụ điển hình về mối quan hệ này là luật kết hợp.

Ví dụ: “78% khách hàng mà mua sữa hộp Vinamilk thì mua trà Lipton

Các công ty thành công thường nghiên cứu các quy luật thị trường để nắm bắt xu hướng, từ đó phát triển các chương trình và chiến lược nhập hàng cũng như sắp xếp sản phẩm một cách hợp lý.

2.2.1 Quá trình khai phá luật kết hợp

Phân tích quy trình bán hàng trong siêu thị

2.2.2 Các khái niệm cơ bản

- Phần tử (Item): là các phần tử, mẫu, đối tượng đang được quan tâm, như J

= {I1, I2, …, Im}: tập tất cả m phần tử có thể có trong tập dữ liệu.

- Tập phần tử (Itemset): là tập hợp các items, một itemset có k items gọi là k-itemset.

Giao dịch là một lần tương tác với hệ thống, chẳng hạn như khi khách hàng thực hiện mua hàng Mỗi giao dịch liên quan đến một tập hợp các phần tử được giao dịch.

Sự kết hợp (Association) và luật kết hợp (association rule) là khái niệm quan trọng trong phân tích dữ liệu, thể hiện mối liên hệ giữa các phần tử hoặc tập phần tử xuất hiện cùng nhau trong một hoặc nhiều giao dịch Luật kết hợp giúp nhận diện các mẫu và xu hướng trong dữ liệu, từ đó hỗ trợ ra quyết định hiệu quả hơn.

Luật kết hợp là quy tắc xác định mối liên hệ có điều kiện giữa các tập phần tử Nó thể hiện cách mà các tập phần tử tương tác với nhau, ví dụ, nếu A và B là hai tập phần tử, thì luật kết hợp giữa chúng được biểu diễn là A → B, có nghĩa là B sẽ xuất hiện khi A đã xảy ra.

Hỗ trợ (Support) là một chỉ số đo lường tần suất xuất hiện của các phần tử hoặc tập hợp phần tử trong dữ liệu Ngưỡng hỗ trợ tối thiểu (Minimum support threshold) là giá trị hỗ trợ nhỏ nhất mà người dùng chỉ định để xác định các mẫu hoặc quy luật quan trọng trong tập dữ liệu.

Độ tin cậy (Confidence) là chỉ số phản ánh tần suất xuất hiện của một tập phần tử khi có sự xuất hiện của một tập phần tử khác Ngưỡng tin cậy tối thiểu (Minimum confidence threshold) là giá trị confidence thấp nhất mà người dùng xác định.

A frequent itemset is defined as a collection of items that meets or exceeds a specified minimum support threshold For instance, an itemset A qualifies as a frequent itemset if its support value is greater than or equal to the minimum support threshold.

- Luật kết hợp mạnh (Strong association rule) là luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold.

2.2.3 Phân loại luật kết hợp

Luật kết hợp luận lý (luật liên kết Boolean) đề cập đến mối quan hệ giữa sự xuất hiện và không xuất hiện của các phần tử trong tập dữ liệu Luật này giúp xác định các mẫu kết hợp, từ đó cung cấp thông tin quý giá cho việc phân tích và ra quyết định trong các lĩnh vực như tiếp thị và nghiên cứu thị trường Sử dụng luật kết hợp luận lý, các nhà phân tích có thể phát hiện ra những xu hướng và mối liên hệ tiềm ẩn giữa các yếu tố, góp phần nâng cao hiệu quả chiến lược kinh doanh.

“có mua A" hoặc “không có mua A")

Ví dụ: mua=SQLServer, mua=DMBook ⇒ muainer , có [support=2%, confidence`%] mua(x, "SQLServer") ^ mua(x, "DMBook") 🡪 mua(x, "DBMiner"), có [support=0.2%, confidence`%]

- Luật kết hợp đơn chiều (Single-dimensional association rule): luật chỉ liên quan đến các phần tử/thuộc tính của một chiều dữ liệu.

Buys(X, “computer”) 🡪 Buys(X, financial_management_software”)

- Luật kết hợp đa chiều (multidimensional association rule): luật liên quan đến các phần tử/thuộc tính của nhiều hơn một chiều.

- Luật kết hợp đơn mức (Single-level association rule): luật chỉ liên quan đến các phần tử/thuộc tính ở một mức trừu tượng

- Luật kết hợp đa mức (multilevel association rule): luật liên quan đến các phần tử/thuộc tính ở các mức trừu tượng khác nhau.

Association rules, specifically strong rules like A🡪B, must meet the criteria of minimum support threshold and minimum confidence threshold to be considered valid.

- Luật tương quan thống kê (Correlation rule): luật kết hợp mạnh A 🡪 B đáp ứng yêu cầu về sự tương quan thống kê giữa A và B.

2.2.4 Biểu diễn luật kết hợp

Dạng luật: A và B [support, confidence]

- Cho trước minimum support threshold (min_sup), minimum confidence threshold (min_conf)

Frequent itemsets, subsequences, and substructures are defined as frequent if their support meets or exceeds the minimum support threshold (min_sup) Itemsets refer to collections of items, while subsequences represent ordered sequences of events or items Substructures encompass various forms such as graphs, lattices, trees, sequences, and sets.

- Closed frequent itemsets : một itemset X closed trong J nếu không tồn tại tập cha thực sự Y nào trong J có cùng support với X.

X Í J, X closed iff " Y Í J và X Ì Y: support(Y) support (X).

- X là closed frequent itemset trong J nếu X là frequent itemset và closed trong J.

- Maximal frequent itemsets: một itemset X là maximal frequent itemset trong J nếu không tồn tại tập cha thực sự Y nào trong J là một frequent itemset.

- X Í J, X là maximal frequent itemset iff " Y Í J và X Ì Y: Y không phải là một frequent itemset.

- Constrained frequent itemsets: frequent itemsets thỏa các ràng buộc do người dùng định nghĩa.

- Approximate frequent itemsets: frequent itemsets dẫn ra support (xấp xỉ) cho các frequent itemsets sẽ được khai phá.

- Top-k frequent itemsets: frequent itemsets có nhiều nhất k phần tử với k do người dùng chỉ định.

- Luật kết hợp luận lý (Boolean), đơn mức (single-level), đơn chiều (single-dimensional) giữa các tập phần tử phổ biến: AàB [support, confidence]

A và B là các frequent itemsets ta có:

Support(AvàB) = Support(A U B) >= min_sup

Confidence(AvàB) = Support(A U B)/Support(A) = P(B|A) >= min_conf 2.2.5 Khám phá các luật kết hợp dựa trên ràng buộc

Khám phá các luật kết hợp dựa trên ràng buộc là một phương pháp quan trọng trong quá trình khai phá mẫu và luật trong dữ liệu Phương pháp này giúp giới hạn không gian tìm kiếm, từ đó tối ưu hóa hiệu quả khai thác thông tin Các dạng ràng buộc đóng vai trò then chốt trong việc xác định các mẫu và luật có ý nghĩa trong dữ liệu.

Khám phá luật (rules) hay tập phần tử phổ biến (frequent itemsets) thỏa các ràng buộc, có hai cách tiếp cận:

Cách tiếp cận trực tiếp sử dụng các giải thuật truyền thống để kiểm tra các ràng buộc cho từng kết quả đạt được Nếu các ràng buộc này được thỏa mãn, kết quả cuối cùng sẽ được trả về.

Thuật toán FP-growth 14

Thuật toán FP-growth, được giới thiệu bởi Jiawei Han, Jian Pei và Yiwen Yin vào năm 2000, là một phương pháp mới để tìm kiếm các tập phổ biến So với thuật toán Apriori, FP-growth hiệu quả hơn nhờ sử dụng kỹ thuật không cần sinh các ứng cử Sự hiệu quả của thuật toán này được thể hiện qua ba kỹ thuật chính.

- Thứ nhất, nén tập dữ liệu vào cấu trúc cây (Frequent Pattern tree, gọi tắc là FP-tree):

▪ Giảm chi phí cho toàn tập dữ liệu dùng trong quá trình khai phá, Infrequent items bị loại bỏ sớm

Cấu trúc dữ liệu FP-tree giúp nén chặt cơ sở dữ liệu lớn, giảm thiểu chi phí lặp lại trong quá trình duyệt qua dữ liệu Điều này đảm bảo rằng kết quả khai phá dữ liệu không bị ảnh hưởng, mang lại hiệu quả cao trong việc xử lý thông tin.

- Thứ hai, phương pháp chia-để-trị (divide-and-conquer method): quá trình khai phá được chia thành các công tác nhỏ.

▪ Khám phá frequent itemsets với FP-tree

- Thứ ba, tránh tạo ra các tập dự tuyển mỗi lần kiểm tra một phần tập dữ liệu.

Phương pháp FP-growth đã chứng minh tính hiệu quả vượt trội trong việc khai thác các mẫu ngắn và dài, nhanh hơn so với thuật toán Apriori Đặc biệt, FP-growth chỉ cần duyệt cơ sở dữ liệu hai lần, giúp tiết kiệm thời gian và tài nguyên trong quá trình phân tích dữ liệu.

2.3.2 Giải thuật FP-growth a) Cấu trúc cây FP

Cấu trúc cây FP_Tree:

- Gốc cây được tạo với nhãn là null

- Các liên kết trên cây:Liên kết giữa các nút có tên mục giống nhau

Cấu trúc của một nút trong cây FP-tree, ngoại trừ nút gốc, bao gồm các thành phần chính như tên mục, bộ đếm (counter) và liên kết (node link) đến nút tiếp theo có cùng chỉ mục Việc xây dựng cây FP-tree dựa trên các thành phần này giúp tổ chức dữ liệu một cách hiệu quả và hỗ trợ quá trình khai thác thông tin.

Quá trình xây dựng cây FP gồm 2 bước:

- Bước 1: Quét CSDL lần 1, tìm tất cả các mục và tần suất của nó.

Chèn các mục có độ hỗ trợ lớn hơn hoặc bằng độ hỗ trợ tối thiểu vào bảng Header, sắp xếp theo tần suất giảm dần.

- Bước 2: Quét CSDL lần 2, mỗi một giao dịch được quét

Loại bỏ mục có độ hỗ trợ nhỏ hơn minsup và sắp xếp lại các mục theo thứ tự giảm dần của tấn xuất.

Nếu phần đầu của tập mục giao dịch không trùng với các phần đầu của giao dịch đã xét, nó sẽ được chèn vào cây như một nhánh Mỗi nút ban đầu sẽ có bộ đếm để tạo liên kết từ bảng Header đến các mục tương ứng.

Nếu phần đầu của giao dịch đang xem trùng với phần đầu của một giao dịch đã được tạo nhánh trên cây, thì phần đầu này sẽ được chia sẻ với phần đầu nhánh tương ứng Mỗi nút trên đoạn nhánh sẽ tăng bộ đếm lên 1, trong khi phần còn lại của mỗi mục sẽ tạo ra một nút mới và được nối với nhánh đã chia sẻ ở phần đầu.

Bộ đếm lưu trữ số giao dịch thể hiện bởi nhánh cây xuất phát từ nút gốc đến nút đó.

Cây FP_tree lưu trữ toàn bộ thông tin về tần suất của các mục trong cơ sở dữ liệu Việc khai thác cơ sở dữ liệu giờ đây tập trung vào việc khai phá cây FP_tree.

Input: Cơ sở dữ liệu giao dịch D.

Procedure Insert_Tree(string[p], Tree có gốc T)

1) If T có nút con N mà N.itemname = p Then N.Count ++

5) Liên kết bảng từ p đến N

P: là mục đầu tiên trong danh sách các tập mục P của giao dịch đang xét c) Phương pháp tìm tập phổ biến từ cây FP

Từ cấu trúc cây FP, xét một số thuộc tính quan trọng:

Nhờ vào thuộc tính này, khi phân tích các item phổ biến trong L1, chúng ta có khả năng truy xuất đến vị trí đầu tiên của nút trong cây có tên trùng với tên L1.item.

NodeLink cho phép xác định tất cả các tập phổ biến chứa item i thuộc L1 thông qua các liên kết của nút i trong cây, nhờ vào thuộc tính này.

Thuật giải tìm các tập phổ biến từ cây FP

* Output: Tập các tập phổ biến.

1) Duyệt L1 theo thứ tự các item có độ hỗ trợ từ thấp đến cao (duyệt ngược lại trong L1)

3) TimDuongDi (i, SoDD);// Có được Mang DuongDi, SODD

Thuật giải tìm Đường đi:

Procedure TimDuong Di (Item i, string Mang Duong Di)

1) VT = i.HeadNodeLink; //Từ liên kết HeadNodeLink, xác định được vị trí đầu tiên của nút có tên ítem giống i.Item

2) N = nút ở vị trí hiện hành;// Di chuyển đến nút ở vị trí VT trong cây

9) Duyệt ngược cây FP từ vị trí VT {

12) VT=Tim(N1.TenNutCha, VT); //Tìm ngược từ vị trí VT trong cây có tên item là //N1.TenNutCha, trả về vị trí tìm được

13) N1=nút ở vị trí hiện hành)

15) Thoát khỏi vòng lặp duyệt cây}

18) Link=N.NodeLink;//Tìm nút gần nhất trong cây có tên cùng tên với nút hiện hành

20) Di chuyển đến nút ở vị trí VT trong cây

21)N=nút ở vị trí hiện hành}

Giải thuật tìm tập phổ biến:

Procedure TimTapPhoBien(Item i, string MangDuong Di,int soDD)

4) Với mỗi kết hợp j phần tử trong MangDuongDi {

6) If Support(PhanTuChung) >= Minsup then

9) Với mỗi kết hợp t phần tử k = {k1,k2, k1}

10) Tạo ra tập phổ biến(k, i)}}

2.3.3 Đặc điểm của FP-Grow

- Không tạo tập itemsets dự tuyển: Không kiểm tra xem liệu itemsets dự tuyển có thực là frequent itemsets.

- Sử dụng cấu trúc dữ liệu nén dữ liệu từ tập dữ liệu

- Giảm chi phí kiểm tra tập dữ liệu

- Chi phí chủ yếu là đếm và xây dựng cây FP-tree lúc đầu

Kết luận : FP-growth có hiệu quả và co giãn tốt cho việc khám phá các frequent itemsets dài lẫn ngắn.

2.3.4 So sánh giữa giải thuật Apriori và giải thuật FP-Growth:

Hình 1: Co giãn với support threshold

Hình 2 : Co giãn tuyến tính với số giao dịch

2.3.5 Ứng dụng của FP-Tree

Nội dung so sánh Apriori Fp-Growth

Thuật toán Apriori áp dụng hai tính chất chính để kết hợp và tạo ra các tập ứng viên, đồng thời loại bỏ những tập không phù hợp Quá trình này giúp xây dựng dần dần các tập phổ biến từ dưới lên, đảm bảo hiệu quả trong việc khai thác dữ liệu.

The FP-Growth algorithm constructs an FP-tree, which is then utilized to create a conditional pattern base and corresponding conditional FP-trees that meet the minimum support threshold (minSup).

Apriori sử dụng chiến lược tìm kiếm theo chiều sâu

FP-Growth sử dụng chiến lược chia để trị.

Thuật toán Apriori đòi hỏi không gian bộ nhớ lớn khi xử lý số lượng các tập ứng cử viên candidate itemsets được tạo ra.

Thuật toán FP Growth tiết kiệm bộ nhớ nhờ vào cấu trúc cây nhỏ gọn, đồng thời khai thác các tập phổ biến mà không cần trải qua bước sinh tập ứng cử viên.

Số lần quét cơ sở dữ liệu

Thuật toán Apriori thực hiện nhiều lần quét để có thể tạo ra các tập ứng viên candidate itemsets.

Thuật toán FP Growth chỉ cần quét cơ sở dữ liệu đúng hai lần.

Trong Apriori, thời gian thực hiện thuật toán bị lãng phí nhiều ở quá trình mỗi lần sinh ra các tập ứng viên

Yêu cầu ít thời gian thực hiện hơn so với giải thuật Apriori.

Hiệu quả trên các bộ dữ liệu

Apriori làm việc tốt với cơ sở dữ liệu lớn.

FP-Growth là một thuật toán hiệu quả cho việc khai thác mẫu thường xuyên, đặc biệt là khi làm việc với các cơ sở dữ liệu nhỏ Thuật toán này hoạt động tốt với các tập phổ biến có độ dài không quá lớn, giúp tối ưu hóa quá trình tìm kiếm và phân tích dữ liệu.

Thuật toán FP-growth giúp xác định các sản phẩm thường xuyên được mua cùng nhau, từ đó hỗ trợ các nhà bán lẻ xây dựng chiến lược khuyến mãi hiệu quả và cải thiện bố cục cửa hàng Ví dụ, nếu thuật toán phát hiện rằng sữa thường được mua kèm với ngũ cốc, các cửa hàng có thể sắp xếp hai sản phẩm này gần nhau để thu hút khách hàng hơn.

Ngày đăng: 30/11/2024, 15:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w