1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu Đề tài khai phá luât k%22t h#p v%i apriori ! 'ng d(ng phân tích giỏ hàng của siêu thị vinmart

29 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai phá luật kết hợp với apriori trong phân tích giỏ hàng của siêu thị vinmart
Tác giả Nguyễn Trọng Nghĩa
Người hướng dẫn ThS. Dương Thị Bình
Trường học Trường Đại Học Phương Đông
Chuyên ngành Công Nghệ Thông Tin & Truyền Thông
Thể loại Đề tài
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 29
Dung lượng 2,44 MB

Nội dung

Một trong những ứng dụng nổi bật trong việc phân tích dữ liệungười tiêu dùng là khai phá luật kết hợp Association Rule Mining, một phươngpháp giúp phát hiện các mối quan hệ tiềm ẩn giữa

Trang 1

TRƯỜNG ĐẠI HỌC PHƯƠNG ĐÔNG

KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

- 

-KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: KHAI PHÁ LUÂ!T K"T H#P V%I APRIORI 'NG D(NG PHÂN TÍCH GIỎ HÀNG CỦA SIÊU THỊ VINMART

Giảng viên HD : ThS Dương Thị Bình

Sinh viên thực hiện : Nguyễn Trọng Nghĩa

Hà Nội - 2024

Trang 2

Mục lục

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 5

1.1 Khai phá dữ liệu là gì? 5

1.2 Các bước của quá trình KPDL 5

1.3 Khái quát về các kỹ thuật KPDL 7

1.3.1 Khai thác tập phổ biến và luật kết hợp 7

1.3.2 Phân lớp (Classification): 7

1.3.3 Gom cụm (clustering): 8

1.4 Khai phá Luật Kết hợp 8

1.4.1 Định nghĩa khai phá luật kết hợp (Association Rule Mining) 8

1.4.2 Vai trò và ứng dụng của khai phá luật kết hợp trong phân tích dữ liệu 9 1.4.3 Các thuật toán phổ biến trong khai phá luật kết hợp 9

1.5 'ng dụng của 10

CHƯƠNG 2: THUẬT TOÁN APRIORI 12

2.1 Khái niệm về Thuật toán Apriori 12

2.2.1 Tập hợp mục (Itemset) 12

2.2.2 Hỗ trợ (Support) 12

2.2.3 Độ tin cậy (Confidence) 12

2.2.4 Tăng cường (Lift) 13

CHƯƠNG 3: PHÂN TÍCH GIỎ HÀNG 16

3.1 Mục Tiêu Của Phân Tích Giỏ Hàng 16

3.1.1 Hiểu rõ hành vi của khách hàng: 16

3.1.2 Tăng cường hiệu quả các chiến lược marketing: 16

3.1.3 Tối ưu hóa cách trưng bày sản phẩm: 16

3.1.4 Cải thiện hệ thống gợi ý sản phẩm: 16

3.1.5 Quản lý kho hiệu quả: 16

3.2 'ng Dụng Phân Tích Giỏ Hàng 17

Trang 3

3.2.1 Ngành bán lẻ: 17

3.2.2 Ngành thương mại điện tử: 17

3.2.3 Ngành dịch vụ: 17

3.2.4 Quản lý chuỗi cung ứng: 17

CHƯƠNG 4: ỨNG DỤNG PHÂN TÍCH GIỎ HÀNG CỦA SIÊU THỊ VINMART .18

4.1 Giới Thiệu về VinMart 18

4.3 Phân Tích Kết Quả 23

4.4 Đánh Giá Kết Quả 25

4.5 Hướng Phát Triển Dựa Trên Kết Quả 26

K"T LUẬN 28

TÀI LIỆU THAM KHẢO 29

Trang 4

LỜI MỞ ĐẦU

Trong thời đại số hóa và sự phát triển mạnh mẽ của công nghệ thông tin, dữ liệu trởthành một nguồn tài nguyên quý giá trong mọi lĩnh vực kinh doanh Các doanhnghiệp, đặc biệt là các siêu thị, đang ngày càng nhận thức được tầm quan trọng củaviệc khai thác và phân tích dữ liệu để tối ưu hóa hoạt động kinh doanh và nâng caohiệu quả quản lý Một trong những ứng dụng nổi bật trong việc phân tích dữ liệungười tiêu dùng là khai phá luật kết hợp (Association Rule Mining), một phươngpháp giúp phát hiện các mối quan hệ tiềm ẩn giữa các sản phẩm hoặc hành vi muasắm của khách hàng

Khai phá luật kết hợp với thuật toán Apriori là một trong những kỹ thuật phổ biếntrong lĩnh vực phân tích dữ liệu, giúp tìm ra các quy luật hay mẫu hành vi mua sắmđặc trưng từ các tập dữ liệu lớn Thuật toán Apriori đặc biệt được ưa chuộng trongviệc phân tích giỏ hàng của khách hàng, giúp nhận diện các sản phẩm thườngxuyên được mua cùng nhau, từ đó hỗ trợ các chiến lược tiếp thị, khuyến mãi vàquản lý tồn kho một cách hiệu quả hơn

Mục tiêu của nghiên cứu này là khai thác các ứng dụng của thuật toán Apriori trongviệc phân tích giỏ hàng của siêu thị, nhằm phát hiện các mối liên hệ giữa các sảnphẩm mà khách hàng thường mua cùng nhau Việc này không chỉ giúp các siêu thịhiểu rõ hơn về thói quen và sở thích của khách hàng mà còn mở ra cơ hội để cácnhà quản lý có thể đưa ra những quyết định chiến lược về việc trưng bày sản phẩm,thiết kế các chương trình khuyến mãi, hoặc cải thiện chất lượng dịch vụ kháchhàng

Phân tích giỏ hàng trong siêu thị là một công việc đòi hỏi phải xử lý một lượng lớn

dữ liệu, và trong bối cảnh này, việc áp dụng thuật toán Apriori trở nên vô cùngquan trọng Apriori giúp tìm ra các tập hợp sản phẩm có tần suất xuất hiện caotrong các giao dịch mua sắm, từ đó giúp nhận diện những sản phẩm có thể được kếthợp với nhau để tối ưu hóa các chiến lược kinh doanh Ví dụ, nếu một khách hàngmua một loại bánh mì, thuật toán có thể giúp xác định khả năng khách hàng cũng

sẽ mua bơ hoặc mứt, qua đó hỗ trợ xây dựng các chương trình khuyến mãi kết hợphoặc thiết kế các gian hàng bán lẻ hợp lý

Ngoài ra, việc áp dụng Apriori trong phân tích giỏ hàng cũng giúp các siêu thị cải

Trang 5

thiện quy trình quản lý tồn kho Thông qua việc nhận diện các sản phẩm được muanhiều và thường xuyên kết hợp với nhau, các siêu thị có thể dự báo nhu cầu, từ đó

có chiến lược nhập hàng hợp lý, tránh tình trạng thiếu hàng hay tồn kho quá nhiều.Trong bài nghiên cứu này, chúng ta sẽ tìm hiểu chi tiết về nguyên lý hoạt động củathuật toán Apriori, cách thức áp dụng trong phân tích giỏ hàng của siêu thị, và từ đóđưa ra các khuyến nghị cụ thể cho các siêu thị trong việc ứng dụng phương phápnày nhằm cải thiện hiệu quả kinh doanh Bài nghiên cứu cũng sẽ trình bày các thửnghiệm và phân tích kết quả thu được từ việc áp dụng Apriori trên các bộ dữ liệugiỏ hàng thực tế, qua đó minh chứng cho khả năng ứng dụng mạnh mẽ của thuậttoán này trong môi trường kinh doanh thực tế

Hy vọng rằng kết quả nghiên cứu sẽ mang lại những cái nhìn sâu sắc về việc sửdụng khai phá luật kết hợp và thuật toán Apriori như một công cụ hỗ trợ quyết địnhchiến lược trong việc phân tích hành vi mua sắm, tối ưu hóa các chiến lược kinhdoanh và nâng cao hiệu quả hoạt động của siêu thị trong thị trường cạnh tranh ngàycàng khốc liệt

Trang 6

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Hiện nay trên sách báo, trong các cuộc hội thảo, tiếp thị sản phẩm ứng dụng côngnghệ thông tin, người ta nói rất nhiều về KPDL (data mining) Vậy KPDL là gì? Vàtại sao lại có nhiều người nói đến vấn đề này trong cả công nghiệp máy tính lẫntrong hoạt động kinh doanh đến như vậy?

1.1 Khai phá dữ liệu là gì?

KPDL là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàmmột loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong cáctập dữ liệu lớn (các kho dữ liệu) Về bản chất, KPDL liên quan đến việc phân tíchcác dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy(regularities) trong tập dữ liệu

Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện trithức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ toàn bộquá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó, KPDL làmột bước đặc biệt trong toàn bộ tiến trình, sử dụng các giải thuật đặc biệt để chiếtxuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu

Khai phá dữ liệu là một tiến trình sử dụng các công cụ phân tích dữ liệu khác nhau

để khám phá ra các mẫu dưới nhiều góc độ khác nhau nhằm phát hiện ra các mốiquan hệ giữa các dữ kiện, đối tượng bên trong CSDL, kết quả của việc khai phá làxác định các mẫu hay các mô hình đang tồn tại bên trong, nhưng chúng nằm ẩnkhuất ở các CSDL Để từ đó rút trích ra được các mẫu, các mô hình hay các thôngtin và tri thức từ các CSDL

1.2 Các bước của quá trình KPDL

Các giải thuật KPDL thường được mô tả như những chương trình hoạt động trựctiếp trên tệp dữ liệu Với các phương pháp học máy và thống kê trước đây, thườngthì bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ nhớ Khichuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệulớn, mô hình này không thể đáp ứng được

Trang 7

Không chỉ bởi vì nó không thể nạp hếtdữ liệu vào trong bộ nhớ mà còn vì khó cóthể chiết xuất dữ liệu ra các tệp đơn giản để phân tích được Quá trình xử lý KPDLbắt đầu bằng cách xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định các

dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữliệu có liên quan và xử lý chúng thành dạng sao cho giải thuật KPDL có thể hiểuđược Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là mộtquá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải đượcsao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phảilặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Bước tiếp theo là chọn thuật toán KPDL thích hợp và thực hiện việc KPDL để tìmđược các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa

đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sảnxuất, biểu thức hồi quy,…)

Đặc điểm của mẫu phải là mới (ít nhất là đối với hệ thống đó) Độ mới có thể đuợc

đo tương ứng với độ thay đổi trong dữ liệu (bằng cách so sánh các giá trị hiện tạivới các giá trị trước đó hoặc các giá trị mong muốn), hoặc bằng tri thức (mối liên

hệ giữa phương pháp tìm mới và phương pháp cũ như thế nào) Thường thì độ mớicủa mẫu được đánh giá bằng một hàm logic hoặc một hàm đo độ mới, độ bất ngờcủa mẫu Ngoài ra, mẫu còn phải có khả năng sử dụng tiềm tàng Các mẫu này saukhi được xử lý và diễn giải phải dẫn đến những hành động có ích nào đó được đánhgiá bằng một hàm lợi ích Mẫu khai thác được phải có giá trị đối với các dữ liệumới với độ chính xác nào đó

Kỹ thuật KPDL thực chất là phương pháp không hoàn toàn mới Nó là sự kế thừa,kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như máy

Trang 8

học, nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), các mô hình đồ thị, cácmạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v… Tuy nhiên, với

sự kết hợp tài tình của KPDL, kỹ thuật này có ưu thế hơn hẳn các phương pháptrước đó, đem lại nhiều triển vọng trong việc ứng dụng phát triển nghiên cứu khoahọc

1.3 Khái quát về các kỹ thuật KPDL

1.3.1 Khai thác tập phổ biến và luật kết hợp

Đây là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong cácđối tượng dữ liệu Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trịthuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trongtập các đối tượng Một luật kết hợp X → Y phản ánh sự xuất hiện của tập X dẫnđến sự xuất hiện đồng thời của tập Y Chẳng hạn phân tích CSDL bán hàng nhậnđược thông tin về những khách hàng mua máy tính có khuynh hướng mua phầnmềm quản lý nhân sự trong cùng lần mua được miêu tả bằng luật kết hợp như sau:

“Máy tính Þ Phần mềm quản lý nhân sự”

Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lý kháchhàng, từ đó đưa ra chiến lược bố trí mặt hàng, kinh doanh, tiếp thị,

- Cây quyết định (Decision tree): Cấu trúc dạng hình cây là biểu thị cho các quyếtđịnh Các quyết định này sinh ra các quy tắc để phân lớp và dự đoán (dự báo) tập

dữ liệu mới chưa được phân lớp Tri thức được rút ra trong kỹ thuật này thườngđược mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử

Trang 9

dụng Tuy vậy, nó cũng đòi hỏi mộtkhông gian nhất định để mô tả tri thức trongphạm vi mà con người có thể hiểu được.

- Mạng Nơron (Neural Network): Đây là một trong những kỹ thuật được ứng dụngrất phổ biến hiện nay vì kỹ thuật này bắt chước khả năng tìm kiếm mẫu của bộ nãocon người Việc huấn luyện theo phương pháp này được bắt đầu bằng việc cho vàomột tập dữ liệu (gọi là tập dữ liệu huấn luyện) mạng sẽ tự động điều chỉnh (học)qua từng lớp trong mạng và cho ra kết quả, quá trình huấn luyện được lặp đi lặp lạinhiều lần Sau khi mạng học thành công thì nó được xem là một chuyên gia tronglĩnh vực đó

1.3.3 Gom cụm (clustering):

Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp.Tiến trình phân cụm dựa trên mức độ tương tự giữa các đối tượng Các đối tượngđược gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm làcực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau làcực tiểu Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượngtrong cụm Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nộidung của khối dữ liệu lớn [2] Một số kỹ thuật dùng trong gom cụm: phương phápphân cấp và thuật giải k-means

- Trong phương pháp phân cấp gồm hai giai đoạn: ở giai đoạn gộp mỗi đối tượngthuộc về một lớp, dưới một ngưỡng nào đó chúng được gom lại và tiếp tục như vậycho đến khi tất cả các đối tượng thuộc về cùng một cụm; còn ở giai đoạn tách sẽtiến hành ngược lại so với giai đoạn gộp Trong phương pháp này,để đưa ra đượcngưỡng người ta dựa vào liên kết đơn (khoảng cách gần nhất) và liên kết đôi(khoảng cách xa nhất) giữa hai cụm [3]

- Trong thuật giai k-means: khi tiến hành gom cụm ta cần phải biết trước số cụm.Với mỗi cụm như vậy ta chọn phần tử trọng tâm, tiếp đến tính khoảng cách từ mỗiđối tượng đến phần tử trọng tâm ở tất cả các cụm và gán nó vào cụm có khoảngcách nhỏ nhất Quá trình này tiếp tục như vậy cho đến khi các cụm không còn biếnđổi hoặc thoả điều kiện đặt ra

Trang 10

1.4 Khai phá Luật Kết hợp

1.4.1 Định nghĩa khai phá luật kết hợp (Association Rule Mining)

Khai phá luật kết hợp (Association Rule Mining) là một kỹ thuật trong khai phá dữliệu dùng để phát hiện các mối quan hệ hoặc mẫu kết hợp giữa các yếu tố trong mộttập dữ liệu lớn Mục tiêu của khai phá luật kết hợp là tìm ra những luật mà trong

đó, sự xuất hiện của một yếu tố (sản phẩm, sự kiện, hành vi, v.v.) có liên quan đến

sự xuất hiện của một yếu tố khác trong một tập hợp các giao dịch Các luật nàythường có dạng "Nếu A, thì B" (If A, then B), trong đó A là tiền đề và B là kếtluận Việc khai phá này giúp các tổ chức, doanh nghiệp hiểu rõ hơn về hành vi củakhách hàng, từ đó đưa ra các quyết định chiến lược hợp lý, như các chương trìnhkhuyến mãi hay cải thiện trải nghiệm khách hàng

1.4.2 Vai trò và ứng dụng của khai phá luật kết hợp trong phân tích dữ liệu

Khai phá luật kết hợp đóng vai trò quan trọng trong việc phát hiện những mối quan

hệ tiềm ẩn trong dữ liệu, giúp các doanh nghiệp và tổ chức đưa ra quyết định dựatrên hành vi thực tế của người tiêu dùng Một trong những ứng dụng chính của khaiphá luật kết hợp là trong lĩnh vực bán lẻ, đặc biệt trong phân tích giỏ hàng củakhách hàng tại các siêu thị hoặc cửa hàng trực tuyến Các luật kết hợp giúp xácđịnh các sản phẩm thường xuyên được mua cùng nhau, qua đó hỗ trợ các chiếnlược marketing như khuyến mãi combo, sắp xếp sản phẩm trong cửa hàng hoặc gợi

ý sản phẩm phù hợp với nhu cầu của khách hàng

Khai phá luật kết hợp cũng được ứng dụng trong nhiều lĩnh vực khác nhau, như y

tế (phát hiện các mối liên hệ giữa bệnh lý và các yếu tố nguy cơ), tài chính (pháthiện các giao dịch gian lận hoặc rủi ro tín dụng), hay trong ngành công nghiệp sảnxuất (tối ưu hóa dây chuyền sản xuất và quản lý tồn kho) Nhờ vào khả năng phântích các mối liên hệ giữa các yếu tố, khai phá luật kết hợp giúp tối ưu hóa quy trình,nâng cao hiệu quả kinh doanh và giảm thiểu chi phí

1.4.3 Các thuật toán phổ biến trong khai phá luật kết hợp

Có nhiều thuật toán khác nhau được sử dụng trong khai phá luật kết hợp, nhưng bathuật toán phổ biến nhất là:

Thuật toán Apriori: Apriori là một thuật toán nổi tiếng được sử dụng để

khai thác các tập hợp con có tần suất xuất hiện cao trong dữ liệu Apriori sửdụng phương pháp loại bỏ các tập con không thỏa mãn các yêu cầu về tầnsuất tối thiểu và tiếp tục mở rộng chúng để tìm ra các luật kết hợp Thuật

Trang 11

toán này rất hiệu quả trong việc phân tích dữ liệu lớn với chi phí tính toánthấp, nhưng lại có nhược điểm là cần phải quét toàn bộ dữ liệu nhiều lần,khiến cho tốc độ xử lý có thể bị chậm khi làm việc với tập dữ liệu quá lớn.

Thuật toán FP-Growth (Frequent Pattern Growth): Đây là một cải tiến

của Apriori, được thiết kế để giải quyết vấn đề tốc độ chậm của Apriori khi

xử lý dữ liệu lớn FP-Growth không cần phải quét dữ liệu nhiều lần nhưApriori mà sử dụng cấu trúc cây (FP-tree) để lưu trữ các tập hợp con có tầnsuất cao, từ đó tìm ra các luật kết hợp một cách nhanh chóng hơn Thuật toánnày hiệu quả trong việc khai phá dữ liệu có kích thước lớn và phức tạp

Thuật toán Eclat: Thuật toán Eclat (Equivalence Class Transformation)

cũng là một phương pháp khai thác các mẫu phổ biến trong dữ liệu, nhưngkhác với Apriori và FP-Growth, Eclat sử dụng một phương pháp khác biệt làcấu trúc mảng hoặc ma trận để biểu diễn và tìm kiếm các kết hợp Eclat cóthể hoạt động nhanh hơn Apriori trong nhiều tình huống, đặc biệt là khi dữliệu có sự phân bố đồng đều và không có quá nhiều tập con rỗng

1.5 'ng dụng của

Mặc dù còn rất nhiều vấn đề mà KPDL cần phải tiếp tục nghiên cứu để giải quyếtnhưng tiềm năng của nó đã được khẳng định bằng sự ra đời của rất nhiều ứng dụng.Các ứng dụng của KPDL trong khoa học cũng được phát triển Các công ty phầnmềm lớn trên thế giới cũng rất quan tâm và chú trọng tới việc nghiên cứu và pháttriển kỹ thuật khai phá dữ liệu: Oracle tích hợp các công cụ khai phá dữ liệu vào bộOracle9i, IBM đã đi tiên phong trong việc phát triển các ứng dụng khai phá dữ liệuvới các ứng dụng như Intelligence Miner, …Ta có thể đưa ra một số ứng dụngtrong các lĩnh vực như:

Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng; tìm kiếm tri thức, quy luậtcủa thị trường chứng khoán và đầu tư bất động sản,…

Thương mại điện tử: Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với kháchhàng; phân tích khách hàng duyệt web; Phân tích hành vi mua sắm trên mạng vàcho biết thông tin tiếp thị phù hợp vói loại khách hàng

Trang 12

Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sử dụng cho cácnhà thiên văn để tự động xác định các vì sao và các dải thiên hà trong một bản khảosát lớn để có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir)

Sinh học phân tử: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử (Conklin,Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder, Cook, và Djoko 1994)

Mô hình hóa những thay đổi thời tiết: các mẫu không thời gian như lốc, gió xoáyđược tự động tìm thấy trong các tập lớn dữ liệu mô phỏng và quan sát được(Stolorz et al 1994)

Trang 13

CHƯƠNG 2: THUẬT TOÁN APRIORI

2.1 Khái niệm về Thuật toán Apriori

Thuật toán Apriori là một thuật toán khai phá dữ liệu, đặc biệt được sử dụng trongphân tích giỏ hàng để tìm ra các mối quan hệ kết hợp giữa các mặt hàng Apriorigiúp xác định những mặt hàng nào thường xuyên xuất hiện cùng nhau trong các

giao dịch Thuật toán này sử dụng một chiến lược lặp đi lặp lại để tìm ra các tập hợp mục phổ biến (frequent itemsets) và sau đó tạo ra các luật kết hợp

(association rules) từ các tập hợp mục đó

Thuật toán Apriori được gọi là "Apriori" vì nó dựa trên một tính chất gọi là tính chất Apriori: nếu một tập hợp mục là phổ biến, thì tất cả các tập con của nó cũng

phải là phổ biến Tính chất này giúp giảm số lượng các tập hợp mục cần kiểm tra

và tối ưu hóa quá trình tìm kiếm

2.2 Các khái niệm quan trọng trong Apriori

2.2.1 Tập hợp mục (Itemset)

Tập hợp mục là một tập hợp các mặt hàng được bán hoặc giao dịch cùng nhautrong cơ sở dữ liệu Ví dụ, nếu khách hàng A mua các mặt hàng A, B, C trong mộtgiao dịch, thì {A, B, C} là một tập hợp mục

Tập hợp mục phổ biến là những tập hợp mục có số lần xuất hiện (hỗ trợ) vượt quangưỡng hỗ trợ tối thiểu được định nghĩa trước (min_support) Những tập hợp mụcnày được sử dụng để tạo ra các luật kết hợp

2.2.2 Hỗ trợ (Support)

Hỗ trợ là tỷ lệ các giao dịch chứa một tập hợp mục trong tổng số giao dịch.Công thức tính hỗ trợ của một tập hợp mục X trong một cơ sở dữ liệu giao dịch là: Support(X)= Số giao dịch chứa X/tổng số giao dịch

Hỗ trợ giúp xác định mức độ phổ biến của một tập hợp mục Nếu một tập hợp mục

có hỗ trợ thấp, nó có thể không hữu ích trong việc tạo ra luật kết hợp

2.2.3 Độ tin cậy (Confidence)

Độ tin cậy là xác suất mà khi một mặt hàng X xuất hiện trong một giao dịch, mặthàng Y sẽ xuất hiện cùng với nó

Trang 14

Công thức tính độ tin cậy của luật kết hợp X→Y là:

Confidence(X→Y)= Support(X Y)/ SupportX∪

Độ tin cậy càng cao, nghĩa là khả năng xảy ra sự kết hợp giữa X và Y càng lớn

2.2.4 Tăng cường (Lift)

Tăng cường đo lường sự tương quan giữa hai mặt hàng Nó so sánh khả năng xuấthiện của X và Y cùng nhau với khả năng xảy ra một cách ngẫu nhiên

Công thức tính tăng cường của luật X→Y là:

Lift(X→Y)= Confidence(X→Y)/ Support(Y)

2.3 Quá trình hoạt động của thuật toán Apriori

Thuật toán Apriori hoạt động theo các bước sau:

Bước 1: Tìm các tập hợp mục 1-item phổ biến

Bắt đầu bằng việc quét qua toàn bộ cơ sở dữ liệu để tính toán tần suất của từng mặthàng

Tạo danh sách các mặt hàng có hỗ trợ vượt qua ngưỡng hỗ trợ tối thiểu

Bước 2: Tạo các tập hợp mục 2-item từ các 1-item phổ biến

Kết hợp các mặt hàng phổ biến 1-item để tạo ra các tập hợp mục 2-item

Kiểm tra xem các tập hợp này có đạt được ngưỡng hỗ trợ tối thiểu không Nhữngtập hợp mục 2-item đạt hỗ trợ cao sẽ tiếp tục được sử dụng trong các bước tiếptheo

Bước 3: Tạo các tập hợp mục k-item từ các tập hợp mục (k-1)-item

Tiếp tục kết hợp các tập hợp mục có kích thước k−1k-1k−1 thành các tập hợp mục

có kích thước kkk

Kiểm tra hỗ trợ của các tập hợp mục kkk-item Những tập hợp mục có hỗ trợ thấp

sẽ bị loại bỏ

Bước 4: Sinh các luật kết hợp từ các tập hợp mục

Tạo các luật kết hợp từ các tập hợp mục phổ biến

Ví dụ, từ tập hợp mục {A, B}, tạo ra các luật kết hợp như: A→B và B→A

Ngày đăng: 12/02/2025, 16:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN