Tiểu luận môn Thuật Toán và Phương Pháp Giải Quyết Vấn Đề THUẬT TOÁN APRIORI VÀ ÁP DỤNG TÌM LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU SIÊU THỊ

31 1.2K 8
Tiểu luận môn Thuật Toán và Phương Pháp Giải Quyết Vấn Đề THUẬT TOÁN APRIORI VÀ ÁP DỤNG TÌM LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU SIÊU THỊ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Giáo viên hướng dẫn:PGS.TS. Đỗ Văn NhơnHọc viên thực hiện:Vũ Xuân VinhMã số học viên:CH1301117Lớp:Cao học khóa 8 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 LỜI MỞ ĐẦU Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ chóng mặt. Trang 1 Tháng 10, 2014 THUẬT TOÁN APRIORI VÀ ÁP DỤNG TÌM LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU SIÊU THỊ BÀI THU HOẠCH MÔN THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích cỡ của các cơ sở dữ liệu cũng tăng lên một cách nhanh chóng. Nhu cầu được đặt ra là liệu chúng ta có thể khai thác được gì từ lượng dữ liệu khổng lồ và tưởng chừng như vô nghĩa đó? Phương pháp khai phá dữ liệu (data mining) ra đời như là một hướng giải pháp hữu hiệu cho câu hỏi trên. Khai phá dữ liệu bao gồm rất nhiều những kỹ thuật phân tích dữ liệu bên trong như: luật kết hợp, phân loại dữ liệu, gom nhóm dữ liệu, lập mô hình, dự báo…nhưng quan trọng nhất vẫn là phương pháp tìm luật kết hợp để tạo ra các tri thức hữu dụng. Ví dụ như chúng ta có thể dự đoán được những sản phẩm nào sẽ được mua cùng nhau trong một thời gian cụ thể đối với hệ thống siêu thị hay dự đoán thị trường đối với lĩnh vực kinh doanh chứng khoán… Trong phạm vi bài tiểu luận này, em sẽ trình bày một cách tổng quát về cơ sở lý thuyết của phương pháp tìm luật kết hợp, ứng dụng và cải tiến thuật toán Apriori và đồng thời áp dụng những lý thuyết đó để xây dựng nên một ứng dụng nhỏ để minh họa cho phương pháp tìm luật kết hợp đó. Qua đây, em cũng xin được gửi lời cảm ơn chân thành đến giảng viên Đỗ Văn Nhơn, người không những tận tâm truyền đạt những kiến thức nền tảng cơ bản về môn học mà còn giúp em có được cơ sở vững chắc để phục vụ cho việc nghiên cứu sau này. Trang 2 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 MỤC LỤC HÌNH ẢNH Hình 1: Quá trình phát hiện tri thức từ cơ sở dữ liệu 6 Hình 2: Minh họa các bước chạy thuật toán Apriori 17 Hình 3: Sơ đồ so sánh Apriori và AprioriTid 21 Hình 4: Sơ đồ mối quan hệ giữa các bảng 22 Hình 5: Giao diện chương trình tìm luật kết hợp trong siêu thị 24 Hình 6: Giao diện kết quả chương trình tìm luật kết hợp trong siêu thị 25 Hình 7: File excel cho hóa đơn 26 Hình 8: File excel cho chi tiết hàng hóa 26 Trang 3 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 MỤC LỤC LỜI MỞ ĐẦU 1 MỤC LỤC HÌNH ẢNH 3 1.1 Giới thiệu 4 1.2 Mục đích và nhiệm vụ của đề tài 5 2.1 Tổng quan về khai phá dữ liệu 5 2.1.1 Khái niệm 5 2.1.2 Quá trình khám phá tri thức trong CSDL 6 2.1.3 Các kỹ thuật khai phá dữ liệu 7 2.2 Luật kết hợp trong khai phá dữ liệu 10 2.2.1 Khai phá luật kết hợp 10 2.2.2 Lý thuyết về luật kết hợp 11 2.3 Thuật toán tìm luật kết hợp Apriori 16 2.3.1 Mô tả thuật toán: 16 2.3.4 Ưu điểm và khuyết điểm của thuật toán Apriori: 19 3.3.5 Cải tiến thuật toán: 19 3.1 Phát biểu bài toán: 23 3.2 Phân tích bài toán 24 3.3 Các bảng cơ sở dữ liệu 25 3.4 Giao diện chương trình 27 TÀI LIỆU THAM KHẢO 30 CHƯƠNG 1 TỔNG QUAN 1.1Giới thiệu Trong những năm gần đây, với sự phát triển công nghệ thông tin chúng ta thấy một thực tế là con người có trong tay một lượng dữ liệu rất lớn nhưng với những kỹ thuật khai thác cũ như SQL dường như đã không còn phù hợp nữa, nó dần nhường chỗ cho những kỹ thuật tiên tiến hơn mà cụ thể là khai phá dữ liệu (data mining). Khai phá dữ liệu đã trở thành một trong những lĩnh vực chính được các nhà khoa học quan tâm nghiên cứu bởi khả năng áp dụng cao trong thực tiễn cuộc sống. Nó được áp dụng rộng rãi trong nhiều Trang 4 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 lĩnh vực như: tài chính, thị trường chứng khoán, thương mại, giáo dục, y tế… với nhiều hướng tiếp cận như: phân lớp/ dự đoán, phân cụm, tìm luật kết hợp … Trong phạm vi tiểu luận này, em xin trình bày vấn đề tìm luật kết hợp trong cơ sở dữ liệu siêu thị dựa trên thuật toán Apriori, cách đánh giá và cải thiện cho thuật toán này cũng như thiết kế và cài đặt một ứng dụng nhỏ để biểu diễn cho thuật toán. 1.2Mục đích và nhiệm vụ của đề tài Nghiên cứu khai phá dữ liệu và ứng dụng luật kết hợp (Associatin Rule) để hỗ trợ cho việc ra quyết định phục vụ cho công tác quản lý kho hàng của siêu thị dựa trên luật kết hợp. Nghiên cứu thuật toán Apriori và tìm cách cải thiện thuật toán nhằm xây dựng ứng dụng đơn giản để khai phá luật kết hợp. CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1Tổng quan về khai phá dữ liệu 2.1.1 Khái niệm Vào cuối những năm 1980 khái niệm khai phá dữ liệu (Data Mining) ra đời. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các kho dữ liệu. Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các tri thức hữu dụng. Trang 5 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm “Phát hiện tri thức” trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức hữu dụng từ các kho dữ liệu lớn. Do đó khai phá dữ liệu chỉ là một phần trong khái niệm “Phát hiện tri thức” ấy. Tuy nhiên nó cũng chính là một bước đặc biệt quan trọng trong toàn bộ quá trình, sử dụng các giải thuật đặc trưng để chiết xuất ra các giá trị tiềm ẩn từ kho dữ liệu. Hiện nay khai phá dữ liệu được ứng dụng vào rất nhiều lĩnh vực cụ thể khác nhau như: y tế, dầu khí, khí tượng, kinh doanh, y học, tài chính và thị trường chứng khoán, bảo hiểm 2.1.2 Quá trình khám phá tri thức trong CSDL Khám phá tri thức trong CSDL (KDD) là lĩnh vực liên quan đến các ngành như: thống kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu năng cao … Mục đích của quá trình khám phá tri thức là rút ra tri thức từ dữ liêu trong CSDL lớn. Quá trình KDD là quá trình gồm nhiều giai đoạn và lặp đi lặp lại, mà trong đó sự lặp lại có thể xuất hiện ở bất cứ bước nào. Quá trình đó gồm các bước như sau: a) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích hợp. b) Làm giàu dữ liệu (data enrichment): tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, Kho dữ liệu, file text c) Chọn lọc dữ liệu (data selection): chọn những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu. d) Chuyển đổi dữ liệu (data transformation): dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. Trang 6 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 e) Khai phá dữ liệu (data mining): là giai đoạn quan trọng nhất, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu. f) Đánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo. g) Biểu diễn dữ liệu (knowlegde presentation): sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. Hình 1 – Quá trình phát hiện tri thức từ cơ sở dữ liệu(Nguồn: Internet) 2.1.3 Các kỹ thuật khai phá dữ liệu a) Phương pháp suy diễn và qui nạp: Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp.  Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật suy diễn. Trang 7 Làm giàu dữ liệu Làm sạch dữ liệu Chọn lọc dữ liệu Chuyển đổi dữ liệu Khai phá dữ liệu Đánh giá mẫu Biểu diễn dữ liệu THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014  Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu. Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL. Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật. b) Phương pháp cây quyết định và luật:  Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị, thuộc tính của đối tượng tới lá.  Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng Nếu P thì Q, với P là mệnh đề đúng với một phần trong CSDL, Q là mệnh đề dự đoán. Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suy diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là mô tả cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ chính xác của mô hình. c) Phương pháp mạng Neural: Mạng Neuron là tiếp cận tính toán mới liên quan tới việc phát triển cấu trúc toán học và khả năng học. Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh con người. Mạng Neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp mà Trang 8 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 con người cũng như các kỹ thuật máy tính khác không thể phát hiện được. Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạng Neuron. Tuy mạng Neuron có một số hạn chế gây khó khăn trong việc áp dụng và phát triển nhưng nó cũng có những ưu điểm đáng kể. d) Phương pháp tìm luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A => B. Việc phát triển một thuật toán phải phát hiện luật này trong cơ sở dữ liệu lớn là không khó. Tuy nhiên, vấn đề là ở chỗ có thể có rất nhiều luật kiểu này hoặc là ta chỉ biết một tập nhỏ dữ liệu trong cơ sở dữ liệu lớn thoả mãn tiền đề của luật. Ví dụ chỉ có số ít người mua sách tiếng anh mà mua thêm đĩa CD. Số lượng các luật kết hợp trong một số cơ sở dữ liệu lớn gần như vô hạn. Do vậy thuật toán sẽ không thể phát hiện hết các luật và không phân biệt được luật nào là thông tin thực sự có giá trị và thú vị. Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng hạn ta có luật: Âm nhạc, ngoại ngữ, thể thao => CD, nghĩa là những người mua sách âm nhạc, ngoại ngữ, thể thao thì cũng mua đĩa CD. Lúc đó ta quan tâm đến số lượng trường hơp khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ cho luật này. Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc, ngoại ngữ, thể thao và đĩa CD hay tất cả những người thích cả ba loại sách trên. Tuy nhiên giá trị hỗ trợ là không đủ. Có thể có trường hợp ta có một nhóm tương đối những người đọc cả ba loại sách trên nhưng lại có một nhóm với lượng lớn hơn những người thích sách thể thao, âm nhạc, ngoại ngữ mà không thích mua đĩa CD. Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối cao. Như vậy chúng ta cần thêm một độ đo Trang 9 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 thứ hai đó là độ tin cậy (Confidence). Độ tin cậy là phần trăm các bản ghi có đĩa CD trong số các bản ghi có sách âm nhạc, thể thao, ngoại ngữ. Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật dạng X => B sao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng Minconfi cho trước. Từ một cơ sở dữ liệu ta có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp. 2.2Luật kết hợp trong khai phá dữ liệu 2.2.1 Khai phá luật kết hợp Được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận được rất nhiều sự quan tâm của nhiều nhà nghiên cứu. Ngày nay việc khai thác các luật như thế vẫn là một trong những phương pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai phá dữ liệu. Mục đích chính của khai phá dữ liệu là các tri thức được kết xuất ra sẽ được sử dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu. Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được các thông tin mang tính thông kê như: “90% phụ nữ có xe máy màu đỏ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng mua bia sẽ mua thêm nước ngọt”. Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không ? Điều đó hoàn toàn có thể, đó chính là vấn đề khai phá luật kết hợp. Giả sử ta có một CSDL D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các mục S nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những mục U cũng trong những bản ghi đó. Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả S và U. Trang 10 [...]... phương pháp khám phá tri thức quan trọng có nhiều ý nghĩa trong khoa học cũng như trong thực tiễn Về mặt lý thuyết trình bày một số khái niệm cơ bản về: Tri thức, khai phá dữ liệu, các phương pháp khai phá dữ liệu, thuật toán Apriori để tìm luật kết hợp, ưu và khuyết điểm của thuật toán, và đồng thời đưa ra những giải pháp để cải tiến cho thuật toán Apriori Trang 29 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT... Thuật toán Apriori chỉ thích hợp cho các CSDL nhỏ, với các CSDL lớn thì thuật toán thực hiện kém hiệu quả 3.3.5 Cải tiến thuật toán: Có thể sử dụng một số thuật toán để cái tiến thuật toán Apriori như thuật toán AprioriTid, FP-growth, Direct Hashing and Pruning Trong bài viết này sẽ đề cập thuật toán AprioriTid Trang 19 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 Khác với thuật toán Apriori, thuật. .. trình tìm luật kết hợp trong siêu thị Ở màn hình trên, phía bên trái, ta có thể nhập tham số, ví dụ nhập độ hỗ trợ tối thiểu vào ô “Độ hỗ trợ”, sau đó nhấn vào nút Tìm luật , ta đươc kết quả như hình bên dưới : Trang 27 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 Hình 6 – Giao diện kết quả chương trình tìm luật kết hợp trong siêu thị Ngoài ra người dùng có thể nhập thêm dữ liệu để tính tìm luật, ... cần dùng các kỹ thuật khai phá dữ liệu – sử dụng luật kết hợp Trong chương trình, chỉ quan tâm đến các dữ liệu thuộc CSDL bán hàng trong siêu thị Sử dụng thuật toán Apriori tìm ra sự kết hợp giữa các mặt hàng khác nhau trong một giao dịch của khách hàng khi đến siêu thị Trong đó: Giai đoạn tiền xử lý: giai đoạn này nhằm thiết lập các đối tượng dữ liệu từ dữ liệu trong CSDL khách hàng Dữ liệu được tiền... cách kết hợp Lk-1 với chính nó + Lk : tập phổ biến với kích cỡ k Trang 17 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 Hình 2 – Minh họa các bước chạy thuật toán Apriori Qua minh họa khi chạy thuật toán Apriori như trên ta thấy, khi không còn tập mục phổ biến nào được tìm thấy nữa thì thuật toán dừng lại và tập L3 là tập kết quả nhận được 2.3.3 Ứng dụng thực tế thuật toán Apiori vào hệ thống siêu thị: ... GIẢI QUYẾT VẤN ĐỀ 2014 Về thuật toán khai phá tri thức, tiểu luận áp dụng thuật toán Apriori để xây dựng nên một ứng dụng nhỏ nhằm tìm ra luật kết hợp là các mặt hàng cần thiết nhập về trong kho dữ liệu của siêu thị và đồng thời chương trình cũng xuất ra thông tin trên màn hình bao gồm các tập hợp mà mỗi tập hợp gồm các mặt hàng kết hợp thõa điểu kiện minsupp và minconf của người dùng nhập vào Do đây... Trang 24 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 ánh xạ bời các số tự nhiên, nghĩa là đánh số thứ tự các thuộc tính từ 1 đến hết Tìm tập mục phổ biến và luật kết hợp dựa trên các số thứ tự này, kết quả được ánh xạ ngược trở lại lên các mục Giai đoạn khai phá: đây là quá trình thực hiện thuật toán Apriori áp dụng đối với dữ liệu cung cấp sau giai đoạn tiền xử lý 3.3 Các bảng cơ sở dữ liệu Sơ...THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ θ và độ tin cậy β Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn θ và β tương ứng Giả thiết D là CSDL giao dịch và với θ =40%, β = 90% Vấn đề phát hiện luật kết hợp được thực hiện như sau: Liệt kê, đếm tất cả những quy luật chỉ ra... liệu vào 2 file Excel được đính kèm trong thư mục chuong_trinh/findAssociatedRules, đó là 2 file : Hoadon.xls và ChitietHD.xls Trang 28 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 Hình 7 – File excel cho hóa đơn Hình 8 – File excel cho chi tiết hóa đơn CHƯƠNG 4 KẾT LUẬN Bài tiểu luận đã trình bày tổng quan và các nét đặc trưng nhất trong lĩnh vực khai phá dữ liệu, trong đó phát hiện luật kết hợp. .. , I là tập mục Luật kết hợp là một mối liên hệ điều kiện giữa hai tập các hạng mục dữ liệu X và Y theo dạng sau: Nếu X thì Y, và ký hiệu là X ⇒ Y Ta có luật kết hợp X ⇒ Y, nếu X ⊂ I, Y ⊂ I và X ∩ Y = ∅ Chúng phụ thuộc vào 2 đại lượng cơ bản là độ hỗ trợ (S) và độ tin cậy (C) Trang 11 THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 2014 a) Độ hỗ trợ (Support): Độ hỗ trợ của một luật r = X ⇒ Y là tỉ . dữ liệu này xảy ra với một tốc độ chóng mặt. Trang 1 Tháng 10, 2014 THUẬT TOÁN APRIORI VÀ ÁP DỤNG TÌM LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU SIÊU THỊ BÀI THU HOẠCH MÔN THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI. cụm, tìm luật kết hợp … Trong phạm vi tiểu luận này, em xin trình bày vấn đề tìm luật kết hợp trong cơ sở dữ liệu siêu thị dựa trên thuật toán Apriori, cách đánh giá và cải thiện cho thuật toán. pháp tìm luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được.

Ngày đăng: 24/05/2015, 09:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan