Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
36,8 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH MÔN: CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG CHO BÀI TỐN PHÂN TÍCH HÀNH VI MUA SẮM CỦA KHÁCH HÀNG TRONG CÁC SIÊU THỊ Giảng viên phụ trách: GS, TSKH HOÀNG KIẾM Học viên thực hiện: Lê Phước Vinh TP HỒ CHÍ MINH, THÁNG 10/2014 MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT .3 Chương – KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU Chương 2-KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP 15 Chương 3- XÂY DỰNG ỨNG DỤNG CHO BÀI TỐN PHÂN TÍCH HÀNH VI MUA SẮM CỦA KHÁCH HÀNG TRONG CÁC SIÊU THỊ 33 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT STT 10 11 Từ viết tắt CSDL I Minsup Minconf KDD TID T k-itemset Lk Ck Ck Giải nghĩa Cơ sở liệu Tập mục liệu Độ hỗ trợ tối thiểu Độ tin cậy tối thiểu Knowledge Discovery in Database Định danh giao tác Giao tác Một itemset có k items Tập phổ biến k-itemsets Tập ứng viên k-itemsets Tập ứng viên k-itemsets mà tập giao tác có chứa Chương – KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Khám phá tri thức khai phá liệu “Khám phá tri thức trình tìm tri thức, mẫu tìm ẩn, trước chưa biết thơng tin hữu ích đáng tin cậy” Cịn khai phá liệu (KPDL) bước quan trọng trình khám phá tri thức, sử dụng thuật toán KPDL chuyên dùng với số qui định hiệu quả tính toán chấp nhận để chiết xuất mẫu mơ hình có ích liệu Nói cách khác, mục đích khám phá tri thức KPDL tìm mẫu mơ hình tồn sở liệu (CSDL) bị che khuất hàng núi liệu [1] Khám phá tri thức từ CSDL q trình sử dụng phương pháp cơng cụ tin học, người trung tâm q trình Do đó, người cần phải có kiến thức bản lĩnh vực cần khám phá để chọn tập liệu tốt, từ phát mẫu phù hợp với mục tiêu đề Đó tri thức, rút từ CSDL, thường để phục vụ cho việc giải loạt nhiệm vụ định lĩnh vực định Tuy vậy, trình khám phá tri thức mang tính chất hướng nhiệm vụ khơng phải tri thức tìm áp dụng vào thực tế Để có thơng tin q báu phải tìm mẫu có tập CSDL trước Việc đánh giá mẫu tìm thấy điều thú yếu có tính chất định đến sử dụng hay khơng sử dụng chúng Đầu chương trình khám phá mẫu có ích gọi tri thức Tri thức khám phá có đặc điểm chính: - Kiến thức cao cấp: Ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Q trình để tìm kiến thức không phải từ phương pháp thống kê cổ điển mà mà được đúc kết từ kinh nghiệm có, thể liệu, kết quả lĩnh hội - Độ xác: Dù cho mẫu khai phá thật có CSDL hay khơng việc đo lường trị giá chúng bắt buộc phải có Chúng ta sử dụng mẫu có độ xác cao hiệu quả cơng việc đạt lớn, mẫu có độ xác chưa xác định rõ ràng khơng cao khơng nên sử dụng chúng - Tính hấp dẫn: Khám phá tri thức coi lý thú vạch xu hướng cách hồn thiện Đó điều lạ hay quy trình tìm năng, hữu ích ẩn chứa từ liệu trước - Tính hiệu quả: thời gian chạy thuật toán khám phá tri thức CSDL lớn dự tính chấp nhận Dữ liệu tập hợp thơng tin xác trình khám phá tri thức xem lọc bỏ dư thừa, rút gọn tới mức tối thiểu để lại đặc trưng bản cho liệu Tri thức tìm thấy thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nếu khám phá tri thức tồn q trình chiết xuất tri thức từ CSDL KPDL giai đoạn chủ yếu q trình KPDL q trình phát mẫu mới, thường bao gồm việc thử tìm mơ hình phù hợp với tập liệu tìm kiếm mẫu từ tập liệu theo mơ hình Sử dụng kỹ thuật khái niệm lĩnh vực nghiên cứu từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, mơ hình đồ thị, mạng Bayes,… Hầu hết CSDL chứa nhiều mẫu có ích, nhiên mẫu có giá trị với mục tiêu đặt phải mẫu không tầm thường Để mẫu trở nên không tầm thường, hệ thống phải làm nhiều mị mẫm thống kê kết quả việc tính tốn trực tiếp qua cơng tác thống kê có người dùng Một hệ thống tìm kiếm cần phải có khả định cần thực tính tốn kết quả có đáng quan tâm để tạo nên tri thức ngữ cảnh hay không KPDL sử dụng để tạo giả thuyết Ví dụ để xác định yếu tố rủi ro cho vay tín dụng, kỹ thuật KPDL phải phát người có thu nhập thấp nợ nhiều người có mức rủi ro cao Ngồi kỹ thuật phát quy luật mà nhà phân tích chưa tìm ví dụ tỷ lệ thu nhập nợ tuổi yếu tố xác định mức rủi ro Để làm điều này, KPDL sử dụng thông tin khứ để học Nó tìm kiếm thơng tin CSDL sử dụng chúng để tìm mẫu đáng quan tâm Nếu xét mặt ý tưởng mục đích ứng dụng, KPDL nhu cầu tất yếu, nhạy cảm đáp lại mong mỏi giới kinh doanh mặt kỹ thuật, thực khó khăn cả thách thức nhà khoa học KPDL xây dựng dựa việc sử dụng giải thuật mới, định hướng theo cầu kinh doanh để giải tự động toán kinh doanh kỹ thuật dễ dung hiểu Các kỹ thuật nghiên cứu sử dụng bao gồm định (CART, CHAID, AID), mạng neuron, phương pháp láng giềng gần nhất, luật suy diễn,… KPDL không thuộc ngành cơng nghiệp Nó sử dụng kỹ thuật thong minh để khai phá tri thức tiềm ẩn liệu Có thể coi KPDL ngày trạng thái giống việc quản trị liệu vào năm 60, mà ứng dụng quản trị liệu không tuân theo ngun tắc chung mơ hình liệu quan hệ đời với sức mạnh ngôn ngữ vấn đáp thúc đẩy việc phát triển ứng dụng quản trị liệu lên nhanh chóng Tuy vậy, giới có nhiều ngành công nghiệp sử dụng kỹ thuật KPDL để phục vụ cho hoạt động kinh doanh bước đầu thành cơng ngành tài chính, y học, hóa học, bảo hiểm, sản xuất, giao thơng, hàng không,… Các kết quả đạt cho thấy kỹ thuật KPDL nhiều vấn đề cộm, với tri thức mà chuyên gia người chưa cung cấp KPDL có tiềm to lớn việc tạo lợi nhuận đáng kể kinh tế 1.2 Quá trình khám phá tri thức Envalution Data of Mining Transform Cleansing ati PreGatheri Selectioprocessing n ng , Data Data Pattem ge Discove Transform ry ed Cleansed Targe Preproccess data ed t Internet Knowled Preparated phá tri thức Hình 1.1 Quá trình khám Quá trình khám phá tri thức từ CSDL q trình có sử dụng nhiều phương pháp công cụ tin học q trình mà người trung tâm Do đó, khơng phải hệ thống phân tích tự động mà hệ thống bao gồm nhiều hoạt động tương tác thường xuyên người CSDL, tất nhiên với hỗ trợ công cụ tin học Người sử dụng hệ thống phải người có kiến thức bản lĩnh vực cần phát tri thức để chọn tập liệu, lớp mẫu phù hợp đạt tiêu chuẩn quan tâm so với mục đích Tri thức mà ta nói tri thức rút từ CSDL, thường để phục vụ cho việc giải loạt nhiệm vụ định lĩnh vực định Do đó, q trình phát tri thức mang tính chất hướng nhiệm vụ, khơng phải phát tri thức mà phát tri thức nhằm giải tốt nhiệm vụ đề 1.2.1 Gom liệu (Gathering) Tập hợp liệu bước trình khai phá liệu Đây bước khai thác CSDL, kho liệu chí liệu từ nguồn ứng dụng Web 1.2.2 Trích lọc liệu (Selection) Ở giai đoạn lựa chọn liệu phù hợp với nhiệm vụ phân tích trích rút từ CSDL 1.2.3 Làm sạch, tiền xử lý chuẩn bị trước liệu (Cleansing, Pre- processing and Preparation) Giai đoạn thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng trình khai phá liệu Một số lỗi thường mắc phải gom liệu tính khơng đủ chặt chẻ, logic Vì vậy, liệu thường chứa giá trị vơ nghĩa khơng có khả kết nối liệu, ví dụ: điểm = -1 Giai đoạn tiến hành xử lý dạng liệu khơng chặt chẽ nói Những liệu dạng xem thông tin dư thừa, giá trị Bởi vậy, q trình quan trọng liệu khơng “làm sạch” gây nên kết quả sai lệch nghiêm trọng 1.2.4 Chuyển đổi liệu (Transformation) Tiếp theo giai đoạn chuyển đổi liệu, liệu chuyển đổi hay hợp dạng thích hợp cho việc khai phá 1.2.5 Khai phá liệu (Data Mining) Đây tiến trình cốt yếu Ở giai đoạn nhiều thuật toán khác sử dụng cách phù hợp để trích xuất thơng tin có ích cá mẫu điển hình liệu 1.2.6 Đánh giá kết mẫu (Evaluation of Result) Đây giai đoạn cuối trình khai phá liệu Ở giai đoạn này, mẫu liệu chiết xuất, không phải mẫu liệu hữu ích, đơi cịn bị sai lệch Vì vậy, cần phải ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức cần thiết Từ trình khám phá tri thức thấy khác biệt khám phá tri thức khai phá liệu Trong khám phá tri thức nói đến q trình tổng thể phát tri thức hữu ích từ liệu Cịn KPDL bước trình khám phá tri thức, công việc chủ yếu xác định toán khai phá, tiến hành lựa chọn phương pháp KPDL phù hợp với liệu có tách tri thức cần thiết 1.3 Các loại liệu khai phá Các loại liệu khai phá sau: • Cơ sở liệu quan hệ (relational databases): CSDL tổ chức theo mơ hình quan hệ Hiện nay, hệ quản trị CSDL hỗ trợ mơ hình như: MS Access, MS SQL Server, Oracle, IBM DB2, • Cơ sở liệu đa chiều (multidimention structures, data warehouse, data mart): gọi nhà kho liệu, liệu chọn từ nhiều nguồn khác chứa đặc tính lịch sử thơng qua thuộc tính thời gian tường minh ngầm định • Cơ sở liệu giao tác (transaction databases): loại liệu sử dụng nhiều siêu thị, thương mại, ngân hàng, • Cơ sở liệu quan hệ – hướng đối tượng (object relational databases): mô hình CSDL lai mơ hình hướng đối tượng mơ hình CSDL quan hệ • Cơ sở liệu không gian thời gian (spatial, temporal, and time – series data): chứa thông tin không gian địa lý thơng tin theo thời gian • Cơ sở liệu đa phương tiện (Multimedia database): loại liệu có nhiều mạng, bao gồm loại âm thanh, hình ảnh, video, văn bản nhiều kiểu liệu định dạng khác 1.4 Các phương pháp, kỹ thuật khai phá liệu Các kỹ thuật KPDL chia làm nhóm chính: - Kỹ thuật KPDL mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Nhóm kỹ thuật gồm phương pháp: phân nhóm (Clustering), tổng hợp hóa (Summerization), phát biến đổi độ lệch (Change and deviation detection), phân tích luật kết hợp (Association Rules), - Kỹ thuật KPDL dự đoán: có nhiệm vụ đưa dự đốn dựa vào suy diễn liệu thời Nhóm kỹ thuật gồm phương pháp: phân lớp (Classification), hồi quy (Regression), 1.4.1 Phân lớp dự đoán (Classification & Prediction) Là đặt mẫu vào lớp xác định trước Nhiệm vụ tìm hàm ánh xạ mẫu liệu cách xác vào lớp.Ví dụ ngân hang muốn phân loại khách hành họ vào hai nhóm có nợ hay khơng nợ, từ giúp họ định cho vay hay khơng cho vay Q trình phân lớp liệu thường gồm bước: xây dựng mơ hình sử dụng mơ hình để phân lớp liệu - Bước 1: mơ hình xây dựng dựa việc phân tích mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các mẫu liệu cịn gọi tập liệu huấn luyện (training data set) Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp cịn gọi học có giám sát (supervised learning) khác với phân nhóm liệu học khơng có giám sát (unsupervised learning) - Bước 2: sử dụng mơ hình để phân lớp liệu Trước hết phải tính độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đốn nhãn lớp cho mẫu liệu khác tương lai Trong kỹ thuật phân lớp sử dụng phương pháp như: Cây định (Decision Tree), K-Láng giềng gần (k-Nearest Neighbor), Mạng Nơron (Neural networks), Giải thuật di truyền (Genetic algorithms), Mạng Bayesian (Bayesian networks), Tập mờ tập thô (Rough and Fuzzy Sets) a) Cây định (Decision Tree) Các kỹ thuật phân lớp sử dụng định để phân tách liệu phần chứa đựng hầu hết mẫu từ lớp đặc trưng, kết quả trình cho định Điểm phân tách định nút (không phải nút lá) sử dụng số điều kiện để định liệu phân tách Các nút cuối định chứa đựng mẫu giống Lợi định thuật toán chạy nhanh, với kết quả tốt giải thích rõ ràng Tuy nhiên, bất lợi mà thuật tốn định gặp phải chúng tìm điểm tới hạn cục bộ, đưa kết quả không b) K-láng giềng gần (k-Nearest Neighbor) Thuật toán tìm láng giềng gần mẫu thử nghiệm quy nhãn lớp chúng dựa nhãn đa số, điều có nghĩa mẫu quy lớp chúng lân cận Kỹ thuật cho vị trí khơng gian đặc trưng hàm ý quan hệ họ hàng gần gũi nhãn lớp Lợi thuật toán K-Láng giềng gần dễ thực thi, kết quả mà đem lại khả dễ dàng giải thích Nhưng điểm bất lợi thuật toán đưa mơ hình lớn với tập liệu nhỏ c) Mạng nơron (Neural networks) Mạng nơron mạng mơ theo não người Đó cấu trúc liệu hàm với nhiều trọng số đầu vào, với kết quả đầu nhãn lớp Từng phần riêng biệt liệu đưa vào mạng nơron hàm - trọng số mạng nơron bị thay đổi (học - huấn luyện) tùy theo tỷ lệ lỗi đầu Phương pháp thường đưa đến khoảng thời gian huấn luyện dài cả tập liệu nhỏ Lợi mạng nơron đưa đến kết quả xác, bất lợi thường địi hỏi thời gian huấn luyện dài đưa kết quả khó hiểu, cứng nhắc, bị bao bọc hộp đen, khó giải thích tường minh d) Giải thuật di truyền (Genetic algorithms) Các giải thuật di truyền sử dụng để đưa công thức giả thuyết phụ thuộc biến Đối với giải thuật di truyền phải sử dụng giải pháp cạnh tranh, lựa chọn kết hợp tập hợp cá thể Lợi Giải thuật di truyền thường đưa đến kết quả kiểm tra xác, bất lợi kết quả có thơng qua việc lập trình tiến hóa kết quả thường cứng nhắc, khó hiểu e) Mạng Bayesian (Bayesian networks) Trong mạng Bayesian sử dụng đồ thị có hướng, khơng có chu trình để miêu tả phân lớp Các đồ thị sử dụng để miêu tả tri thức chuyên gia Các nút miêu tả biến thuộc tính trạng thái (sự kiện) cạnh miêu tả khả phụ thuộc chúng Kết hợp với nút lớp cục cung vẽ từ nút nguyên nhân đến nút bị ảnh hưởng KPDL mạng Bayesian bao gồm việc sử dụng đầu vào tri thức chuyên gia sau 10 Hình 2.1 Sơ đồ so sánh thuật toán Apriori_TID Apriori Kết quả cho thấy giai đoạn đầu Apriori hiệu quả AprioriTid mặt thời gian, nhiên AprioriTid nhanh Apriori giai đoạn sau Lý giai đoạn sau, thuật toán Apriori-TID cần quét tập ứng viên Ck cố định nhớ tạo ra; thuật toán Apriori phải thực lại việc quét xuống sở liệu 2.5.3.4 Ví dụ minh họa thuật toán Apriori-TID CSDL D TID Produces A, B, C, D, E, F, G, H I, A, G, F, B J, C, E, D B, G, A, F, I TID Set-of-Itemsets {{A},{B},{C},{D},{E},{F},{G},{H}} {{I}, {A}, {G}, {F}, {B}} {{J}, {C}, {E}, {D}} {{B}, {G}, {A}, {F}, {I}} 31 E, D, C, I F, C, G, J, D, E C, E, D, F, G, H L1 Itemset Sup {A} C2 Itemset Sup {C, D} {B} {C} {D} {E} {F} {G} {H} {I} {J} {C, E} {C, F} {C, G} {D, E} {D, F} {D, G} {E, F} {E, G} {F, G} {{E}, {D}, {C}, {I}} {{F}, {C}, {G}, {J}, {D}, {E}} {{C}, {E}, {D}, {F}, {G}, {H}} 5 5 2 3 3 3 TID Set-of-Itemsets {{C, D},{C, E}, {D, E}, {F, G}} {{F, G}} {{C, D}, {C, E}, {D, E}} {{F, G}} {{C, D}, {C, E}, {D, E}} {{C, D},{C, E}, {D, E}, {F, G}} {{C, D},{C, E}, {D, E}, {F, G}} TID Set-of-Itemsets {C, D, E} {C, D, E} {C, D, E} {C, D, E} L2 Itemset {C, D} {C, E} {D, E} {F, G} Sup 5 C3 Itemset Sup {C,D,E} L3 Itemset Sup {C, D, E} 2.5.4 Thuật toán Apriori –Hybrid Thuật toán Apriori-Hybrid coi kết hợp thuật toán Apriori thuật toán Apriori-TID Trong thuật toán Apriori-Hybrid, sử dụng tổ chức lặp chuyển sang Apriori-TID chắn tập vào nhớ Thuật toánApriori-Hybrid coi tốt so với Apriori Apriori_TID Nhờ có nhận xét tinh tế thuật toán Apriori chạy nhanh bước đầu tiên, cịn thuật tốn Apriori-TID chạy nhanh bước sau, Agrawal đề nghị phương án lai ghép: không thiết phải chạy tất cả bước thuật toán giống Những bước đầu tiên, ông cho chạy thuật tốn Apriori, sau tập ứng cử viên lớn, chứa đầy nhớ tính tốn, dùng thuật toán Apriori-TID 32 Chương 3- XÂY DỰNG ỨNG DỤNG CHO BÀI TỐN PHÂN TÍCH HÀNH VI MUA SẮM CỦA KHÁCH HÀNG TRONG CÁC SIÊU THỊ 3.1 Thông tin ứng dụng Mục đích ứng dụng: Tìm sản phẩm kết hợp nhằm phục vụ cho chiến lược quảng cáo kinh doanh sản phẩm tạ siêu thị Thông tin kỹ thuật: Ứng dụng cài đặt Microsoft Visual Studio 2010 hệ hành Window Ứng dụng chạy Microsoft Net Framework 4.5 Chạy file Demo\Cong_nghe_tri_thuc_CH1301116.exe để chạy 3.2 Hướng dẫn sử dụng Form hình 33 Hướng dẫn nhập thơng tin sản phẩm Cách 1: nhập liệu hóa đơn mặt hàng vào ô Textbox Sau nhập liệu xong, chọn Button “Thêm” để thêm liệu vào CSDL Các thông tin liệu vừa nhập vào hiển thị vào dataGridView Cách 2: Nhập liệu trực tiếp vào lưới dataGridView 34 Cập nhật thông tin sản phẩm Bước 1: Double Click vào dịng chứa thơng tin sản phẩm cần cập nhật Các thông tin sản phẩm cần cập nhật hiển thị Textbox Bước 2: Sữa thơng tin sản phẩm textbox, sau bấm button “Sửa” Như vậy, thông tin sản phẩm cập nhật Xóa sản phẩm Double Click vào dịng chứa thơng tin sản phẩm cần xóa giống bước phần 3.2.2.4 Sau đó, chọn vào button “Xóa” Chuyển liệu sang dạng ma trận nhị phân Bước 1: Sau kết thúc bước nhập liệu, chọn button “Biểu diễn dạng nhị phân” để chuyển CSDL sang dạng ma trận nhị phân Bước 2: nhập thông tin minsupp (0 < minsupp < 100) minconf (0 < minconf 100) Bước 3: chọn button “Phân tích” để tiến hành phân tích tốn kết quả thu tập phổ biến tập luật kết hợp 35 Phân tích kết tốn CSDL D: bảng 2.1 Minsupp = 50% Minconf = 100% Tập phổ biến thỏa điều kiện minsupp = 50% là: F = F1 F2 F3 Trong đó: F1 = {{dầu gội}, {dầu xả}, {sữa tắm}, {kem đánh răng}, {bàn chải đánh răng}} F2 = {{dầu gội,dầu xả}, {dầu gội,sữa tắm}, {dầu xả,sữa tắm}, {kem đánh răng,bàn chải đánh răng}} F3 = {{dầu gội,dầu xả,dữa tắm}} Luật kết hợp thỏa điều kiện minsupp = 50% minconf = 100% là: R1: dầu gội → dầu xả R2: dầu xả → dầu gội R3: dầu gội → sữa tắm R4: sữa tắm → dầu gội R5: dầu xả → sữa tắm R6: sữa tắm → dầu xả 36 R7: kem đánh → bàn chải đánh R8: bàn chải đánh → kem đánh R9: dầu gội → dầu xả, sữa tắm R10: dầu xả → dầu gội, sữa tắm R11: sữa tắm → dầu gội, dầu xả R12: dầu gội, dầu xả → sữa tắm R13: dầu gội, sữa tắm → dầu xả R14: dầu xả, sữa tắm → dầu gội Các tri thức thu phục vụ cho chiến lược kinh doanh Siêu thị bán gói sản phẩm sau với giá tốt Bán “dầu gội” với “dầu xả” Bán “kem đánh răng” với “bàn chải đánh răng” bán “kem đánh răng” khuyến “bàn chải đánh răng” Bán gói hàng gồm “dầu gội, dầu xả, sữa tắm” Chương - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận Qua trình thực nghiệm nghiên cứu lý thuyết, chuyên đề đạt số kết quả sau: Tìm hiểu tổng quát vấn đề khai phá liệu khám phá tri thức Tìm hiểu phương pháp khai phá liệu tập phổ biến & luật kết hợp Áp dụng vấn đề tìm hiểu vào xây dựng hệ thống phân tích hành vi mua sắm khách hàng hệ thống siêu thị 4.2 Hướng phát triển Trên sở kết quả chuyên đề đạt được, nhận thấy số vấn đề cần tiếp tục nghiên cứu: Xây dựng thêm số tính cần thiết để nâng cấp chương trình hoàn thiện Mở rộng nghiên cứu lý thuyết, tìm hiểu cài đặt phương pháp khai phá liệu khác, đặc biệt triển khai giải toán cụ thể thực tế 37 38 TÀI LIỆU THAM KHẢO [1] Hoàng Văn Kiếm (2014), Slide giảng chuyên đề Công nghệ tri thức ứng dụng, [2] trường Đại học Công nghệ thông tin TP HCM Nguyễn Hồng Tú Anh, Slide giảng mơn Khai thác liệu ứng dụng, trường [3] Đại học Khoa học tự nhiên TP HCM Lê Hoài Bắc (2002), Bài giảng khám phá tri thức khai thác liệu – tìm luật kết [4] [5] hợp theo mục đích người dùng, Đại học Quốc gia TP Hồ Chí Minh Đỗ Phúc, Giáo trình khai mỏ liệu data warehousing, Đại học quốc gia TP HCM Website http://vi.wikipedia.org 39 ... TÍCH HÀNH VI MUA SẮM CỦA KHÁCH HÀNG TRONG CÁC SIÊU THỊ 3.1 Thông tin ứng dụng Mục đích ứng dụng: Tìm sản phẩm kết hợp nhằm phục vụ cho chiến lược quảng cáo kinh doanh sản phẩm tạ siêu thị Thông... lại vi? ??c sinh ứng vi? ?n đếm độ phổ biến ứng vi? ?n cách xét chúng với giao dịch CSDL Vi? ??c sinh ứng vi? ?n (hàm Apriori-gen) sử dụng tính chất apriori để tỉa ứng vi? ?n (dòng 14 - 15), vi? ??c sinh ứng vi? ?n... kết hợp Bài toán giỏ mua hàng siêu thị: Giả định có nhiều mặt hàng, ví dụ “bánh mì”, “bơ”, “sữa”, “trứng”, …(coi tính chất trường) Khách hàng siêu thị bỏ vào giỏ mua hàng họ số mặt hàngnào đó,