1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC

72 703 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 5,65 MB

Nội dung

MỤC LỤC LỜI NÓI ĐẦU Trong thời đại ngày nay, Internet phát triển rộng lớn khắp toàn cầu, với bùng nổ ngành Công nghệ thông tin điều kiện phát triển nó, cơng nghệ lưu trữ liệu phục hồi liệu ngày phát triển nhanh chóng tạo điều kiện cho đơn vị thu thập liệu nhiều tốt Chính lý mà sở liệu quan, doanh nghiệp, đơn vị ngày nhiều thông tin tiềm ẩn, phong phú đa dạng; đặc biệt lĩnh vực kinh doanh hàng hoá, doanh nghiệp nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, sử dụng tri thức chiết xuất từ sở liệu để phục vụ cho việc hoạch định kế hoạch kinh doanh thương trường giai đoạn Trước điều kiện yêu cầu đặt thị trường, đỏi hỏi phải có phương pháp nhanh, phù hợp, tự động, xác có hiệu để lấy thơng tin có giá trị Khai phá liệu kỹ thuật áp dụng hiệu phục vụ cho mục đích này; khâu trình khám phá tri thức, khai phá liệu làm nhiệm vụ trích xuất thơng tin có giá trị tiềm ẩn, có nhiều ý nghĩa kho liệu; nay, kỹ thuật áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: y tế, marketing, ngân hàng, viễn thông,…Không phủ nhận lợi ích, hiệu to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại Nhận thấy tầm quan trọng vấn đề này, đồ án em nghiên cứu kỹ thuật khai phá liệu, tập trung sâu nghiên cứu lĩnh vực tìm luật kết hợp khai phá liệu với mục đích dựa kết bán hàng siêu thị, công ty mà cụ thể liệu bán hàng để tìm mối liên hệ mặt hàng, tìm mặt hàng thường mua khách hàng Từ cung cấp thêm thơng tin hoạt động kinh doanh hàng hố, thói quen, nhu cầu mua hàng khách hàng cho nhà quản lý, lãnh đạo; giúp họ có thông tin cần thiết, quan trọng; giảm bớt thời gian tìm hiểu, phân tích thị trường, có sở tin cậy, xác giúp ích vịêc hoạch định kế hoạch kinh doanh thuận lợi, mang lại hiệu kinh tế cao Em xin chân thành cảm ơn thầy giáo hướng dẫn PGS.TS tận tình hướng dẫn, bảo, giúp đỡ cho em trình làm đồ án cảm ơn bạn có ý kiến đóng góp bổ ích em hồn thành đồ án tốt nghiệp CHƯƠNG TỔNG QUAN Khai phá liệu Khai phá liệu q trình khai thác thơng tin tiềm ẩn có tính dự đốn, thơng tin có nhiều ý nghĩa từ sở liệu lớn, coi bước q trình khám phá tri thức (Knowledge Discovery in Databases – KDD) Khai phá liệu giai đoạn quan trọng tiến trình khám phá tri thức từ sở liệu, tri thức có nhiều ý nghĩa, sở hỗ trợ việc định khoa học kinh doanh Các bước trình khám phá tri thức: - Làm liệu (Data cleaning): loại bỏ liệu nhiễu liệu khơng thích hợp - Tích hợp liệu (Data Intergration): Tích hợp liệu từ nguồn khác sở liệu (CSDL), kho liệu, file text, - Trích chọn liệu (data selection): trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu (database, data warehouses,…) theo số tiêu chí định - Biến đổi liệu (data transformation): chuẩn hoá làm mịn liệu, đưa liệu dạng thuận lợi nhất, phù hợp cho việc khai phá cách thực thao tác nhóm tập hợp - Khai phá liệu (data mining): giai đoạn thiết yếu, bước quan trọng tốn nhiều thời gian toàn trình khám phá tri thức, bước áp dụng kỹ thuật khai phá để khai thác, trích xuất thơng tin có ích, mẫu điển hình, mối liên hệ đặc biệt có nhiều giá trị, mang nhiều ý nghĩa từ liệu - Đánh giá mẫu (Pattern Evaluation): đánh giá hữu ích mẫu biểu diễn tri thức dựa vào số phép đo - Trình diễn liệu (knowledge presentation): sử dụng kỹ thuật trình diễn trực quan hố liệu để biểu diễn tri thức khai phá cho người sử dụng Hình 1.1: Các bước trình khám phá trí thức Khai phá liệu lĩnh vực liên quan tới nhiều ngành học khác như: hệ Cơ sở liệu, thống kê, trực quan hoá Tuỳ vào cách tiếp cận sử dụng, khai phá liệu còn áp dụng số kỹ thuật mạng nơron, lý thuyết tập thô tập mờ, biểu diễn tri thức, So với phương pháp này, khai phá liệu có số ưu rõ rệt, cụ thể:  Phương pháp hệ chuyên gia: phương pháp khác với khai phá liệu chỗ ví dụ hệ chuyên gia thường mức chất lượng cao nhiều so với liệu sở liệu chúng thường bao hàm trường hợp quan trọng Ngoài ra, chuyên gia sẽ xác nhận giá trị tính hữu ích mẫu phát  So sánh với phương pháp học máy, khai phá liệu có lợi chỗ, khai phá liệu sử dụng với sở liệu chứa nhiều nhiễu, liệu không đầy đủ biến đổi liên tục Trong đó, phương pháp học máy chủ yếu áp dụng sở liệu đầy đủ, biến động tập liệu không lớn  Phương pháp thống kê tảng lý thuyết Khai phá liệu phương pháp thống kê còn tồn số điểm yếu mà Khai phá liệu khắc phục được:  Các phương pháp thống kê chuẩn không phù hợp với kiểu liệu có cấu trúc nhiều sở liệu  Các phương pháp thống kê hoạt động hoàn tồn theo liệu, khơng sử dụng tri thức sẵn có lĩnh vực  Kết phân tích thống kê sẽ nhiều khó làm rõ  Phương pháp thống kê còn có hướng dẫn người dùng để xác định phân tích liệu đâu Các kỹ thuật khai phá liệu chia làm nhóm chính: - Kỹ thuật khai phá liệu mơ tả: mơ tả tính chất đặc tính chung liệu CSDL, kỹ thuật gồm có: phân cụm (clustering), tóm tắt (sumerization), trực quan hố (visualization), phân tích phát triển độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules),… - Kỹ thuật khai phá liệu dự đoán: đưa dự đoán dựa vào suy diễn liệu thời, kỹ thuật gồm có: phân lớp (classification), hồi quy (regression),… Các tốn khai phá liệu: tốn thơng dụng phổ biến là: - Bài toán phân lớp liệu hồi quy: Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm bước: xây dựng mơ hình sử dụng mơ hình để phân lớp + Xây dựng mơ hình: mơ hình sẽ xây dựng việc phân tích mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các mẫu liệu còn gọi tập liệu huấn luyện Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp còn gọi học có giám sát, khác với phân cụm liệu học khơng có giám sát + Sử dụng mơ hình để phân lớp liệu: trước hết ta tính tốn độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sẽ sử dụng để dự đốn nhãn lớp cho mẫu liệu khác tương lai Phương pháp hồi quy khác với phân lớp liệu chỗ, hồi quy dùng để dự đoán giá trị liên tục còn phân lớp liệu dùng để dự đoán giá trị rời rạc - Bài tốn phân cụm (clustering): Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc lớp tương đồng còn đối tượng thuộc cụm khác sẽ không tương đồng Phân cụm liệu ví dụ phương pháp học khơng giám sát Không giống phân lớp liệu, phân cụm liệu không đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learing by example) Với phương pháp ta biết kết cụm thu sẽ bắt đầu trình, ln cần chun gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, phân loại trang Web,…Ngoài ra, phân cụm liệu còn sử dụng bước tiền xử lý cho thuật toán khai phá liệu khác - Bài toán luật kết hợp: dạng biểu diễn tri thức dạng đơn giản, mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm được, ví dụ: “75% khách hàng mua bánh mì mua thêm sữa, 30% giao dịch có mua bánh mì sữa” Ở đây, “mua bánh mì” vế trái luật, “mua thêm sữa” vế phải luật, số 75% độ tin cậy luật, số 30% độ hỗ trợ luật Độ hỗ trợ độ tin cậy độ đo đặc trưng quan trọng luật Chúng tương ứng phản ánh hữu ích chắn luật khám phá Độ hỗ trợ 30% có nghĩa 30% tất giao dịch phân tích bánh mì sữa mua Độ tin cậy 75% có nghĩa 75% khách hàng mua bánh mì mua sữa Ngồi còn số toán khác như: - Bài toán khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian - Bài tốn mơ tả khái niệm (concept description & summarization): tập trung vào việc mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn bản, mơ tả khái niệm,… Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu mang lại Những ứng dụng điển hình khai phá liệu:  Phân tích liệu hỗ trợ định (data analysis and decision support)  Text mining & Webmining: phân lớp văn trang Web, tóm tắt văn bản, tìm kiếm thơng tin,…  Tin - sinh: tìm kiếm, đối sánh quan hệ gen thông tin di truyền, mối liên hệ số hệ gen số bệnh di truyền,…  Điều trị y học (medical treatment): mối liên hệ triệu chứng, chẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc men, …)  Tài thị trường chứng khốn (finance & stock market): phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán,… Những ứng dụng thực tế: + Ngành bảo hiểm y tế Australia dựa vào việc chẩn đoán bệnh y tế dựa kết xét nghiệm phát nhiều trường hợp xét nghiệm không hợp lý, tiết kiệm triệu USD/năm + Trang Web mua bán qua mạng Amazon.com tăng doanh thu nhờ áp dụng khái phá liệu việc phân tích sở thích mua bán khách hàng + Bitish Telecom phát nhóm người thường xuyên gọi cho mobile thu lợi hàng triệu USD Luật kết hợp Được đưa Agrawal vào năm 1993 Nó mơ hình khai phá liệu quan trọng nghiên cứu cách rộng rãi sở liệu Phân tích luật kết hợp phương pháp khai phá liệu, nhiệm vụ phương pháp phân tích liệu sở liệu nhằm phát đưa mối liên hệ giá trị liệu, cụ thể tìm tần số mẫu, mối kết hợp, tương quan hay cấu trúc nhân tập đối tượng sở liệu giao tác, sở liệu quan hệ kho thông tin khác, kết thu tập luật kết hợp Tính hiểu luật kết hợp: dễ hiểu Tính sử dụng luật kết hợp: cung cấp thơng tin thiết thực Tính hiệu luật: có thuật tốn khai thác hiệu Phương pháp sử dụng cho phân tích giỏ hàng siêu thị để tìm mặt hàng mua khách hàng mối liên hệ chúng Một số hướng tiếp cận khai thác luật kết hợp: lĩnh vực khai thác luật kết hợp nghiên cứu phát triển theo nhiều hướng khác Một số hướng quan tâm như: - Luật kết hợp nhị phân (binary association rule): hướng nghiên cứu luật kết hợp Theo dạng luật kết hợp items quan tâm có hay khơng xuất sở liệu giao dịch, không quan tâm mức độ hay tần suất xuất Thuật toán tiêu biểu cho khai phá theo dạng luật thuật toán Apriori - Luật kết hợp có thuộc tính số thuộc tính hạng mục (quantitative & categorial association rule): sở liệu thực tế thường có thuộc tính đa dạng nhị phân, số,…chứ không quán dạng Vì vậy, để khai thác luật kết hợp với sở liệu này, nhà nghiên cứu đề xuất số phương pháp rời rạc hoá nhằm chuyển dạng luật dạng nhị phân để áp dụng thuật tốn có - Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set): tìm kiếm luật kết hợp dựa lý thuyết tập thô 10 - Ràng buộc nội dung luật: tạo câu truy vấn dựa ràng buộc (Ng, et al., SIGMOD’98) + sum(LHS) < 100 ^ min(LHS) > 20 ^ count(LHS) > ^ sum(RHS) > 1000  Ràng buộc 1-biến ràng buộc 2-biến (Lakshmanan, et al SIGMOD’99): - 1-biến: Ràng buộc hạn chế bên (L/R) luật, ví dụ: sum(LHS) < 100 ^ min(LHS) > 20 ^ count(LHS) > ^ sum(RHS) > 1000 - 2-biến: Ràng buộc hạn chế hai bên (L R) luật, ví dụ: sum(LHS) < min(RHS) ^ max(RHS) < 5* sum(LHS) 8.8 Hướng nghiên cứu lý thú Phân tích mối kết hợp dạng liệu khác: liệu không gian, liệu đa phương tiện, liệu thời gian thực,… CHƯƠNG THIẾT KẾ, XÂY DỰNG CHƯƠNG TRÌNH PHÂN TÍCH KẾT QUẢ BÁN HÀNG 58 Cài đặt thuật toán Thuật tốn cài đặt chương trình thuật tốn Apriori, nội dung thuật tốn trình bày chương trước, chương thể cách cài đặt thuật tốn, ngơn ngữ sử dụng VC++.NET ,thuật toán xây dựng theo lớp, lớp có file: file có (.h) file có (.cpp), cụ thể có lớp: tzObject: lớp sở, xây dựng với phương thức ảo chính: compare (so sánh), clone(sao chép), key (tạo khố cho object) List (lớp danh sách): gồm có cấu trúc ListNode định nghĩa sau: typedef struct listnode ListNode; struct listnode { tzObject *object; struct listnode *next; struct listnode *prev; }; trỏ đầu cuối danh sách: listnode *head; listnode *tail; Và phương thức chính: add (thêm vào danh sách), remove (xoá khỏi danh sách), get (lấy giá trị phần tử danh sách biết index), indexOf(lấy index phần tử danh sách), clone (sao chép danh sách), size (lấy kích thước danh sách), set (thiết lập giá trị cho phần tử danh sách),… ItemSet (lớp Item): kế thừa từ lớp tzObject, lớp có phương thức giống với lớp List ( giống phép toán còn cách thức khác nhau) thêm vào tập, xoá phần tử khỏi tập, lấy giá trị biết index, lấy index 59 phần tử,…thì còn có phương thức khác xây dựng riêng lớp: concat (nối tập item), compare (so sánh tập item), left (lấy phần tử tập item từ bên trái), sub (lấy phần tử tập từ vị trí đến vị trí khác), subtract (bỏ tập tập Item), support (tính độ hỗ trợ tập Item),… HashTree (xâydựng HashTree): cấu trúc HashNode định nghĩa sau: /* node in the hash tree*/ typedef struct hashnode HashNode; struct hashnode { int nodetype; /* nodetype L=leaf, N=non-terminal node*/ union { List *largeset; /*corresponding to a leaf node*/ HashNode *tab[TABLE_SIZE]; /*corresponding to a non-tem node, each bucket points to another node*/ } vp; }; Các phương thức chính: hash (chia tập item theo mức), newnode (tạo nút mới), freenode (giải phóng nút), insert (đưa nút vào HashTree), subset (tăng đếm tập giao dịch có HashTree), scan (duyệt cây) apriori: chức chủ yếu lớp tìm tập item phổ biến, phương thức chính: FindLargeItemSets (tìm tập item phổ biến (lớn nhất)), selfjoin (bản thân tập item tự kết nối vơi nó), prune (tỉa, bỏ tập item không thoả mãn tính chất tập item phổ biến ), join (kết nối tập item),… association: lớp có nhiệm vụ tạo luật kết hợp 60 Thiết kế, xây dựng chương trình phân tích kết bán hàng 2.1 Chuẩn hoá liệu Dữ liệu chạy chương trình liệu bán hàng cơng ty máy tính DTIC năm 2003, 2004 Dữ liệu lưu trữ CSDL dạng bảng, mặt hàng bán lưu trữ cột, hoá đơn tương ứng với mặt hàng bán có cột riêng, để thuận tiện áp dụng chạy thuật toán Apriori với liệu thực, trước hết ta biến đổi liệu dạng liệu mẫu bảng Bảng liệu có nhiều cột, có cột Hố đơn (lưu Id Hoá đơn), cột Vật tư (lưu tên mặt hàng bán tương ứng với Hố đơn) Hình 3.1: CSDL đươc ch̉n hố Sau biến đổi liệu dạng số, thay tên mặt hàng cột Vật tư Id Vật tư Dữ liệu sau biến đổi sau: 61 Hình 3.2: CSDL đươc chuẩn hoá Sau đưa liệu dạng mẫu, ta tiếp tục lọc liệu để có liệu tinh gọn Ta nhận thấy hố đơn có mặt hàng khơng quan trọng luật kết hợp mà ta xây dựng muốn tìm mặt hàng thường mua hố đơn Chính ta thực lọc liệu, loại bỏ hoá đơn có mặt hàng, liệu ta còn lại hố đơn có từ mặt hàng trở lên Các mặt hàng bán lưu bảng liệu nhiều, có nhiều mặt hàng giá trị thấp, đưa mặt hàng vào luật giá trị luật thu sẽ khơng thực hiệu quả, ta thực loại bỏ mặt hàng có giá trị thấp, khơng có nhiều ý nghĩa sản xuất, kinh doanh, giữ lại mặt hàng có nhiều giá trị, mang lại nhiều lợi ích kinh tế để khai thác, đưa chúng vào trình tạo luật để luật mà ta thu thực luật có giá trị Do ta xây dựng thêm bảng liệu lưu trữ mặt hàng có giá trị thấp để phục vụ cho trình lọc liệu cần thiết cho việc khai phá Mặc dù liệu đưa dạng chuẩn song ta nhận thấy thực tế với cương vị người quản lý, lãnh đạo công ty, người ta thường xem xét, đánh giá tình hình hoạt động cơng ty theo tháng, quý theo thời gian họ xác định cần thiết, theo dõi lượng 62 khách mua hàng cơng ty theo nhóm, ví dụ: khách quen, khách cá nhân, khách tập thể, khách nước ngồi, khách mua qua mạng,…để qua nắm bắt thói quen, quy luật, nhu cầu tiêu dùng nhóm khách hàng đồng thời có sở đắn để định hoạt động kinh doanh công ty Từ thực tế này, chương trình xây dựng cho phép người dùng thực lọc liệu theo tháng quý phân loại nhóm khách hàng (tuỳ theo yêu cầu người chủ công ty) Nếu lựa chọn lọc, sau lọc liệu theo tiêu chí cần thiết, liệu ta thu sẽ có kích thước nhỏ hơn, có nhiều ý nghĩa hơn, giúp cho thời gian chạy chương trình nhanh ta chạy chương trình với liệu để tìm luật 2.2 Thiết kế giao diện, xây dựng chức chương trình Giao diện chính chương trình Hình 3.3: Giao diện form tiền xử lý liệu: từ xuống dưới, từ trái sang phải, ta có: comboBox cho ta chọn năm (chọn liệu thuộc năm đó), 63 comboBox bên cạnh cho phép người dùng chọn nhóm khách hàng muốn quan tâm sâu vào loại khách hàng Nhóm options phía cho phép ta chọn lọc liệu theo thời gian Tháng, Quý khoảng thời gian người dùng xác định; command Biến đổi liệu thực biến đổi liệu dạng (hoá đơn, vật tư), kết ta ghi vào bảng file text, thực nút lệnh ta cần nhập tên file để ghi liệu ra, kết thể DatagridView, cột vật tư tên mặt hàng, ta tiếp tục biến đổi để lấy Id mặt hàng, sau lọc liệu bỏ hố đơn có mơt mặt hàng Nút lệnh “Cập nhật SPGTT” cho phép ta cập nhật mặt hàng có giá trị thấp, khơng có nhiều ý nghĩa, khơng cần thiết phải đưa vào trình khai phá Hình 3.4: Giao diện của form xử lý dữ liệu Những liệu biến đổi được lưu dạng: dạng bảng sở liệu dạng file text Form tìm luật kết hợp: command góc bên phải form cho phép ta lấy liệu đầu vào, liệu lấy từ file text, ô TextBox 64 bên cạnh thể tên file chọn Hai comboBox phía cho phép người dùng chọn độ hỗ trợ độ tin cậy Command “Mining” thực tìm luật kết hợp từ liệu chọn, kết thể RichTextBox, kết dạng Id mặt hàng, để tiện lợi ta chọn nút command “Result” để có kết luật mặt hàng thể tên mình, kết thể hình Cuối ta có luật cần tìm Khi nhập liệu, kết đưa vào thể hình dạng: liệu dạng bảng liệu file text thể RichTextBox (a) Sau chọn thông số độ hỗ trợ độ tin cậy để tìm luật, luật tìm được thể hình Tab “Tồn luật tìm được” thể tất luật tìm được, thay thể Id vật tư, thể tên Vật tư 65 (b) (c) Trong tab “Tồn luật tìm được” ta thấy luật thu có luật thể mặt hàng có độ hỗ trợ giống nhau, để 66 luật thu có nhiều ý nghĩa, thực loại bỏ luật lặp lại mặt hàng giống với luật trước có độ tin cậy thấp hơn, giữ lại luật có mặt hàng mà có độ tin cậy cao nhất, Tab “Luật kết hợp chọn lọc” thể luật chọn lọc có nhiều ý nghĩa (d) Hình 3.5 (a, b, c, d): Giao diện của form thể hiện nội dung luật kết hơp Để xem thêm cách chi tiết thông tin mặt hàng luật, ta đặt chuột vào luật để biết thêm mặt hàng thuộc hoá đơn nào, số lượng, giá bao nhiêu? Những nhóm khách hàng mua hàng? Một DataGridView thể hố đơn có chứa mặt hàng luật, chi tiết hoá đơn thể hình Nội dung luật thể hình, có diễn giải giá trị số đặc trưng cho luật Đặt chuột vào hoá đơn sẽ cho ta thông tin chi tiết mặt hàng hố đơn có mặt luật Thực vậy, số lượng luật thu theo giải pháp gồm luật có giá trị cao Đây tri thức chiết xuất 67 trình khai thác Vấn đề đặt phải ứng dụng hiệu luật vào sản xuất kinh doanh sống dựa vào đặc điểm tính chất ứng dụng luật ứng với luật tập luật Để giải vấn đề ta sử dụng giải pháp tối ưu hoá ứng dụng luật Việc sử dụng hàm đánh giá để xem xét tiền đề, kết luật đạt tập luật, giai đoạn mang tính tư quan trọng ta ứng dụng thực tế Từ ghi nhận đến ghi nhận tính ứng dụng cho luật, trình tốn nhiều thời gian, song kết đạt sẽ hữu ích cho lãnh đạo hoạch định kế hoạch sản xuất, kinh doanh thời gian tới Tính ứng dụng tri thức chiết xuất sẽ giúp cho lãnh đạo thấy mặt hàng thường mua khách hàng, từ tìm hiểu nắm bắt thói quen, thị hiếu người tiêu dùng đồng thời sẽ thúc đẩy nhà lãnh đạo, quản lý theo dõi số lượng, giá mặt hàng bán chạy thời gian trước để làm sở đóng góp vào kế hoạch kinh doanh thời gian tới Ngoài ra, tri thức giúp ích nhà lãnh đạo việc bố trí, xếp, kinh doanh mặt hàng quầy nào, tổ chức xếp quầy gần để có doanh thu phiên giao dịch lớn Hơn nữa, áp dụng tri thức để dự đoán số lượng mặt hàng bán chạy thời gian tới Tổng hợp tri thức này, lãnh đạo lên kế hoạch hoạt động, sản xuất, kinh doanh cách thuận tiện nhằm giảm bớt thời gian phân tích, tổng hợp, thống kê, tìm hiểu thị trường, Với tính ứng dụng khai thác luật kết hợp sở liệu giao dịch, không vậy, kết khai thác sẽ lưu trữ sở liệu tri thức để phục vụ cho mục đích xây dựng hệ chuyên gia sau 68 KẾT LUẬN Từ phân tích cho ta thấy rõ ý nghĩa, tầm quan trọng kỹ thuật khai phá liệu luật kết hợp, tiện tích, hiệu có ý nghĩa lớn, cung cấp cho nhà quản lý thơng tin quan trọng, cần thiết; giảm bớt thời gian tiết kiệm cơng sức tìm hiểu thị trường; sở cho nhà quản lý hoạch định kế hoạch kinh doanh, sản xuất thuận lợi mang lại hiệu kinh tế cao Trong thời gian nghiên cứu, tìm hiểu nội dung mà đề tài đạt là: - Nắm bắt đưa nội dung khái quát nhất, nhất, nêu bật ý nghĩa, tầm quan trọng luật kết hợp khai phá liệu - Trình bày tương đối đầt đủ, chi tiết thuật toán từ đơn giản đến phức tạp để tìm luật kết hợp - Cài đặt thuật toán Apriori, chạy thuật toán Apriori với liệu thực, cụ thể kết bán hàng công ty DTIC - Thiết kế, xây dựng chương trình ứng dụng phân tích kết bán hàng dựa việc tìm luật kết hợp từ hố đơn bán hàng - Phân tích, đánh giá kết tìm khả ứng dụng luật thực tế - Đưa báo cáo luật thu thông tin chi tiết hố đơn mặt hàng có liên quan Những kết đạt chức hệ thống, để có chương trình chạy tốt, hiệu hệ thống cần có thời gian chỉnh sửa, bổ sung, hoàn thiện cách chi tiết đầy đủ Hướng phát triển: thuật tốn để tìm luật kết hợp mặc kết tốt thời gian chạy chương trình chua nhanh, nhiều phép tính tốn, hướng phát triển đề tài nghiên 69 cứu, tìm hiểu cải tiến thuật tốn để tìm luật kết hợp nhanh chóng, làm giảm phép tính tốn, tăng hiệu thực hiện, giảm bớt thời gian chạy chương trình Việc cải tiến thực khía cạnh: Cải tiến cấu trúc nhằm lưu trữ liệu thích hợp cho thuật toán Cải tiến cách thực thi thuật toán sở song song hố dựa phát triển cơng nghệ chế tạo Ngồi ra, để phát triển, nghiên cứu, tìm hiểu, khai thác sâu luật kết hợp, ta tiếp tục phát triển, nghiên cứu luật nhiều mức, luật Boolean luật định lượng, luật chiều nhiều chiều, luật cấp nhiều cấp, ràng buộc luật, Ngồi phân tích mối kết hợp dạng liệu khác liệu không gian, liệu đa phương tiện, liệu thời gian thực,…Tiếp tục theo hướng ta có tri thức phong phú hơn, sâu sắc hơn, có nhìn rộng luật kết hợp từ biết cách vận dụng cách hiệu phát huy tối đa vai trò luật kết hợp sản xuất đời sống 70 TÀI LIỆU THAM KHẢO Anthony K.H Tung, Hongjun Lu, Jiawei Han, Ling Feng; Breaking the Barrier of Transactions: Mining Tnter-Transaction Association Rules; Simon Fraser University, BritishvColumbia, Canada {khtung, han}@cs.sfu.ca; The Honh Kong University of Science an Technology, Hong Kong, China, luhj@cs.ust.hk; The Hong Kong Polytectnic University, Hong Kong, China cslfeng@comp.polyu.edu.kh Byung-Hoon Park and Hillol Kargupta; Distributed Data Mining: Algoriths, Sestems… – Department of Computer Science and Electrical Engineering Universty of Margland Baltimore County 1000 Hillol Cricle Baltimore, MD 21250 Data Mining Algorithms Journal, 2002 Data mining Concepts and techniques http://www.cs.uh.edu/~ceick/6340/grue-assoc.pdf Karthich Rajamani, Alan Cox, Bala Iyer, Atul Chadla; Effcient Mining for Association Rules with Relational Database Systems; Dept of Elec And Comp Engg., Rice University, karthich@rice.edu; Dept of Computer Science, Rice University, alc@rice.edu; IBM Santa Teresa Labs balaiyer@us.ibm.com; IBM Santa Teresa Labs achadha@us.ibm.com Ming-Syan Chen, Jiawei*, Philip S Yu; Data Mining: An Overview from Database Perspective; Elect Eng Department National Taiwan Univ IBM T.J Watson Res Ctr P.O.Box 704 Yorktown, NY 10598, U.S.A M J Zaki Scalable algorithms for association mining IEEE Transactions on Knowledge and Data Engineering, to appear, 2000 71 Principles_of_data_mining 10 Rekesh Arawal, Ramakrishnan Srikant*; Fast Algorithms for Mining Association, IBM Almadem Research Center 650 Harry Road, San Jose, CA 95120 11 Rekesh Agrawal, Tomasz Imielinski, and Arun N.Swami; Mining Association Rules Between Sets of Items in Large Databases, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207-216, Washington, D.C., May 1993 12 R.Agrawal, H.Mannila, R.Srikant, H.Toivonen, and A.Inkeri Verkamo Fast discovery of association rules In U Fayyad and et al, editors, Advances in Knowledge Discovery and Data Mining, pages 307–328 AAAI Press, Menlo Park, CA, 1996 13 R J Bayardo Efficiently mining long patterns from databases In ACM SIGMOD Conf Management of Data, June 1998 14 S Brin, R Motwani, J Ullman, and S Tsur Dynamic itemset counting data In ACM SIGMOD Conf Management of Data, May 1997 15 Transactions on Knowledge and Data Engineering, to appear, 2000 M J.Zaki and M.Ogihara Theoretical foundations of association rules In 3rd ACM SIGMOD Workshop onResearch Issues in Data Mining and Knowledge Discovery, June 1998 72 ... hướng dẫn, bảo, giúp đỡ cho em trình làm đồ án cảm ơn bạn có ý kiến đóng góp bổ ích em hồn thành đồ án tốt nghiệp CHƯƠNG TỔNG QUAN Khai phá liệu Khai phá liệu q trình khai thác thơng tin tiềm... pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm bước: xây dựng mơ hình sử dụng mơ hình để phân lớp + Xây dựng mơ hình: mơ hình sẽ xây dựng việc phân tích mẫu... Tiến trình tiếp tục khơng có tập phổ biến tìm thấy Một số thuật tốn tìm luật kết hợp Thuật toán AIS Thuật toán SETM Thuật toán Apriori Thuật toán AprioriTid Thuật toán AprioriHybrid Thuật toán

Ngày đăng: 23/05/2014, 14:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Byung-Hoon Park and Hillol Kargupta; Distributed Data Mining:Algoriths, Sestems… – Department of Computer Science and Electrical Engineering Universty of Margland Baltimore County 1000 Hillol Cricle Baltimore, MD 21250 Sách, tạp chí
Tiêu đề: Byung-Hoon Park" and "Hillol Kargupta
6. Karthich Rajamani, Alan Cox, Bala Iyer, Atul Chadla; Effcient Mining for Association Rules with Relational Database Systems; Dept. of Elec.And Comp. Engg., Rice University, karthich@rice.edu; Dept of Computer Science, Rice University, alc@rice.edu; IBM Santa Teresa Labs balaiyer@us.ibm.com; IBM Santa Teresa Labs achadha@us.ibm.com Sách, tạp chí
Tiêu đề: Karthich Rajamani, Alan Cox, Bala Iyer, Atul Chadla
7. Ming-Syan Chen, Jiawei*, Philip S. Yu; Data Mining: An Overview from Database Perspective; Elect. Eng. Department National Taiwan Univ. IBM T.J. Watson Res. Ctr. P.O.Box 704 Yorktown, NY 10598, U.S.A Sách, tạp chí
Tiêu đề: Ming-Syan Chen, Jiawei*, Philip S. Yu
8. M. J. Zaki. Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, to appear, 2000 Sách, tạp chí
Tiêu đề: IEEETransactions onKnowledge and Data Engineering
10. Rekesh Arawal, Ramakrishnan Srikant*; Fast Algorithms for Mining Association, IBM Almadem Research Center 650 Harry Road, San Jose, CA 95120 Sách, tạp chí
Tiêu đề: Rekesh Arawal, Ramakrishnan Srikant*
11. Rekesh Agrawal, Tomasz Imielinski, and Arun N.Swami; Mining Association Rules Between Sets of Items in Large Databases, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp. 207-216, Washington, D.C., May 1993 Sách, tạp chí
Tiêu đề: Rekesh Agrawal, Tomasz Imielinski, and Arun N.Swami
12. R.Agrawal, H.Mannila, R.Srikant, H.Toivonen, and A.Inkeri Verkamo.Fast discovery of association rules. In U. Fayyad and et al, editors, Advances in Knowledge Discovery and Data Mining, pages 307–328.AAAI Press, Menlo Park, CA, 1996 Sách, tạp chí
Tiêu đề: Advances in Knowledge Discovery and Data Mining
13. R. J. Bayardo. Efficiently mining long patterns from databases. In ACM SIGMOD Conf. Management of Data, June 1998 Sách, tạp chí
Tiêu đề: ACMSIGMOD Conf. Management of Data
14. S. Brin, R. Motwani, J. Ullman, and S. Tsur. Dynamic itemset counting data. In ACM SIGMOD Conf. Management of Data, May 1997 Sách, tạp chí
Tiêu đề: ACM SIGMOD Conf. Management of Data
15. Transactions on Knowledge and Data Engineering, to appear, 2000. M.J.Zaki and M.Ogihara. Theoretical foundations of association rules. In 3rd ACM SIGMOD Workshop onResearch Issues in Data Mining and Knowledge Discovery, June 1998 Sách, tạp chí
Tiêu đề: 3rdACM SIGMOD Workshop onResearch Issues in Data Mining andKnowledge Discovery
4. Data mining Concepts and techniques &lt;Jiawei Han and Micheline Kamber&gt Khác
9. Principles_of_data_mining &lt;David Hand, Heikki Mannila, and Padhraic Smyth&gt Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Các bước trong quá trình khám phá trí thức - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 1.1 Các bước trong quá trình khám phá trí thức (Trang 5)
Hình 2.1: Ví dụ về thuật toán AIS - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.1 Ví dụ về thuật toán AIS (Trang 16)
Hình 2.2: Ví dụ về thuật toán SETM - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.2 Ví dụ về thuật toán SETM (Trang 18)
Hình 2.4:  Ví dụ tìm tập phổ biến với thuật toán Apriori - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.4 Ví dụ tìm tập phổ biến với thuật toán Apriori (Trang 23)
Hình 2.6: Cấu trúc hash bucket - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.6 Cấu trúc hash bucket (Trang 31)
Hình 2.8: Tạo cây sử dụng hash function (hash on 1, 4 or 7) - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.8 Tạo cây sử dụng hash function (hash on 1, 4 or 7) (Trang 32)
Hình 2.14: Phép toán tập con sử dụng Hash Tree - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.14 Phép toán tập con sử dụng Hash Tree (Trang 35)
Hình 2.15: Ví dụ về thuật toán AprioriTid - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.15 Ví dụ về thuật toán AprioriTid (Trang 38)
Hình 2.17: lấy giao của 2 tập items để tính độ hỗ trơ - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.17 lấy giao của 2 tập items để tính độ hỗ trơ (Trang 41)
Hình 2.21: cây FP điều kiện - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.21 cây FP điều kiện (Trang 45)
Hình 2.22 (a,b,c,d,e): Ví dụ về song song hoá thuật toán Apriori - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.22 (a,b,c,d,e): Ví dụ về song song hoá thuật toán Apriori (Trang 48)
Hình 2.24: Ví dụ về song song hoá thuật toán FP-Growth - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.24 Ví dụ về song song hoá thuật toán FP-Growth (Trang 50)
Hình 2.26: Tìm mối liên hệ từ cây phân cấp - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 2.26 Tìm mối liên hệ từ cây phân cấp (Trang 55)
Hình 3.2: CSDL đươc chuẩn hoá - Báo cáo đồ án tốt nghiệp thiết kế, xây dựng chương trình xử lý kết quả bán hàng của công ty DTIC
Hình 3.2 CSDL đươc chuẩn hoá (Trang 62)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w