TRƯỜNG ĐẠI HỌC DUY TÂN 2 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN PHAN THỊ NHẬT PHƯƠNG ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ CÔNG TÁC TƯ VẤN MUA HÀNG TẠI CÁC DOANH NGHIỆP VỪA VÀ NHỎ Ở TỈNH KIÊN GIANG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG, 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN PHAN THỊ NHẬT PHƯƠNG ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ CÔNG TÁC TƯ VẤN MUA HÀNG TẠI CÁC DOANH NGHIỆP VỪA VÀ NHỎ Ở TỈNH KIÊN GIANG Chuyên ngành Khoa học máy tính Mã số 8480101 LUẬ.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN PHAN THỊ NHẬT PHƯƠNG ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ CÔNG TÁC TƯ VẤN MUA HÀNG TẠI CÁC DOANH NGHIỆP VỪA VÀ NHỎ Ở TỈNH KIÊN GIANG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG, 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN PHAN THỊ NHẬT PHƯƠNG ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ CÔNG TÁC TƯ VẤN MUA HÀNG TẠI CÁC DOANH NGHIỆP VỪA VÀ NHỎ Ở TỈNH KIÊN GIANG Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS HÀ THỊ NHƯ HẰNG ĐÀ NẴNG, 2021 i LỜI CẢM ƠN Trước tiên tơi xin bày tỏ lịng biêt ơn sâu sắc với cô Hà Thị Như Hằng, người đưa đến với lĩnh vực nghiên cứu Cô tận tình giảng dạy, hướng dẫn giúp tơi tiếp cận đạt thành công công việc nghiên cứu Cơ ln tận tâm động viên, khuyến khích dẫn giúp tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn tới Thầy, Cô thuộc Trường đào tạo Khoa học máy tính (ĐH Duy Tân), Ban Sau đại học cán phòng Đào tạo – Trường Đại học Duy Tân, tạo điều kiện thuận lợi giúp đỡ tơi q trình học tập nghiên cứu Trường Tơi xin cảm ơn tập thể viên chức phịng Xúc tiến Đầu tư, Thương mại Du lịch Ban Giám đốc Trung tâm Xúc tiến Đầu tư, Thương mại Du lịch Kiên Giang nhiệt tình ủng hộ, hết lịng tạo điều kiện giúp đỡ tơi suốt thời gian học tập nghiên cứu Sự động viên, cổ vũ bạn bè nguồn động lực quan trọng để tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn sâu sắc tới gia đình, tạo điểm tựa vừng cho có thành cơng ngày hơm Học viện Phan Thị Nhật Phương ii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu kết nghiên cứu luận văn trung thực không trùng lặp với đề tài khác Học viện Phan Thị Nhật Phương iii MỤC LỤC LỜI CẢM ƠN .i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC HÌNH VẼ .iv 1.1 Tổng quan khai phá liệu 1.2 Quá trình phát tri thức khai phá liệu Hình 1.1 Quá trình khám phá tri thức 1.3 Quá trình khai phá liệu Hình 1.2 Quá trình khám phá liệu 1.4 Loại liệu khai thác 10 Hay nói khác, phân loại học hàm ánh xạ mục liệu vào số lớp cho trước .13 + Hồi quy (Regression): Phương pháp hồi quy khác với phương pháp phân loại liệu chỗ, hồi qui dùng để dự đốn giá trị liên tục cịn phân loại liệu dùng để dự đoán giá trị rời rạc Hồi quy hàm học ánh xạ mục liệu thành biến dự đốn có giá trị thực 13 1.7 Chức khai phá liệu 13 1.8 Lĩnh vực ứng dụng khai phá liệu 14 Hình 1.3 Kỹ thuật Khai phá liệu từ nhiều lĩnh vực .14 1.9 Ứng dụng khai phá liệu .15 1.10 Một số công cụ khai phá liệu (Data Mining Tools) 17 1.11 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu 18 1.12 Những thách thức khai phá liệu 19 1.13 Kết luận 21 2.1 Tổng quan phân lớp liệu khai phá liệu 22 Phân lớp với định (decision tree) .24 Phân lớp với mạng Bayesian 24 Phân lớp với mạng neural 24 Phân loại với k phần tử cận gần (k-nearest neighbor) 25 Phân lớp với suy diễn dựa tình (casebased reasoning) 25 Phân lớp dựa tiến hoá gen (genetic algorithms) 25 Phân lớp với lý thuyết tập thô (rough sets) 25 Phân lớp với lý thuyết tập mờ (fuzzy sets) 25 2.4.1 Các kiểu định 31 Cây hồi quy (Regression tree) ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá ngơi nhà khoảng thời gian bệnh nhân nằm viện) 31 iv Cây phân loại (Classification tree), y biến phân loại như: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) 31 2.4.2 Ưu điểm, nhược điểm định .31 2.5.1 Thuật toán định 32 Phần lớn thuật toán phân lớp liệu dựa định có mã sau [2]: 32 2.7 Xây dựng phần mềm phục vụ cho luận văn 46 2.8 Kết luận chương 49 Chương THIẾT KẾ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM .50 3.1 Giới thiệu mơ hình xây dựng .50 3.2 Giải vấn đề 52 3.3 Mơ tả bước xây dựng mơ hình 54 3.3.1 Thiết kế sở liệu mẫu để phục vụ cho trình xây dựng định 54 3.3.3 Dùng kết phần 3.3.2 tác giả xây dựng phần mềm ứng dụng đánh giá kết xác nhận sản phẩm nước mắm Kiên Giang .59 3.4 Thiết kế giao diện phần mềm 59 3.5 Thử nghiệm .61 3.5.1 Minh họa ứng dụng chức xác nhận 61 3.5.2 Minh họa cho phân lớp “đã xác nhận” cho sản phẩm nước mắm, Phú Quốc, đạt chứng nhận OCOP (xem hình 3.14, hình 3.15) .62 3.5.3 Thử nghiệm .62 KẾT LUẬN 66 DANH MỤC CÁC HÌNH VẼ LỜI CẢM ƠN .i v LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC HÌNH VẼ .iv 1.1 Tổng quan khai phá liệu 1.2 Quá trình phát tri thức khai phá liệu Hình 1.1 Quá trình khám phá tri thức 1.3 Quá trình khai phá liệu Hình 1.2 Quá trình khám phá liệu 1.4 Loại liệu khai thác 10 Hay nói khác, phân loại học hàm ánh xạ mục liệu vào số lớp cho trước .13 + Hồi quy (Regression): Phương pháp hồi quy khác với phương pháp phân loại liệu chỗ, hồi qui dùng để dự đốn giá trị liên tục cịn phân loại liệu dùng để dự đoán giá trị rời rạc Hồi quy hàm học ánh xạ mục liệu thành biến dự đốn có giá trị thực 13 1.7 Chức khai phá liệu 13 1.8 Lĩnh vực ứng dụng khai phá liệu 14 Hình 1.3 Kỹ thuật Khai phá liệu từ nhiều lĩnh vực .14 1.9 Ứng dụng khai phá liệu .15 1.10 Một số công cụ khai phá liệu (Data Mining Tools) 17 1.11 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu 18 1.12 Những thách thức khai phá liệu 19 1.13 Kết luận 21 2.1 Tổng quan phân lớp liệu khai phá liệu 22 Phân lớp với định (decision tree) .24 Phân lớp với mạng Bayesian 24 Phân lớp với mạng neural 24 Phân loại với k phần tử cận gần (k-nearest neighbor) 25 Phân lớp với suy diễn dựa tình (casebased reasoning) 25 Phân lớp dựa tiến hoá gen (genetic algorithms) 25 Phân lớp với lý thuyết tập thô (rough sets) 25 Phân lớp với lý thuyết tập mờ (fuzzy sets) 25 2.4.1 Các kiểu định 31 Cây hồi quy (Regression tree) ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá ngơi nhà khoảng thời gian bệnh nhân nằm viện) 31 Cây phân loại (Classification tree), y biến phân loại như: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) 31 2.4.2 Ưu điểm, nhược điểm định .31 vi 2.5.1 Thuật toán định 32 Phần lớn thuật toán phân lớp liệu dựa định có mã sau [2]: 32 2.7 Xây dựng phần mềm phục vụ cho luận văn 46 2.8 Kết luận chương 49 Chương THIẾT KẾ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM .50 3.1 Giới thiệu mơ hình xây dựng .50 3.2 Giải vấn đề 52 3.3 Mô tả bước xây dựng mô hình 54 3.3.1 Thiết kế sở liệu mẫu để phục vụ cho trình xây dựng định 54 3.3.3 Dùng kết phần 3.3.2 tác giả xây dựng phần mềm ứng dụng đánh giá kết xác nhận sản phẩm nước mắm Kiên Giang .59 3.4 Thiết kế giao diện phần mềm 59 3.5 Thử nghiệm .61 3.5.1 Minh họa ứng dụng chức xác nhận 61 3.5.2 Minh họa cho phân lớp “đã xác nhận” cho sản phẩm nước mắm, Phú Quốc, đạt chứng nhận OCOP (xem hình 3.14, hình 3.15) .62 3.5.3 Thử nghiệm .62 KẾT LUẬN 66 MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, với thay đổi phát triển không ngừng ngành công nghệ thơng tin nói chung ngành cơng nghệ phần cứng, phần mềm, truyền thông hệ thống liệu phục vụ lãnh vực kinh tế - xã hội nói riêng Thì việc thu thập thơng tin nhu cầu lưu trữ thông tin ngày lớn Bên cạnh việc tin học hố cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu Cơ sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lí có nhiều Cơ sở liệu cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật Khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin giới Một vấn đề đặt phải trích chọn thơng tin có ý nghĩa từ tập liệu lớn để từ giải yêu cầu thực tế trợ giúp định, dự đoán,… khai phá liệu (Data mining) đời nhằm giải yêu cầu Kiên Giang tỉnh phía Tây Nam Việt Nam, bốn tỉnh vùng kinh tế trọng điểm vùng Đồng sông Cửu Long, với nhiều tiềm lợi kinh tế phát triển: kinh tế nông - lâm nghiệp; kinh tế biển; công nghiệp chế biến nông - thủy sản; công nghiệp sản xuất vật liệu xây dựng du lịch với nhiều danh lam thắng cảnh di tích lịch sử, văn hố tiêu biểu Tỉnh Kiên Giang có 16 sản phẩm nông nghiệp chủ lực, 14 sản phẩm mạnh, 06 sản phẩm đăng ký bảo hộ sỡ hữu trí tuệ, 50 sản phẩm có nhãn hiệu tập thể (trong có 31 sản phẩm cơng nhận 19 sản phẩm trình xem xét công nhận), 03 làng nghề 13 làng nghề truyền thống, 18 sản phẩm xã, phường sản phẩm năm 2020 (mỗi xã, phường sản phẩm” - tiếng Anh One commune, one product, viết tắt OCOP) Kiên Giang triển khai tổ chức cơng nhận sản phẩm OCOP 50 sản phẩm tiềm Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy tính công nghệ tri thức Nhiều thành tựu nghiên cứu Data mining áp dụng thực tế Data mining có nhiều hướng quan trọng hướng phân lớp liệu (Data Classfication) Phân lớp liệu phương pháp học không giám sát, phân lớp liệu kỹ thuật để khai thác liệu có hiệu Phân lớp liệu ứng dụng nhiều lĩnh vực khác nhau: quản lý cán bộ, dự báo thời tiết, dự đoán lượng tiền tiêu dùng khách hàng v.v… Tuy nhiên, lĩnh vực xúc tiến thương mại, lĩnh vực có khối lượng liệu sản phẩm lớn, cần phân tích để đưa chiến lược phát triển phù hợp thực chưa khai thác có hiệu Bản thân người thực đề tài công tác lĩnh vực xúc tiến (ở cấp độ sở), nên cần phân tích, đánh giá kết sản phẩm Kiên Giang thị trường người tiêu dùng biết đến để từ đề xuất biện pháp nhằm nâng cao chất lượng quảng bá, xúc tiến Đó lý chọn đề tài “Ứng dụng kỹ thuật khai phá liệu nhằm hỗ trợ công tác tư vấn mua hàng doanh nghiệp vừa nhỏ tỉnh Kiên Giang” Qua đề tài việc ứng dụng vào liệu thực tế từ sản phẩm OCOP, sản phẩm công nghiệp nông thôn tiêu biểu, sản phẩm tiềm tỉnh Kiên Giang để đưa tri thức cần thiết cho phận tư vấn giúp doanh nghiệp ...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN PHAN THỊ NHẬT PHƯƠNG ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ CÔNG TÁC TƯ VẤN MUA HÀNG TẠI CÁC DOANH NGHIỆP VỪA VÀ NHỎ Ở TỈNH KIÊN GIANG Chuyên... đề xuất biện pháp nhằm nâng cao chất lượng quảng bá, xúc tiến Đó lý chọn đề tài ? ?Ứng dụng kỹ thuật khai phá liệu nhằm hỗ trợ công tác tư vấn mua hàng doanh nghiệp vừa nhỏ tỉnh Kiên Giang? ?? Qua đề... nghiên cứu 4.1 Đối tư? ??ng nghiên cứu - Các nội dung phát tri thức khai phá liệu; Các kỹ thuật khai phá liệu - Dữ liệu sản phẩm Kiên Giang - Xây dựng phần mềm ứng dụng để dự báo + Sử dụng ngôn ngữ Visual