Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
0,94 MB
Nội dung
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM ĐỒ ÁN TÌM HIỂU CÁC THUẬT TỐN DATA MINING VÀ XÂY DỰNG HỆ THỐNG ĐỀ XUẤT MUA HÀNG CHO NGƯỜI TIÊU DÙNG GIẢNG VIÊN HƯỚNG DẪN Thạc sĩ:Thái Thị Hàn Uyển Sinh viên thực hiện: Hà Thanh Huy-17520568 Chung Nguyễn Trường Duy-17520388 TP Hồ Chí Minh, tháng năm 2021 MỤC LỤC CHƯƠNG I : GIỚI THIỆU CHUNG 1 Lý chọn đề tài Mục đích đề tài Chức dự kiến Đối tượng nghiên cứu CHƯƠNG 2: KIẾN THỨC NỀN TẢNG Giới thiệu Data mining 2 Data mining ? 2 Tại cần Data mining ? 3 Lợi ích Data mining ? Thách thức 4.1 Sự đa dạng không đồng 4.2 Quy mô liệu 4.3 Tốc độ/tính chuyển động liên tục 4.4 Tính xác tin cậy 4.5 Bảo mật 4.6 Sự tương tác 4.7 Kết luận Ứng dụng Data mining 10 Quá trình 12 6.1 Knowledge discovery in database (kdd) 12 6.2 Cross-industry standard process for data mining (crisp-dm) 13 Các phương pháp phổ biến 7.1 Classification analisis 14 14 7.1.1 Giới thiệu 14 7.1.2 Hiệu suất tập liệu 14 7.1.3 Hiệu suất đào tạo 14 7.2 Clustering analisis 15 7.2.1 Giới thiệu 15 7.2.2 Các cụm tính tốn nào? 16 7.2.3 Chấm điểm liệu 16 7.2.4 Phân cụm theo thứ bậc 16 7.3 Association rules analysis 19 7.4 Anomaly / outlier detection analysis 21 7.5 Prediction analysis 22 7.6 Regression analysis 23 7.7 Decision trees technique 24 CHƯƠNG 3: XÂY DỰNG HỆ THỐNG 26 Xây dựng kiến trúc 26 Mô tả chức 26 2.1 Upload liệu 26 2.2 Lấy danh sách sản phẩm gợi ý 26 Danh sách actor 27 Danh sách use case 27 4.1 Use case upload liệu 27 4.2 Use case lấy danh sách sản phẩm gợi ý 28 Thiết kế giao diện 5.1 Giao diện tổng quan 30 5.2 Giao diện upload sản phẩm 30 5.3 Giao diện danh sách sản phẩm gợi ý 31 CHƯƠNG 4: KẾ HOẠCH THỰC HIỆN Quá trình thực 32 32 1.1 Thời gian tổng thể 32 1.2 Thời gian chi tiết 32 Phân công công việc 33 CHƯƠNG 5: THỰC HIỆN 30 Recommend item-based 34 34 1.1 phân tích hàng vi người dùng 34 1.2 Thuật toán 34 1.3 Hiện thực 35 Recommend collaborative user-based 37 2.1 Mục tiêu 37 2.2 Khoảng cách Cosine 37 2.3 Cấu trúc lưu trữ liệu 38 2.4 Hướng xử lý 39 CHƯƠNG 6: KẾT LUẬN,HƯỚNG PHÁT TRIỂN 40 Ưu điểm 40 Nhược điểm 40 Hướng phát triển 40 CHƯƠNG 6: TÀI LIỆU THAM KHẢO 41 LỜI CẢM ƠN Trên thực tế, khơng có thành cơng mà khơng gắn liền với hỗ trợ, giúp đỡ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập giảng đường đại học đến nay, chúng em nhận nhiều quan tâm, giúp đỡ q thầy cơ, gia đình bạn bè Với lịng biết ơn sâu sắc nhất, chúng em xin gửi đến quý thầy cô khoa Công nghệ phần mềm – Trường Đại học Công nghệ thông tin, người với tri thức tâm huyết truyền đạt lại vốn kiến thức quý báu cho chúng em suốt thời gian học tập trường Và đặc biệt, học kỳ này, khoa tổ chức cho em tiếp cận với môn Đồ Án 2, môn học mà theo chúng em hữu ích khoa Công nghệ phần mềm Chúng em xin chân thành cảm ơn Ths Thái Thị Hàn Uyển, người tận tâm hướng dẫn chúng em từ bước góp ý chân thành để chúng em cải thiện đồ án cách tốt Nếu khơng có lời hướng dẫn, dạy bảo chúng em nghĩ đồ án khó mà hồn thành Một lần nữa, chúng em xin chân thành cảm ơn thầy Thành phố Hồ Chí Minh, ngày tháng năm 2021 Hà Thanh Huy Chung Nguyễn Trường Duy Nhận xét giáo viên hướng dẫn ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Tp.HCM, ngày tháng năm 2021 Giáo viên hướng dẫn Th.S Thái Thị Hàn Uyển CHƯƠNG I : GIỚI THIỆU CHUNG Lý chọn đề tài Hiện ,với phát triển mạnh mẽ mạng internet kéo theo phát triển ứng dụng online, số ứng dụng E-Commerce với ứng dụng tiêu biểu Amazon,Alibaba,Tiki,…và toán đặt cho ứng dụng để tăng khả kinh doanh lên cao nữa, giúp khách hàng dễ dàng lựa chọn sản phẩm phù hợp Đó lý hệ thống đề xuất mua hàng đời với sứ mệnh giúp ứng dụng hỗ trợ cho khách hàng lựa chọn sản phẩm tốt với nhu cầu Mục đích đề tài Tạo nhìn trực quan hệ thống hỗ trợ mua hàng nói chung hệ thống đề xuất bán hàng nói riêng Hỗ trợ phần mềm nhỏ có khả tích hợp tính đề xuất sản phẩm giúp tăng khả bán hàng Chức dự kiến Hỗ trợ tải file liệu lên server lưu trữ server Hỗ trợ đề xuất sản phẩm liên quan đến sản phẩm tìm kiếm Hỗ trợ đề xuất sản phẩm mà người dùng có hành vi tương tự tìm kiếm/mua Đối tượng nghiên cứu Người dùng hay mua hàng online • Nhu cầu: tìm kiếm sản phẩm phù hợp với nhu cầu mình(khả tài chính,mẫu mã, ) Các cửa hàng sử dụng phần mềm bán hàng online • Nhu cầu: muốn chào bán sản phẩm mà người dùng có nhiều khả mua CHƯƠNG 2: KIẾN THỨC NỀN TẢNG Giới thiệu Data mining Data mining ? Data mining với Data science hai lĩnh vực công nghệ sử dụng phổ biến Khai phá liệu qui trình mà doanh nghiệp sử dụng để biến liệu thơ thành thơng tin hữu ích Bằng cách dùng phần mềm để tìm mẫu hình tập liệu, doanh nghiệp hiểu khách hàng họ phát triển chiến lược marketing hiệu quả, giúp tăng doanh thu giảm chi phi Quá trình khai phá liệu Data mining diễn với cơng nghệ tính tốn tiên tiến khơng giới hạn việc trích xuất liệu mà sử dụng để chuyển đổi, làm sạch, tích hợp liệu phân tích mẫu Data mining(Khai phá liệu) Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính Mục tiêu tổng thể q trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Ngoài bước phân tích thơ, cịn liên quan tới sở liệu khía cạnh quản lý liệu, xử lý liệu trước, suy xét mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai phá liệu bước phân tích trình "khám phá kiến thức sở liệu" KDD Việc khai phá liệu phụ thuộc vào việc thu thập liệu cách hiệu quả, lưu trữ kho liệu xử lí máy tính 2 Tại cần Data mining ? Số lượng người sử dụng thiết bị thông minh smartphone, tablet hay PC,laptop có kết nối Internet để tìm kiếm thơng tin, giải trí, trị chuyện, mua sắm, toàn giới gia tăng với tốc độ tên lửa Ngoài xuất thuột ngữ I.o.T (Internet of Things) miêu tả kết nối tất thiết bị với Internet, cho phép trao đổi, truyền tải liệu I.o.T hỗ trợ người nhiều lĩnh vực không vấn đề sinh hoạt sống hàng ngày mà công nghiệp, nông nghiệp, bán lẻ đến y tế, xã hội Các công ty ứng dụng công nghệ I.o.T hoạt động kinh doanh, sản xuất với mục dích tìm kiếm hội gia tăng lợi nhuận, phát sớm rủi ro Chính lý mà khối lượng liệu nhu cầu thu thập, phân tích ngày lớn, từ liệu người tiêu dùng, liệu khách hàng đến liệu thị trường, liệu sản xuất, đa dạng, phức tạp Theo tập đồn cơng nghệ Cisco, khối lượng Big Ddia dự báo năm tới hay năm 2019 đạt 500 Zeftabytes năm Nguồn liệu Big Data nguồn lực quan trọng tổ chức ngồi nguồn nhên lực tài Nhưng để tận dụng hiệu liệu để đạt giá trị kinh doanh, sản xuất, Data mining cơng cụ khơng thể thiếu, giúp hiểu tập liệu thể gì, cung cấp thơng tin, kiến thức hữu ích nào, Lợi ích Data mining ? Hãy xem khai thác liệu vấn đề khai thác khoáng sản – bạn phải đào qua lớp vật liệu để khám phá thứ có giá trị cao Các cơng ty khắp lĩnh vực – quy mô, ngành tồn giới – dựa vào để thu thập thơng tin tình báo để sử dụng thứ từ ứng dụng hỗ trợ định cung cấp AI thuật toán học máy cho phát triển sản phẩm, chiến lược tiếp thị mơ hình tài Vấn đề cốt lõi khai thác liệu mơ hình thống kê áp dụng cho hồi quy tuyến tính logistic Kết hợp với phân tích dự đốn, từ Hành động: gửi yêu cầu lấy danh sách sản phẩm gợi ý lên server Kết quả: server xử lý yêu cầu trả liệu danh sách sản phẩm gợi ý theo loại recommend Danh sách actor Máy khách (client) Danh sách use case 4.1 Use case upload liệu Name Upload liệu ID ID_001 Description Máy khách gửi file liệu lên server để training Actors Người sử dụng máy khách (client) Frequency of Use Khi muốn training liệu Thường vài vài ngày Triggers Người sử dụng máy khách (client) chọn upload liệu Pre-conditions Không Post-conditions Không 27 Main Course Hệ thống hiển thị hình “Chọn file” Người sử dụng chọn file liệu muốn gửi loại hình training Server training liệu gửi client danh sách sản phẩm người dùng có liệu 4.2 Use case lấy danh sách sản phẩm gợi ý Name Lấy danh sách sản phẩm gợi ý ID ID_002 Description Máy khách gửi yêu cầu lấy danh sách sản phẩm gợi ý Actors Người sử dụng máy khách (client) Frequency of Use Khi muốn lấy danh sách sản phẩm gợi ý Rất thường xuyên Triggers Người sử dụng máy khách (client) chọn lấy danh sách sản phẩm gợi ý 28 Pre-conditions Có danh sách sản phẩm người dùng liệu Post-conditions Không Main Course Hệ thống hiển thị hình “Chọn sản phẩm người dùng” Người sử dụng chọn sản phẩm người dùng gửi yêu cầu lấy danh sách sản phẩm gợi ý với phương thức tương ứng Server xử lý yêu cầu trả client danh sách sản phẩm gợi ý cho yêu cầu 29 Thiết kế giao diện 5.1 Giao diện tổng quan 5.2 Giao diện upload sản phẩm 30 5.3 Giao diện danh sách sản phẩm gợi ý 31 CHƯƠNG 4: KẾ HOẠCH THỰC HIỆN Quá trình thực 1.1 Thời gian tổng thể Quãng thời gian Công việc 1/9 – 1/10 Tìm hiểu thuật tốn liên quan đến Datamining 2/10 – 1/11 áp dụng thuật toán phù hợp để áp dụng vào đồ án 2/11 – 1/12 Xây dựng đồ án 2/12 – 1/1 Tổng hợp đánh giá hoàn thành báo cáo liên quan 1.2 Thời gian chi tiết Quãng thời Thời gian Công việc gian 1/9 – 1/10 2/10 – 1/11 1/9 – 10/9 Tìm hiểu khái niệm Data Mining 11/9 – 20/9 Tìm hiểu quy trình,thuật ngữ liên quan 20/9 – 1/10 Tìm hiểu sâu thuật tốn 2/10 – 15/10 Tổng hợp,chọn lọc thuật toán cần thiết 15/10 – 1/11 Chọn ngôn ngữ để thực,các thư viện hỗ trợ,công nghệ liên quan 32 2/11- 10/11 2/11 – 1/12 Xây dựng 11/11 – 20/11 Phát triển API backend ngôn ngữ Golang 2/12 – 1/1 21/11 – 1/12 Xây dựng UI trực quan 2/12- 15/12 Tổng hợp đánh giá 16/12 – 1/1 hoàn thành báo cáo liên quan Phân công công việc Tên thành viên Công việc - Xây dựng chức đề xuất sản phẩm tương tự Hà Thanh Huy - Thiết kế giao diện - Xây dựng chức đề xuất sản phẩm từ khách hàng tương tự Chung Nguyễn Trường Duy - Xây dựng giao diện 33 CHƯƠNG 5: THỰC HIỆN Recommend item-based 1.1 phân tích hàng vi người dùng - Khách hàng có nhu cầu mua mặt hàng với mức giá gần nhau(khách hàng có sẵn khoản tiền định để mua hàng) - Khách hàng có xu hướng mua sản phẩm có giảm giá nhiều(tâm lý thắng cuộc) - Khách hàng có xu hướng mua hàng có đặc điểm với nhau(màu sắc,nhãn hiệu) 1.2 Thuật tốn Với liệu có sẵn có thơng tin loại,giá,giảm giá,nhãn hiệu,màu sắc, ta thực thuật toán sau: Với: - Ultility : độ liên quan sản phẩm - RawPrice : giá gốc - CurrentPrice: giá bán có áp dụng giảm giá - CountryCode: nước có bán sản phẩm - Brand : nhãn hiệu - Color : màu sắc sản phẩm 34 - giải thích thuật tốn: Nhằm mục đích tiếp cận sản phẩm có độ chênh lệch giá bán thấp lại có giá trị gốc cao(tức sản phẩm có giảm giá nhiều) Với mục đích chọn sản phẩm có đặc điểm giống với sản phẩm xem(nơi bán,nhãn hiệu,màu sắc) 1.3 Hiện thực Ngơn ngữ thực Golang - Hàm tính tương đồng màu sắc + sản phẩm có nhiều màu sắc ứng với màu giống sản phẩm điểm - Hàm tính tương đồng nhãn hiệu 35 + Với sản phẩm có nhãn hiệu điểm, sản phẩm xem khơng có nhãn hiệu sản phẩm đề xuất điểm - Hàm tính tương đồng quốc giá chào bán + Mỗi sản phẩm có danh sách quốc gia chào bán khác + Với quốc gia giống công điểm - Hàm tính tốn giá 36 + Các sản phẩm có chênh lệch giá gốc cao(đồng biến) giá gần nhau(nghịch biến) điểm cao - hàm cộng hàm tính tốn Recommend collaborative user-based 2.1 Mục tiêu Gợi ý sản phẩm dựa vào tương đồng thói quen mua hàng user 2.2 Khoảng cách Cosine Công thức: Phát biểu: “Tích vơ hướng vector A vector B tích độ lớn vector A vector B với cosine góc tạo vector A vector B” Từ rút ra: 37 Cos góc alpha gọi cosine similarity, cchính độ tương đồng vector A vctor B Giá trị cosine nằm đoạn [1, 1] - Nếu giá trị cosine 1, nghĩa góc hợp vector A vector B độ Tức vector trùng Suy ra, A, B giống - Ngược lại, giá trị cosine tiến -1 A, B khác 2.3 Cấu trúc lưu trữ liệu Sử dung cấu trúc liệu map với key mã sản phẩm mã người dùng, value slice (gần giống mảng) struct với cấu trúc userId itemId tương ứng rating sản phẩm 38 Lợi ích: - Chỉ lưu trữ thông tin sản phẩm người sử dụng đánh giá - Tránh lãng phí tài nguyên lưu sản phẩm chưa đánh giá - Truy xuất sản phẩm user a đánh giá tất user đánh giá sản phẩm cách nhanh chóng 2.4 Hướng xử lý - Xử lý liệu gửi lên từ client: đọc liệu từ file, loại bỏ số liệu rác , khơng đủ thuộc tính, lưu theo cấu trúc liệu - Training liệu: tính khoảng cách cosine user chọn n user có hành vi tương tự với user Sau đó, lưu sản phẩm từ n user vào sản phẩm gợi ý cho user - Lưu trữ model sau training: lưu model training file database để dùng trước có training - Xử lý yêu cầu lấy danh sách sản phẩm: truy xuất userId từ model training để lấy danh sách sản phẩm gợi ý cho user 39 CHƯƠNG 6: KẾT LUẬN,HƯỚNG PHÁT TRIỂN Ưu điểm - Ứng dụng có hình ảnh trực quan dễ hiểu - Có liệu lớn - Dễ dàng hoạt động máy có cấu hình trung bình yếu - Các gợi ý nghiên cứu dựa nhu cầu mua hàng khách hàng thực tế Nhược điểm - Thời gian tính tốn chưa q tối ưu - Các tính thêm cịn hạn chế - Chỉ hoạt động dựa cấu trúc liệu định Hướng phát triển Định hướng phát triển thời gian hỗ trợ đọc trực tiếp từ database 3/2021 tích hợp thêm tính tùy chỉnh cho 5/2021 người dùng ứng dụng vào hệ thống thực tế 7/2021 40 CHƯƠNG 6: TÀI LIỆU THAM KHẢO - https://dnmtechs.com/vi/he-thong-goi-y-recommender-system-la-gi/ - https://towardsdatascience.com/comprehensive-guide-on-item-basedrecommendation-systems-d67e40e2b75d - https://www.sciencedirect.com/science/article/abs/pii/S0020019011000378 - https://insight.isb.edu.vn/data-mining-la-gi-cac-cong-cu-khai-pha-du-lieu/ 41 ... quan hệ "mua với“, người bán mặt hàng quan hệ "bán“ "bán bởi“, mua mặt hàng quan hệ "mua? ?? "mua bởi“, người mua người bán quan hệ "mua từ“ "bán cho? ?? Rõ ràng, mạng liệu có kiểu đối tượng quan hệ khác... Cơng việc 1/9 – 1/10 Tìm hiểu thuật toán liên quan đến Datamining 2/10 – 1/11 áp dụng thuật toán phù hợp để áp dụng vào đồ án 2/11 – 1/12 Xây dựng đồ án 2/12 – 1/1 Tổng hợp đánh giá hoàn thành... bán cấu trúc không đồng Mở rộng ví dụ đơn giản cho trang bán hàng trực tuyến eBay Các liệu gồm kiểu đối tượng khác nhau: mặt hàng, người mua, người bán Các mối quan hệ tồn như: mặt hàng quan hệ