Tư vấn trong thương mại điện tử dựa trên phân tích mẫu phổ biến từ dữ liệu nhật ký truy cập của khách hàng : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

65 27 0
Tư vấn trong thương mại điện tử dựa trên phân tích mẫu phổ biến từ dữ liệu nhật ký truy cập của khách hàng : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢƠNG THỊ MINH NGỌC TƢ VẤN TRONG THƢƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP CỦA KHÁCH HÀNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢƠNG THỊ MINH NGỌC TƢ VẤN TRONG THƢƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP CỦA KHÁCH HÀNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU Hà Nội – 2015 LỜI CẢM ƠN Để quãng đường này, lời xin gửi lời biết ơn chân thành sâu sắc tới thầy Ts Phan Xuân Hiếu, người thầy, người anh vô nhiệt thành dẫn dắt, truyền nhiệt huyết cho tơi tồn q trình, giúp tơi vững vàng trưởng thành đường nghiên cứu học tập Thời gian qua khoảng kỷ niệm sâu sắc với tôi, học tập tham gia nghiên cứu trường, phịng thí nghiệm cơng nghệ tri thức (KT Lab) Trung tâm Cơng nghệ tích hợp liên ngành Giám sát trường (FIMO) Xin gửi lời cảm ơn tới tất thầy cô bạn học sẵn sàng hỗ trợ giúp đỡ Tôi xin bày tỏ lòng biết ơn chân thành tới Thầy, Cô giáo anh chị bạn môn Hệ thống thông tin, Khoa Công nghệ thông tin, người nhiệt tình giúp tơi mở rộng kiến thức Cơng nghệ thơng tin nói chung Hệ thống thơng tin nói riêng, kiến thức q báu có ích với tơi giai đoạn tương lai Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phịng Đào tạo sau đại học, Đại học Cơng nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt giúp tơi suốt q trình học tập Qua tất tơi gửi đến gia đình thân yêu tình cảm mình, cảm ơn bố mẹ luôn tin tưởng, luôn chỗ dựa vững chắc, cảm ơn anh chị em dành điều kiện để giúp tập trung vào nghiên cứu Hà Nội, ngày 30 tháng 10 năm 2015 Học viên Trƣơng Thị Minh Ngọc LỜI CAM ĐOAN Tơi xin cam đoan nội dung trình bày luận văn tơi tự nghiên cứu tìm hiểu dựa tài liệu tơi trình bày theo ý hiểu thân dƣới hƣớng dẫn trực tiếp Thầy TS Phan Xuân Hiếu Các nội dung nghiên cứu, tìm hiểu kết thực nghiệm hồn tồn trung thực Luận văn tơi chƣa đƣợc cơng bố cơng trình Trong q trình thực luận văn tơi tham khảo đến tài liệu số tác giả, ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả liệt kê mục “DANH MỤC TÀI LIỆU THAM KHẢO” cuối luận văn Học viên Trƣơng Thị Minh Ngọc MỤC LỤC CHƢƠNG KHÁI QUÁT BÀI TOÁN TƢ VẤN SẢN PHẨM THƢƠNG MẠI 1.1 Tổng quan toán tƣ vấn thƣơng mại điện tử 1.2 Các hƣớng tiếp cận mơ hình hệ gợi ý 12 1.3 Thách thức hệ gợi ý 13 1.4 Đánh giá ứng dụng hệ gợi ý 14 1.4.1 Đánh giá hệ gợi ý 14 1.4.2 Thiết kế ứng dụng cho hệ thống gợi ý thực 15 CHƢƠNG LÝ THUYẾT KHAI PHÁ MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP 16 2.1 Những định nghĩa chung tốn tìm mẫu phổ biến luật kết hợp .16 2.2 Những hƣớng tiếp cận khai phá mẫu phổ biến, luật kết hợp 17 2.2.1 Những hƣớng tiếp cận luật kết hợp 17 2.2.2 Những thuật toán 21 2.3 Luật kết hợp hệ gợi ý 23 2.4 Thuật tốn tìm kiếm tập phổ biến luật kết hợp 24 2.4.1 Thuật toán FP-Growth 24 2.4.2 Thuật toán FPClose 28 2.4.3 Thuật toán FIN .29 CHƢƠNG ỨNG DỤNG MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP ĐỂ GỢI Ý SẢN PHẨM TRONG THƢƠNG MẠI ĐIỆN TỬ Ở VIỆT NAM 34 3.1 Bài tốn gợi ý sản phẩm tìm kiếm mẫu phổ biến luật kết hợp .34 3.2 Gợi ý sản phẩm dựa mẫu phổ biến 36 3.3 Gợi ý sản phẩm dựa luật kết hợp 37 3.4 Mô tả liệu .38 3.5 Mô tả hệ thống gợi ý cho ngƣời dùng 40 CHƢƠNG THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ 46 4.1 Kết chạy thuật tốn tìm kiếm tập phổ biến .46 4.2 Kết gợi ý sản phẩm cho ngƣời dùng .51 CHƢƠNG KẾT LUẬN 57 5.1 Những vấn đề đƣợc giải luận văn 57 5.2 Hƣớng hay hƣớng áp dụng cho đề tài luận văn 58 CÁC CƠNG TRÌNH KHOA HỌC VÀ SẢN PHẨM ĐÃ CÔNG BỐ .59 TÀI LIỆU THAM KHẢO .60 DANH MỤC HÌNH VẼ Hình 3.1 Gợi ý Amazon 34 Hình 3.2 Phân bố liệu sản phẩm thu thập đƣợc 39 Hình 3.3 Ví dụ thông tin sản phẩm item 39 Hình 3.4 Ví dụ transaction – lƣợt truy cập ngƣời dùng .40 Hình 3.5 Quy trình giải tốn 41 Hình 3.6 Mơ hình bƣớc tiền xử lý 41 Hình 3.7 Mơ hình bƣớc tìm mẫu phổ biến luật kết hợp 42 Hình 3.8 Định dạng tập phổ biến tìm đƣợc 43 Hình 3.9 Định dạng luật kết hợp tìm đƣợc 43 Hình 3.10 Định dạng đầu tập phổ biến đƣợc đánh mục 43 Hình 3.11 Định dạng đầu phần Y luật đƣợc đánh mục 44 Hình 3.12 Mơ hình bƣớc gợi ý cho ngƣời dùng 44 Hình 4.1 So sánh thời gian chạy thuật tốn 46 Hình 4.2 Thống kê thời gian trung bình chạy thuật tốn 46 Hình 4.3 So sánh nhớ tối đa sử dụng 47 Hình 4.4 Thống kê nhớ tối đa sử dụng thuật toán .47 Hình 4.5 Thống kê số tập phổ biến tìm đƣợc 47 Hình 4.6 Giao diện gợi ý cho ngƣời dùng .53 Hình 4.7 Gợi ý cho ngƣời dùng theo sản phẩm mẹ bé 54 Hình 4.8 Gợi ý cho mặt hàng phụ kiện công nghệ 55 Hình 4.9 Gợi ý cho mặt hàng đồ gia dụng 55 Hình 4.10 Gợi ý cho mặt hàng đồng hồ 56 DANH MỤC TỪ VIẾT TẮT Từ viết tắt CSDL (DB) RS AR FP Giải nghĩa Cơ sở liệu (database) Recommender system Association rule Frequent pattern DANH MỤC TỪ KHÓA Từ khóa Recommender system Association rule Frequent pattern Ngữ nghĩa Hệ gợi ý Luật kết hợp Mẫu phổ biến MỞ ĐẦU Những tác giả đầu ngành mở đầu cho tốn tìm mẫu phổ biến [1] từ năm 1993 Jiawei Han Charu C Aggarwal tổng hợp vấn đề hƣớng tiếp cận, phƣơng pháp thuật toán, dành cho nhiều loại liệu nhiều cơng trình nghiên cứu “Frequent pattern mining” [2] xuất năm 2014 Cho thấy sức hấp dẫn đề tài xong suốt 20 năm qua Ứng dụng cho tốn maketing tìm kiếm mẫu phổ biến tập liệu mua hàng khách, tìm sản phẩm hay đƣợc mua nhất, hay gợi ý xem sản phẩm xem sản phẩm Thử đặt giả thiết nhƣ ngƣời xem nhấp chuột tìm kiếm xem sản phẩm thời trang nhƣ „đầm xòe nơ‟ mà họ quan tâm website, website gợi ý „đầm kim sa nhũ‟ hoặc/và „đầm dự tiệc sang trọng‟ hoặc/và „giầy cao gót dây lịch‟ hoặc/và „ví xách trang nhã‟ với giải thích sản phẩm thƣờng đƣợc nhiều ngƣời dùng khác xem với nhiều lần, nhận thấy ngữ cảnh xem hàng ngƣời dùng muốn tìm kiếm trang phục dự tiệc, gợi ý sản phẩm đồng theo loại sản phẩm phù hợp, gợi đƣợc nhiều liên quan sản phẩm khơng tính đến chúng thuộc chủng loại, nội dung Đặc biệt gợi ý thƣơng mại điện tử Việt Nam, lý để chọn hƣớng tiếp cận tìm tập phổ biến phụ thuộc vào tập liệu thu thập đƣợc từ khách hàng Dữ liệu mà luận văn thu thập đƣợc từ website thƣơng mại Việt Nam, với số lƣợng mặt hàng lên tới 238.000 sản phẩm chủ yếu mặt hàng thời trang, gia dụng, thực phẩm, phụ kiện công nghệ … Hƣớng tiếp cận cũ nhƣ hƣớng lọc nội dung (content-based) dù có kết tốt nhƣng khơng đủ tinh tế để hiểu ngƣời dùng, thƣờng gợi ý đƣợc nhiều sản phẩm số lƣợng sản phẩm liên quan với lớn, mà theo tâm lý ngƣời dùng việc gợi ý nhiều không gây đƣợc kết tốt [3], xem xét gợi ý phù hợp thú vị cho ngƣời dùng vấn đề cần nghiên cứu Những cơng trình đƣợc nghiên cứu cho hệ gợi ý có nhiều bƣớc tiến vƣợt trội, nhiều phƣơng pháp mang lại hiệu cao xu hƣớng nhƣ hƣớng lọc cộng tác (collaborative filtering) dựa vào cộng đồng ngƣời dùng sử dụng liệu đánh giá (rating) họ sản phẩm Nhƣng quay trở áp dụng cho ngƣời dùng Việt Nam với sản phẩm thƣơng mại khó khăn việc thu thập liệu, lý ngƣời dùng Việt Nam thƣờng có thói quen đánh giá (rating) hay bình luận (comment) sản phẩm, kết thực tế thu thập liệu đƣợc từ website thƣơng mại mà luận văn làm thực nghiệm Hơn hành vi chủ yếu ngƣời dùng tìm kiếm thơng tin sản phẩm, hành vi mua trực tuyến dẫn đến khó khăn thu thập khai phá liệu kiểu hành vi này, theo khảo sát Google vào năm 2015 [4] số 73% ngƣời dùng xem hàng có 17% định mua hàng trực tuyến lại thực mua bán ngoại tuyến Ngoài theo trang alexa.com1 trang chuyên thống kê website khắp giới mức độ ngƣời truy cập, số lƣợng tìm kiếm, đánh giá năm 2015 thống kê website thƣơng mại điện tử đứng đầu Việt Nam nhƣ vatgia.com, 5giay.vn, lazada.vn, chotot.vn…có đánh giá rating cho sản phẩm đƣợc mua dùng ngƣời dùng Với hƣớng tìm kiếm tập phổ biến để gợi ý, luận văn có tham khảo trang web thƣơng mại điện tử thành công giới Amazon2 (theo alexa3), dựa tìm luật kết hợp xếp chúng theo độ tin cậy, tìm biến thể khác nhƣ đo độ khơng thích quan hệ ngƣời dùng Điều tùy thuộc vào liệu lấy đƣợc, hay khơng thu đƣợc mức độ xem quan tâm từ rating, hành vi phản hồi ẩn khách hàng, liệu thu thập đƣợc website làm thực nghiệm Với hƣớng ứng dụng tập phổ biến luật kết hợp vào toán gợi ý sản phẩm thƣơng mại, luận văn tìm hiểu nghiên cứu vấn đề liên quan đến khâu xây dựng ứng dụng nhƣ xác định đối tƣợng gợi ý, đối tƣợng liệu thu thập đƣợc từ nhật ký phiên truy cập ngƣời dùng trang thƣơng mại điện tử Việt Nam; khảo sát phƣơng pháp để khai phá mẫu phổ biến luật kết hợp, tìm hiểu vấn đề độ đo, chọn ngƣỡng, khó khăn thách thức triển khai; đến vấn đề đánh giá liệu, chất lƣợng tập phổ biến luật kết hợp, hiển thị gợi ý,… Luận văn tập trung giải khâu thực nghiệm, nhận định vấn đề khó khăn gặp phải nhƣ vấn đề nhớ sử dụng, thời gian chạy, phân hoạch liệu gốc, đánh mục ngƣợc cho tập phổ biến tập luật tìm đƣợc, đƣa gợi ý cho cá nhân ngƣời dùng, đƣa giải thích cho gợi ý Sau tìm phƣơng hƣớng giải quyết, rút học kinh nghiệm có đƣợc Hy vọng từ việc khai thác liệu thực tế áp dụng phƣơng pháp kỹ thuật đƣợc cơng bố nhà nghiên cứu uy tín tồn giới đƣa lại kết có ý nghĩa, đóng góp phần để triển khai ứng dụng thƣơng mại điện tử Việt Nam nói riêng ứng dụng cơng nghệ thơng tin vào đời sống nói chung Luận văn chia nội dung làm năm chƣơng chính: Chƣơng 1: Khái quát toán tƣ vấn sản phẩm thƣơng mại Ở chƣơng mở đầu nêu tổng quan toán gợi ý, hƣớng tiếp cận, phƣơng pháp giải quyết, thách thức đánh giá ứng dụng, đặc biệt cho thƣơng mại điện tử Chƣơng 2: Lý thuyết mẫu phổ biến luật kết hợp Có nội dung nêu định nghĩa chung tốn tìm kiếm tập phổ biến, hƣớng tiếp cận, http://www.alexa.com/topsites/countries/VN www.amazon.com http://www.alexa.com/topsites/category/Top/Shopping ứng dụng phƣơng pháp khai phá tập phổ biến luật kết hợp vào toán gợi ý thƣơng mại Trong cịn nêu chi tiết thuật tốn đƣợc áp dụng luận văn Chƣơng 3: Ứng dụng khai phá mẫu phổ biến để gợi ý sản phẩm đƣợc xem thƣơng mại điện tử Việt Nam Chƣơng chƣơng luận văn phát biểu toán cụ thể mà luận văn cần giải quyết, sau đƣa mơ hình giải toán Chƣơng 4: Thực nghiệm đánh giá Đây phần nêu lên kết đạt đƣợc suốt q trình thực hiện, ngồi cịn đề cập đến khó khăn vấn đề vƣớng mắc phát sinh Sau đánh giá kết đạt đƣợc chi tiết bƣớc thực Chƣơng 5: Kết luận Tổng kết lại nội dung luận văn, đƣa hƣớng hƣớng áp dụng thực tế ... HỌC CÔNG NGHỆ TRƢƠNG THỊ MINH NGỌC TƢ VẤN TRONG THƢƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP CỦA KHÁCH HÀNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông. .. thƣơng mại điện tử Việt Nam Cũng theo báo cáo thƣơng mại điện tử 2014 Việt Nam Cục thƣơng mại công nghệ thông tin –Bộ Công thƣơng [10] đƣa số liệu thống kê đáng ý sàn giao dịch thƣơng mại điện t? ?: ... gợi ý thƣơng mại điện tử Việt Nam, lý để chọn hƣớng tiếp cận tìm tập phổ biến phụ thuộc vào tập liệu thu thập đƣợc từ khách hàng Dữ liệu mà luận văn thu thập đƣợc từ website thƣơng mại Việt Nam,

Ngày đăng: 23/09/2020, 21:29

Tài liệu cùng người dùng

Tài liệu liên quan