Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
1,57 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG MÔNG QUỐC TUẤN NGHIÊN CỨU MÔ HÌNH NGƢỜI SỬ DỤNG MỞ TRONG CÁC HỆ THỐNG GỢI Ý THÔNG TIN THEO NHU CẦU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG MƠNG QUỐC TUẤN NGHIÊN CỨU MƠ HÌNH NGƢỜI SỬ DỤNG MỞ TRONG CÁC HỆ THỐNG GỢI Ý THÔNG TIN THEO NHU CẦU Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS NGUYỄN VIỆT ANH THÁI NGUYÊN - 2017 i LỜI CẢM ƠN Luận văn đƣợc hoàn thành Trƣờng Đại học Công nghệ Thông tin Truyền thông dƣới hƣớng dẫn TS Nguyễn Việt Anh Tác giả xin bày tỏ lịng biết ơn tới thầy giáo thuộc Trƣờng Đại học Công nghệ Thông tin Truyền thông tạo điều kiện giúp đỡ tác giả trình học tập làm luận văn Trƣờng, đặc biệt tác giả xin bày tỏ lòng biết ơn tới TS Nguyễn Việt Anh tận tình hƣớng dẫn cung cấp nhiều tài liệu cần thiết để tác giả hồn thành luận văn thời hạn Xin chân thành cảm ơn anh chị em học viên cao học bạn bè đồng nghiệp trao đổi, động viên khích lệ tác giả trình học tập làm luận văn Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên Thái Nguyên, tháng năm 2017 Học viên Mông Quốc Tuấn ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn tơi thực hiện, dƣới hƣớng dẫn khoa học TS Nguyễn Việt Anh, kết lý thuyết đƣợc trình bày luận văn tổng hợp từ kết đƣợc cơng bố có trích dẫn đầy đủ, số liệu kết chƣơng trình thực nghiệm luận văn đƣợc tác giả thực hồn tồn trung thực, sai tơi hồn tồn chịu trách nhiệm Thái Nguyên, tháng năm 2017 Học viên Mông Quốc Tuấn iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC HÌNH v DANH MỤC BẢNG BIỂU VÀ ĐỒ THỊ vi PHẦN MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT CHUNG VỀ HỆ THỐNG GỢI Ý THÔNG TIN VÀ THƢƠNG MẠI ĐIỆN TỬ 1.1 Hệ thống gợi ý thông tin (Recommender Systems) 1.1.1 Khái niệm hệ thống gợi ý thông tin 1.1.2 Một số ứng dụng hệ thống gợi ý thông tin 1.2 Tổng quát chung thƣơng mại điện tử 1.2.1 Thƣơng mại điện tử ? 1.2.2 Lợi ích TMĐT 10 1.2.3 Các loại hình ứng dụng TMĐT 11 CHƢƠNG 2: HỌC MÁY VÀ CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU 16 2.1 Tổng quan học máy(Machine learning) 16 2.1.1 Học máy gì? 16 2.2 Các dạng học máy thuật toán liên quan 23 2.2.1 Các dạng học máy 23 2.2.2 Thuật toán K-Means ứng dụng 26 CHƢƠNG 3: MÔ PHỎNG HỆ THỐNG GỢI Ý THÔNG TIN TRONG THƢƠNG MẠI ĐIỆN TỬ 34 3.1 Hƣớng tiếp cận kiến trúc hệ thống 34 3.1.1 Hƣớng tiếp cận 34 iv 3.1.2 Kiến trúc hệ thống 35 3.2 Thiết kế cài đặt chi tiết thành phần hệ thống 38 3.2.1 Phân nhóm đối tƣợng phƣơng pháp học bán giám sát 38 3.2.2 Huấn luyện mạng nơ ron để xây dựng hàm khoảng cách 43 3.2.3 Đánh giá mức độ hiệu 49 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 54 TÀI LIỆU THAM KHẢO 55 v DANH MỤC HÌNH Hình 1.1: Ví dụ giao diện hệ thống thƣơng mại điện tử Hình 1.2: Sơ đồ chu trình hệ thống TMĐT B2C 14 Hình 2.1: Sơ đồ tổng quát học máy 16 Hình 2.2: Sơ đồ lớp trí tuệ nhân tạo 18 Hình 2.3: Mơ khái qt phân cụm liệu 20 Hình 2.4: Mơ liệu sau đƣợc phân cụm 22 Hình 2.5: Mơ hình thuật tốn học có giám sát 23 Hình 2.6: Mơ tâm cụm đƣợc tính tốn 27 thuật toán K-Means 27 Hình 2.7: Mơ tả thuật tốn K-Means 29 Hình 3.1: Gợi gợi ý đối tƣợng tƣơng tự 34 Hình 3.2: Sơ đồ luồng hệ thống 35 Hình 3.3: Mơ hình khoảng cách đến tâm cụm tập liệu mẫu 44 Hình 3.4: Mơ hình mạng nơ ron để huẩn luyện hàm khoảng cách 45 Hình 3.5: Quá trình phân cụm đối tƣợng 48 Hình 3.6: Đánh giá mức độ hiệu 49 Hình 3.7: Giao diện tổng quan hệ thống truy cập 50 Hình 3.8: Giao diện tổng quan hệ thống trạng thái Online Mode 50 Hình 3.9: Giao diện chi tiết sản phẩm truy cập 51 Hình 3.10: Những sản phẩm tƣơng tự đƣợc gợi ý hệ thống 51 Hình 3.11: Đăng nhập vào Offshore mode hệ thống 52 Hình 3.12: Tổng quan hệ thống quản lý sản phẩm 52 Hình 3.13: Lựa chọn số cụm để phân cụm cho thuật tốn K-Means 53 Hình 3.14: Chi tiết quản lý thông tin cho sản phẩm 53 vi DANH MỤC BẢNG BIỂU VÀ ĐỒ THỊ Bảng 1.1: Các loại hình TMĐT 11 Bảng 3.1: Mô tả cấu trúc bảng lƣu trữ hành vi ngƣời sử dụng 37 Bảng 3.2: Ví dụ lƣu trữ hành vi ngƣời sử dụng 38 Bảng 3.3: Các hàm khoảng cách 41 PHẦN MỞ ĐẦU Trong xã hội ngày nay, ngƣời cần nắm bắt nhiều thông tin hơn, mà phải nhanh Internet phƣơng tiện quan trọng giúp ngƣời tiếp cận thông tin nhanh Một tác dụng lớn Internet thập kỷ vừa qua Thƣơng mại điện tử Thƣơng mại điện tử đời mở kỉ nguyên thời kì thƣơng mại Internet Một lợi lớn thƣơng mại điện tử khả cung cấp cho khách hàng mối liên hệ linh hoạt mang tính cá nhân hóa Trên quan điểm ngƣời sử dụng ln có xu hƣớng muốn tìm đƣợc sản phẩm dịch vụ thích hợp nhu cầu sở thích thân, nhƣng thời gian tìm kiếm tốt, với thao tác đơn giản tốt Trên quan điểm ngƣời thiết kế hệ thống nhà cung cấp dịch vụ, vấn đề đặt xây dựng đƣợc chiến lƣợc kinh doanh giải pháp kỹ thuật tích hợp cho việc cung cấp sản phẩm dịch vụ đến cho khách hàng tiềm Các chiến lƣợc kinh doanh tốt giúp mang lại hiệu đầu tƣ tăng lợi nhuận Hai mục tiêu (của ngƣời sử dụng nhà cung cấp dịch vụ) đạt đƣợc cách cung cấp hỗ trợ cho ngƣời sử dụng việc định Tuy vậy, hồn tồn website thƣơng mại điện tử đáp ứng đƣợc tất nhu cầu ngƣời dùng giúp họ tìm kiếm đƣợc xác sản phẩm mà họ cần mua Lƣợng sản phẩm lớn, khiến ngƣời sử dụng không nhận đƣợc thông tin cần thiết họ sử dụng công cụ tìm kiếm sản phẩm Phải duyệt qua tất kết trình tìm kiếm công việc mệt mỏi ngƣời dùng Trong năm gần đây, hệ thống gợi ý (recommender system) đƣợc biết đến nhƣ phát triển quan trọng việc giúp ngƣời dùng đối mặt với bùng nổ thông tin Hệ thống đƣợc ứng dụng nhiều lĩnh vực nhƣ thƣơng mại điện tử với Amazon, Netflix, Ebay lĩnh vực giải trí với MovieLens, Last.fm, Film-Conseil; lĩnh vực khác nhƣ tin tức trực tuyến Netnews,… Hệ gợi ý (recommender systems) dạng hệ hỗ trợ định, cung cấp giải pháp mang tính cá nhân hóa mà khơng phải trải qua trình tìm kiếm phức tạp Hệ gợi ý học từ khách hàng gợi ý sản phẩm tốt số sản phẩm phù hợp Sự phát triển nhanh chóng thƣơng mại điện tử, bùng nổ thơng tin khiến cho việc tìm kiếm sản phẩm thích hợp để mua khách hàng khó khăn Hiện nay, việc áp dụng hệ gợi ý vào website thƣơng mại điện tử điều tất yếu nhằm tiết kiệm thời gian, cơng sức chi phí cho khách hàng, giúp họ tìm sản phẩm ƣng ý để mua Hệ gợi ý sử dụng tri thức sản phẩm, tri thức chuyên gia hay tri thức khai phá học đƣợc từ hành vi ngƣời tiêu dùng để đƣa gợi ý sản phẩm mà họ thích hàng ngàn hàng vạn sản phẩm có hệ thống Các website thƣơng mại điện tử, ví dụ nhƣ sách, phim, nhạc, báo, sử dụng hệ thống gợi ý để cung cấp thông tin giúp cho ngƣời sử dụng định lựa chọn sản phẩm Các sản phẩm đƣợc gợi ý dựa số lƣợng sản phẩm đƣợc bán, dựa thông tin ngƣời sử dụng, dựa phân tích hành vi mua hàng trƣớc ngƣời sử dụng để đƣa dự đoán hành vi mua hàng tƣơng lai khách hàng Các dạng gợi ý gồm: Gợi ý sản phẩm tới ngƣời tiêu dùng, sản phẩm mang tính cá nhân hóa, tổng kết ý kiến cộng đồng, cung cấp chia sẻ, phê bình, đánh giá mang tính cộng đồng liên quan tới u cầu, mục đích ngƣời sử dụng 43 Square-Euclidean distance and similarity Please SquareEuclidean note that this distance is not a metric as it doesn't obey the triangle inequality SquareMahalanobis Squared Mahalanobis distance Yule Yule dissimilarity Hiển nhiên, với điểm nằm không gian, khoảng cách Euclid rõ ràng hiệu nhất, nhƣng trƣờng hợp phải cần thêm vài thủ thuật cho loại liệu đặc trƣng khác Có nhiều hàm khoảng cách phù hợp, việc yêu cầu nhiều kiến thức chuyên ngành liên quan tới liệu Do đó, tơi nhờ tới trợ giúp Học máy để huấn luyện hàm khoảng cách thích hợp Hơn nữa, tơi có tập liệu đƣợc gán nhãn từ trƣớc Với đối tƣợng, tơi chọn n đặc trƣng có ảnh hƣởng lớn đến tính chất đối tƣợng n đặc trƣng tạo không gian vector thuộc tính n chiều 3.2.2 Huấn luyện mạng nơ ron để xây dựng hàm khoảng cách Xác định cấu trúc mạng: - Mạng noron đƣợc xây dựng theo phƣơng pháp học có giám sát Bài tốn lựa chọn mạng Feed-forward lớp với cấu trúc nhƣ sau : Số noron lớp đầu vào : n noron (tƣơng ứng với số chiều vector thuộc tính) Số noron tầng ẩn: 500 noron Con số 500 đƣợc turning dựa lần thử sau trình học 44 Số noron tầng đầu ra: noron Tƣơng ứng với khoảng cách đối tƣợng đến cụm thứ k liệu huấn luyện Trong hình dƣới biểu diễn khoảng cách đối tƣợng thứ i tới tâm k cụm đƣợc phân nhóm từ trƣớc Tâm cụm thứ k Cụm Yk Y3 Cụm Y2 Y Cụm Đối tƣợng thứ i Hình 3.3: Mơ hình khoảng cách đến tâm cụm tập liệu mẫu Việc huấn luyện cho mạng học vòng lặp duyệt qua lần lƣợt đối tƣợng giúp mạng noron nhớ khoảng cách đến tâm cụm.Với vòng lặp, đối tƣợng đƣợc đƣa vào giảng dạy cho mạng noron học 45 noron đầu ứng giá trị đầu hàm 2n noron đầu vào Input Input Tầng input Tầng output Tầng ẩn 500 noron Hình 3.4: Mơ hình mạng nơ ron để huẩn luyện hàm khoảng cách Giá trị đầu nơ ron đƣợc cho công thức: n yi f (neti i ) neti wij x j j 1 đó: x1, x2, …xm tín hiệu đầu vào tƣơng ứng với giá trị vector thuộc tính cho đối tƣợng, cịn wi1, wi2,…,wim trọng số kết nối nơron thứ i, neti hàm tổng, f hàm truyền, i ngƣỡng, yi tín hiệu đầu nơron Đầu Thuật toán huấn luyện mạng: Mạng feed- forward sử dụng giải thuật lan truyền ngƣợc sai số Back Propagation Giải thuật gồm bƣớc : Bƣớc 1: -Lan truyền xuôi đầu vào qua mạng Sử dụng cơng thức : Cơng thức chung tính đầu noron thứ i lớp thứ L: 46 n yi= f ( w x ij j 0 j -bi) Với f hàm chuyển sigmoid lƣỡng cực đƣợc tính theo cơng thức : f= 1 e t α: hệ số góc hàm chuyển t: biến net-input bi: hệ số ngƣỡng hay độ lệch Áp dụng mơ hình mạng chƣơng trình : -Công thức cho đầu noron thứ i (1500) lớp ẩn n ai= f ( w x j 1 ij j -bi) Với wij : trọng số noron thứ i lớp ẩn kết nối với đầu vào thứ j lớp vào x j : giá trị đầu vào noron thứ j lớp vào bi : giá trị ngƣỡng hay độ lệch noron thứ i đầu vào -Công thức cho đầu noron lớp output n n j 1 j 1 y= f( w j a j b )=f [ w j ( f ( n w x j 1 ij j )] Bƣớc : Lan truyền ngƣợc Tính tốn sai lệch đầu thực đầu mong muốn noron đầu Đây sai số mạng ứng với mẫu học (Xs, Ts): e= t- y Nếu e > ε thì: Thơng tin sai số đƣợc lan truyền ngƣợc qua mạng để điều chỉnh lại trọng số vịng lặp L - Cơng thức điều chỉnh trọng số với liên kết noron thứ j lớp ẩn noron thứ i lớp lần lặp l+1: (l+1