Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
2,28 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG MÔNG QUỐC TUẤN lu an n va tn to ie gh NGHIÊN CỨU MƠ HÌNH NGƢỜI SỬ DỤNG MỞ TRONG p CÁC HỆ THỐNG GỢI Ý THÔNG TIN THEO NHU CẦU d oa nl w ll u nf va an lu m oi LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH z at nh z m co l gm @ an Lu THÁI NGUYÊN - 2017 n va ac th si ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG MÔNG QUỐC TUẤN lu an n va NGHIÊN CỨU MƠ HÌNH NGƢỜI SỬ DỤNG MỞ TRONG p ie gh tn to CÁC HỆ THỐNG GỢI Ý THÔNG TIN THEO NHU CẦU oa nl w Chuyên ngành: Khoa học máy tính d Mã số: 60 48 01 01 u nf va an lu ll LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh z @ m co l gm Ngƣời hƣớng dẫn khoa học: TS NGUYỄN VIỆT ANH an Lu THÁI NGUYÊN - 2017 n va ac th si i LỜI CẢM ƠN Luận văn đƣợc hồn thành Trƣờng Đại học Cơng nghệ Thông tin Truyền thông dƣới hƣớng dẫn TS Nguyễn Việt Anh Tác giả xin bày tỏ lịng biết ơn tới thầy giáo thuộc Trƣờng Đại học Công nghệ Thông tin Truyền thông tạo điều kiện giúp đỡ tác giả trình học tập làm luận văn Trƣờng, đặc biệt tác giả xin bày tỏ lòng biết ơn tới TS Nguyễn Việt Anh tận tình hƣớng dẫn cung cấp lu nhiều tài liệu cần thiết để tác giả hồn thành luận văn thời hạn an Xin chân thành cảm ơn anh chị em học viên cao học bạn bè đồng va n nghiệp trao đổi, động viên khích lệ tác giả trình học tập gh tn to làm luận văn Trƣờng Đại học Công nghệ Thông tin Truyền thông – ie Đại học Thái Nguyên p Thái Nguyên, tháng năm 2017 nl w d oa Học viên u nf va an lu Mông Quốc Tuấn ll oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn tơi thực hiện, dƣới hƣớng dẫn khoa học TS Nguyễn Việt Anh, kết lý thuyết đƣợc trình bày luận văn tổng hợp từ kết đƣợc công bố có trích dẫn đầy đủ, số liệu kết chƣơng trình thực nghiệm luận văn đƣợc tác giả thực hoàn toàn trung thực, sai tơi hồn tồn chịu trách nhiệm lu an va n Thái Nguyên, tháng năm 2017 gh tn to p ie Học viên nl w d oa Mông Quốc Tuấn ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC HÌNH v DANH MỤC BẢNG BIỂU VÀ ĐỒ THỊ vi PHẦN MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT CHUNG VỀ HỆ THỐNG GỢI Ý THÔNG lu TIN VÀ THƢƠNG MẠI ĐIỆN TỬ an 1.1 Hệ thống gợi ý thông tin (Recommender Systems) va n 1.1.1 Khái niệm hệ thống gợi ý thông tin to gh tn 1.1.2 Một số ứng dụng hệ thống gợi ý thông tin ie 1.2 Tổng quát chung thƣơng mại điện tử p 1.2.1 Thƣơng mại điện tử ? nl w 1.2.2 Lợi ích TMĐT 10 d oa 1.2.3 Các loại hình ứng dụng TMĐT 11 an lu CHƢƠNG 2: HỌC MÁY VÀ CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ u nf va LIỆU 16 2.1 Tổng quan học máy(Machine learning) 16 ll oi m 2.1.1 Học máy gì? 16 z at nh 2.2 Các dạng học máy thuật toán liên quan 23 2.2.1 Các dạng học máy 23 z 2.2.2 Thuật toán K-Means ứng dụng 26 @ l gm CHƢƠNG 3: MÔ PHỎNG HỆ THỐNG GỢI Ý THÔNG TIN TRONG m co THƢƠNG MẠI ĐIỆN TỬ 34 3.1 Hƣớng tiếp cận kiến trúc hệ thống 34 an Lu 3.1.1 Hƣớng tiếp cận 34 n va ac th si iv 3.1.2 Kiến trúc hệ thống 35 3.2 Thiết kế cài đặt chi tiết thành phần hệ thống 38 3.2.1 Phân nhóm đối tƣợng phƣơng pháp học bán giám sát 38 3.2.2 Huấn luyện mạng nơ ron để xây dựng hàm khoảng cách 43 3.2.3 Đánh giá mức độ hiệu 49 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 54 TÀI LIỆU THAM KHẢO 55 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si v DANH MỤC HÌNH Hình 1.1: Ví dụ giao diện hệ thống thƣơng mại điện tử Hình 1.2: Sơ đồ chu trình hệ thống TMĐT B2C 14 Hình 2.1: Sơ đồ tổng quát học máy 16 Hình 2.2: Sơ đồ lớp trí tuệ nhân tạo 18 Hình 2.3: Mô khái quát phân cụm liệu 20 Hình 2.4: Mơ liệu sau đƣợc phân cụm 22 Hình 2.5: Mơ hình thuật tốn học có giám sát 23 lu Hình 2.6: Mơ tâm cụm đƣợc tính tốn 27 an thuật toán K-Means 27 va n Hình 2.7: Mơ tả thuật tốn K-Means 29 gh tn to Hình 3.1: Gợi gợi ý đối tƣợng tƣơng tự 34 ie Hình 3.2: Sơ đồ luồng hệ thống 35 p Hình 3.3: Mơ hình khoảng cách đến tâm cụm tập liệu mẫu 44 nl w Hình 3.4: Mơ hình mạng nơ ron để huẩn luyện hàm khoảng cách 45 d oa Hình 3.5: Quá trình phân cụm đối tƣợng 48 an lu Hình 3.6: Đánh giá mức độ hiệu 49 u nf va Hình 3.7: Giao diện tổng quan hệ thống truy cập 50 Hình 3.8: Giao diện tổng quan hệ thống trạng thái Online Mode 50 ll oi m Hình 3.9: Giao diện chi tiết sản phẩm truy cập 51 z at nh Hình 3.10: Những sản phẩm tƣơng tự đƣợc gợi ý hệ thống 51 Hình 3.11: Đăng nhập vào Offshore mode hệ thống 52 z Hình 3.12: Tổng quan hệ thống quản lý sản phẩm 52 @ l gm Hình 3.13: Lựa chọn số cụm để phân cụm cho thuật toán K-Means 53 m co Hình 3.14: Chi tiết quản lý thông tin cho sản phẩm 53 an Lu n va ac th si vi DANH MỤC BẢNG BIỂU VÀ ĐỒ THỊ Bảng 1.1: Các loại hình TMĐT 11 Bảng 3.1: Mô tả cấu trúc bảng lƣu trữ hành vi ngƣời sử dụng 37 Bảng 3.2: Ví dụ lƣu trữ hành vi ngƣời sử dụng 38 Bảng 3.3: Các hàm khoảng cách 41 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si PHẦN MỞ ĐẦU Trong xã hội ngày nay, ngƣời cần nắm bắt nhiều thông tin hơn, mà phải nhanh Internet phƣơng tiện quan trọng giúp ngƣời tiếp cận thông tin nhanh Một tác dụng lớn Internet thập kỷ vừa qua Thƣơng mại điện tử Thƣơng mại điện tử đời mở kỉ nguyên thời kì thƣơng mại Internet Một lợi lớn thƣơng mại điện tử khả cung cấp cho khách hàng mối liên hệ linh hoạt lu mang tính cá nhân hóa an Trên quan điểm ngƣời sử dụng ln có xu hƣớng muốn tìm đƣợc va n sản phẩm dịch vụ thích hợp nhu cầu sở thích gh tn to thân, nhƣng thời gian tìm kiếm tốt, với thao tác ie đơn giản tốt Trên quan điểm ngƣời thiết kế hệ thống p nhà cung cấp dịch vụ, vấn đề đặt xây dựng đƣợc nl w chiến lƣợc kinh doanh giải pháp kỹ thuật tích hợp cho việc cung cấp d oa sản phẩm dịch vụ đến cho khách hàng tiềm Các chiến lƣợc an lu kinh doanh tốt giúp mang lại hiệu đầu tƣ tăng lợi nhuận Hai mục u nf va tiêu (của ngƣời sử dụng nhà cung cấp dịch vụ) đạt đƣợc cách cung cấp hỗ trợ cho ngƣời sử dụng việc định ll oi m Tuy vậy, khơng phải hồn tồn website thƣơng mại điện tử z at nh đáp ứng đƣợc tất nhu cầu ngƣời dùng giúp họ tìm kiếm đƣợc xác sản phẩm mà họ cần mua Lƣợng sản phẩm z lớn, khiến ngƣời sử dụng không nhận đƣợc thông tin cần thiết @ l gm họ sử dụng cơng cụ tìm kiếm sản phẩm Phải duyệt qua tất m co kết trình tìm kiếm cơng việc mệt mỏi ngƣời dùng Trong năm gần đây, hệ thống gợi ý (recommender system) đƣợc biết an Lu đến nhƣ phát triển quan trọng việc giúp ngƣời dùng đối mặt n va ac th si với bùng nổ thông tin Hệ thống đƣợc ứng dụng nhiều lĩnh vực nhƣ thƣơng mại điện tử với Amazon, Netflix, Ebay lĩnh vực giải trí với MovieLens, Last.fm, Film-Conseil; lĩnh vực khác nhƣ tin tức trực tuyến Netnews,… Hệ gợi ý (recommender systems) dạng hệ hỗ trợ định, cung cấp giải pháp mang tính cá nhân hóa mà khơng phải trải qua trình tìm kiếm phức tạp Hệ gợi ý học từ khách hàng gợi ý sản phẩm tốt số sản phẩm phù hợp Sự phát triển nhanh chóng lu thƣơng mại điện tử, bùng nổ thơng tin khiến cho việc tìm kiếm sản an phẩm thích hợp để mua khách hàng khó khăn va n Hiện nay, việc áp dụng hệ gợi ý vào website thƣơng mại điện tử gh tn to điều tất yếu nhằm tiết kiệm thời gian, cơng sức chi phí cho khách ie hàng, giúp họ tìm sản phẩm ƣng ý để mua Hệ gợi ý sử dụng tri p thức sản phẩm, tri thức chuyên gia hay tri thức khai phá học nl w đƣợc từ hành vi ngƣời tiêu dùng để đƣa gợi ý sản phẩm mà họ d oa thích hàng ngàn hàng vạn sản phẩm có hệ thống Các website an lu thƣơng mại điện tử, ví dụ nhƣ sách, phim, nhạc, báo, sử dụng hệ thống chọn sản phẩm ll u nf va gợi ý để cung cấp thông tin giúp cho ngƣời sử dụng định lựa oi m Các sản phẩm đƣợc gợi ý dựa số lƣợng sản phẩm đƣợc z at nh bán, dựa thông tin ngƣời sử dụng, dựa phân tích hành vi mua hàng trƣớc ngƣời sử dụng để đƣa dự đoán hành vi z mua hàng tƣơng lai khách hàng Các dạng gợi ý gồm: @ l gm Gợi ý sản phẩm tới ngƣời tiêu dùng, sản phẩm mang tính cá nhân hóa, m co tổng kết ý kiến cộng đồng, cung cấp chia sẻ, phê bình, đánh giá mang tính cộng đồng liên quan tới yêu cầu, mục đích ngƣời sử an Lu dụng n va ac th si 43 Square-Euclidean distance and similarity Please SquareEuclidean note that this distance is not a metric as it doesn't obey the triangle inequality SquareMahalanobis Squared Mahalanobis distance Yule Yule dissimilarity lu Hiển nhiên, với điểm nằm không gian, khoảng cách an Euclid rõ ràng hiệu nhất, nhƣng trƣờng hợp phải cần thêm va n vài thủ thuật cho loại liệu đặc trƣng khác Có nhiều hàm gh tn to khoảng cách phù hợp, việc yêu cầu nhiều kiến thức chun ngành Do đó, tơi nhờ tới trợ giúp Học máy để huấn luyện hàm p ie liên quan tới liệu nl w khoảng cách thích hợp Hơn nữa, tơi có tập liệu đƣợc d oa gán nhãn từ trƣớc an lu Với đối tƣợng, chọn n đặc trƣng có ảnh hƣởng lớn thuộc tính n chiều ll u nf va đến tính chất đối tƣợng n đặc trƣng tạo không gian vector oi m 3.2.2 Huấn luyện mạng nơ ron để xây dựng hàm khoảng cách z at nh Xác định cấu trúc mạng: - Mạng noron đƣợc xây dựng theo phƣơng pháp học có giám sát z Bài tốn lựa chọn mạng Feed-forward lớp với cấu trúc nhƣ sau : @ thuộc tính) m co l gm Số noron lớp đầu vào : n noron (tƣơng ứng với số chiều vector Số noron tầng ẩn: 500 noron Con số 500 đƣợc turning dựa an Lu lần thử sau trình học n va ac th si 44 Số noron tầng đầu ra: noron Tƣơng ứng với khoảng cách đối tƣợng đến cụm thứ k liệu huấn luyện Trong hình dƣới biểu diễn khoảng cách đối tƣợng thứ i tới tâm k cụm đƣợc phân nhóm từ trƣớc Tâm cụm thứ k Cụm lu an Yk n va Y3 tn to Cụm gh Y2 Y p ie Cụm oa nl w Đối tƣợng thứ i d Hình 3.3: Mơ hình khoảng cách đến tâm cụm tập liệu mẫu lu va an Việc huấn luyện cho mạng học vòng lặp duyệt qua lần lƣợt u nf đối tƣợng giúp mạng noron nhớ khoảng cách đến tâm cụm.Với ll vòng lặp, đối tƣợng đƣợc đƣa vào giảng dạy cho mạng noron học oi m z at nh z m co l gm @ an Lu n va ac th si 45 noron đầu ứng giá trị đầu hàm 2n noron đầu vào Input Input lu an Tầng input Tầng output Tầng ẩn 500 noron va n Hình 3.4: Mơ hình mạng nơ ron để huẩn luyện hàm khoảng cách to gh tn Giá trị đầu nơ ron đƣợc cho công thức: n ie yi f (neti i ) neti wij x j p j 1 nl w đó: x1, x2, …xm tín hiệu đầu vào tƣơng ứng với giá trị oa vector thuộc tính cho đối tƣợng, cịn wi1, wi2,…,wim trọng số d kết nối nơron thứ i, neti hàm tổng, f hàm truyền, i ngƣỡng, an lu ll u nf Đầu va yi tín hiệu đầu nơron oi m Thuật toán huấn luyện mạng: Propagation m co l Sử dụng công thức : gm -Lan truyền xuôi đầu vào qua mạng @ Bƣớc 1: z Giải thuật gồm bƣớc : z at nh Mạng feed- forward sử dụng giải thuật lan truyền ngƣợc sai số Back an Lu Cơng thức chung tính đầu noron thứ i lớp thứ L: n va ac th si 46 n yi= f ( w x ij j 0 j -bi) Với f hàm chuyển sigmoid lƣỡng cực đƣợc tính theo cơng thức : f= 1 e t α: hệ số góc hàm chuyển t: biến net-input bi: hệ số ngƣỡng hay độ lệch Áp dụng mô hình mạng chƣơng trình : lu -Cơng thức cho đầu noron thứ i (1500) lớp ẩn an va n n ai= f ( w x j 1 ij j -bi) to gh tn Với wij : trọng số noron thứ i lớp ẩn kết nối với đầu vào thứ j p ie lớp vào w x j : giá trị đầu vào noron thứ j lớp vào oa nl bi : giá trị ngƣỡng hay độ lệch noron thứ i đầu vào d -Công thức cho đầu noron lớp output n va j 1 an lu n y= f( w j a j b )=f [ w j ( f ( j 1 n w x ij j 1 j )] u nf ll Bƣớc : Lan truyền ngƣợc m oi Tính tốn sai lệch đầu thực đầu mong muốn noron z at nh đầu Đây sai số mạng ứng với mẫu học (Xs, Ts): e= t- y z gm @ Nếu e > ε thì: m co lại trọng số vịng lặp L l Thơng tin sai số đƣợc lan truyền ngƣợc qua mạng để điều chỉnh an Lu - Công thức điều chỉnh trọng số với liên kết noron thứ j lớp ẩn noron thứ i lớp lần lặp l+1: (l+1