1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và ứng dụng kỹ thuật SVD vào hệ thống gợi ý

26 850 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 670,58 KB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -  - PHẠM HOÀNG TRƯƠNG NGHIÊN CỨU VÀ ỨNG DỤNG KỸ THUẬT SVD VÀO HỆ THỐNG GỢI Ý Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS.NGUYỄN VĂN HIỆU Phản biện 1: PGS.TS VÕ TRUNG HÙNG Phản biện 2: TS PHẠM VĂN VIỆT Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ KHOA HỌC MÁY TÍNH họp Trường Đại học Bách khoa vào ngày 16 tháng 06 năm 2018 Có thể tìm hiểu luận văn tại:  Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa  Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa - ĐHĐN MỞ ĐẦU Lý chọn đề tài Du lịch từ lâu ghi nhận sở thích, hoạt động nghỉ ngơi tích cực người Ngày nay, du lịch trở thành tượng kinh tế - xã hội phổ biến toàn giới, xem nhu cầu thiếu người coi tiêu chuẩn để đánh giá chất lượng sống Nhận thức xu trên, ngành du lịch Quảng Ngãi với nhiều cố gắng thành góp phần đáng kể vào nghiệp phát triển du lịch chung quốc gia Đến với Quảng Ngãi, cảm nhận nắng gió vùng đất miền Trung với bờ biển dài tuyệt đẹp chiều dài lịch sử với di tích lịch sử tiếng Hình ảnh thu hút khơng du khách nước phải lần đặt chân đến mảnh đất Vì vậy, để tìm cho điểm du lịch phù hợp du khách cần lời khuyên trường hợp May thay, hệ thống gợi ý (Recommender system - RS) thông tin phù hợp số thông tin khổng lồ chưa có trật tự, sử dụng kỹ thuật lọc để chọn loại thông tin đặc trưng nhằm hiển thị phần tử phù hợp với sở thích người dùng, hệ thống có tích hợp tính gợi ý thu hút người dùng hài lòng tin cậy Một số hệ thống gợi ý Amazon, Netflix, IDMb, Youtube, Last.fm, MovieLens,… tăng số lượng khách truy cập nhờ vào tính hỗ trợ định hệ thống Các kĩ thuật lọc RS thường phân thành nhóm: lọc dựa nội dung (content - based filtering, dựa user profile), lọc cộng tác (collaborative filtering – CF, dựa liệu đánh giá khứ user), lai ghép (hybrid, kết hợp hai phương pháp trên) lọc khơng cá nhân hóa (non-personalization) Trong đó, bật sử dụng nhiều kỹ thuật lọc cộng tác đơn giản việc thu thập thông tin (user, item feedback) Ưu điểm lọc cộng tác hoạt động tốt trường hợp thiếu hụt thơng tin đối tượng, đưa gợi ý mà không cần thông tin hồ sơ người dùng (user profile) Chất lượng hệ thống gợi ý cộng tác phụ thuộc vào độ đo tương tự việc lựa chọn tập láng giềng Tuy nhiên hạn chế CF vấn đề liệu thưa, khả mở rộng thiếu liệu đánh giá, hệ thống chưa đưa gợi ý tốt Để hệ thống gợi ý đưa dự đốn xác người ta sử dụng phương pháp phân tích giá trị đơn SVD (Singular Value Decomposition) vào hệ thống gợi ý Giải thuật SVD Golub Kahan giới thiệu năm 1965, công cụ phân rã ma trận hiệu sử dụng để giảm hạng (hay số chiều) ma trận Kỹ thuật áp dụng vào nhiều toán xử lý văn khác tóm tắt văn bản, phát chép, lập mục truy vấn SVD cho phép phân tích ma trận phức tạp thành ba ma trận thành phần Mục đích nhằm đưa việc giải toán liên quan đến ma trận lớn, phức tạp toán nhỏ Vì vậy, ta áp dụng kỹ thuật SVD vào hệ thống gợi ý để hệ thống gợi ý dự đốn xác, phục vụ tốt số toán gợi ý thực tế, giúp người dùng đưa định xác Với lý đó, định lựa chọn luận văn tốt nghiệp với đề tài “Nghiên cứu ứng dụng kỹ thuật SVD vào hệ thống gợi ý” để hệ thống gợi ý hỗ trợ người dùng dễ dàng tìm thấy địa điểm du lịch phù hợp với họ, giúp người dùng đưa định xác Mục tiêu nhiệm vụ đề tài 2.1 Mục tiêu - Xây dựng mơ hình gợi ý sử dụng phương pháp SVD - Ứng dụng mơ hình đề xuất để xây dựng hệ thống gợi ý 2.2 Nhiệm vụ Để hệ thống đạt mục tiêu đề ra, đề tài tiến hành giải nhiệm vụ sau: - Tìm hiểu hệ thống du lịch Quảng Ngãi - Nghiên cứu, tìm hiểu kỹ thuật SVD - Đề xuất mơ hình gợi ý sử dụng kỹ thuật SVD - Phân tích thiết kế hệ thống gợi ý địa điểm du lịch sử dụng kỹ thuật SVD - Xây dựng đánh giá hệ thống gợi ý Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu - Kỹ thuật SVD (Singular Value Decomposition) - Hệ thống gợi ý (Recommender system - RS) - Hệ thống Du lịch Quảng Ngãi 3.2 Phạm vi nghiên cứu - Tập trung vào phương pháp SVD hướng cải tiến chúng - Ứng dụng cho hệ thống gợi ý tra cứu địa điểm du lịch phạm vi tỉnh Quảng Ngãi đưa lên Internet Phương pháp nghiên cứu Trong luận văn sử dụng phương pháp sau: - Tìm hiểu thực tế, tổng hợp thống kê liệu du lịch Quảng Ngãi - Kỹ thuật phân rã ma trận (matrix factorization – MF) - Kỹ thuật SVD (Singular Value Decomposition) - Phương pháp đánh giá Ý nghĩa khoa học thực tiễn đề tài - Ý nghĩa khoa học:  Đề xuất mơ hình gợi ý sử dụng kỹ thuật SVD  Đề tài nghiên cứu trường hợp riêng kỹ thuật SVD  Góp phần vào cơng nghiên cứu phát triển ứng dụng thông minh - Ý nghĩa thực tiễn:  Ứng dụng triển khai tới người dùng, giúp tiết kiệm thời gian, chi phí tạo tiện dụng tối đa cho người dùng Bố cục luận văn Ngoài phần mở đầu kết luận, nội dung đề tài chia thành 03 chương: Chương – Tổng quan du lịch Quảng Ngãi hệ thống gợi ý Chương – Các kỹ thuật phân rã Chương – Xây dựng hệ thống gợi ý đánh giá Chương - TỔNG QUAN DU LỊCH QUẢNG NGÃI VÀ HỆ THỐNG GỢI Ý Trong chương này, trình bày lý thuyết du lịch, điểm du lịch, giới thiệu du lịch Quảng Ngãi, khái niệm hệ thống gợi ý, nêu bật tầm quan trọng điểm du lịch giá trị sở liệu hệ thống gợi ý, đồng thời phân tích số website có chức tương tự Chương sở lý luận cho chương 1.1 TỔNG QUAN VỀ DU LỊCH QUẢNG NGÃI Du lịch hành động rời khỏi nơi cư trú để đến nơi khác, môi trường khác thời gian ngắn nhằm mục đích tìm hiểu, khám phá, vui chơi, giải trí, nghỉ dưỡng Điểm du lịch phạm vi cụ thể chứa đựng nguồn lực tự nhiên hay nhân tạo với mục đích thu hút thỏa mãn nhiều nhu cầu nghỉ ngơi, vui chơi, tham quan … khách du lịch Tỉnh Quảng Ngãi có đường bờ biển kéo dài từ An Tân đến Sa Huỳnh nên có nhiều bãi tắm đẹp Mỹ Khê, Sa Huỳnh Khe Hai, Lệ Thủy, Minh Tân Quảng Ngãi với 23 di tích lịch sử văn hóa di tích danh nhân quốc gia có Quảng Ngãi có 100 di tích cấp tỉnh bước lập hồ sơ đề nghị Bộ Văn hóa thơng tin cơng nhận nhằm bảo tồn phát huy giá trị Hệ thống thông tin Quảng Ngãi có trang Website hỗ trợ đạt tour, hệ thống tra cứu trực tuyến Các hệ thống góp phần quảng bá, cung cấp thơng tin đến với du khách gần xa Tuy nhiên hệ thống thiếu hỗ trợ, cung cấp đánh giá giới thiệu quảng bá nhiều hạn chế Hiện nay, Việt Nam, có nhiều website cung cấp thông tin du lịch Tuy nhiên, hầu hết website thuộc vào hai dạng đây: Các trang bán tour trực tuyến: Các website cung cấp thông tin giá tour, giá vé, giá khách sạn, hành trình tour…, có thiết kế giao diện đẹp mắt, thuận tiện cho người dùng, nội dung tour du lịch đầy đủ, chi tiết, phạm vi điểm du lịch rộng lớn nước Tuy nhiên, thông tin điểm du lịch sơ sài, thấy tour giá rẻ mà không thấy tour ưa chuộng, không thấy thái độ khách điểm du lịch tour Cẩm nang du lịch: So với trang bán tour trực tuyến website tập trung trình bày nhiều điểm đến điểm du lịch, cung cấp thơng tin chùm điểm du lịch, ẩm thực, văn hóa… Như vậy, website du lịch Việt Nam chủ yếu tập trung hỗ trợ công việc đặt tour, bán tour cho đơn vị lữ hành Phạm vi điểm đến điểm du lịch giới thiệu website du lịch rộng lớn, nước, nước châu lục khác nhau, mạnh du lịch nhiên tạo nhược điểm lớn: liệu, thông tin cho điểm đến hay điểm du lịch thường đầy đủ hồn thiện Do đó, luận văn đề xuất phạm vi nội dung tập trung vào khu vực cụ thể Quảng Ngãi, vùng đất du lịch tiềm chưa khai thác hiệu Từ đây, việc xây dựng website nhằm thu thập thông tin đánh giá số địa điểm du lịch Quảng Ngãi làm CSDL cho hệ thống gợi ý địa điểm du lịch vô cần thiết 1.2 CÁC PHƯƠNG PHÁP GỢI Ý Có nhiều cách để gợi ý, ước lượng hạng/điểm cho sản phẩm sử dụng học máy, lý thuyết xấp xỉ, thuật toán dựa kinh nghiệm… hệ thống gợi ý thường phân ba loại dựa cách dùng để ước lượng hạng sản phẩm: - Dựa nội dung (content-based): người dùng gợi ý sản phẩm tương tự sản phẩm họ đánh giá cao - Cộng tác (collaborative): người dùng gợi ý sản phẩm mà người sở thích với họ đánh giá cao - Lai ghép (hybrid): kết hợp phương pháp dựa 1.2.1 Phương pháp gợi ý dựa nội dung Phương pháp gợi ý dựa vào nội có điểm mạnh sau: phương pháp không yêu cầu số lượng người dùng lớn; dự vào thơng tin có sẵn để thực gợi ý sản phẩm Tuy nhiên, phương pháp chứa dãy nhược điểm sau: tập trung chuyên ngành; vấn đề trích chọn đặc trưng 1.2.2 Phương pháp gợi ý dựa lọc cộng tác Hệ tư vấn dựa lọc cộng tác phân chia thành hai nhóm: - Nhóm dựa nhớ - Nhóm dựa mơ hình Phương pháp gợi ý dựa vào lọc cộng tác có ưu điểm: việc tính tốn tương đối đơn giản, nhanh chóng hiệu trình gợi ý Tuy nhiên, phương pháp tồn nhược điểm sau: Vấn đề người dùng (New User Problem); vấn đề sản phẩm (New Item Problem); vấn đề liệu thưa (Sparsity Data Problem) 1.2.3 Phương pháp gợi ý lai Một hệ thống lai kết hợp kỹ thuật lọc nội dung lọc cộng tác cố gắng sử dụng ưu điểm kỹ thuật Với hai (hoặc hơn) kỹ thuật gợi ý bản, số cách đề xuất cho việc kết hợp chúng để tạo hệ thống lai 1.3 HỆ THỐNG GỢI Ý 1.3.1 Giới thiệu Hệ thống gợi ý hệ thống hỗ trợ định nhằm gợi ý thông tin liên quan đến người dùng cách dễ dàng nhanh chóng, phù hợp với người dùng Hệ thống bao gồm kỹ thuật công cụ phần mềm nhằm đưa gợi ý cho người dùng, đáp ứng nhu cầu họ sản phẩm, dịch vụ Internet Những gợi ý cung cấp nhằm hỗ trợ người dùng đưa định lựa chọn sản phẩm, dịch vụ phù hợp với nhu cầu thị hiếu mình, chẳng hạn như: mua sản phẩm nào, nghe thể loại nhạc hay tin tức trực tuyến nên đọc, Hệ thống gợi ý thông thường tập trung vào mục tin hay sản phẩm (item) cụ thể (CD, tin tức) theo thiết kế giao diện đồ họa người dùng kết hợp với kỹ thuật, thuật toán gợi ý nhằm sinh gợi ý tuỳ chỉnh, cung cấp gợi ý có ích hiệu cho sản phẩm Hệ thống gợi ý nhằm hướng dẫn người dùng thiếu kinh nghiệm chưa đủ thẩm quyền để đánh giá số lượng áp đảo item thay Tuy vậy, du lịch Quảng Ngãi chưa thấy xuất nghiên cứu RS Trong luận văn này, giới thiệu sơ lược hệ thống gợi ý, phương pháp sử dụng phổ biến RS, sau sâu vào tìm hiểu chi tiết phương pháp, kỹ thuật trội RS kỹ thật SVD (Singular Value Decomposition), kỹ thuật phân rã ma trận (matrix factorization – MF), kỹ thuật NN-MF (Nonnegative Matrix Factorization) để xây dựng hệ thống gợi ý địa điểm du lịch Quảng Ngãi 1.3.2 Bài toán tổng quát hệ thống gợi ý Bài toán tư vấn coi ước lượng trước hạng (rating) sản phẩm chưa người dùng xem xét Việc ước lượng thường dựa đánh giá có người dùng người dùng khác Những sản phẩm có hạng cao dùng để tư vấn Một cách hình thức, tốn tư vấn mô tả sau: … i1 i2 in u1 r1,1 r1,2 … r1,n u2 r2,1 r2, … r2,n … … … … um rm ,1 rm , … … rm,n Hình 1.2 Ma trận đánh giá người dùng Gọi U tập hợp tất người dùng, I tập hợp tất sản phẩm tư vấn Tập I có giá trị khoảng {1,n}, tập U có giá trị khoảng {1,m} Hàm f(u,i) đo độ phù hợp (hay hạng) sản phẩm I với người dùng u : f : U x I → R với R tập thứ tự Với người dùng u  U , cần tìm sản phẩm i ,  I cho hàm f(i’,u) đạt giá trị lớn nhất: u U , iu'  arg max f (u, i) Vấn đề hệ tư vấn hàm f(u,i) khơng xác định tồn khơng gian U x I mà miền nhỏ khơng gian Điều dẫn tới việc hàm f(u,i) phải ngoại suy không gian U x I Các hệ thống tư vấn thường phân thành nhiều loại dựa cách sử dụng thuật tốn để ước lượng hạng điểm sản phẩm 10 1.3.4.3 Giao dịch KẾT LUẬN CHƯƠNG Trong chương 1, luận văn trình bày tổng quan du lịch Quảng Ngãi, điểm đạt hạn chế du lịch Quảng Ngãi; số website du lịch Việt Nam, đặc điểm chúng; phương pháp gợi ý Ngoài ra, chương giới thiệu hệ thống gợi ý, nêu chức năng, phát biểu toán tổng quát hệ thống gợi ý, sở liệu nguồn tri thức để ứng dụng kỹ thuật vào hệ thống gợi ý Chương – CÁC KỸ THUẬT PHÂN RÃ Hệ thống gợi ý đóng vai trò lớn hệ thống tư vấn, hệ thống gợi ý, có ứng dụng đem lại lợi ích kinh tế, trị Một mảng kỹ thuật nhiều nhà nghiên cứu quan tâm đó Kỷ thuật Phân rã Đặc biệt hệ thống gợi ý trọng đến phương pháp SVD, phương pháp phân rã ma trận MF phương pháp phân rã ma trận không âm NN-MF Nội dung cụ thể trình bày chương 2.1 KỸ THUẬT SVD 2.1.1 Giới thiệu Kỹ thuật SVD G Golub W Kahan giới thiệu vào năm 1965 Đây kỹ thuật phân tích dùng để tính tốn giá trị đơn, nghịch đảo hạng ma trận Kỹ thuật phân tích ma trận thành ba ma trận dựa vào giá trị đơn phân tích Kể từ giới thiệu SVD trở thành kỹ thuật phân tích ma trận tiêu chuẩn đại số tuyến tính Trong thực tiễn, người ta muốn xấp xỉ ma trận lớn ban đầu với ma trận có kích thước nhỏ mà giữ lại đặc trưng gần giống ban đầu Sớm nhận việc rút gọn số chiều, SVD làm đặc trưng giống tương quan hơn, chúng khác cách xa Vấn đề 11 giải thích quan sát vectơ U V bên Những vectơ bao gồm việc cấu thành từ biến đổi nhỏ từ liệu trực giao Trong hệ thống gợi ý địa điểm du lịch, sau hồn thành bước mơ hình hố liệu, ma trận thưa tạo Do giải thuật SVD ý tưởng giảm số chiều ma trận ban đầu, rút gọn số chiều nhỏ nhiều, làm trội giá trị đặc trưng loại bỏ đặc trưng nhiễu Vì thế, SVD áp dụng rộng rãi vào toán gợi ý 2.1.2 Phát biểu toán Các hệ thống gợi ý áp dụng cho nhiều lĩnh vực khác Tuy nhiên, tốn phát biểu dạng toán học sau: U tập người dùng hệ thống I tập sản phẩm hệ thống ri,j đánh giá người dùng i ( ) cho sản phẩm j ( ) Bằng mơ hình hệ gợi ý, ta cần đưa dự đoán cho đánh giá người dùng hệ thống cho sản phẩm mà người dùng chưa đánh giá Và thực tế, sản phẩm hệ gợi ý dự đốn người dùng đánh giá cao, đưa lên để gợi ý cho người dùng trải nghiệm 2.1.3 Ý tưởng thực SVD phương pháp giúp phân rã ma trận thành tích ma trận với tính chất đặc biệt M nm  U V T Trong đó: U ma trận n x m vec-tơ riêng phải U ma trận trực giao 12 ∑ ma trận đường chéo n x m chứa giá trị riêng ma trận M V ma trận n x m vec-tơ riêng trái V ma trận trực giao 2.1.4 Hướng tiếp cận Truncated SVD Để giải tốn đặt ứng dụng phương pháp SGD để triển khai SVD nhằm mục đích phân rã ma trận X tìm kiếm ma trận Y≈ X Ta có ma trận Am x n ln khai triển thành: Am x n = U ∑ VT (1) Ta thấy : Vì tính chất ma trận đường chéo nên ta khai triển Am x n : Am x n = U √∑ √∑ VT Đặt: X= U √∑ YT =√∑ VT Từ ta viết lại biểu thức (1) : Am x n = XYT Ta có hàm mát ma trận Am x n : L( A, X , Y ,W ,  )   im1  nj1 i , j l ( Aij , xi y Tj )    im1 xi xiT    nj1 y j y Tj Tối ưu hóa hàm mát , ta được: xi  (1   ) xi   j  ( Ai , j  xi y Tj ) y j yi  (1   ) yi   j  ( Ai , j  xi y Tj ) x j Trong : 𝜂 - tốc độ học 𝜆 - hàm tắc Bằng tính chất ma trận U, ∑ , V ta viêt lại biểu thức (1) dạng tổng ma trận rank 1: 13 𝐴 = 𝜎1 𝑢1 𝑣1𝑇 + 𝜎2 𝑢2 𝑣2𝑇 + ⋯ + 𝜎𝑟 𝑢𝑟 𝑣𝑟𝑇 với ý 𝑢𝑖 , 𝑣𝑖𝑇 , ≤ 𝑖 ≤ 𝑟 ma trận có rank Và 𝑟 số giá trị khác đường chéo ma trận Σ Chú ý ma trận Σ, giá trị đường chéo không âm giảm dần 𝜎1 ≥ 𝜎2 ≥ ⋯ ≥ 𝜎𝑘 ≈ ≥≈ Thông thường, lượng nhỏ 𝜎𝑖 mang giá trị lớn, giá trị lại thường nhỏ gần Khi ta xấp xỉ ma trận A tổng k

Ngày đăng: 11/08/2018, 07:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN