Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt) Xây dựng hệ tư vấn hẹn hò trực tuyến ((tt)
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - LÊ TÔN ANH THƢ XÂY DỰNG HỆ TƢ VẤN HẸN HÒ TRỰC TUYẾN Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2017 Luận văn đƣợc hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG Ngƣời hƣớng dẫn khoa học: TS Nguyễn Duy Phƣơng Phản biện 1: .…………………………………………………………… .…………………………………………………………… ………… …………………………………………………………… ………… Phản biện 2: … ………………………………………………………… .…………………………………………………………… ………… …………………………………………………………… ………… Luận văn đƣợc bảo vệ trƣớc Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bƣu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thƣ viện Học viện Công nghệ Bƣu Viễn thông MỤC LỤC MỞ ĐẦU .3 Chƣơng – TỔNG QUAN 1.1 Đặt vấn đề .5 1.2 Tổng quan hệ thống Recommender Systems 1.2.1 Phân loại Recommended Systems 1.2.2 Phân tích ƣu nhƣợc điểm 1.2.3 Những tác vụ Recommender system cần giải 1.2.4 Đánh giá mô hình hệ thống Recommender System 1.3 Các bƣớc trình xây dựng Recommender Systems 1.3.1 Thu thập liệu 1.3.2 Chuẩn hóa liệu 1.3.3 Collaborative Model (đối tƣợng chứa liệu) 1.3.4 Chạy mô hình lọc top N item 10 1.3.5 Đánh giá mô hình .10 1.4 Một số công cụ hỗ trợ trình nghiên cứu thử nghiệm hệ thống Recommender System 11 1.4.1 Python 11 1.4.2 Java 11 1.4.3 Thƣ viện hệ thống R 11 1.5 Bài toán xây dựng hệ thống Hẹn hò trực tuyến 11 1.5.1 Hẹn hò trực tuyến 12 1.5.2 Các lĩnh vực hai chiều .13 Chƣơng - CÁC PHƢƠNG PHÁP GỢI Ý CHO HỆ THỐNG HẸN HÒ TRỰC TUYẾN 14 2.1 Hệ thống gợi ý qua lại 14 2.2 Các phƣơng pháp tiếp cận 14 2.3 Các thuật toán gợi ý 15 2.3.1 Phƣơng pháp tiếp cận dựa vào nội dung .15 2.3.2 Phƣơng pháp tiếp cận dựa vào đánh giá tiêu cực 15 2.3.3 Phƣơng pháp kết hợp 15 2.3.4 Phƣơng pháp đa nhóm tƣơng thích (Multiple compatible subgroups) 16 Chƣơng - THỰC NGHIỆM VÀ XÂY DỰNG MÔ HÌNH ỨNG DỤNG 17 3.1 Mô hình liệu 17 3.1.1 Mô tả liệu mẫu 17 3.1.2 Mô tả migrate liệu 18 3.1.3 Chuẩn hóa liệu 19 3.1.4 Chia liệu huấn luyện kiểm thử 19 3.2 Phƣơng pháp xây dựng mô hình 19 3.2.1 Phân tích thăm dò 19 3.2.2 Phƣơng pháp đánh giá mức độ thành công thuật toán 19 3.2.3 Kết .20 3.3 Xây dựng mô hình ứng dụng 21 3.3.1 Xây dựng CSDL 21 3.3.2 Kiến trúc ứng dụng 21 3.3.3 Ứng dụng 22 3.4 Kết thực nghiệm 22 KẾT LUẬN 23 DANH MỤC TÀI LIỆU THAM KHẢO 26 MỞ ĐẦU Những năm gần đây, đằng sau bùng nổ Internet, lĩnh vực xuất đem theo lợi ích kinh tế phi lợi nhuận, số phải kể đến lĩnh vực hẹn hò online Nếu nhƣ năm 2015, Mỹ, doanh thu từ hẹn hò online lên tới tỷ đô với mức tăng trƣởng 5% 3900 công ty Việt Nam, lợi nhuận thu đƣợc không nhỏ Dựa vào tình trạng tại, số niên tuổi từ 25 đến 34 Mỹ, phải có đến 2/3 số họ thử hẹn hò mạng Ở trang mạng hẹn hò lớn Mỹ có tới hàng triệu lƣợt đăng ký ngày nhƣ trang match.com Với tốc độ công nghiệp hóa chóng mặt, hầu hết niên Việt Nam bận rộn với công việc, nghiệp mà thời gian dành cho gia đình nói chung nhƣ gia đình nói riêng, họ gặp vấn đề tƣơng tự nhƣ niên Mỹ Vấn đề đặt với số lƣợng lớn thông tin từ cá nhân nhƣ vậy, cần phải có hệ thống quản lý, phân tích đối sánh thông tin cho ứng với hồ sơ cá nhân tìm đƣợc hồ sơ ứng viên phù hợp nhất, mà thông tin dựa thông số ngƣời đăng ký mà không cần gặp gỡ hay có can thiệp ngƣời tới hệ thống Tuy nhiên, văn hóa vùng miền khác nên sử dụng chung hệ thống hẹn hò online nƣớc khác Bên cạnh đó, việc tìm ứng viên phù hợp điều khó khăn quy chuẩn “phù hợp”, phải phù hợp tuổi, công việc, sở thích,… đó, việc tìm vài hồ sơ “khớp” với dƣờng nhƣ khó khăn lớn kể chọn lựa chủ quan (do ngƣời chọn) hay hệ thống thực Với lý trên, xin đề xuất thực đề tài “Xây dựng hệ tƣ vấn hẹn hò trực tuyến” Cấu trúc luận văn theo thứ tự: Ở chƣơng 1, tập trung giới thiệu hệ thống hẹn hò trực tuyến, đặc trƣng hồ sơ Đồng thời đề cập đến số phƣơng pháp dự đoán đƣợc nghiên cứu trƣớc Trong chƣơng 2, tập trung mô tả phƣơng pháp xây dựng hệ online dating Phƣơng pháp tiếp cận dựa nội dung (content – based approach), dựa đánh giá tiêu cực phƣơng pháp kết hợp mà cụ thể việc sử dụng thuật toán RECON đƣợc lựa chọn để giải toàn đề cập đến luận văn Việc xây dựng tập liệu từ giai đoạn thu thập đến hình thành data training set, data test set cách mà liệu đƣợc gửi nhƣ đƣợc trình bày chƣơng Bên cạnh việc xây dựng hệ Recommend đƣợc mô tả chƣơng ba Sau đó, kết thu đƣợc đƣợc đánh giá, đƣa hiệu suất so sánh với phƣơng pháp đề cập chƣơng Phần cuối kết luận cung cấp gợi ý tƣơng lai Chƣơng – TỔNG QUAN 1.1 Đặt vấn đề Trong nhiều năm qua, có nhiều hệ thống đƣợc xây dựng nên từ tảng hệ thống Recommender Systems Từ ứng dụng nhỏ đến hệ thống lớn Tại lại phải xây dựng Hệ thống Hẹn hò trực tuyến? Nhƣ đề cập phần mở đầu luận văn, lƣợng ngƣời dùng sử dụng Internet nhƣ dịch vụ hẹn hò trực tuyến lớn, nhu cầu ngƣời dùng lớn thiết thực Việc xây dựng đƣợc hệ thống nhƣ có ý nghĩa lớn việc giúp đỡ ngƣời dùng tìm kiếm thông tin ứng viên phù hợp thông qua lọc hợp lý cần thiết Các khó khăn gặp phải hệ thống Hẹn hò có sử dụng Recommender Systems Phần lớn khó khăn gặp phải xuất phát từ việc sử lý tập liệu thử nghiệm lớn đáp ứng đƣợc mong đợi ngƣời dùng hệ thống thông minh tìm kiếm ứng viên phù hợp: Phải xây dựng đƣợc hệ thống bao gồm chức dịch vụ hẹn hò gắn thêm phần hỗ trợ ngƣời dùng tìm kiếm qua lọc (các lọc đƣợc xây dựng dựa sử dụng thuật toán Recommender Systems) Sử dụng tập liệu lớn để thống kê tính xác thuận toán (sử dụng liệu libimseti từ website hẹn hò online có uy tíncủa Czech http://libimseti.cz/ với khoảng 220 nghìn hồ sơ 17 triệu lƣợt đánh giá) Mục tiêu đề tài, phương pháp sử dụng đóng góp đề tài Trong khuôn khổ đề tài, luận văn trình bày cụ thể việc xây dựng hệ thống Hẹn hò, phƣơng pháp tiếp cận dựa nội dung (content - based approach), dựa đánh giá tiêu cực phƣơng pháp kết hợp mà cụ thể sử dụng thuật toán RECON đƣợc lựa chọn để giải toán Đóng góp đề tài xây dựng đƣợc hệ thống Hẹn hò thử nghiệm, áp dụng thuật toán, kỹ thuật phƣơng pháp tiếp cận dựa nội dung (content based approach) Từ việc xây dựng nên hệ thống nhƣ thế, luận văn kiểm nghiệm kết thực nghiệm từ liệu thực tế nhƣ nói trên, để đánh giá mức độ hiệu thuật toán nhƣ phƣơng hƣớng phát triển đề tài 1.2 Tổng quan hệ thống Recommender Systems Recommender Systems (R.C) công cụ, thuật toán, phần mềm cung cấp cho ngƣời dùng gợi ý, lời khuyên items (vật) hữu dụng đáp ứng sở thích họ Tùy thuộc vào loại ứng dụng, items sách, đĩa CD, dịch vụ chiếu phim, chí hƣớng dẫn sử dụng thuốc R.C đƣợc thiết kế để giúp ngƣời dùng đƣa định, có hay không nên mua sách, chọn phim để xem, thuê ô tô, đặt vé cho kì nghỉ, kê toa thuốc cho bệnh nhân Một lý để sử dụng RC khắc phục việc tải thông tin (Information Overload), liên quan đến việc đƣa định có nhiều lựa chọn có nhiều thông tin RC chứng tỏ giá trị giúp ngƣời dùng thiếu kinh nghiệm tìm kiếm items hữu dụng 1.2.1 Phân loại Recommended Systems Nhƣ đề cập có ba phƣơng pháp tiếp cận hệ Recommender systems: Content based recommender systems: khai thác items mà ngƣời dùng thích để giới thiệu items tƣơng tự Mức độ tƣơng tự items dựa kết so sánh đặc điểm liên kết cấu trúc, ví dụ véc tơ từ khóa Một mô hình ngƣời dùng ngƣời dùng model tổng hợp nhiều đặc tính items mà ngƣời dùng thấy thích, mức độ phù hợp item kết tính toán điểm tƣơng đồng với ngƣời dùng model Collaborative filtering recommender systems: dựa nguyên tắc: ngƣời thƣờng dựa vào ý kiến ngƣời khác để đƣa định Collaborative filtering đƣa gợi ý items mà ngƣời có sở thích lựa chọn neighbors Sự giống sở thích dựa lịch sử đánh giá, xếp hạng Giả thiết đƣợc đƣa ngƣời dùng thích item, tƣơng lai họ tiếp tục thích không thích sản phẩm khác Hybrid recommender systems: Nói cách đơn giản nội dung phƣơng pháp Hybrid recommender systems dạng pha trộn hai phƣơng pháp trình bày nhằm tăng tính hiệu giảm thiểu nhƣợc điểm hai phƣơng pháp 1.2.2 Phân tích ưu nhược điểm Lợi CBR so với CF có điều sau: Thứ nhất, lời giới thiệu dựa phản hồi từ e.e, mà không cần phản hồi từ ngƣời dùng tƣơng tự Thứ hai dễ dàng giải thích cho ngƣời dùng hiểu cách hoạt động, tƣơng tác khứ họ dẫn đến gợi ý thông qua việc so sánh đặc tính mô hình ngƣời dùng với item đƣợc dùng để gợi ý trƣớc Với CF, việc giải thích mối liên kết khó liên quan đến ngƣời dùng tƣơng tự Thứ ba CBR không chịu ảnh hƣởng từ item (CF bị ảnh hƣởng), theo item không đƣợc giới thiệu chƣa có phản hồi Một bất lợi CBR cần biểu thị có cấu trúc items Cách biểu thị, trình bày sản phẩm thƣờng bị giới hạn, không đủ thông tin để phân biệt sản phẩm hữu dụng với sản phẩm không hữu dụng Ví dụ véc tơ từ khóa đơn giản làm mẫu cho tƣơng quan từ ngữ với Mặt khác, biểu thị phức tạp cần lƣợng thông tin cực lớn để hệ thống hoạt động xác Một vấn đề liệu thu thập đủ thông tin sản phẩm với thời gian nguồn tài nguyên đƣợc định sẵn? CF không yêu cầu thông tin liên quan đến sản phẩm Một bất lợi khác CBR tính chuyên biệt hóa – overspecialization Vì CBR đƣa gợi ý dựa items mà ngƣời dùng thích, có xu hƣớng không gợi ý sản phẩm khác loại ngƣời dùng thích nhƣng không đƣợc dự tính trƣớc trừ khả cân nhắc lựa chọn đƣợc tính đến trình phát triển CF gợi ý sản phẩm không đc dự tính trƣớc, cung cấp lựa chọn đa dạng từnhững ngƣời dùng tƣơng tự Một yếu tố tác động đến CBR lẫn CF vấn đề ngƣời dùng (coldstart problem), ngƣời dùng không đƣợc cung cấp gợi ý xác hệ thống chƣa có thông tin vềhọ Nếu ngƣời dùng đƣợc yêu cầu đánh giá trực tiếp vài items định hình mô hình ngƣời dùng cho họ vấn đề phần đƣợc giải Gợi ý hỗn hợp HR kết hợp nhiều phƣơng pháp đƣa gợi ý với hi vọng dựa khía cạnh phƣơng pháp để giải khuyết điểm phƣơng pháp khác Trong phạm vi luận điểm luận án này, mục tiêu kết hợp CF với CBR để giảm bớt tác động từ vấn đề cold-start new-item Trƣớc chuyển sang chƣơng kế tiếp, đáng lƣu ý luận án RC đƣợc xem xét dƣới góc độ thuật toán, RC nhánh giao thoa học máy – machine learning, khôi phục liệu - information retrieval tƣơng tác ngƣời-máy – human-computer interaction Cụ thể hơn, tầm quan trọng trải nghiệm tốt thiết kế giao diện để dành đƣợc tin tƣởng tín nhiệm ngƣời dùng gợi ý đƣợc đƣa không nên bị xem nhẹ 1.2.3 Những tác vụ Recommender system cần giải Từ góc nhìn user cụ thể - tạm thời gọi active user, recommender system phải giải tác vụ sau: - Dự đoán điểm rating cho item mà user chƣa đánh giá - Gợi ý danh sách top N item 13 kết bạn/lời mời Ngƣời dùng bị động chờ ngƣời khác liên hệ với Hiểu cách rập khuôn nam chủ động nữ bị động, nhƣng recommender cần cân nhắc vai trò ngƣời dùng thay đổi theo thời gian Khi thiết kế hệ thống gợi ý cho lĩnh vực hẹn hò trực tuyến, điều quan trọng không đƣợc bỏ qua phản ứng ngƣời dùng không đƣợc ƣa chuộng đƣa lời gợi ý Nếu không họ không đƣợc tìm kiếm/kết bạn, dẫn đến bất mãn 1.5.2 Các lĩnh vực hai chiều Có lĩnh vực khác mà tƣơng tác qua lại giữ vai trò quan trọng thƣờng biểu lộ lựa chọn bổ sung, cần đƣợc cân nhắc phát triển lựa chọn ngƣời cung cấp gợi ý thích hợp Những ngƣời cung cấp gợi ý có tính hai chiều thích hợp cần có đặc tính: - Items đƣợc gợi ý ngƣời - Cả bên chịu tác động lời gợi ý phải thích bên Đặc tính thứ không bắt buộc phải có, nhƣng thƣờng xuất tƣơng tác hai chiều đƣợc sử dụng phối hợp với RC hay sử dụng để liên kết với RC, mối quan hệ không tƣơng xứng nhóm ngƣời dùng 14 Chƣơng - CÁC PHƢƠNG PHÁP GỢI Ý CHO HỆ THỐNG HẸN HÒ TRỰC TUYẾN 2.1 Hệ thống gợi ý qua lại Trong lĩnh vực hai chiều nhƣ hẹn hò online, items đƣợc gợi ý những ngƣời dùng khác với sở thích riêng biệt họ, hệ thống gợi ý tƣơng hỗ ngƣời cung cấp gợi ý tận dụng đƣợc sở thích ngƣời nhận gợi ý lẫn ứng viên đƣa lời khuyên Điều khoản khác dùng để đề cập đến loại recommender people-to-people (ngƣời giới thiệu ngƣời), cụ thể với hẹn hò trực tuyến thuật toán ghép cặp - matchmaking algorithms Loại thƣờng đƣợc sử dụng để đề cấp đến recommender đƣợc tìm thấy nghiên cứu mạng xã hội truyền thống, ví dụ nhƣ mục gợi ý kết bạn Facebook 2.2 Các phƣơng pháp tiếp cận Một nghiên cứu đƣợc công bố việc áp dụng Recommender System lĩnh vực hẹn hò trực tuyến Brozovsky vào năm 2007 Họ báo cáo việc áp dụng mô hình lọc kết hợp user-user item-item liệu chấm điểm (rating data-set), ngƣời dùng đánh giá hấp dẫn ngƣời khác thông qua việc chấm điểm thang từ đến 10 Họ không đánh giá chiều, nhiên đƣợc sử dụng nhƣ tiêu chí cho nghiên cứu tƣơng lai Một nhóm khác lại tiếp cận vấn đề recommendation hẹn hò trực tuyến từ góc độ tìm kiếm thông tin, đề xuất chức xếp hạng đối ứng toàn cầu (học cách xếp hạng) Có nhiều hệ cung cấp gợi ý lai (RC-hybrid) hệ cung cấp gợi ý đẩy mạnh nội dung (RC-content-booster) đƣợc sử dụng để tập trung vào ngƣời dùng (cold-start users) Sau phƣơng pháp đƣợc kết luận hiệu so với số lại phƣơng pháp hỗn hợp (CCR – Content-collaborative Reciprocal) phƣơng pháp Phân nhóm tƣơng thích 15 2.3 Các thuật toán gợi ý 2.3.1 Phương pháp tiếp cận dựa vào nội dung RECON thuật toán dựa nội dung đối ứng mà sử dụng hànhvi nhắn tin thuộc tính cá nhân để tính toán khuyến nghị Ý tƣởng với ngƣời dùng, ta xây dựng phân phối cho thuộc tính cá nhân nhằm mô hình hóa sở thích ngƣời dùng x Các phân phối đƣợc tính toán vàtổng hợp dựa profile ngƣời dùng đƣợc x tƣơng tác tích cực trƣớc đó, dựa hành vi gửi tin nhắn x Việc có đƣợc bảng phân bố sở thích ngƣời dùng giúp dễ dàng tính toán khả tƣơng thích ngƣời dùng Điểm số thể cho mức độ tƣơng thích sau đƣợc sử dụng cho việc gợi ý ngƣời dùng 2.3.2 Phương pháp tiếp cận dựa vào đánh giá tiêu cực Ở phần này, ta bổ sung cho phƣơng pháp RECON phần trƣớc cách xét đến tập ngƣời dùng nhận đƣợc phản hồi tiêu cực Ví dụ, ngƣời dùng không thích việc hút thuốc điều phản ánh sở thích ứng viên đánh giá tiêu cực, đó, làm giảm điểm tƣơng thích với ứng viên có sở thích hút thuốc Phƣơng pháp thực có bƣớc chính: Áp dụng phƣơng pháp RECON cho sở ghét để tính điểm không tƣơng thích ngƣời dùng Tổng hợp giá trị tƣơng thích giá trị không tƣơng thích để đƣa kết cuối 2.3.3 Phương pháp kết hợp Content-Collaborative Reciprocal (CCR) phƣơng pháp hỗn hợp kết hợp phƣơng pháp Tiếp cận theo nội dung (Content-based approach - RECON) phƣơng pháp Lọc kết hợp (Collaborative filtering) để giải vấn đề liên quan 16 đến ngƣời dùng (cold-start users) – chiếm phần lớn trang web hẹn hò Phƣơng pháp đƣợc thực với bƣớc chính: Đƣa ngƣời dùng x, tìm tập ngƣời dùng tƣơng tự gần giống: Sx dựa thông tin cá nhân x Với ngƣời dùng s Sx, tìm ngƣời dùng mà có tƣơng tác tích cực hai chiều với họ (ví dụ danh sách M+x,* ∪M+*,x) đƣa vào danh sách ứng viên Cx Xếp hạng ứng viên Cx cách tính mức độ tƣơng tác tích cực tiêu cực họ với ngƣời dùng Sx Phƣơng pháp tiếp cận theo nội dung phƣơng pháp lai đƣợc sử dụng bƣớc 1, bƣớc để tìm nhóm ngƣời dùng tƣơng tự Bƣớc liên quan đến so sánh hồ sơ cá nhân ngƣời giố thiệu với ngƣời dùng khác Trong bƣớc dựa phƣơng pháp lọc cộng tác: ta tìm ứng viên dựa tƣơng tác thành viên nhóm sau xếp hạng họ theo hành vi chung nhóm Về mặt mô hình, CCR đơn giản, nhiên phức tạp vào chi tiết 2.3.4 Phương pháp đa nhóm tương thích (Multiple compatible subgroups) Đa nhóm tƣơng thích dựa ý tƣởng việc sử dụng thuộc tính hồ sơ cá nhân để phân ngƣời dùng vào nhóm nhỏ Ví dụ, ta phân ngƣời dùng nhóm nam giới nữ giới, sau xem xét tƣơng tác đối ứng thành viên nhóm nhóm lại Quan hệ nhóm sau đƣợc mã hóa thành quy tắc gắn với ngƣời dùng để sử dụng cho gợi ý sau Phƣơng pháp dựa học thuyết ngƣời tƣơng tự có sở thích tƣơng đồng Chẳng hạn nhƣ ngƣời có đặc điểm tƣơng đồng, hay đƣợc phân vào nhóm có đặc điểm sở thích giống 17 Chƣơng - THỰC NGHIỆM VÀ XÂY DỰNG MÔ HÌNH ỨNG DỤNG 3.1 Mô hình liệu 3.1.1 Mô tả liệu mẫu Bộ liệu mẫu ban đầu bao gồm hai file File thứ (gender.dat) ghi lại thông tin toàn ngƣời liệu, ngƣời đơn giản ghi lại thông tin giới tính ngƣời (kí hiệu M nam, F nữ U không xác định giới tính) 1, F 2, F 3, U 4, F 5, F … File số hai liệu (ratings.dat) ghi lại thông tin nhiều dòng với cấu trúc nhƣ sau: tất dòng bắt đầu với chữ số thể mối quan hệ ngƣời số file gender.rat quen biết với ngƣời tập tất ngƣời lại đồng thời dòng có thêm điểm rating ngƣời số ngƣời Tƣơng tự tất dòng bắt đầu số thể mối quan hệ quen biết mức độ rating ngƣời số với tất ngƣời lại tập liệu ngƣời file gender.dat… Tƣơng tự nhƣ đến ngƣời số n tập liệu ngƣời 18 3.1.2 Mô tả migrate liệu Bộ liệu mẫu ban đầu tập liệu ngƣời file gender.dat thiếu thông tin ngƣời (chỉ bao gồm thông tin giới tính) ta bổ sung thêm số thông tin khác nhƣ chiều cao, cân nặng, độ tuổi,… vào file thông tin nói để làm giàu liệu Cụ thể thông tin bổ sung vào file bao gồm 10 trƣờng thông tin sau: - Nhóm tuổi - Giới tính - Có - Tình trạng hôn nhân - Quê quán - Màu tóc - Cân nặng - Cơ thể ( gầy, còm, cân đối, …) - Học vấn - Chơi thể thao - Thích nghe nhạc Toàn thông tin đƣợc bổ sung vào dòng file thông tin ngƣời Mọi thông tin đƣợc chia thang điểm từ đến 10 Nghĩa ta bổ sung thêm dòng 10 số có giá trị từ đến 10 ngăn cách dấu phẩy, để ghi lại mức đánh giá ngƣời theo 10 tiêu chí Trong chƣơng trình demo thực tế thông tin đƣợc ngƣời dùng tự khai báo cập nhật thông tin cá nhân 19 3.1.3 Chuẩn hóa liệu Sau bổ sung liệu 10 tiêu chí nêu, ta có đẩy đủ thông tin liệu mẫu Công việc chuẩn hóa liệu trình đọc file thông tin liệu mẫu đƣa vào sở liệu chƣơng trình File liệu ngƣời đƣợc đƣa vào bảng user_info, thông tin tƣơng ứng ngƣời (10 tiêu chí bổ sung tiêu chí giới tính) đƣợc đƣa vào bảng Hệ thống bảng phụ để chia thang điểm cho 10 tiêu chí đƣợc hoàn thiện Ví dụ mặt độ tuổi: từ 20 – 25 tuổi để điểm số 10, từ 18 – 20 tuổi thang điểm Cứ nhƣ ta hoàn thành tiêu chí đánh giá thang điểm dựa đặc điểm tiêu chí 3.1.4 Chia liệu huấn luyện kiểm thử Với liệu nêu trên, ta thực lấy 75% liệu ma trận mối quan hệ quen biết ratings để làm liệu huấn luyện cho chƣơng trình Số liệu lại (25%) đƣợc dùng để đánh giá tính đắn thuật toán liệu kiểm thử Có lƣu ý ta lấy 75% liệu huấn luyện ngƣời tập liệu ngƣời, không lấy 75% liệu file ratings.dat Việc làm nhƣ mang đến tính khác quan trình kiểm thử 3.2 Phƣơng pháp xây dựng mô hình 3.2.1 Phân tích thăm dò Trong phƣơng pháp phân tích thăm dò này, số khía cạnh liệu đƣợc mô tả cách hiển thị kết phân tích thăm dò đƣợc tiến hành tập liệu 3.2.2 Phương pháp đánh giá mức độ thành công thuật toán Phần đánh giá mức độ thể lời gợi ý khác nhau, cụ thể cách chúng so sánh Nhằm mục đích đó, có nhiều cách tính toán mức độ 20 thành công liệu lịch sử đƣợc liệt kê (mục 3.2.2) Sau lời gợi ý đƣợc sản sinh từ thuật toán đƣợc xem xét kỹ việc so sánh chúng dƣới tiêu chuẩn đo lƣờng khác đƣợc kết lại với việc thảo luận kết (mục 3.2.3) Việc thiết lập cách tính toán đƣợc giải thích phần giải data set (Chƣơng 3.1) Mỗi recommender sản sinh danh sách gợi ý cho user, chất lƣợng danh sách đƣợc tính toán dựa tiêu chuẩn khác 3.2.3 Kết Chỉ RECON với việc xử lý tƣơng tác tiêu cực hoàn toàn ngăn ngừa từ chối, phƣơng pháp ngẫu nhiên phƣơng pháp đạt mức thất bại thấp mức thất bại gốc/cơ Khả dự đoán việc xuất tin nhắn khởi đầu suốt giai đoạn test thấp với tất phƣơng pháp Phƣơng pháp dành chiến thắng theo tỷ lệ thành công rõ ràng voting ensemble Đa nhóm tƣơng thích CCR rơi vào tầm trung, RECONs thể tệ nhƣng mức sàn lý khiến thể hiện/hiệu suất RECON phƣơng pháp lại hỗ trợ ngƣời dùng (coldstart user) Thay vào đó, cách không ngờ, RECON với xử lý tiêu cực lại có kết tệ RECON, điều ngƣợc lại với kết tài liệu gốc Tỷ lệ thành công cao Đa nhóm tƣơng thích hỗ trợ ý tƣởng gợi ý cho ngƣời dùng dựa nhân học họ, từ đƣa gợi ý tốt Vấn đề liên quan mà cách tiếp cận cần giải khả cung cấp lời gợi ý đƣợc cá nhân hóa cách hoàn toàn Ví dụ, ngƣời dùng có sở thích khác hoàn toàn với cohort (nhóm bạn nhóm có điểm chung), lời gợi ý đƣợc sinh không vừa ý Tuy nhiên, mức trung bình, lời gợi ý dựa nhóm khả thi Đáng lƣu ý tỷ lệ thành công dành đƣợc đƣợc sinh phƣơng pháp xử lý ngƣời dùng (cold-start user) thích hợp, so với RECON hay CCR Vì RECON Đa nhóm tƣơng thích không công 21 khai cân nhắc hồi đáp tiêu cực, nên không bất ngờ tỷ lệ thất bại không thấp Hơi ngạc nhiên CCR khả giảm tỷ lệ thất bại so với mức sàn có cân nhắc hồi đáp tiêu cực xếp hạng ứng viên Cuối cùng, RECON RECON với tiêu cực thể độ xác tốt nhất, CCR giữa, số lại cuối 3.3 Xây dựng mô hình ứng dụng 3.3.1 Xây dựng CSDL Hình 3.4 Bảng CSDL 3.3.2 Kiến trúc ứng dụng Kịch ứng dụng: Bƣớc 1: Ngƣời dùng tạo tài khoản Bƣớc 2: Ngƣời dùng dùng tài khoảng vừa tạo để đăng nhập vào hệ thồng 22 Bƣớc 3: Điền thông tin cá nhân – Mang ý nghĩa hoàn thiện mô hình sở thích Bƣớc 4: Hệ thống giả định ngƣời dùng nhận đƣợc 15 tin nhắn làm quen Bƣớc 5: Ngƣời dùng hồi đáp tin nhăn với lựa chọn : Tích cực – Tiêu cực – Không trả lời Việc nhằm lấy liệu tin nhắn, đồng thời sở thích ẩn ngƣời dùng Bƣớc 6: Ngƣời dùng ấn vào nút gợi ý, ứng với thuật toán chƣơng Bƣớc 7: Hệ thống áp dụng thuật toán trình bày chƣơng để sinh danh sách ứng viên gợi ý cho ngƣời dùng, dựa thông tin nhập Bƣớc 8: Cuối ứng dụng hiển thị kết danh sách ứng viên mà hệ thống gợi ý cho ngƣời dùng 3.3.3 Ứng dụng Phần đƣa thứ tự giao diện chạy ứng dụng xây dựng cho hệ thống 3.4 Kết thực nghiệm 23 KẾT LUẬN Recommended Systems chủ đề nhận đƣợc quan tâm hàng đầu nhà khoa học không lợi ích ứng dụng nhiều lĩnh vực mà phƣơng pháp xử lý đa dạng với toán Trong đề tài này, lớp đặc biệt RC cho lĩnh vực hẹn hò trực tuyến đƣợc trình bày, dƣới tên gọi gợi ý tƣơng hỗ – RR Dựa kết trƣớc, RR đƣợc phát triển để cố gắng giải vấn đề tồn phƣơng pháp trƣớc Phƣơng pháp ta với phƣơng pháp khác, đƣợc giới thiệu RR, đƣợc đánh giá dựa tập liệu thu thập từ dịch vụ hẹn hò trực tuyến giới thực Kết phƣơng pháp giành chiến thắng tuyệt đối; phụ thuộc vào tiêu chí lấy để tính toán, phƣơng pháp khác có lúc đứng đầu Điều chƣa rõ ràng tầm quan trọng tiêu chí tính toán khác nhau, tức là, tỷ lệ thành công, thất bại hay xác tác động đến kinh nghiệm ngƣời dùng, tính trung thành ngƣời dùng, lợi nhuận mang lại, nhƣ khả ngƣời dùng tìm đƣợc ngƣời phù hợp Nghiên cứu sâu giải vấn đề cách thực trực tiếp kiểm thử đƣợc kiểm soát „controlled experiments‟ dịch vụ hẹn hò trực tuyến với ngƣời dùng thực Cùng với việc so sánh phƣơng pháp phát triển phƣơng pháp mới, đóng góp khác luận án liệu hỗ trợ ngƣời dùng (cold-start user) ngƣời nắm vai trò chủ động – bị động (proactivereactive roles) hẹn hò trực tuyến Nó tƣơng tác hai chiều xuất nhóm có mức tiếng khác ngƣời dùng tiếng có xu hƣớng lƣời trả lời tiêu cực, ủng hộ luận điểm ngƣời dùng có giới giạn mối quan tâm (limited availability) Những ý kiến đƣợc trình bày để phản biện lại hệ thống ghép đôi hẹn hò nói chung Finkel cho việc kết nối với nhóm ứng viên lớn khiến 24 ngƣời đƣa định tồi chọn đối phƣơng Họ lƣu ý thực tế nói chuyện qua tin nhắn không diễn giải việc nói chuyện trực tiếp bên dịch vụ hẹn hò Đặc biệt hệ thống ghép đôi bị trích dựa nguyên tắc không quan trọng với bền vững mối quan hệ Đề tài đồng ý việc tính hiệu thuật toán ghép đôi cần đƣợc nghiên cứu thêm, nhƣng mặt khác, dƣờng nhƣ kết ta kết nghiên cứu trƣớc e.r cho hẹn hò trực tuyến làm tốt phƣơng pháp ngẫu nhiên Tƣơng lai phát triển phƣơng pháp e.r đối ứng truyền cảm hứng cho nhóm, công ty nghiên cứu để cải thiện hữu dụng lời gợi ý Ví dụ, ứng dụng hẹn hò di động Tinder, ứng dụng làm chao đảo thị trƣờng hẹn hò trực tuyến với ngƣời dùng profile đơn giản chế like-dislike, tận dụng Facebook profile ngƣời dùng để hiển thị bạn chung sở thích với ứng viên Những loại liệu nhƣ đƣợc tận dụng e.r để cung cấp ngƣời dùng models tốt cho lời gợi ý Một hƣớng nghiên cứu khác có liên quan đến việc ứng dụng nghiên cứu tâm lý học xã hội học hành vi hẹn hò trực tuyến để phát triển mô hình gợi ý Mã hóa giả thuyết vào mô hình phán đoán cho phép tận dụng tốt thông tin thu thập đƣợc để thúc đẩy lời gợi ý tốt Ở chƣơng 2, ý tƣởng cho việc phát triển tƣơng lai e.r đƣợc trình bày tiểu mục tƣơng ứng Để tăng hiệu từ phƣơng pháp này, nhiều lựa chọn chỉnh sửa thuộc tính cá nhân cần đƣợc thực Đặc biệt thông tin thu thập đƣợc từ ảnh profile mô tả thân vô hữu dụng IBISWorld dự báo Mỹ “các dịch vụ hẹn hò thích hợp dựa tảng di động bùng nổ doanh thu” năm 2015 ngành dịch vụ hẹn hò Các lập trình viên dịch vụ hẹn hò học từ nghiên cứu hẹn hò trực 25 tuyến để phát triển dịch vụ cho phép ngƣời dùng tìm nửa cách hiệu hết Qua việc nghiên cứu xây dựng thệ thống hoàn chỉnh cho thấy tầm quan trọng Recommended Systems nhiều lĩnh vực đặc biệt lĩnh vực liên quan đến vấn đề ngƣời tƣơng đối trừu tƣợng lƣợng liệu lơn Bên cạnh đó, dựa mặt hạn chế hệ thống, tiếp tục nghiên cứu, tìm giải pháp khắc phúc vấn đề tồn đọng đặc biệt vấn đề cold-start tăng độ xác hệ thống trả ứng viên cho phù hợp với ngƣời dùng 26 DANH MỤC TÀI LIỆU THAM KHẢO [1] Dictionary.com: Definition of Reciprocal http://dictionary.reference.com/browse/reciprocal, visited on 2015-05-09 [2] Statistics Finland: Finland in Figures (2013) http://www.stat.fi/tup/suoluk/suoluk_vaesto_en.html, visited on 2015-02-23 [3] Adomavicius, Gediminas and Tuzhilin, Alexander: Toward the NextGeneration of Recommender Systems: A Survey of the State-of-the-Artand Possible Extensions IEEE Transactions on Knowledge and DataEngineering, 17(6):734–749, June 2005 [4] Agrawal, Manish, Karimzadehgan, Maryam, and Zhai, ChengXian: AnOnline News Recommender System for Social Networks In Proceedingsof the Workshop on Search in Social Media, 2009, ISBN 3838315642 [5] Akehurst, Joshua, Koprinska, Irena, Yacef, Kalina, Pizzato, Luiz, Kay,Judy, and Rej, Tomasz: CCR - A Content-Collaborative Reciprocal Recommenderfor Online Dating In Proceedings of the 22nd InternationalJoint Conference on Artificial Intelligence, pages 2199–2204, 2011 [6] Akehurst, Joshua, Koprinska, Irena, Yacef, Kalina, Pizzato, Luiz, Kay,Judy, and Rej, Tomasz: Explicit and Implicit User Preferences in OnlineDating In New Frontiers in Applied Data Mining, pages 15–27 2012 [7] Amatriain, Xavier, Pujol, Josep M, and Oliver, Nuria: I Like It I LikeIt Not: Evaluating User Ratings Noise in Recommender Systems InUser Modeling, Adaptation, and Personalization, pages 247–258 2009 [8] Auer, Peter, Cesa-Bianchi, Nicolò, and Fischer, Paul: Finite-time Analysisof the Multiarmed Bandit Problem Machine Learning, 47(2-3):235–256, 2002 27 [9] Blecker, Thorsten, Kreutler, Gerold, Abdelkafi, Nizar, and Friedrich,Gerhard: An Advisory System for Customers‟ Objective Needs Elicitationin Mass Customization In Proceedings of the 4th Workshop onInformation Systems for Mass Customization (ISMC 2004), pages 1–10.2004 [10] Brozovsky, Lukas and Petricek, Vaclav: Recommender System for OnlineDating Service arXiv preprint cs/0703042, 2007 http://arxiv.org/abs/cs/0703042 [11] Burke, Robin: Hybrid Web Recommender Systems In The AdaptiveWeb, pages 377–408 Springer, 2007 Website tham khảo [12] http://libimseti.cz/ ... chọn) hay hệ thống thực Với lý trên, xin đề xuất thực đề tài Xây dựng hệ tƣ vấn hẹn hò trực tuyến Cấu trúc luận văn theo thứ tự: Ở chƣơng 1, tập trung giới thiệu hệ thống hẹn hò trực tuyến, đặc... 1.1 Đặt vấn đề Trong nhiều năm qua, có nhiều hệ thống đƣợc xây dựng nên từ tảng hệ thống Recommender Systems Từ ứng dụng nhỏ đến hệ thống lớn Tại lại phải xây dựng Hệ thống Hẹn hò trực tuyến? ... tuyến 11 1.5.1 Hẹn hò trực tuyến 12 1.5.2 Các lĩnh vực hai chiều .13 Chƣơng - CÁC PHƢƠNG PHÁP GỢI Ý CHO HỆ THỐNG HẸN HÒ TRỰC TUYẾN 14 2.1 Hệ thống gợi ý qua