Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
1,31 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - PHAN PHƯƠNG LAN HỆ TƯ VẤN DỰA TRÊN MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KẾ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG – 2019 Cơng trình hồn thành tại: TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS TS Huỳnh Xuân Hiệp TS Huỳnh Hữu Hưng Phản biện 1:…………………………… …………… Phản biện 2:……………… ………………………… Phản biện 3:……………………… ………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại: Trường Đại học Bách khoa Vào hồi… .ngày .tháng .năm…….… Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết luận án Hệ tư vấn (hệ thống gợi ý, recommendation system) xem giải pháp hiệu cho tốn bùng nổ thơng tin tự động phân tích liệu nhằm dự đoán giá trị xếp hạng người dùng cho sản phẩm, dịch vụ, v.v; từ gợi ý cho người dùng danh sách sản phẩm có xếp hạng dự đốn cao Các kỹ thuật sử dụng để xây dựng hệ tư vấn gồm: Dựa nội dung, lọc cộng tác, dựa tri thức, lai ghép Trong đó, lọc cộng tác kỹ thuật quan trọng sử dụng phổ biến Việc đề xuất cải tiến mơ hình để thích ứng với đa dạng lĩnh vực ứng dụng, khác yêu cầu người dùng phát triển công nghệ hướng nghiên cứu hệ tư vấn nhận quan tâm nhiều Phân tích hàm ý thống kê phương pháp phân tích liệu nghiên cứu khuynh hướng thuộc tính liệu dựa mức độ quan trọng hàm ý thống kê Phương pháp quan tâm nhiều đến số phản ví dụ mối quan hệ thuộc tính mà theo đó, mối quan hệ quan sát thống kê chấp nhận số phản ví dụ có hàm ý Ngồi ra, mối quan hệ phương pháp không đối xứng nên phù hợp với mối quan hệ thực tế Việc liên kết phương pháp vào lĩnh vực nghiên cứu khác chủ đề quan tâm Nhìn chung, nghiên cứu liên kết phân tích hàm ý thống kê vào hệ tư vấn Các nghiên cứu số vấn đề chưa giải quyết: Chỉ tập trung xây dựng mơ hình tư vấn liệu nhị phân chưa quan tâm đến liệu phi nhị phân, đánh giá hiệu tư vấn mơ hình theo tính xác gợi ý; sử dụng luật kết hợp để thực tư vấn nên thời gian tư vấn trực tuyến lâu máy tính bị tải trình xử lý; thiếu kết hợp đặc trưng số mức độ quan trọng hàm ý thống kê để nâng cao hiệu gợi ý Vì vậy, đề tài “Hệ tư vấn dựa mức độ quan trọng hàm ý thống kê” thực với mong muốn đóng góp phần vào lĩnh vực nghiên cứu hệ tư vấn phân tích hàm ý thống kê Mục tiêu, đối tượng phạm vi nghiên cứu luận án 2.1 Mục tiêu nghiên cứu Mục tiêu luận án tìm hiểu, vận dụng mức độ quan trọng hàm ý thống kê kỹ thuật tư vấn lọc cộng tác để đề xuất hiệu chỉnh mơ hình tư vấn nhằm cải tiến hiệu tư vấn - cụ thể độ xác kết Từ đó, góp phần liên kết lý thuyết phân tích hàm ý thống kê vào lĩnh vực hệ tư vấn 2.2 Đối tượng nghiên cứu Những đối tượng nghiên cứu luận án gồm: Các mức độ quan trọng hàm ý thống kê; mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê sử dụng kỹ thuật lọc cộng tác 2.3 Phạm vi nghiên cứu Luận án giới hạn phạm vi sau: Tìm hiểu mức độ quan trọng hàm ý thống kê, kỹ thuật tư vấn lọc cộng tác, nghiên cứu có hệ tư vấn dựa phân tích hàm ý thống kê để làm sở cho việc đề xuất; đề xuất mơ hình tư vấn áp dụng liệu nhị phân phi nhị phân cải tiến hiệu tư vấn Nhóm độ đo tính xác danh sách gợi ý xếp hạng dự đoán sử dụng đánh giá hiệu tư vấn Phương pháp nghiên cứu Luận án sử dụng: Phương pháp nghiên cứu lý thuyết với cơng việc phân tích tổng hợp; phương pháp thực nghiệm để kiểm chứng mơ hình tư vấn đề xuất Bố cục luận án Luận án cấu trúc thành bốn chương sáu phụ lục Mối quan hệ kiến thức chương luận án trình bày hình Chương 1: Tổng quan -Phân tích hàm ý thống kê -Các mức độ quan trọng hàm ý thống kê -Kỹ thuật tư vấn -Đánh giá hiệu tư vấn Tư vấn dựa phân tích hàm ý thống kê Hệ tư vấn Chương 2: Tư vấn theo mức độ quan trọng hàm ý thống kê luật kết hợp Mơ hình Thực nghiệm Chương 3: Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng KnnUIR Mơ hình Thực nghiệm Chương 4: Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục liệu KnnIIR Mơ hình Thực nghiệm Đóng góp luận án - Đề xuất hai mức độ quan trọng hàm ý thống kê để dự đoán xếp hạng người cần tư vấn - Đề xuất ba mơ hình tư vấn áp dụng liệu nhị phân phi nhị phân, theo mức độ quan trọng hàm ý thống kê trên: luật kết hợp, người dùng mục liệu - Phát triển cơng cụ phần mềm Interestingnesslab chứa hàm tiện ích mơ hình tư vấn dùng cho thực nghiệm - Thu thập tập liệu nhị phân DKHP - lưu thông tin đăng ký học phần sinh viên - dùng cho đánh giá hiệu hệ tư vấn CHƯƠNG TỔNG QUAN 1.1 Mức độ quan trọng hàm ý thống kê 1.1.1 Định nghĩa mức độ quan trọng hàm ý thống kê Mức độ quan trọng hàm ý thống kê độ đo lý thuyết phân tích hàm ý thống kê mà sử dụng để phát khuynh hướng tập hợp thuộc tính dạng nhị phân phi nhị phân Đặc điểm mức độ quan trọng hàm ý thống kê không đối xứng, dựa xác suất có kết hợp phi tuyến tính thuộc tính Bảng 1.1 Các mức độ quan trọng hàm ý thông kê Mức độ quan trọng Vai trò Đo độ lệch giá trị ngẫu nhiên giá trị mong đợi Chỉ số mối quan hệ 𝑎 → 𝑏 với 𝑎 𝑏 tập thuộc hàm ý tính Chỉ số hàm ý dùng để tính cường độ hàm ý Chỉ số hàm ý thấp cường độ hàm ý cao Đo tính bất ngờ mối quan hệ 𝑎 → 𝑏 quan sát Cường độ số lượng nhỏ phản ví dụ 𝑛𝑎𝑏̅ - số đối tượng hàm ý khơng có 𝑏 có 𝑎 Cường độ hàm ý độ đo chất lượng thông tin quy nạp Cường độ hàm ý có entropy Điều chỉnh giá trị bất ngờ lượng hóa cường độ hàm ý việc quan tâm đến chiều ngược mối quan hệ (𝑏̅ → 𝑎̅) Cường độ hàm ý có entropy củng cố chắn chất lượng tốt mối quan hệ Chỉ số Phát mối quan hệ có chất lượng hàm ý tốt; gắn kết xây dựng dựa cường độ hàm ý mạnh Chỉ số Đo góp phần đối tượng hình đóng góp thành mối quan hệ Chỉ số Đo tính tiêu biểu đối tượng hình tiêu biểu thành mối quan hệ 1.1.2 Mức độ quan trọng hàm ý thống kê - liệu nhị phân 1.1.3 Mức độ quan trọng hàm ý thống kê - liệu phi nhị phân 1.2 Mức độ quan trọng xếp hạng hàm ý thống kê Mức độ quan trọng xếp hạng hàm ý thống kê độ đo đề xuất luận án dựa số mức độ quan trọng hàm ý thống kê Độ đo sử dụng để dự đoán giá trị xếp hạng đối tượng cho thuộc tính; từ góp phần giải tốn tư vấn Chương Chương trình bày chi tiết độ đo Ta xếp mức độ quan trọng xếp hạng hàm ý thống kê vào nhóm mức độ quan trọng hàm ý thống kê 1.3 Hệ tư vấn hướng nghiên cứu 1.4 Kỹ thuật tư vấn lọc cộng tác 1.4.1 Kỹ thuật tư vấn lọc cộng tác dựa nhớ/láng giềng 1.4.2 Kỹ thuật tư vấn lọc cộng tác dựa mơ hình 1.5 Đánh giá hiệu tư vấn 1.5.1 Phương pháp đánh giá chéo k tập 1.5.2 Đánh giá tính xác gợi ý 1.5.3 Đánh giá tính xác xếp hạng dự đốn 1.5.4 Đánh giá tính xác gợi ý thứ tự 1.6 Tư vấn theo mức độ quan trọng hàm ý thống kê 1.6.1 Tư vấn dựa phân tích hàm ý thống kê có 1.6.2 Tư vấn theo mức độ quan trọng hàm ý thống kê 1.4 Kết luận Chương luận án tìm hiểu về: Các mức độ quan trọng hàm ý thống kê, kỹ thuật tư vấn phương pháp đánh giá hệ tư vấn Về mức độ quan trọng hàm ý thống kê, luận án tìm hiểu độ đo lý thuyết phân tích hàm ý thống kê số hàm ý, cường độ hàm ý, số gắn kết, số đóng góp, số tiêu biểu xác định độ đo sử dụng hệ tư vấn nhằm cải thiện tính xác kết gợi ý Về kỹ thuật tư vấn phương pháp đánh giá hệ tư vấn, luận án tập trung tìm hiểu kỹ thuật lọc cộng tác nhóm độ đo đánh giá tính xác mà chúng sử dụng để xây dựng đánh giá mơ hình tư vấn đề xuất chương sau Bên cạnh đó, Chương tìm hiểu hướng nghiên cứu hệ tư vấn nghiên cứu có hệ tư vấn dựa phân tích hàm ý thống kê để xác định phạm vi nghiên cứu luận án Từ kết tìm hiểu, Chương phác thảo đề xuất tư vấn cụ thể hóa chương sau Hình 1.1 thể mối quan hệ sở lý thuyết đề xuất nghiên cứu Kỹ thuật lọc cộng tác Lọc cộng tác dựa mơ hình Lọc cộng tác dựa láng giềng Người dùng Luật kết hợp Mục liệu 1- Tư vấn theo mức độ quan trọng hàm ý thống kê luật Mức độ quan trọng sở Chỉ số hàm ý Cường độ hàm ý Chỉ số gắn kết Chỉ số đóng góp Chỉ số tiêu biểu - Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục Mức độ quan trọng đề xuất Xếp hạng mục liệu - Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng Xếp hạng người dùng Các mức độ quan trọng hàm ý thống kê Hình 1.1: Mối liên kết sở lý thuyết đề xuất nghiên cứu luận án CHƯƠNG TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ TRÊN LUẬT KẾT HỢP Khác với mơ hình tư vấn dựa phân tích hàm ý thống kê sử dụng luật kết hợp nghiên cứu có, mơ hình đề xuất chương áp dụng liệu nhị phân phi nhị phân; theo nhiều mức độ quan trọng - cường độ hàm ý, cường độ hàm ý có entropy, số gắn kết - kết hợp với số đóng góp để nâng cao hiệu gợi ý 2.1 Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê luật SIR Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê luật (Statistical Implicative Rules based Model - SIR) thể tổng qt Hình 2.1 Mơ hình SIR gồm: - Một tập hữu hạn người dùng 𝑈 = {𝑢1 , 𝑢2 , … , 𝑢𝑛 } - Một tập hữu hạn mục liệu 𝐼 = {𝑖1 , 𝑖2 , … , 𝑖𝑚 } - Một ma trận xếp hạng/đánh giá (rating) 𝑅 = (𝑟𝑗𝑘 )𝑛x𝑚 với 𝑗 = ̅̅̅̅̅ 1, 𝑛 𝑘 = ̅̅̅̅̅̅ 1, 𝑚 lưu trữ thông tin phản hồi người dùng mục Nếu ma trận xếp hạng dạng nhị phân, 𝑟𝑗𝑘 = cho biết người dùng 𝑢𝑗 thích mục liệu 𝑖𝑘 𝑟𝑗𝑘 = (hoặc 𝑁𝐴) cho biết người dùng 𝑢𝑗 khơng thích khơng biết mục 𝑖𝑘 Nếu ma trận xếp hạng dạng phi nhị phân, 𝑟𝑗𝑘 ∈ [0,1] cho biết giá trị xếp hạng người dùng 𝑢𝑗 cho mục liệu 𝑖𝑘 𝑟𝑗𝑘 = 𝑁𝐴 cho biết người dùng 𝑢𝑗 không xếp hạng mục 𝑖𝑘 - Một tập 𝑅𝑢𝑎 lưu xếp hạng biết người cần tư vấn 𝑢𝑎 𝑅𝑢𝑎 = {𝑟𝑢𝑎𝑘 , 𝑘 = ̅̅̅̅̅̅ 1, 𝑚}; đó, 𝑟𝑢𝑎𝑘 = 𝑁𝐴 𝑢𝑎 chưa xếp hạng mục 𝑖𝑘 (𝑢𝑎 , I, 𝑅𝑢𝑎 ) (U, I, R) Cải tiến mơ hình: Trực tiếp sinh luật biểu diễn theo phân tích hàm ý thống kê Độ hỗ trợ s Chiều dài tối đa luật l Độ tin cậy c {𝑎 → 𝑏 | 𝑎 ∈ 𝐼𝑘 , 𝑏 ∈ 𝐼, 𝑘 = ̅̅̅̅̅̅̅̅̅ 1, 𝑙 − 1} Biểu diễn luật theo phân tích hàm ý thống kê {𝑎 → 𝑏} = {𝑛, 𝑛𝑎 , 𝑛𝑏 , 𝑛𝑎𝑏̅ } Cường độ hàm ý (có/khơng có entropy) Chỉ số gắn kết {𝑎 → 𝑏} = {𝑣𝑎,𝑏 } Chỉ số đóng góp Danh sách mục liệu gợi ý cho 𝑢𝑎 Hình 2.1: Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê luật SIR Luật kết hợp 𝑎 → 𝑏 biểu diễn theo quan điểm phân tích hàm ý thống kê gồm bốn giá trị 𝑛, 𝑛𝑎 , 𝑛𝑏 𝑛𝑎𝑏̅ Trong đó, 𝑛𝑎 = ∑𝑖∈𝐸 𝑎(𝑖) , 𝑛𝑏 = ∑𝑖∈𝐸 𝑏(𝑖) , 𝑛𝑎𝑏̅ = ∑𝑖∈𝐸(𝑎(𝑖) ∗ 𝑏̅(𝑖)) với 𝑎(𝑖) 𝑏̅(𝑖) xếp hạng người dùng 𝑖 cho mục liệu 𝑎 𝑏̅ tương ứng 𝑣𝑎,𝑏 giá trị luật 𝑎 𝑏 theo mức độ quan trọng hàm ý thống kê 13 CHƯƠNG TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG Kích thước tập luật sinh mơ hình tư vấn SIR (được đề xuất Chương 2) mơ hình tư vấn dựa phân tích hàm ý thống kê sử dụng luật kết hợp nghiên cứu có thường lớn Do đó, mơ hình gặp phải số nhược điểm: Thời gian xây dựng kết gợi ý (gọi chung thời gian tư vấn) lâu; máy tính bị q tải q trình tính tốn Để tránh nhược điểm cải thiện tính xác kết gợi ý, ta kết hợp đặc điểm việc đề xuất mô hình tư vấn Thứ nhất, luật có độ dài xem xét; cụ thể, xét mối quan hệ hàm ý thống kê hai người dùng Thứ hai, giá trị xếp hạng sản phẩm 𝑖 người cần tư vấn 𝑢𝑎 gần giống giá trị xếp hạng sản phẩm 𝑖 người có sở thích (gọi chung láng giềng gần 𝑢𝑗 ) Thứ ba, sản phẩm có ảnh hưởng định việc hình thành mối quan hệ người dùng 𝑢𝑎 láng giềng 𝑢𝑗 ; sản phẩm 𝑖 ảnh hưởng khác lên mối quan hệ 𝑢𝑎 láng giềng 3.1 Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê Mức độ quan trọng xếp hạng hàm ý thống kê người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 độ đo dùng để dự đoán xếp hạng người cần tư vấn 𝑢𝑎 cho mục liệu 𝑖 ∈ 𝐼 Mục đích việc đề xuất độ đo nhằm tăng cường hiệu tư vấn 𝐾𝑛𝑛𝑈𝐼𝑅, định nghĩa công thức (3.1), dựa trên: (1) 𝑘𝑛𝑛 - số láng giềng gần 𝑢𝑎 (những người có cường độ hàm ý mạnh với 𝑢𝑎 ); (2) 𝑟𝑢𝑗𝑖 - xếp hạng cho mục liệu 𝑖 láng giềng 𝑢𝑗 gần với 𝑢𝑎 ; (3) 𝛾(𝑖, 𝑢𝑎 → 𝑢𝑗 ) - tính tiêu biểu 𝑖 hình thành mối quan hệ 𝑢𝑎 𝑢𝑗 (một láng giềng 14 gần 𝑢𝑎 ) 𝛾 xem trọng số giúp tăng/giảm ảnh hưởng giá trị xếp hạng cho mục liệu 𝑖 láng giềng gần (𝑟𝑢𝑗𝑖 ) việc dự đoán giá trị xếp hạng cho mục liệu 𝑖 người cần tư vấn 𝑢𝑎 𝑘𝑛𝑛 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢𝑎 , 𝑖) = ∑ 𝑗=1 𝑟𝑢𝑗𝑖 ∗ 𝛾(𝑖, 𝑢𝑎 → 𝑢𝑗 ) (3.1) Giá trị xếp hạng 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢𝑎 , 𝑖) phải quy đổi thang đo khoảng [0, 1] xếp hạng biết cách thực phép chia 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢𝑎 , 𝑖)/𝑚𝑎𝑥𝑙∈𝐼 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢𝑎 , 𝑙) Trong đó, 𝑚𝑎𝑥𝑙∈𝐼 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢𝑎 , 𝑙) giá trị lớn tập giá trị dự đoán xếp hạng người dùng 𝑢𝑎 cho mục liệu 3.2 Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng UIR (𝑢𝑎 , I, 𝑅𝑢𝑎 ) (U, I, R) Cường độ hàm ý 𝑢𝑎 x U {𝜑(𝑢𝑎 , 𝑢𝑗 ), 𝑗 = ̅̅̅̅̅̅̅̅ 1, 𝑘𝑛𝑛} Xếp hạng hàm ý người dùng KnnUIR Reclist={𝑖 |𝑖 ∈ 𝐼, 𝑟𝑢′ 𝑎𝑖 ∈ 𝑇𝑜𝑝𝑁} 𝑢𝑎 x I 𝑅𝑢′ 𝑎 Hình 3.1: Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng UIR Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng UIR thể tổng quát Hình 3.1 Kết mơ hình giá trị xếp hạng dự đoán người dùng cho mục liệu và/hoặc danh sách mục liệu có xếp hạng 15 dự đoán cao gợi ý cho người cần tư vấn Mơ hình UIR có thành phần tương tự mơ hình SIR 3.3 Hoạt động mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng Hoạt động mơ hình UIR trình bày Hình 3.2 Thông tin người cần tư vấn i1 i2 … im-1 ua NA ra2 … im ram-1 NA Ma trận xếp hạng i1 i2 u1 r11 NA u2 NA r22 … … … un rn1 rn2 … … … … … im r1m r2m … NA Dữ liệu đầu vào Tiền xử lý liệu Biểu diễn mối quan hệ ua uj với ujU theo phân tích hàm ý thống kê tính cường độ hàm ý (ua, uj) Chuẩn bị cho việc tính giá trị KnnUIR Tìm knn láng giềng gần ua Tính giá trị tiêu biểu mục i hình thành mối quan hệ (ua, uj) Dự đốn xếp hạng người dùng ua cho mục iI Có gợi ý? Thực tư vấn Khơng Có Gợi ý mục xếp hạng cao cho người dùng ua Dữ liệu đầu Danh sách TopN mục xếp hạng cao ua {i1, i13, im-2} Các xếp hạng dự đốn i1 i2 … ua r’a1 r’i2 … Hình 3.2: Hoạt động mơ hình tư vấn UIR im r’am 16 3.4 Thực nghiệm 3.4.1 Dữ liệu công cụ thực nghiệm Các tập MSWeb, DKHP MovieLens giới thiệu Mục 2.3.1 tiếp tục sử dụng làm liệu thực nghiệm Cơng cụ Interestingnesslab tích hợp thêm mơ hình UIR; gói recommenderlab với mơ hình tư vấn POPULAR, IBCF, AR, UBCF, ALS_Implicit SVD; máy tính mơ tả Mục 2.3.1 sử dụng phần thực nghiệm Chương Hiệu tư vấn mơ hình đánh giá qua: (1) tính xác gợi ý theo đường cong Precision - Recall, đường cong ROC độ đo F1; (2) tính xác xếp hạng dự đốn theo sai số RMSE MAE; (3) tính xác gợi ý thứ tự theo độ lợi tích lũy giảm dần nDCG 3.4.2 Đánh giá mơ hình UIR qua tính xác gợi ý - Mơ hình đề xuất UIR cho hiệu tư vấn cao rõ rệt so với mơ hình AR, IBCF POPULAR không cao nhiều so với mơ hình UBCF Cách tiếp cận dựa láng giềng gần UIR làm thời gian tư vấn ngắn so với cách tiếp cận dựa luật kết hợp - Mơ hình UIR cho hiệu tư vấn thấp mơ hình đề xuất SIR (Chương 2) trường hợp số xếp hạng biết người cần tư vấn thấp, số láng giềng gần sử dụng số mục liệu gợi ý cho người 3.4.3 Đánh giá mơ hình UIR qua tính xác xếp hạng dự đoán - Việc xem xét ảnh hưởng mục liệu hình thành mối quan hệ hai người dùng giúp làm tăng hiệu tư vấn 17 - Mơ hình UIR cho hiệu tư vấn cao (qua giá trị sai số RMSE MAE thấp hơn) so với mơ hình UBCF trường hợp người cần tư vấn người dùng Trong trường hợp ngược lại, mơ hình UIR có giá trị sai số thấp sử dụng nhiều láng giềng gần 3.4.4 Đánh giá mơ hình UIR qua tính xác gợi ý thứ tự Thực nghiệm tiến hành trường hợp người cần tư vấn xếp hạng số mục liệu cần gợi ý vài mục Kết thực nghiệm cho thấy: - Mơ hình UIR có danh sách dự đốn xếp thứ tự gần với danh sách xếp thứ tự gốc (do giá trị nDCG cao hơn) so với mơ hình UBCF, ALS_Implicit SVD số láng giềng gần knn>=30 3.3 Kết luận Chương đề xuất mức độ quan trọng hàm ý thống kê 𝐾𝑛𝑛𝑈𝐼𝑅 để dự đoán xếp hạng người dùng cho mục liệu 𝐾𝑛𝑛𝑈𝐼𝑅 phát triển từ số tiêu biểu cường độ hàm ý 𝐾𝑛𝑛𝑈𝐼𝑅 kết hợp nhiều yếu tố tác động đến việc dự đoán xếp hạng người dùng như: Ai láng giềng gần nhất, giá trị xếp hạng cho mục liệu xét láng giềng ảnh hưởng mục liệu xét đến hình thành mối quan hệ láng giềng Bên cạnh đó, Chương đề xuất mơ hình tư vấn theo mức độ quan trọng 𝐾𝑛𝑛𝑈𝐼𝑅 sử dụng kỹ thuật lọc cộng tác dựa người dùng - đặt tên UIR Hiệu tư vấn mơ hình đề xuất UIR đánh giá qua nhóm độ đo tính xác của: Gợi ý (dùng cho liệu nhị phân), xếp hạng dự đoán (dùng cho liệu phi nhị phân) gợi ý thứ tự 18 (dùng cho liệu nhị phân phi nhị phân); nhóm kịch so sánh nội (mơ hình UIR với mơ hình SIR) nhóm kịch so sánh ngoại (mơ hình UIR với mơ hình AR, POPULAR, IBCF, UBCF, ALS_Implicit SVD) Kết thực nghiệm cho thấy mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng UIR: (1) có hiệu cao xem xét ảnh hưởng mục liệu hình thành mối quan hệ hàm ý hai người dùng; (2) có hiệu tư vấn cao mơ hình so sánh số láng giềng gần knn>=30 Ngoài ra, kết thực nghiệm cho thấy mơ hình UIR có hiệu tư vấn thấp mơ hình SIR trường hợp số xếp hạng biết người cần tư vấn thấp 19 CHƯƠNG TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN MỤC Khi dự đoán giá trị xếp hạng 𝑢𝑎 cho sản phẩm 𝑖, ta xem sản phẩm mà 𝑢𝑎 quan tâm láng giềng gần tiềm 𝑖 Mỗi láng giềng gần 𝑖𝑗 có ảnh hưởng khác lên 𝑖 Giá trị ảnh hưởng lượng hóa theo hấp dẫn mối quan hệ (𝑖𝑗 , 𝑖) Độ tin cậy sử dụng để đo sức mạnh mối quan hệ dựa số đồng thuận 𝑛𝑖𝑗 𝑖 cường độ hàm ý đo tính bất ngờ mối quan hệ quan sát số lượng nhỏ phản ví dụ (số phản đối) 𝑛𝑖𝑗𝑖̅ Trong trường hợp hai láng giềng có độ tin cậy với 𝑖, ta quan tâm đến tính bất ngờ mối quan hệ; ngược lại, hai láng giềng có độ bất ngờ với 𝑖, ta quan tâm đến tính tin cậy mối quan hệ Do đó, ta kết hợp hai độ đo để phân biệt rõ ảnh hưởng láng giềng tiềm 𝑖𝑗 tới 𝑖 Điểm giống khác Chương so với chương trước là: Cũng sử dụng láng giềng gần Chương láng giềng mục; dựa mục Chương mối quan hệ hai mục nhằm tránh nhược điểm mơ hình tư vấn dựa luật 4.1 Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê mục Mức độ quan trọng xếp hạng hàm ý thống kê mục liệu 𝐾𝑛𝑛𝐼𝐼𝑅 độ đo dùng để dự đoán xếp hạng người cần tư vấn 𝑢𝑎 cho mục liệu 𝑖 ∈ 𝐼 Độ đo dựa vào: (1) 𝑟𝑢𝑎𝑖𝑗 - thông tin xếp hạng cho mục liệu 𝑖𝑗 người dùng 𝑢𝑎 ; (2) 𝑣𝑖𝑗 𝑖 - giá trị hấp dẫn mối quan hệ láng giềng gần 𝑖𝑗 với mục liệu xét 𝑖 qua giá trị tin cậy 20 giá trị hàm ý thống kê mối quan hệ (𝑖𝑗 , 𝑖); (3) 𝑘𝑛𝑛 - số láng giềng gần với 𝑖 định nghĩa công thức (4.1) (4.2) 𝑘𝑛𝑛 𝐾𝑛𝑛𝐼𝐼𝑅(𝑢𝑎 , 𝑖) = ∑ 𝑣𝑖𝑗𝑖 𝑗=1 𝑟𝑢𝑎𝑖𝑗 ∗ 𝑣𝑖𝑗 𝑖 𝜑(𝑖𝑗 , 𝑖) ∗ 𝑐(𝑖𝑗 , 𝑖) = [𝑐𝑜ℎ(𝑖𝑗 , 𝑖) ∗ 𝑐(𝑖𝑗 , 𝑖) 𝜙(𝑖𝑗 , 𝑖) ∗ 𝑐(𝑖𝑗 , 𝑖) (4.1) (4.2) 𝑣𝑖𝑗 𝑖 tích giá trị tin cậy 𝑐(𝑖𝑗 , 𝑖) mức độ quan trọng: Cường độ hàm ý 𝜑(𝑖𝑗 , 𝑖) số gắn kết 𝑐𝑜ℎ(𝑖𝑗 , 𝑖) cường độ hàm ý có entropy 𝜙(𝑖𝑗 , 𝑖) Mục đích việc kết hợp gia tăng cách biệt mối quan hệ (𝑖𝑗 , 𝑖) so với dựa mức độ quan trọng hàm ý thống kê hay giá trị tin cậy; từ làm bật ảnh hưởng mục 𝑖𝑗 lên 𝑖 Như vậy, 𝐾𝑛𝑛𝐼𝐼𝑅 quan tâm đến số đồng thuận 𝑛𝑖𝑗𝑖 mối quan hệ (𝑖𝑗 , 𝑖) mà quan tâm đến số phản đối 𝑛𝑖𝑗 𝑖̅ mối quan hệ Tương tự 𝐾𝑛𝑛𝑈𝐼𝑅, giá trị 𝐾𝑛𝑛𝐼𝐼𝑅 phải quy đổi thang đo (khoảng [0,1]) xếp hạng biết 4.2 Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê IIR Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục liệu IIR thể tổng quát Hình 4.1 Mơ hình IIR có thành phần tương tự mơ hình SIR UIR 4.3 Hoạt động mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê Hoạt động mô hình tư vấn đề xuất IIR thể Hình 4.2 21 (U, I, R) (𝑢𝑎 , I, 𝑅𝑢𝑎 ) Độ tin cậy c, Cường độ hàm ý có/khơng có entropy, Chỉ số gắn kết coh I x I 𝑉 = {𝑣𝑗𝑘 với 𝑗, 𝑘 = ̅̅̅̅̅̅̅̅ 1, 𝑘𝑛𝑛} Xếp hạng hàm ý mục KnnIIR Reclist={𝑖 |𝑖 ∈ 𝐼, 𝑟𝑢′ 𝑎𝑖 ∈ 𝑇𝑜𝑝𝑁} 𝑢𝑎 x I 𝑅𝑢′ 𝑎 Hình 4.1: Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục IIR Mơ hình IIR sử dụng ma trận mục liệu 𝑉 lưu giá trị 𝑣𝑗𝑘 để thực tư vấn Ma trận V xây dựng trực tiếp gián tiếp Ở dạng gián tiếp, tập luật sinh (theo cách tương tự Chương 2) xét luật có độ dài 2, ngưỡng hỗ trợ tin cậy 0; sau tập luật chuyển đổi ma trận mục Tuy nhiên, so với cách làm trực tiếp, cách làm gián tiếp làm tăng thời gian tư vấn phụ thuộc vào cơng cụ sinh tập luật Ngồi ra, ma trận 𝑉 xây dựng trước (ngoại tuyến) Trong trường hợp số mục kích thước tập liệu lớn, thời gian thực tư vấn rút ngắn ta xây dựng trước ma trận 𝑉 lưu trữ dạng tập tin 22 Ma trận xếp hạng i1 i2 u1 r11 NA u2 NA r21 … … … un r11 rn2 Dữ liệu đầu vào … … … … … im r1m r2m … NA Thông tin người cần tư vấn ua i1 NA Xây dựng ma trận mục liệu i1 … im i1 NA … v11 … … … … … … im-1 ram-1 im NA Thực tư vấn Dự đoán xếp hạng theo KnnIIR Xây dựng ma trận mục Tiền xử lý liệu i2 ra2 im v1m … NA Có Cógợi gợiý? Khơng Có Gợi ý mục xếp hạng cao Lọc ma trận mục lấy knn mục Dữ liệu đầu Danh sách Top N mục xếp hạng cao ua {i1, i13,…, im-2} Các xếp hạng dự đoán i1 i2 … ua r’a1 r’a2 … im r’am Hình 4.2: Hoạt động mơ hình tư vấn IIR 4.4 Thực nghiệm 4.4.1 Dữ liệu công cụ thực nghiệm Chương sử dụng tập liệu công cụ thực nghiệm chương trước 4.4.2 Đánh giá mơ hình IIR qua tính xác gợi ý - Việc xây dựng ma trận mục trực tiếp làm giảm thời gian tư vấn không phụ thuộc vào công cụ sinh tập luật 23 - Mơ hình tư vấn IIR có hiệu cao sử dụng: Cường độ hàm ý để xây dựng ma trận mục liệu số láng giềng knn số mục tập liệu mẫu xét - Mơ hình IIR có hiệu tư vấn cao so với mơ hình AR, IBCF, POPULAR SIR số xếp hạng biết trước người cần tư vấn không q thấp 4.3.3 Đánh giá mơ hình IIR qua tính xác xếp hạng dự đốn - Mơ hình tư vấn IIR có sai số thấp sử dụng: knn số mục tập liệu mẫu xét; cường độ hàm ý có entropy để xây dựng ma trận mục cho trường hợp người cần tư vấn xếp hạng vài mục liệu sử dụng số gắn kết cho trường hợp ngược lại - Mơ hình IIR có sai số thấp so với mơ hình IBCF người cần tư vấn xếp hạng số mục liệu 4.4.4 Đánh giá mơ hình IIR qua tính xác gợi ý thứ tự Mơ hình IIR có tính xác cao (vì giá trị nDCG cao hơn) so với mơ hình IBCF, ALS_Implicit trường hợp người cần tư vấn xếp hạng số mục liệu cần gợi ý vài mục 4.5 So sánh mơ hình tư vấn đề xuất Với liệu dạng nhị phân, mơ hình SIR phù hợp cho trường hợp người cần tư vấn xếp hạng vài mục liệu mơ hình IIR phù hợp cho trường hợp lại Với liệu dạng phi nhị phân, mơ hình UIR có hiệu tư vấn tốt mơ hình IIR Nếu xét thêm yếu tố thời gian tư vấn, mơ hình UIR sử dụng thay cho mơ hình SIR trường hợp người cần tư vấn xếp hạng vài mục liệu liệu dạng nhị phân 24 4.6 Kết luận Chương đề xuất mức độ quan trọng gọi xếp hạng hàm ý mục 𝐾𝑛𝑛𝐼𝐼𝑅 mà phát triển từ mối quan hệ mục liệu để dự đoán xếp hạng người cần tư vấn; mơ hình tư vấn IIR sử dụng 𝐾𝑛𝑛𝐼𝐼𝑅 để gợi ý cho người dùng danh sách mục liệu phù hợp hay dự đoán xếp hạng người dùng 𝐾𝑛𝑛𝐼𝐼𝑅 kết hợp giá trị hàm ý thống kê giá trị tin cậy mối quan hệ mục - mục, giá trị xếp hạng biết người cần tư vấn láng giềng (mục) gần với mục dự đoán xếp hạng Chương cải tiến mơ hình đề xuất cách xây dựng ma trận mục trực tiếp nhằm giảm thời gian tư vấn tránh lệ thuộc vào công cụ sinh luật Hiệu tư vấn mơ hình IIR đánh giá: Trên liệu nhị phân phi nhị phân; theo tính xác của: Gợi ý, xếp hạng dự đoán gợi ý thứ tự Kết thực nghiệm theo kịch so sánh nội (mơ hình IIR với mức độ quan trọng hàm ý thống kê sở khác mơ hình SIR) so sánh ngoại (mơ hình IIR số mơ hình có AR, IBCF, POPULAR, ALS_Implicit) cho thấy mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục IIR nên: (1) sử dụng cường độ hàm ý liệu dạng nhị phân kết hợp cường độ hàm ý có/khơng có entropy với số gắn kết liệu dạng phi nhị phân để xây dựng ma trận mục; (2) sử dụng để xây dựng hệ tư vấn có hiệu cao so với mơ hình so sánh Ngồi ra, kết thực nghiệm cho thấy: (1) việc kết hợp giá trị tin cậy giá trị hàm ý hai mục liệu giúp cải thiện kết tư vấn; (2) tính xác kết gợi ý mơ hình IIR khơng cao mơ hình SIR trường hợp người cần tư vấn xếp hạng mục liệu 25 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết luận án - Xác định mức độ quan trọng hàm ý thống kê sử dụng hệ tư vấn; từ đề xuất mơ hình tư vấn SIR theo mức độ quan trọng hàm ý thống kê luật (mối quan hệ tập mục mục) để gợi ý cho người cần tư vấn danh sách mục liệu phù hợp - Đề xuất mức độ quan trọng hàm ý thống kê 𝐾𝑛𝑛𝑈𝐼𝑅 để dự đoán xếp hạng người dùng; mơ hình tư vấn UIR 𝐾𝑛𝑛𝑈𝐼𝑅 kết hợp đặc điểm ảnh hưởng đến mối quan hệ người cần tư vấn người dùng khác để cải thiện tính xác kết tư vấn - Đề xuất mức độ quan trọng hàm ý thống kê 𝐾𝑛𝑛𝐼𝐼𝑅 để dự đoán xếp hạng người dùng; mơ hình tư vấn IIR 𝐾𝑛𝑛𝐼𝐼𝑅 kết hợp giá trị bất ngờ giá trị tin cậy mối quan hệ hai mục liệu để cải thiện tính xác kết tư vấn - Phát triển công cụ phần mềm Interestingnesslab dùng cho thực nghiệm - Thu thập tập liệu nhị phân lưu thông tin đăng ký học phần dùng cho đánh giá hiệu mơ hình tư vấn Hướng phát triển - Xây dựng mơ hình tư vấn lai ghép để kết hợp ưu điểm mơ hình đề xuất - Đánh giá mơ hình đề xuất theo số tiêu chí hay kỹ thuật phổ biến khác để có tranh đầy đủ hiệu tư vấn chúng; qua thực điều chỉnh mơ hình để cải thiện hiệu tư vấn - Tìm hiểu số phương pháp học sâu, học tăng cường để điều chỉnh mơ hình tư vấn đề xuất nhằm gia tăng hiệu tư vấn 26 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC Lan Phuong Phan, Nghia Quoc Phan, Vinh Cong Phan, Hung Huu Huynh, Hiep Xuan Huynh, and Fabrice Guillet, “Classification of objective interestingness measures”, EAI Endorsed Transactions on Context-Aware Systems and Applications, Vol 3, No 10, pp 1-13, 2016 Lan Phuong Phan, Nghia Quoc Phan, Ky Minh Nguyen, Hung Huu Huynh, Hiep Xuan Huynh, and Fabrice Guillet, “Interestingnesslab: A Framework for Developing and Using Objective Interestingness Measures”, In Proceeding of The International Conference on Advances in Information and Communication Technology, Thai Nguyen, Vietnam, December 12-13, 2016, Springer, pp 302-311, 2017 Lan Phuong Phan, Ky Minh Nguyen, Hiep Xuan Huynh and Huu Hung Huynh.“Association-Based Recommender System using Statistical Implicative Cohesion Measure” In Proceedings of the Eighth International Conference on Knowledge and Systems Engineering (KSE 2016), Ha Noi, Vietnam, October 6-8, 2016, IEEE, pp 144 -149, 2016 Lan Phuong Phan, Huu Hung Huynh, Hiep Xuan Huynh, Régis GRAS “Systeme de recommandation basé sur des mesures implicatives fortes” Dans Actes du 9ème colloque d'Analyse Statistique Implicative (A.S.I.9), Belfort, France, Octobre 4-7, 2017, Universitộ Bourgogne Franche-Comtộ Besanỗon, pp 508-532, 2017 Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn dựa độ đo cường độ hàm ý trách nhiệm”, Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ Thông tin năm 2017 (FAIR 2017), Đà Nẵng, Việt Nam, ngày 17-18 tháng năm 2017, Nhà xuất Khoa học tự nhiên Công nghệ, trang 256-274, 2017 Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn lọc cộng tác dựa độ đo hàm ý thống kê”, Trong Kỷ yếu Hội nghị Quốc gia lần thứ XX Điện tử, Truyền thông Cơng nghệ Thơng tin (REV-ECIT 2017), Tp Hồ Chí Minh, Việt Nam, ngày 14-15 tháng 12 năm 2017, Nhà xuất Khoa học Kỹ thuật, trang 200-205, 2017 Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “User based Recommender Systems using Implicative Rating Measure”, 27 International Journal of Advanced Computer Science and Applications, Vol 8, Iss 11, pp 37-43, 2017 Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn lai ghép dựa độ đo hàm ý thống kê”, Tạp chí Khoa học Trường Đại học Cần Thơ, Số Chuyên đề Công nghệ Thông tin, trang 25-33, 2017 Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Recommendation using Rule based Implicative Rating Measure”, International Journal of Advanced Computer Science and Applications, Vol 9, Iss 4, pp 176-181, 2018 10 Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Hybrid Recommendation based on Implicative Rating Measures”, In Proceedings of International Conference on Machiene Learning and Soft Computing, Phu Quoc, Viet Nam, February 2-4, 2018, ACM, pp 50-56, 2018 11 Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Implicative Rating-Based Hybrid Recommendation Systems”, International Journal of Machine Learning and Computing, Vol 8, No 3, pp 223-228, June 2018 12 Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn dựa mục tiếp cận hàm ý thống kê”, Kỷ yếu Hội thảo quốc gia lần thứ XXI: Một số vấn đề chọn lọc Cơng nghệ thơng tin truyền thơng, Thanh Hóa, Việt Nam, ngày 27-28 tháng năm 2018, Nhà xuất Khoa học Kỹ thuật, trang 131-136, 2018 13 Hoang Tan Nguyen, Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Improved collaborative filtering recommendations using quantitative implication rules mining in implication field”, In Proceedings of International Conference on Machiene Learning and Soft Computing, Da Lat, Viet Nam, 2019, ACM, 2019 14 Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Tư vấn xếp hạng hàm ý thống kê liệu nhị phân”, Tạp chí Khoa học Cơng nghệ - Đại học Đà Nẵng,Vol 17, No 1.1.2019, pp 99-103, 2019 ... -Các mức độ quan trọng hàm ý thống kê -Kỹ thuật tư vấn -Đánh giá hiệu tư vấn Tư vấn dựa phân tích hàm ý thống kê Hệ tư vấn Chương 2: Tư vấn theo mức độ quan trọng hàm ý thống kê luật kết hợp Mơ... CHƯƠNG TỔNG QUAN 1.1 Mức độ quan trọng hàm ý thống kê 1.1.1 Định nghĩa mức độ quan trọng hàm ý thống kê Mức độ quan trọng hàm ý thống kê độ đo lý thuyết phân tích hàm ý thống kê mà sử dụng để phát... theo mức độ quan trọng hàm ý thống kê 1.4 Kết luận Chương luận án tìm hiểu về: Các mức độ quan trọng hàm ý thống kê, kỹ thuật tư vấn phương pháp đánh giá hệ tư vấn Về mức độ quan trọng hàm ý thống