Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.Hệ tư vấn dựa trên trường hàm ý thống kê.
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN TẤN HOÀNG HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KẾ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 9.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG – 2022 Cơng trình hoàn thành tại: TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS TS Huỳnh Xuân Hiệp TS Huỳnh Hữu Hưng Phản biện 1:…………………………… …………… Phản biện 2:……………… ………………………… Phản biện 3:……………………… ………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại: Đại học Đà Nẵng Vào hồi… .ngày .tháng .năm…….… Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết luận án Trong giới trực tuyến, nơi thông tin phát triển với tốc độ cấp số nhân theo đà phát triển thương mại điện tử, dịch vụ lưu trử trực tuyến cung cấp thơng tin, việc tìm kiếm thông tin phù hợp với nhu cầu thách thức người dùng để đưa định đắn Các hệ tư vấn nhanh chóng chứng tỏ cơng cụ hữu dụng việc hỗ trợ cung cấp thông tin cần thiết có liên quan cho người dùng lẫn tổ chức cung cấp dịch vụ, thương mại tình Tuy nhiên, để đáp ứng nhu cầu ngày cao chất lượng số lượng khuyến nghị tổ chức cung cấp dịch vụ trực tuyến người dùng môi trường Intenet, việc nghiên cứu thuật toán tư vấn cải tiến hệ tư vấn để nâng cao chất lượng khuyến nghị, hạn chế khắc phục điểm yếu kỹ thuật tư vấn, ứng dụng khoa học liệu học máy vào lĩnh vực hệ tư vấn vấn đề cấp thiết xu hướng thu hút nhiều nghiên cứu Trong lĩnh vực khoa học liệu học máy, Phân tích hàm ý thống kê phương pháp phân tích liệu Regis Gras đề xuất vào cuối thập niên 90 kỷ trước với mục đích nghiên cứu khuynh hướng mối quan hệ thuộc tính (biến) liệu thông qua mẫu tri thức dạng luật Các mẫu tri thức đánh giá thông qua độ đo hàm ý thống kê cường độ hàm ý, số hàm ý, Mặc dù lý thuyết non trẻ áp dụng nhiều lĩnh vực khác giảng dạy, tâm lý, thể học… Gần đây, chúng đề xuất ứng dụng lĩnh vực tư vấn Tuy vậy, nghiên cứu ứng dụng phân tích hàm ý thống kê vào hệ tư vấn chưa nhiều đóng góp cịn khiêm tốn so với tiềm ứng dụng Nhằm góp phần giải vấn đề nêu trên, nghiên cứu sinh chọn đề tài “Hệ tư vấn dựa trường hàm ý thống kê” làm nội dung nghiên cứu luận án Tiến sỹ kỹ thuật 2 Mục tiêu, đối tượng phạm vi nghiên cứu luận án 2.1 Mục tiêu nghiên cứu Mục tiêu luận án khảo sát hệ tư vấn nghiên cứu nội dung hàm ý thống kê đặc biệt biến thiên hàm ý trường hàm ý làm sở cho việc nghiên cứu đề xuất khung khai thác luật hàm ý (luật kết hợp thoả mãn điều kiện hàm ý thống kê) , từ đề xuất ứng dụng khung khai thác luật hàm ý việc xây dựng mơ hình tư vấn dựa trường hàm ý 2.2 Đối tượng nghiên cứu Đối tượng nghiên cứu luận án gồm: Các độ đo biến thiên hàm ý trường hàm ý hình thành từ q trình biến thiên hàm ý thống kê; Các mơ hình tư vấn khai thác luật sử dụng biến thiên hàm ý mơ hình tư vấn dựa trường hàm ý; nghiên cứu cải tiến phương pháp đánh giá mơ hình tư vấn, nghiên cứu đề xuất kịch thực nghiệm cho mơ hình tư vấn lọc cộng tác áp dụng phân tích hàm ý thống kê 2.3 Phạm vi nghiên cứu Luận án giới hạn phạm vi sau: Tìm hiểu lý thuyết hàm ý thống kê đặc biệt biến thiên hàm ý thống kê, kỹ thuật tư vấn lọc cộng tác, nghiên cứu hệ tư vấn dựa phân tích hàm ý thống kê trước để làm sở cho việc đề xuất; Đề xuất mô hình tư vấn áp dụng liệu nhị phân phi nhị phân cải tiến hiệu tư vấn (được đánh giá qua tính xác mục dự đốn, phân lớp mục khuyến nghị, xếp hạng mục dự đoán) Phương pháp nghiên cứu Phương pháp nghiên cứu sử dụng bao gồm - Nghiên cứu lý thuyết hệ tư vấn đặc biệt hệ tư vấn lọc cộng tác dựa mơ hình khai thác luật, lý thuyết phân tích hàm ý thống kê theo hướng phân tích biến thiên hàm ý thống kê trường hàm ý để đề xuất mơ hình tư vấn; - Phương pháp thực nghiệm để kiểm chứng mơ hình tư vấn đề xuất Bố cục luận án Luận án tổ chức thành nội dung sau: Phần mở đầu giới thiệu tính cấp thiết, mục tiêu, đối tượng, phạm vi nghiên cứu phương pháp nghiên cứu luận án Chương 1: Tổng quan trường hàm ý thống kê hệ tư vấn Chương 2: Các mơ hình hệ tư vấn dựa trường hàm ý, bao gồm mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý mơ hình tư vấn dựa trường hàm ý thống kê Chương 3: Thực nghiệm đánh giá kết Phần kết luận bao gồm đóng góp hướng phát triển Các phụ lục: Các chứng minh (1) tính bất đối xứng độ đo hàm ý thống kê; (2) tương đương công thức số hàm ý Đóng góp luận án - Đề xuất độ đo biến thiên hàm ý thống kê làm sở cho việc xây dựng khung khai thác luật hàm ý mơ hình tư vấn - Đề xuất khung khai thác luật kết hợp hàm ý (luật hàm ý) dựa tích hợp khung khai thác luật kết hợp độ đo biến thiên hàm ý - Đề xuất mơ hình tư vấn bao gồm (1) Mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý để tạo khuyến nghị dựa mặt đẳng trị hàm ý luật kết hợp có ý nghĩa hàm ý áp dụng cho tập liệu nhị phân; (2) Mơ hình sau cải tiến phát triển thành mơ hình tư vấn dựa trường hàm ý thống kê áp dụng liệu nhị phân phi nhị phân - Đề xuất phương pháp phân hoạch liệu dựa mục đánh giá giao dịch thay cho phương pháp phân hoạch liệu dựa số lượng giao dịch tập liệu để nâng cao chất lượng huấn luyện đánh giá mơ hình tư vấn áp dụng cho mơ hình tư vấn dựa trường hàm ý - Phát triển công cụ xây dựng, huấn luyện đánh giá hệ tư vấn implicationfieldRS kịch thực nghiệm mơ hình tư vấn đề xuất sử dụng công cụ CHƯƠNG TỔNG QUAN VỀ TRƯỜNG HÀM Ý THỐNG KÊ VÀ HỆ TƯ VẤN 1.1 Phân tích hàm ý thống kê Trường hàm ý Phân tích hàm ý thống kê (SIA), phương pháp nghiên cứu mối quan hệ dạng luật biến và/hoặc biến luật với Regis Gras đề xuất vào thập niên 1990, theo SIA đề xuất độ đo hàm ý có đặc tính thống kê, bất đối xứng, phi tuyến dựa vào xác suất thống kê để đánh giá mối quan hệ biến liệu Trong SIA, mối quan hệ 𝑎 → 𝑏 (luật, quy tắc) trở nên ổn định số xác nhận đạt tới mức tin cậy xác định Thường khó để thay luật ban đầu luật khác có phản ví dụ xuất nghi ngờ xuất Nếu số phản ví dụ tăng tin cậy luật giảm luật điều chỉnh chí bị loại bỏ Luật chấp nhận số phản ví dụ chấp nhận Ý tưởng ẩn sau SIA luật (mối quan hệ/ mẫu tri thức) quan sát thống kê chấp nhận số phản ví dụ có hàm ý Do vậy, SIA quan tâm đến tham số mà chúng bị bỏ qua độ đo khác Ví dụ, độ tin cậy confidence quan tâm đến tham số 𝑛𝐴𝐵 𝑛𝐴 mà không quan tâm đến tham số 𝑛, 𝑛𝐵 , 𝑛𝐴𝐵̅ độ đo SIA 1.1.1 Các độ đo hàm ý thống kê Phân tích hàm ý thống kê sử dụng hai độ đo để đánh giá mức độ hàm ý mối quan hệ 𝑎 → 𝑏 số hàm ý 𝑛𝐴 𝑛𝐵̅ 𝑛 , 𝑛𝐴 𝑛𝐵̅ √ 𝑛 𝑛𝐴𝐵̅ − 𝑞(𝑎, 𝑏̅) = 𝑛𝐴 𝑛𝐵̅ 𝑛 , 2 2 2 (𝑛 𝑠𝐴 + 𝑛𝐴 )((𝑛 𝑠𝐵̅ + 𝑛𝐵̅ ) √ 𝑛3 { ̅ (𝑖) − ∑𝑖∈𝐸 𝑎(𝑖)𝑏 𝑎, 𝑏 ∈ {0,1} (1.1) 𝑎, 𝑏 ∈ [0,1] Và cường độ hàm ý xác định (theo phân phối poision) công thức (1.2a) ̅) 𝑐𝑎𝑟𝑑(𝐴∩𝐵 𝜑(𝑎, 𝑏) = { ∑ 𝑠=0 𝜆𝑠 𝑠! 𝑒−𝜆 , 0, 𝑛𝐵 ≠ 𝑛 (1.2a) 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 Trong trường hợp xấp xỉ thoả mãn (ví dụ λ ≥ 4) biến ngẫu nhiên 𝑄(𝑎, 𝑏̅) xấp xĩ phân phối chuẩn N (0,1), 𝜑(𝑎, 𝑏) xác định theo công thức (1.2b) 𝜑(𝑎, 𝑏) = √2𝜋 { ∞ 𝑡2 ∫ 𝑒 − 𝑑𝑡 , 𝑛𝐵 ≠ 𝑛 𝑞(𝑎,𝑏̅ ) 0, (1.2b) 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 Trong đó, số hàm ý thấp cường độ hàm ý cao mức mức độ hàm ý lớn 1.1.2 Sự biến thiên số hàm ý trường hàm ý Sự biến thiên 𝑞(𝑎, 𝑏̅) biến (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ) tạo nên trường vector vô hướng C mà theo ý nghĩa hình học Frechet diễn đạt theo cách sau (công thức 1.3): 𝜑𝑑𝑞 = 𝜕𝑞 𝜕𝑞 𝜕𝑞 𝜕𝑞 𝑑𝑛 + 𝑑𝑛 + 𝑑𝑛 + 𝑑𝑛 ̅ = 𝑔𝑟𝑎𝑑𝑞 𝑑𝑀 𝜕𝑛 𝜕𝑛𝐴 𝐴 𝜕𝑛𝐵 𝐵 𝜕𝑛𝐴𝐵̅ 𝐴𝐵 (1.3) Với M điểm có tọa độ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ) trường vecter vô hướng 𝐶, 𝑑𝑀 vertor thành phần vi phân biến grad q vertor đạo hàm riêng biến.Trường gradient thoả mãn tiêu chí Schwartz vi phân hỗn hợp cho cặp biến 𝑋, 𝑌 ∈ {𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ } gọi trường hàm ý 𝜕 𝜕𝑞(𝑎, 𝑏̅) 𝜕 𝜕𝑞(𝑎, 𝑏̅ ) ( )= ( ) 𝜕𝑛𝑋 𝜕𝑛𝑌 𝜕𝑛𝑌 𝜕𝑛𝑋 (1.4) Trường hàm ý sinh từ biến thiên số hàm ý, bao gồm tập mặt đẳng trị luật hàm ý có giá trị hàm ý thống kê xác định theo phương trình (1.5) 𝑞(𝑎, 𝑏̅) − 𝑛𝐴 𝑛𝐵̅ 𝑛 =0 𝑛𝐴 𝑛𝐵̅ √ 𝑛 𝑛𝐴𝐵̅ − (1.5) 1.2 Hệ tư vấn 1.2.1 Định nghĩa Một hệ tư vấn bao gồm tập hợp người dùng ký hiệu U (users), tập mục I (items) Hơn nữa, tập xếp hạng (rating) hệ thống biểu thị R, tập giá trị có cho đánh giá S(Scores) Mơ hình hệ tư vấn xây dựng hàm 𝑓 cơng thức (1.6) 𝑓: 𝑈 × 𝐼 → 𝑆 (1.6) Và nhiệm vụ dự đốn đánh giá 𝑓(𝑢, 𝑖) người dùng 𝑢 ⊂ 𝑈 cho mục 𝑖 ⊂ 𝐼, Hàm sau sử dụng để giới thiệu cho người dùng mục tiêu 𝑢𝑎 một mục 𝑖 ∗ mà đánh giá ước tính có giá trị cao theo (1.7) 𝑖 ∗ = 𝑎𝑟𝑔 max 𝑓(𝑢𝑎 , 𝑗) 𝑗∈𝐼\𝐼𝑢 (1.7) 1.2.2 Đánh giá Việc đánh giá mơ hình tư vấn thực theo tiếp cận: splitting, bootstraping đánh giá chéo k-fold Có hai nhóm độ đo phổ biến để đánh giá khuyến nghị hệ tư vấn, nhóm độ đo tính xác dự báo xếp hạng (MAE, MSE, RMSE) nhóm độ xác phân lớp mục khuyến nghị (precision, recall, F1) 1.2.2 Phân loại Xét theo kỹ thuật tiếp cận hệ tư vấn xây dựng theo kỹ thuật lọc theo nội dung; lọc cộng tác, bao gồm dựa nhớ (dựa người dùng, dựa mục) dựa mơ hình (xây dựng mơ hình học máy cho hệ tư vấn); kỹ thuật khác lai ghép kỹ thuật với Trong đó, kỹ thuật sử dụng phổ biến hiệu kỹ thuật lọc cộng tác 1.3 Tình hình nghiên cứu đề xuất Tìm hiểu tình hình nghiên cứu phát triển hệ tư vấn nói chung hệ tư vấn dựa kỹ thuật lọc cộng tác nói riêng đặt biệt hệ tư vấn lọc cộng tác dựa mô hình khai thác luật kết hợp mơ hình lọc cộng tác tiếp cận phân tích hàm ý thống kê Từ vấn đề hạn chế chúng đề xuất hướng nghiên cứu xây dựng hệ tư vấn dựa trường hàm ý thống kê 1.4 Kết luận Chương tìm hiểu lý thuyết hàm ý thống kê, đặc biệt biến thiên hàm ý, trường hàm ý; hệ tư vấn; tình hình nghiên cứu hệ tư vấn vấn đề gặp phải nghiên cứu hệ tư vấn nói chung, hệ tư vấn dựa khai thác luật hệ tư vấn theo hướng tiếp cận ứng dụng hàm ý thống kê nói riêng, từ đề xuất nghiên cứu mơ hình tư vấn dựa trường hàm ý nhằm cải thiện độ hiệu khuyến nghị CHƯƠNG CÁC MƠ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KÊ 2.1 Mô hình tư vấn lọc cộng tác dựa biến thiên hàm ý 2.1.1 Các vấn đề hệ tư vấn dựa khai thác luật kết hợp Trong lĩnh vực hệ tư vấn, thuật toán khai thác luật kết hợp (ARM – Association Rule Mining) gặp phải số vấn đề khiến chất lượng luật không đủ tốt cho khuyến nghị, bao gồm (1) Khung khai thác luật kết hợp xử lý liệu nhị phân; (2) Chưa đáp ứng yêu cầu thời gian chất lượng luật cho toán khuyến nghị; (3) Độ tin cậy luật không nhạy cảm tương quan tiền đề hậu quả; (4) Các độ đo sinh luật mang tính đối xứng độ tin cậy, lift số độ đo hấp dẫn khác chưa phù hợp toán khuyến nghị, nơi mà vai trị mục/người dùng khơng phải lúc giống nhau; (5) Độ hỗ trợ giảm với gia tăng kích thước luật; (6) Số lượng luật tạo tăng theo cấp số nhân với số lượng mục; (7) Bản chất khung khai thác độ hỗ trợ độ tin cậy chưa quan tâm đến số phản ví dụ thực tế, luật phải có số xác nhận cao phản ví dụ thấp luật mạnh Từ vấn đề khung khai thác luật kết hợp nêu trên, luận án đề xuất tạo phiên khung khai thác luật kết hợp hiệu dựa biến thiên hàm ý 2.1.2 Độ đo biến thiên hàm ý ngưỡng biến thiên hàm ý Độ đo vấn đề cốt lỏi việc xây dựng mơ hình tư vấn, mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý, độ đo khung khai thác luật độ hỗ trợ độ tin cậy, xây dựng độ đo biến thiên hàm ý để lọc tập mặt đẳng trị hàm ý luật làm sở cho khuyến nghị mô hình tư vấn Độ đo biến thiên hàm ý thống kê Các độ đo đề xuất sử dụng cho mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý bao gồm độ đo biến thiên số hàm 11 Hình 1.1 Khung khai thác luật kết hợp sử dụng biến thiên hàm ý Khung khai thác luật kết hợp sử dụng biến thiên hàm ý mơ hình hố cơng thức (2.4) hoạt động theo bước (1) Dùng thuật toán apriori để sinh tập mục thường xuyên thoả ngưỡng độ hỗ trợ 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 từ ma trận 𝑅𝑈𝐼 chuyễn dạng từ tập liệu 𝐷 (2) Sinh luật từ tập mục thường xuyên thoả ngưỡng tin cậy tối thiểu; (3) Xây dựng độ đo biến thiên hàm ý 𝑖𝑚𝑝 dùng chúng để lọc luật mạnh có mức độ hàm ý cao đáp ứng yêu cầu tốn tư vấn; (4) trích lọc mặt đẳng trị hàm ý theo ngưỡng biến thiên 𝜃 cho việc tư vấn 𝐹ℛ𝐴𝑆𝑆 𝑛𝐴 ≤ 𝑛, 𝑛𝐵 ≤ 𝑛, 𝑛𝐵 ≤ 𝑛, max(0, 𝑛𝐴 + 𝑛𝐵 − 𝑛) | ≤ 𝑛𝐴𝐵̅ ≤ min(𝑛𝐴 , 𝑛𝐵 ) (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ), (𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝, độ ℎỗ 𝑡𝑟ợ 𝑐 = | 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓) độ 𝑡𝑖𝑛 𝑐ậ𝑦 𝑠 𝑙𝑒𝑛𝑔ℎ𝑡ℛ𝐴𝑆𝑆 ≤ 𝑘 𝑆𝐼𝐴𝑚𝑒𝑎𝑠𝑢𝑟𝑒 𝑖𝑚𝑝 | |𝑟ℎ𝑠 |=1 ℛ𝐴𝑆𝑆 { 2.1.4 Mơ hình tư vấn đề xuất 𝑖𝑚𝑝 ℜ 𝑆𝐼𝐴𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 } (2.4) 12 Mơ hình tổng qt khai thác luật mơ tả Hình 2.2, theo khung khai thác 𝐹ℛ𝐴𝑆𝑆 dùng làm tảng cho việc xây dựng mơ hình hình tư vấn dựa biến thiên hàm ý theo người dùng theo mục, bên cạnh mơ hình khuyến nghị lọc cộng tác khác tích hợp để đánh giá so sánh với mơ hình đề xuất, theo quy trình đánh mơ tả đoạn Hình 2.2 Mơ hình hệ tư vấn lọc cộng tác dựa biến thiên hàm ý 2.1.5 Đánh giá mơ hình đề xuất Mơ hình tư vấn đánh giá theo quy trình Hình 2.3 Các độ đo đánh giá Tập liệu Tập huấn luyện Tập kiểm thử Mơ hình đánh giá Kết đánh giá Mơ hình Thuật tốn khuyến nghị Kết tư vấn khuyến nghị Hình 2.3 quy trình đánh giá mơ hình hệ tư vấn 13 Phương pháp dược dùng đánh giá chéo k-fold có lặp lại với 𝑘 = có số lần lập lại 𝑡 = 2, liệu chia làm tập huấn luyện tập kiểm thử theo số lượng giao dịch tập liệu Hình 2.4 Lưu đồ thuật toán đánh giá hệ tư vấn Thủ tục đánh giá mô tả lưu đồ Hình 2.4, theo độ đo đánh giá sử dụng bao gồm hai nhóm độ đo (1) tính xác dự đốn (MAE, MSE RMSE) (2) tính xác phân lớp mục khuyến nghị (Precision, recall, F1) 2.2 Mơ hình hệ tư vấn dựa trường hàm ý thống kê 2.2.1 Các vấn đề hệ tư vấn dựa phân tích hàm ý thống kê Các mơ hình tư vấn dựa phân tích hàm ý thống kê có, kể mơ hình tư vấn khai thác luật kết hợp sử dụng biến thiên hàm ý thống kê, góp phần làm phong phú thêm nghiên cứu giải pháp để cải thiện hiệu hệ tư vấn lọc cộng tác Tuy nhiên chúng số hạn chế cần khắc phục (1) Chỉ xử lý liệu nhị phân, dẫn đến vấn đề cần giải bùng nổ tổ hợp mát thơng tin q trình nhị phân hố liệu phi nhị phân; (2) Đối với mơ hình dựa khai thác luật cơng trình này, độ đo hàm ý đề xuất giai đoạn hậu xử lý nhiệm vụ khai thác luật, chúng 14 khơng đóng góp đáng kể để hạn chế bùng nổ tổ hợp luật kết liệu lớn, cần thời gian xử lý không gian lưu trử lớn Để khắc phục hạn chế này, mơ hình tư vấn dựa trường hàm ý thống kê đề xuất dựa phát triển, cải thiện mơ hình tư vấn dựa khai thác luật kết hợp sử dụng biến thiên hàm ý 2.2.2 Luật hàm ý khung khai thác luật hàm ý Mơ hình tư vấn dựa trường hàm ý thống kê mở rộng khung khai thác luật kết hợp thành khung khai thác luật hàm ý 2.2.2.1 Mơ hình hố luật hàm ý định lượng Để giải giới hạn khung khai thác luật kết hợp liệu phi nhị phân, khái luật hàm ý định lượng (sau gọi luật hàm ý) xây dựng dựa tập mục thường xuyên thoả mãn độ tin cậy độ đo biến thiên hàm ý trình sinh luật, điều giúp giải toán liệu phi nhị phân góp phần hiệu q trình hạn chế bùng nỗ tổ hợp sinh luật Cũng giống luật kết hợp, luật hàm ý mơ hình hố cơng thức (2.5): | ≤ 𝑛𝐴 ≤ 𝑛𝐵 ≤ 𝑛 , ≤ 𝑛𝐴𝐵̅ ≤ 𝑛𝐵 𝑙𝑒𝑛𝑔ℎ𝑡ℛ𝐼𝑀𝑃 ≤ 𝑘 ℛ𝐼𝑀𝑃 = (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ) { |𝑟ℎ𝑠ℛ𝐼𝑀𝑃 | = (𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝𝑝, | 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 𝑆𝐼𝐴 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 𝑖𝑚𝑝 ℜ 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑)} (2.5) Với ℜ xác định theo công thức (2.6) 𝜕𝑞(𝑎, 𝑏̅) "≤", imp 𝜖 { | 𝜉 ∈ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )} 𝜕𝜉 ℜ={ 𝜕𝜑(𝑎, 𝑏) ≥, imp 𝜖 { | 𝜉 ∈ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )} 𝜕𝜉 (2.6) 2.2.2.2 Mơ hình hố khung khai thác luật hàm ý Luật hàm ý khai thác khung khai thác luật hàm ý phát triển từ khung khai thác luật kế hợp trình bày Hình 2.5 mơ hình hố theo cơng thức (2.7) 15 Hình 2.5 Lưu đồ thuật toán khung khai thác luật hàm ý 𝐹𝑅 𝐼𝑀𝑃 ≤ 𝑛𝐴 ≤ 𝑛𝐵 ≤ 𝑛 𝐼𝑅𝑀 𝑎𝑙𝑔𝑜𝑟𝑖𝑡ℎ𝑚𝑠 ≤ 𝑛𝐴𝐵̅ ≤ 𝑛𝐴 = {(𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑠, 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 𝑐,) | } 𝑠𝑚𝑖𝑛 ≤ 𝑠, 𝑐𝑚𝑖𝑛 ≤ 𝑐, 𝑖𝑚𝑝𝑚𝑖𝑛 ℜ 𝑖𝑚𝑝 𝑆𝐼𝐴 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 (2.7) Khung khai thác luật hàm ý hoạt động theo bước (1) Dùng thuật toán apriori để sinh tập mục thường xuyên thoả ngưỡng độ hỗ trợ 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 từ ma trận 𝑅𝑈𝐼 chuyễn dạng từ tập liệu 𝐷 bước thừa kế thuật toán (2) Xây dựng độ đo biến thiên hàm ý 𝑖𝑚𝑝 tích hợp vào khung khai thác luật để sinh luật hàm ý từ tập mục thường xuyên thoả ngưỡng tin cậy tối thiểu thoả mãn độ đo biến thiên hàm ý; (3) xây dựng trích lọc mặt đẳng trị hàm ý theo ngưỡng biến thiên 𝜃 cho việc tư vấn 2.2.3 Mơ hình đề xuất Mơ hình tư vấn dựa trường hàm ý thống kê đề xuất Hình 2.6 16 Hình 2.6 Mơ hình tư vấn dựa Trường hàm ý Mơ hình phát triển từ mơ hình tư vấn dựa khai thác luật kết hợp sử dụng biến thiên hàm ý thông qua phát triển bổ sung sau (1) khung khai thác luật hàm ý phát triển từ khung khai thác luật kết hợp để sinh luật hàm ý từ tập liệu nhị phân lẫn phi phị phân; (2) bổ sung thêm tiếp cận phân hoạch liệu việc xây dựng, huấn luyện đánh giá mô hình tư vấn dựa số mục đánh giá giao dịch tập liệu để cải thiện khả huấn luyện mơ hình làm cho mơ hình có kết tốt hơn; (3) Thuật tốn đánh giá hệ tư vấn có bổ sung thêm nhóm độ đo đánh giá dựa xếp hạng vị trí mục đề xuất (bao gồm độ đo 𝑛𝐷𝐶𝐺 𝑅𝑎𝑛𝑘𝑆𝑐𝑜𝑟𝑒) để việc đánh giá phản ánh sâu sắc hiệu mơ hình tư vấn 2.2.3 Đánh giá mơ hình đề xuất Quy trình đánh giá mơ hình tư vấn giống mơ hình tư vấn dựa khai thác luật kết hợp sử dụng biến thiên hàm ý, sử dụng phương pháp đánh giá chéo k-fold lập lại lần có hai bổ sung quan trọng sau Ngoài phương pháp phân hoạch liệu quan sát thành tập huấn luyện tập kiểm thử theo số lượng giao dịch tập liệu mơ 17 hình cịn bổ sung phương pháp phân hoạch theo số lượng mục đánh giá giao dịch để khắc phục “điểm nghẻn” việc xác định số mục biết trước liệu thưa thớt toán tư vấn, điều giúp tăng hiệu huấn luyện mơ hình, làm cho chất lượng khuyến nghị tốt Hình 2.7 Lưu đồ thuật toán đánh giá hệ tư vấn đề xuất Điểm bổ sung thứ hai nhóm độ đo đánh giá vị trí xếp hạng mục danh sách khuyến nghị mơ hình tư vấn, trình bày thuật tốn đánh giá mơ hình Hình 2.7 Các độ đo bao gồm nDCG Rankscore 2.3 Kết luận chương Chương đề xuất hướng tiếp cận dựa biến thiên hàm ý trường hàm ý để khai thác luật kết hợp toán tư vấn lọc cộng tác Đầu tiên, đề xuất mơ hình hệ tư vấn lọc cộng tác dựa độ biến thiên hàm ý để giải vấn đề việc khai thác luật kết hợp phục vụ cho mô hình hệ tư vấn Mơ hình giúp cải thiện hiệu hệ thống khai thác luật phục vụ cho hệ tư vấn so với đa số mơ hình hệ tư vấn dựa lọc cộng tác Mặc dù vậy, cịn số điểm yếu cần cải thiện điều dẫn đến việc đề xuất mơ hình tư vấn dựa trường hàm ý thơng qua việc phát triển khắc phục điểm yếu cuả mơ hình đề xuất ban đầu 18 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Dữ liệu thực nghiệm Để đánh giá mơ hình tư vấn dựa khai thác luật sử dụng biến thiên hàm ý mơ hình tư vấn dựa trường hàm ý đề xuất Chương 2, chúng thực nghiệm tập liệu nhị phân MSWeb1 tập liệu định lượng MovieLens 100k2 3.2 Công cụ thực nghiệm Các thực nghiệm thực công cụ 𝑖𝑚𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑜𝑛𝑓𝑖𝑒𝑙𝑑𝑅𝑆 phát triển ngôn ngữ R có kế thừa gói cơng cụ RecommenderLab3 cho việc xây dựng đánh giá mơ hình hệ tư vấn gói cơng cụ Rchic4 để xử lý thông tin hàm ý thống kê 3.3 Thực nghiệm mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý 3.3.1 Mơ hình lọc cộng tác dựa biến thiên hàm ý theo mục Mơ hình thực nghiệm tập liệu Movielens với ngưỡng nhị phân hoá (gán cho đánh giá phim nhỏ 3, gán khác) Mơ hình đánh giá, so sánh ngoại tuyến với mơ hình tư vấn lọc cộng tác hai nhóm độ đo đánh giá tính xác dự đốn (MAE, MSE RMSE);và tính xác phân loại khuyến nghị (Precision, recall, F1) theo kịch thực nghiệm sau Kịch 1: Khảo sát tư vấn dựa mặt đẳng trị biến thiên hàm ý Mơ hình tạo trường hàm ý bao gồm tập mặt đẳng trị hàm ý có thứ tự luật kết hợp hàm ý Điều giúp cho việc tư vấn cho người dùng mục liệu có mức độ hàm ý phù hợp Một người dùng mục tiêu khuyến nghị phim danh sách phim mà người thích theo nội dung luật tương ứng https://kdd.ics.uci.edu/databases/msweb/msweb.html https://grouplens.org/datasets/movielens/100k/ https://cran.r-project.org/web/packages/recommenderlab/ index.html https://members.femto-st.fr/raphael-couturier/en/rchic 19 dựa vào phim trước mà họ xem dựa vào luật mặt đẳng trị phù hợp Kịch 2: So sánh độ xác dự đốn mục khuyến nghị với mơ hình tư vấn lọc cộng tác Kết thực nghiệm cho thấy độ xác dự đốn mục khuyến nghị mơ hình khuyến nghị lọc cộng tác dựa biến thiên hàm ý (ISF) có kết vượt trội, số đánh giá lổi dự đốn RMSE, MSE MAE mơ hình ISF thấp nhất, tiếp đến mơ hình lọc cộng tác dựa người dùng bao gồm mơ hình sử dụng độ đo Cosine (UBCFcosine), sử dụng độ đo Pearson (UBCFpeason) cuối mơ hình lọc cộng tác dựa mục bao gồm mơ hình sử dụng độ Consine (IBCFcosine), sử dụng độ đo Pearson (IBCFpeason) Qua đó, cho thấy độ đo biến thiên hàm ý giúp khung khai thác luật kết hợp cung cấp luật thoả mãn mức độ hàm ý góp phần làm cho mơ hình lọc cộng tác dựa biến thiên hàm ý cải thiện kết quà khuyến nghị đáng kể Kịch So sánh độ xác phân lớp với mơ hình tư vấn lọc cộng tác Kết thực nghiệm mơ hình ISF có kết độ xác phân lớp vượt trội mơ hình IBCFcosine, IBCFpeason, UBCFpeason tiệm cận với độ xác mơ hình UBCFcosine thơng qua việc đánh giá biểu đồ precision, recall, đường cong ROC 3.3.2 Mơ hình lọc cộng tác dựa biến thiên hàm ý theo người dùng Việc đánh giá tương tự mơ hình lọc cộng tác dựa biến thiên hàm ý theo người dùng, thực tập liệu Movielens kịch tương tự thực mơ hình tư vấn khai thác luật kết hợp sử dụng biến thiên hàm ý theo người dùng Kết thực nghiệm đạt kịch tương tự Thực nghiệm mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý theo mục Qua hai thực nghiệm mơ hình hình tư vấn lọc cộng tác dựa biến thiên hàm ý theo mục theo người dùng cho thấy mơ hình đề xuất đóng góp đáng kể cho việc cải thiện mơ hình khuyến nghị lọc cộng tác theo mơ hình khai thác luật kết hợp 20 3.4 Thực nghiệm mơ hình tư vấn dựa trường hàm ý thống kê Mơ hình tư vấn dựa trường hàm ý thống kê thực nghiệm đánh giá theo phương pháp đánh giá chéo k-fold (với k=5) có lập lại lần, tập liệu nhị phân MSWeb tập liệu phi nhị phân Movielens, tập liệu phân hoạch theo số lượng giao dịch theo số mục đánh giá giao dịch 3.4.1 Thực nghiệm liệu phân hoạch theo số lượng giao dịch Kịch 1: So sánh mơ hình dựa luật kết hợp dựa luật hàm ý tập liệu nhị phân So với mơ hình tư vấn lọc cộng tác dựa mơ hình khai thác lật kết hợp kết thực nghiệm độ đo xác phân lớp precision, recall, F1 biểu đồ đường cong ROC recall/precision tập liệu nhị phân thỉ mơ hình tư vấn dựa trường hàm ý tốt nhiều Kịch 2: So sánh mơ hình dựa luật kết hợp dựa luật hàm ý tập liệu định lượng Trên tập liệu định lượng, độ xác phân lớp dựa độ đo Precision, recall, F1 mơ hình tư vấn IFARRS tốt nhiều so với mơ hình tư vấn dựa mơ hình khai thác luật kết hợp Kịch 3: Hiệu suất thời gian khuyến nghị Kịch so sánh hiệu suất thời gian tạo khuyến nghị (bao gồm thời gian xây dựng mơ hình dự báo mục khuyến nghị) mơ hình tư vấn dựa trường hàm ý mơ hình khai thác luật kết hợp, kết thực nghiệm cho thấy mơ hình tư vấn dựa trường hàm ý thống kê có thời gian xây dựng thực thi mơ hình nhanh tương ứng 53% (thời gian xây dựng mơ hình tư vấn) 37% (thời gian thực thi mơ hình tư vấn) dựa khai thác luật kết hợp, luật sinh tinh gọn khoảng 9% so với tập luật sinh mơ hình tư vấn dựa khai thác luật kết hợp điều đáp ứng yêu cầu thời gian tập luật xử lý tốt cho hệ tư vấn Kịch 4: So sánh với mơ hình khuyến nghị lọc cộng tác tập liệu định lượng So sánh theo tiêu độ xác phân lớp, mơ hình tư vấn dựa trường hàm ý thống kê cho kết vượt trội so 21 với mơ hình tư vấn lọc cộng tác mục người dùng truyền thống sử dụng độ đo tương đồng Cosine Pearson 3.4.2 Thực nghiệm liệu phân hoạch theo mục đánh giá giao dịch Kịch So sánh với mơ hình khuyến nghị truyền thống Trong kịch thử nghiệm này, mơ hình hệ tư vấn dựa trường thống kê hàm ý (ISFRS), so sánh với mơ hình khuyến nghị lọc cộng tác truyền thống dựa người dùng cho phép đo Cosine (UBCF cRS) Pearson (UBCF psRS), khuyến nghị lọc cộng tác mơ hình dựa mục cho thước đo Cosine (IBCF cRS) Cosine hiệu chỉnh (IBCF acRS), Tập liệu sử dụng thử nghiệm tập liệu phi nhị phân Movielens Để mơ hình lọc cộng tác có kết tốt, thử nghiệm nhiều tham số 𝑘 = 2,5,10,15 lân cận thấy k = 15 tốt giá trị khác Các mơ hình đề xuất thử nghiệm thước đo hai nhóm độ đo: phân loại xếp hạng Đầu tiên, mơ hình thử nghiệm độ đo xác phân loại, kết bao gồm đồ thị đường cong ROC, precision /recall, F1, theo mơ hình ISFRS tốt nhất, mơ hình lọc cộng tác dựa người dùng sử dụng độ đo Pearson Cosine, cuối mơ hình yếu mơ hình lọc cộng tác dựa mục (trong trường hợp Pearson độ đo Cosine hiệu chỉnh) Kết thử nghiệm cho thấy đóng góp mơ hình ISFRS đề xuất phương pháp phân vùng liệu đề xuất vào việc đánh giá việc cải thiện khả phân loại xếp hạng chất lượng đào tạo mơ hình so với mơ hình đề xuất dựa lọc cộng tác truyền thống Kịch So sánh với mơ hình tư vấn tiếp cận hàm ý thống kê Trong kịch thử nghiệm này, tập liệu MSWeb Movielens sử dụng để so sánh mơ hình hệ thống khuyến nghị trường thống kê hàm ý (ISFRS) với hai mô hình ứng dụng phân tích hàm ý thống kê có khác bao gồm cơng trình sử dụng số hàm ý cường độ hàm ý (IIIRS) mơ hìnhdùng độ đo hàm ý Phi-độ đo gắn 22 kết - Cohesion- độ đo mức độ quan trọng -Gamma (PCGRS) hai loại độ đo kịch Đầu tiên độ đo xác phân loại bao gồm precision/recall, đường cong ROC F1, kết thực nghiệm cho thấy tính ưu việt mơ hình khuyến nghị IFS RS so với PCG RSmodel mơ hình IIIRS, yếu mơ hình IIIRS độ đo Thứ hai độ đo xác xếp hạng, kết thực nghiệm thể giống với kết nhóm thước đo xác phân loại, tức mơ hình ISFRS có hạng mục xếp hạng kết tốt theo số nDCG Rankscore, mơ hình PCGRS mơ hình IIIRS 3.5 Kết luận chương Các mơ hình tư vấn đề xuất Chương đánh giá, so sánh hiệu so với mơ hình tư vấn lọc cộng tác dựa nhớ (theo mục theo người dùng) dựa mơ hình khai thác luật thông qua thực nghiệm tổ chức chương Theo đó, kết thực nghiệm mơ hình tư vấn dựa trường hàm ý cho thấy giúp nâng cao hiệu việc ứng dụng biến thiên hàm ý vào mơ hình tư vấn, cải thiện đáng kể chất lượng hệ thống khuyến nghị so với hệ tư vấn dựa lọc cộng tác truyền thống Ngoài ra, mơ hình hệ tư vấn dựa trường hàm ý so sánh hiệu công trình hệ tư vấn ứng dụng phân tích hàm ý thống kê có kết cho thấy mơ có kết tốt tất hệ tư vấn theo cách tiếp cận phân tích hàm ý thống kê 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết luận án - Thứ nhất, đề xuất độ đo biến thiên hàm ý thống kê - Thứ hai, đề xuất khung khai thác luật kết hợp hàm ý (luật hàm ý) - Thứ ba, đề xuất mô hình tư vấn lọc cộng tác dựa việc tiếp cận biến thiên hàm ý thống kê Đầu tiên mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý giúp cải thiện chất lượng tư vấn lọc cộng tác dựa mơ hình khai thác luật kết hợp có mức độ hàm ý phù hợp tập liệu nhị phân Tiếp theo, mơ hình tư vấn dựa trường hàm ý thống kê đề xuất sở cải tiến mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý, để cải thiện chất lượng khuyến nghị thời gian thực mơ hình - Thứ tư, đề xuất phương pháp phân hoạch liệu thành tập huấn luyện tập kiểm thử dựa mục đánh giá giao dịch - Và cuối phát triển công cụ implicationfieldRS ngôn ngữ R để xây dựng, huấn luyện đánh giá mơ hình hệ tư vấn đề xuất Hướng phát triển - Mở rộng khung khai thác khai thác luật hàm ý cho mối quan hệ gữa luật hàm ý liệu luật hàm ý trường hàm ý (còn gọi siêu luật r-rule) để khai thác khuyến nghị - Mở rộng hướng xử lý liệu dạng liệu khác liệu nhị phân phi nhị phân liệu vector cho toán tư vấn - Mở rộng việc ứng dụng khuynh hướng biến thiên hàm ý cho độ đo khác phân tích hàm ý thống kê độ đo số gắn kết, số tiêu biểu, số đóng góp - Kết hợp mơ hình tư vấn khai thác luật hàm ý với mơ hình tư vấn hiệu khác để nâng cao chất lượng hệ tư vấn 24 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC [1] Hoang Tan Nguyen, Hung Huu Huynh, Hiep Xuan Huynh, Raphaël Couturier, (2017), Recommended based on asymmetric user relations using TIMP (temporal implicative) measure, IX International Conference A.S.I Analyse Statistique Implicative – Statistical Implicative Analysis (ASI9), Franch, pp.493,507 [2] Nguyễn Tấn Hoàng, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, 2017, “Tư vấn dựa biến thiên số hàm ý trường hàm ý”, Hội thảo quốc gia lần thứ X nghiên cứu ứng dụng Công nghệ thông tin (FAIR’17); Đà Nẵng, pp.938-950 [3] Nguyễn Tấn Hoàng, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, (2017), “Tư vấn lọc cộng tác theo mục dựa độ biến thiên số hàm ý trường hàm ý”, Hội thảo quốc gia @ lần thứ 20 nghiên cứu ứng dụng Công nghệ thông tin; Quy Nhơn, pp.372-379 [4] Hoang Tan Nguyen, Hung Huu Huynh, Hiep Xuan Huynh (2018) Collaborative filtering recommendation with threshold value of the equipotential plane in implication field, the 2nd International Conference on Machine learning and Soft computing (ICMLSC2018); Phu Quoc island, Vietnam ISBN: 978-1-4503-6336-5 doi>10.1145/3184066.3184072 (Scopus index) [5] Hoang Tan Nguyen, Phan Phuong Lan, Hung Huu Huynh, Hiep Xuan Huynh (2019) Improved collaborative filtering recommendations using quantitative implication rules mining in implication field , the 3rd International Conference on Machine learning and Soft computing (ICMLSC2019); Dalat, Vietnam ISBN: 978-1-4503-6612-0 doi>10.1145/3310986.3310996 (Scopus index) [6] Hoang Tan Nguyen, Hung Huu Huynh, Hiep Xuan Huynh (2018), Collaborative filtering recommendation in the implication field, International Journal of Machine Learning and Computing (IJMLC) 2018 doi: 10.18178/ijmlc.2018.8.3.690 (Scopus index) 25 [7] Hoang Tan Nguyen, Phan Phuong Lan, Hung Huu Huynh, Hiep Xuan Huynh (2019), Recommendation with quantitative implication rules, EAI Endorsed Transactions on Context-aware Systems and Applications, 2019 doi: 10.4108/eai.13-7-2018.156837 [8] Hoang Tan Nguyen, Phan Phuong Lan, Hung Huu Huynh, Hiep Xuan Huynh (2021), Collaborative recommendation based on implication, International Journal of Advanced Computer Science and Applications,Vol 12, No 10, 2021 (Scopus index) ... Tổng quan trường hàm ý thống kê hệ tư vấn Chương 2: Các mơ hình hệ tư vấn dựa trường hàm ý, bao gồm mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý mơ hình tư vấn dựa trường hàm ý thống kê Chương... F1) 2.2 Mơ hình hệ tư vấn dựa trường hàm ý thống kê 2.2.1 Các vấn đề hệ tư vấn dựa phân tích hàm ý thống kê Các mơ hình tư vấn dựa phân tích hàm ý thống kê có, kể mơ hình tư vấn khai thác luật... hình tư vấn dựa trường hàm ý nhằm cải thiện độ hiệu khuyến nghị 8 CHƯƠNG CÁC MƠ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KÊ 2.1 Mơ hình tư vấn lọc cộng tác dựa biến thiên hàm ý 2.1.1 Các vấn