CHƯƠNG TỔNG QUAN VỀ TRƯỜNG HÀM Ý VÀ HỆ TƯ VẤN
Phân tích hàm ý thống kê
Phân tích hàm ý thống kê (ASI), được Regis Gras giới thiệu vào thập niên 1990, nghiên cứu mối quan hệ hàm ý giữa các biến dữ liệu thông qua các luật 𝑎 → 𝑏 Khái niệm này đã trở thành cốt lõi trong khai phá dữ liệu, giúp biểu diễn mối quan hệ giữa các mẫu trong tập phổ biến Dựa trên công trình của Agrawal et al., nhiều thuật toán đã được phát triển để khai thác hiệu quả các luật này trong cơ sở dữ liệu lớn, nhằm trích xuất một tập hợp hạn chế các luật có liên quan để hỗ trợ quyết định Tuy nhiên, các thử nghiệm so sánh cho thấy kết quả có thể thay đổi tùy thuộc vào lựa chọn các độ đo chất lượng luật Các độ đo mức độ thú vị thường được phân loại thành hai loại: độ đo chủ quan, tập trung vào tính bất ngờ và khả năng hoạt động tương đối, và độ đo khách quan, ưu tiên các tiêu chí thống kê như mức độ bao phủ và ý nghĩa.
Trong các độ đo khách quan, độ hỗ trợ (𝑠𝑢𝑝𝑝) và độ tin cậy (𝑐𝑜𝑛𝑓) là những tiêu chí phổ biến nhất để đánh giá mối quan hệ giữa các biến Độ hỗ trợ cho biết tần suất xuất hiện đồng thời của các biến trong tập dữ liệu, trong khi độ tin cậy thể hiện xác suất có điều kiện của một biến khi biết biến kia Tuy nhiên, độ tin cậy có hai nhược điểm chính: nó không thay đổi khi kích thước của tập biến hoặc tập giao dịch thay đổi và không nhạy cảm với sự phân bố của các biến Các độ đo khác, như độ đo 𝜒², thường không xác định rõ hướng của mối quan hệ, nhưng có thể được cải thiện bằng cách tìm kiếm các tập phổ biến tương quan Gras đã đề xuất các độ đo cường độ hàm ý và chỉ số hàm ý để lượng hóa "sự ngạc nhiên" của một mối quan hệ khi có ít phản ví dụ Cường độ hàm ý dựa trên mô hình xác suất giúp đo lường chính xác ý nghĩa thống kê của các luật đã phát hiện, nhấn mạnh tầm quan trọng của việc phát hiện những sai lệch nhỏ trong dữ liệu.
Cường độ hàm ý rất nhạy cảm với những biến đổi nhỏ, như đã được chứng minh qua các thực nghiệm Hơn nữa, các nghiên cứu trên dữ liệu tổng hợp và dữ liệu thực tế đã chỉ ra rằng nó kết hợp hiệu quả với các độ đo cổ điển hơn.
Trong lý thuyết hàm ý thống kê, chúng ta xem xét một tập hữu hạn 𝐸 = {𝑒 1 , 𝑒 2 , … , 𝑒 𝑛 } gồm 𝑛 giao dịch, được mô tả bởi tập 𝐼 = {𝑖 1 , 𝑖 2 , … , 𝑖 𝑝 } với 𝑝 biến Ký hiệu Ω(𝑒 𝑘 ) đại diện cho tập phổ biến của giao dịch 𝑒 𝑘 , trong đó 0 < 𝑘 ≤ 𝑛 và Ω(𝑒 𝑘 ) ⊆ 𝐼 Đối với hai tập con 𝑎 và 𝑏 của 𝐼, ta định nghĩa 𝐴 = {𝑒 𝑘 ∈ 𝐸; ∀j ∈ 𝑎, 𝑗 ∈ Ω(𝑒 𝑘 )} là tập giao dịch trong 𝐸 chứa 𝑎, và 𝐵 = {𝑒 𝑘 ∈ 𝐸; ∀j ∈ 𝑏, 𝑗 ∈ Ω(𝑒 𝑘 )} là tập giao dịch chứa 𝑏 Tập bù của 𝐴 và 𝐵 trong 𝐸 lần lượt được ký hiệu là 𝐴̅ và 𝐵̅.
Luật kết hợp/hàm ý là một mẫu có dạng 𝑎 → 𝑏, trong đó 𝑎 và 𝑏 là các tập phổ biến không giao nhau, với 𝑎 ⊂ 𝐼, 𝑏 ⊂ 𝐼 và 𝑎 ∩ 𝑏 = ∅ Trong thực tế, thường xảy ra tình trạng quan sát một số giao dịch có sự xuất hiện của 𝑎 mà không có 𝑏, điều này không theo xu hướng chung là có 𝑏 khi 𝑎 có mặt Do đó, vấn đề này liên quan đến bản số 𝑛 của E cũng như các bản số khác.
Số lượng phản ví dụ 𝑛 𝐴 và 𝑛 𝐵 cần được xem xét để tính toán số 𝑛 𝐴∩𝐵̅ = 𝑐𝑎𝑟𝑑(𝐴 ∩ 𝐵̅), nhằm thống kê và quyết định xem có chấp nhận được luật 𝑎 → 𝑏 hay không.
Theo phân tích liên kết khả năng xảy ra của Lerman [41], cường độ hàm ý thể hiện khả năng không xảy ra các phản ví dụ 𝑛 𝐴∩𝐵̅ trong 𝑇
Mối quan hệ hàm ý giữa 𝑎 và 𝑏 được mô hình hóa trong phân tích hàm ý thống kê như sau (xem Hình 1-1)
Hình 1-1 Minh hoạ các thành phần của phân tích hàm ý thống kê bởi giản đồ
Để hiểu rõ hơn về cách biểu diễn mối quan hệ hàm ý trong luật hàm ý, hãy xem xét một tập dữ liệu các giao dịch, như được minh họa trong Bảng 1-1 dưới đây.
Bảng 1-1 Dữ liệu các giao dịch phim
Bảng 1-2 Trình bày dạng nhị phân dữ liệu các giao dịch phim
Tập dữ liệu gồm 9 giao dịch 𝐸 = {𝑒 1 , 𝑒 2 , … , 𝑒 9 } và tập mục 𝐼 = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 , 𝑃ℎ𝑖𝑚 3 } chứa 3 mục Mỗi giao dịch có tập mục tương ứng, ví dụ, Ω(𝑒 1 ) = {𝑃ℎ𝑖𝑚 2 } và Ω(𝑒 2 ) = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 } Các giao dịch trong Bảng 1-1 có thể được biểu diễn dưới dạng nhị phân.
Bảng 1-2 thể hiện các giao dịch, trong đó mỗi dòng tương ứng với một giao dịch và mỗi cột đại diện cho một bộ phim Mỗi bộ phim được xem như một biến nhị phân, với giá trị 1 nếu có trong giao dịch và 0 nếu không Xét luật 𝑎 → 𝑏 với 𝑎 = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 } và 𝑏 = {𝑃ℎ𝑖𝑚 3 }, tập hợp 𝐴 chứa các giao dịch {𝑒 2 , 𝑒 4 , 𝑒 5 , 𝑒 6 , 𝑒 8 , 𝑒 9 } và tập hợp 𝐵 gồm {𝑒 4 , 𝑒 5 , 𝑒 6 , 𝑒 9 } Với 𝑛 = 9, 𝑛 𝐴 = 6, 𝑛 𝐵 = 4, và 𝑛 𝐴𝐵̅ = 2, ta có thể phân tích mối quan hệ giữa các bộ phim trong các giao dịch này.
Do đó, 𝑎 → 𝑏 có thể được biểu diễn theo (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵̅ ) như sau 𝑎 → 𝑏 = (9,6,4,2)
Chúng tôi thực hiện so sánh giữa số lượng phản ví dụ quan sát được và một mô hình xác suất Cụ thể, giả định rằng chúng ta tiến hành rút ngẫu nhiên hai tập con 𝑋 và 𝑌 trong quá trình nghiên cứu.
𝐸, tương ứng chứa số các giao dịch 𝑛 𝐴 và 𝑛 𝐵 Các tập bù 𝑌̅ của 𝑌 và 𝐵̅ của 𝐵 trong
Trong một bài toán xác suất, khi có một số 𝑛 𝐵̅, biến ngẫu nhiên 𝑁 𝑋∩𝑌̅ được định nghĩa là 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅), trong khi 𝑛 𝐴∩𝐵̅ là giá trị quan sát Luật kết hợp 𝑎 → 𝑏 có thể được chấp nhận với ngưỡng 1 − α, nếu như xác suất số lượng phản ví dụ trong các quan sát lớn hơn số lượng phản ví dụ mong đợi trong một phép rút ngẫu nhiên, tức là nếu 𝑃𝑟(𝑁 𝑋∩𝑌̅ ≤ 𝑛 (𝐴∩𝐵̅) ) ≤ α.
Hình 1-2 So sánh số lượng các phản ví dụ quan sát được với mô hình xác suất
Phân phối của biến ngẫu nhiên 𝑁 𝑋∩𝑌 phụ thuộc vào phương pháp chọn ngẫu nhiên các giao dịch 𝑋 và 𝑌 Việc rút ra hai tập giao dịch 𝑋 và 𝑌 được thực hiện theo một thủ tục ngẫu nhiên, đảm bảo rằng các phần tử xuất hiện theo dòng thực hiện giao dịch, đồng thời thoả mãn ba điều kiện: (i) thời gian chờ cho các sự kiện (𝑎 và 𝑏̅) là các biến ngẫu nhiên độc lập; (ii) sự phân bổ số lượng các sự kiện trong khoảng [𝑡, 𝑡 + 𝑇] chỉ phụ thuộc vào T; (iii) hai sự kiện có thể không xảy ra đồng thời Quá trình này kết thúc khi có 𝑛 𝐴 phần tử với 𝑎 = 𝑡𝑟𝑢𝑒 và 𝑛 𝐵 phần tử với 𝑏 = 𝑡𝑟𝑢𝑒, trong đó 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅) được gán cho biến ngẫu nhiên số các phản ví dụ trong quá trình này.
Số lượng sự kiện xảy ra trong một khoảng thời gian cố định tuân theo phân phối Poisson 𝑃(𝜆), trong đó λ đại diện cho trung bình số lần thành công khi rút ra các giao dịch thỏa mãn điều kiện 𝑎 và 𝑏̅ trong khoảng thời gian nhất định.
Xác suất của sự kiện (𝑎 = true) (và tương ứng, (𝑏 = false)) được lượng giá bởi 𝑛 𝐴
𝑛 Vậy, xác suất của sự kiện (𝑎 = true và 𝑏 = false) là λ =𝑛 𝐴 𝑛 𝐵̅
𝑛 Đối với các trường hợp xấp xỉ [94] ( 𝜆 > 3), biến ngẫu nhiên chuẩn 𝑁̃ 𝑋∩𝑌̅ 𝑐𝑎𝑟𝑑(𝑋∩𝑌̅)−𝜆
√𝜆 là xấp xỉ phân phối 𝑁(0,1) Giá trị quan sát được của 𝑁̃ 𝑋∩𝑌̅ là 𝑛̃ 𝐴∩𝐵 𝑛 𝐴∩𝐵 ഥ −𝜆
√𝜆 Xác suất của 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅) = 𝑠 được xác định theo công thức (1.1)
Xác suất mà các cơ hội tạo ra nhiều phản ví dụ 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅) lớn hơn số phản ví dụ quan sát được định nghĩa theo công thức (1.2) [94].
Trong phần dưới đây, chúng tôi xem xét phân phối Poison Trong các điều kiện xấp xỉ cổ điển, các phân phối khác hội tụ về loại Poison
Hãy xem xét, đối với 𝑛 𝐵̅ ≠ 0, biến ngẫu nhiên chuẩn tắc 𝑄(𝑎, 𝑏̅) thể hiện giá trị quan sát của 𝑛(𝑋∩𝑌̅) [94] theo công thức (1.3)
Các phân phối Chuẩn, Possion và Nhị thức nêu trên trong luận án này sẽ được trình bày trong phần phụ lục 3
1.1.1 Các độ đo hàm ý thống kê Độ đo SIA là một độ đo bất đối xứng Không giống như các phương pháp phân tích dữ liệu khác, SIA dựa trên yếu tố phản ví dụ, theo đó số lượng phản ví dụ càng nhỏ thì mức độ của mối quan hệ hàm ý càng lớn và ngược lại Hai độ đo quan trọng của SIA là chỉ số hàm ý và cường độ hàm ý
Chúng ta biểu thị 𝑞(𝑎, 𝑏̅) là giá trị quan sát của 𝑄(𝑎, 𝑏̅) trong thực nghiệm
Hệ tư vấn
Công việc tư vấn và khuyến nghị là một phần thiết yếu trong cuộc sống hàng ngày, giúp mọi người đưa ra quyết định về các mục như âm nhạc, sách hoặc phim dựa trên kiến thức bên ngoài Hệ tư vấn, hay hệ thống khuyến nghị, là một nhánh của hệ thống truy xuất thông tin, nhằm dự đoán và xếp hạng sở thích của người dùng cho các mục hoặc yếu tố xã hội mà họ chưa từng xem xét Hệ thống này sử dụng các mô hình từ nghiên cứu máy học, khai phá dữ liệu, thống kê và toán học, kết hợp với đặc tính của mục (phương pháp dựa trên nội dung) hoặc môi trường xã hội của người dùng (phương pháp lọc cộng tác) Để hỗ trợ việc tiếp cận và nghiên cứu, việc giới thiệu tổng quan về hệ tư vấn là cần thiết.
1.2.1 Các thành phần của một hệ tư vấn
Hệ tư vấn bao gồm ba thành phần chính: tập hợp người dùng ký hiệu là 𝑈, tập các mục được ký hiệu là 𝐼, và tập xếp hạng của người dùng cho các mục được biểu thị bởi 𝑅 Các giá trị có thể có cho một đánh giá cũng là một phần quan trọng trong hệ thống này.
Trong hệ thống tư vấn, người dùng 𝑢 ∈ 𝑈 chỉ có một đánh giá cho mỗi mục 𝑖 ∈ Ι, ký hiệu là 𝑟 𝑢𝑖 Để xác định người dùng đã đánh giá mục nào, sử dụng ký hiệu 𝑈 𝑖, trong khi Ι 𝑢 đại diện cho các mục đã được người dùng 𝑢 đánh giá Khái niệm Ι 𝑢𝑣, tức là các mục chung đã được đánh giá bởi cả hai người dùng 𝑢 và 𝑣, được định nghĩa là Ι 𝑢 ⋂ Ι 𝑣 Tương tự, 𝑈 𝑖𝑗 biểu thị tập hợp người dùng đã đánh giá cả hai mục 𝑖 và 𝑗, với 𝑈 𝑖𝑗 = 𝑈 𝑖 ⋂ 𝑈 𝑗 Hai vấn đề quan trọng trong hệ thống tư vấn là dự đoán mục tốt nhất cho người dùng và đề xuất danh sách N mục dữ liệu tốt nhất Đối với người dùng cụ thể 𝑢, các mặt hàng mới 𝑖 ∈ Ι\Ι 𝑢 mà họ có khả năng quan tâm được xác định thông qua các phương pháp hồi quy hoặc phân loại, nhằm tìm hiểu một hàm số theo công thức (1.18).
Hàm dự đoán đánh giá 𝑓(𝑢, 𝑖) được định nghĩa từ tập hợp người dùng 𝑈 và mục hàng 𝐼 đến tập hợp giá trị 𝒮, nhằm cung cấp một giá trị cho người dùng 𝑢 đối với mục hàng mới 𝑖 Hàm này được sử dụng để giới thiệu cho người dùng 𝑢 một mục 𝑖 ∗ mà có đánh giá ước tính cao nhất.
Sau khi xây dựng các mô hình hệ tư vấn, bước đầu tiên là đánh giá và so sánh hiệu suất của chúng Tiếp theo, cần lựa chọn mô hình phù hợp nhất cùng với các thông số đi kèm để quyết định đưa vào sử dụng Công việc này rất quan trọng để đảm bảo hiệu quả và tính khả thi của hệ thống.
• Tổ chức dữ liệu để đánh giá hiệu suất
• Đánh giá hiệu quả của mô hình tư vấn
1.2.2.1 Tổ chức dữ liệu đánh giá mô hình hệ tư vấn Để đánh giá mô hình, cần phải xây dựng và huấn luyện chúng với một tập dữ liệu và kiểm tra chúng trên một số dữ liệu khác có cùng phân phối xác suất với nhau
Tập huấn luyện (training set) là dữ liệu chính để huấn luyện mô hình, giúp các thuật toán khuyến nghị học từ đó Quá trình học này phụ thuộc vào thuật toán và mô hình được sử dụng Ví dụ, với thuật toán k láng giềng gần nhất trong hình lọc cộng tác, các giá trị trong tập huấn luyện được xác định dựa trên độ tương tự và học theo phương pháp vét cạn Ngoài ra, trong mô hình tư vấn khai thác luật, các giá trị trong tập huấn luyện liên quan đến cường độ hàm ý Thực tế, tập dữ liệu huấn luyện thường bao gồm các cặp vectơ đầu vào và vectơ đầu ra tương ứng, và các thuật toán sẽ tối ưu hóa sai số dự đoán trên tập này đến mức chấp nhận được.
Tập kiểm thử (testing set) là công cụ quan trọng để đánh giá hiệu quả của các mô hình học máy, nhằm đảm bảo khả năng dự đoán chính xác trên dữ liệu chưa được sử dụng trong quá trình huấn luyện Sau khi mô hình được huấn luyện, nó cần được kiểm tra bằng cách sử dụng tập dữ liệu kiểm thử để tính toán độ chính xác hoặc sai số của dự đoán Mặc dù chúng ta biết nhãn thực của từng điểm trong tập dữ liệu này, nhưng chúng ta sẽ ẩn đi các nhãn đó để mô hình thực hiện dự đoán Bằng cách so sánh kết quả dự đoán với nhãn thực, chúng ta có thể đánh giá độ chính xác của mô hình Tổng hợp các lỗi dự đoán cho phép tính toán sai số trên tập kiểm thử, với nhiều chỉ số khác nhau được sử dụng để đánh giá hiệu quả mô hình Cần lưu ý rằng các chỉ số này có thể khác với những chỉ số được áp dụng trong quá trình tối ưu hóa mô hình trên tập huấn luyện.
Quá trình kiểm thử và huấn luyện hoàn toàn độc lập, không chỉ về bộ dữ liệu mà còn về phương pháp so sánh các chỉ số.
Tập dữ liệu kiểm thử chất lượng là tập dữ liệu độc lập với tập huấn luyện, không tham gia vào quá trình huấn luyện nhưng vẫn tuân theo cùng một phân phối xác suất Điều này đảm bảo đánh giá mô hình không bị thiên lệch Nếu mô hình đạt kết quả tốt trên tập huấn luyện nhưng kém trên tập kiểm thử, có khả năng cao rằng mô hình đã gặp phải tình trạng quá khớp (overfitting).
Để đánh giá độ chính xác của các mô hình, cần so sánh các khuyến nghị với sở thích người dùng, giả sử một số sở thích chưa biết trong tập kiểm tra Tập kiểm thử thường được chia thành hai phần: tập dữ liệu chưa biết (unknown set) và tập dữ liệu đã biết (known set) Số lượng sở thích người dùng được giữ lại gọi là số được biết trước (given), và không được vượt quá số giá trị tối thiểu của người dùng trong giao dịch Để đảm bảo hai tập dữ liệu có cùng phân phối xác suất và do hạn chế về tài nguyên, hai tập này thường được phân chia từ cùng một nguồn dữ liệu Việc phân hoạch dữ liệu này có thể thực hiện theo nhiều cách khác nhau, tùy thuộc vào số lượng dữ liệu quan sát được và mô hình huấn luyện Ba phương pháp chia tập dữ liệu thường được sử dụng bao gồm
Phương pháp chia tách dữ liệu (Hold-out/Splitting) là kỹ thuật quan trọng trong việc thực nghiệm, trong đó tập dữ liệu được chia thành hai phần: tập huấn luyện, chiếm khoảng 70-80% tổng số dữ liệu, và tập kiểm thử (Hold-out), thường chiếm 20-30% còn lại.
Chia tách dữ liệu có hoàn lại, hay còn gọi là bootstrapping, là phương pháp mà trong đó dữ liệu được chia thành hai phần, với tập huấn luyện thường chiếm 70-80% tổng lượng dữ liệu Khác với các phương pháp chia tách thông thường, bootstrapping cho phép lấy mẫu các dòng dữ liệu với sự hoàn lại, nghĩa là cùng một người dùng có thể xuất hiện nhiều lần trong tập huấn luyện Điều này dẫn đến việc số lượng người dùng trong tập kiểm tra có thể nhiều hơn nếu kích thước tập huấn luyện giữ nguyên như trước đó.
Đánh giá chéo (Cross Validation) là một phương pháp quan trọng để đánh giá thuật toán huấn luyện và mô hình, không chỉ đơn thuần là mô hình huấn luyện Quá trình này bao gồm việc lặp đi lặp lại việc chia tập dữ liệu thành hai phần: phần huấn luyện và phần kiểm thử Dữ liệu huấn luyện được sử dụng để học mô hình, trong khi dữ liệu kiểm thử dùng để đánh giá mô hình Kết quả kiểm thử được cộng lại và tính trung bình, giúp xác định độ ổn định và hiệu quả của thuật toán Có nhiều phương pháp chia tập dữ liệu như Leave-p-out, Leave-one-out, và k-fold validation, trong đó k-fold validation là phổ biến nhất Ví dụ, trong 5-fold cross validation, dữ liệu được chia thành 5 phần, mỗi phần sẽ lần lượt được sử dụng làm tập kiểm thử, và các chỉ số như accuracy, precision, recall, và F1-Score sẽ được tính toán và trung bình hóa sau 5 lần kiểm thử Qua đó, chúng ta có cái nhìn sâu sắc hơn về hiệu suất của mô hình.
Phương pháp đánh giá k-fold là một trong những phương pháp phổ biến nhất trong chuẩn bị dữ liệu Vì vậy, luận án này cũng đề xuất sử dụng phương pháp đánh giá k-fold để đảm bảo tính chính xác và hiệu quả trong quá trình phân tích dữ liệu.
1.2.2.2 Đánh giá hiệu quả mô hình hệ tư vấn
Đề xuất nghiên cứu
Trong nỗ lực nhằm góp phần giải quyết những vấn đề được phân tích và trình bày ở Mục 1.2.5, Mục 1.2.6 và Mục 1.2.7 luận án tập trung vào các nội dung:
Đề xuất các mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý thống kê nhằm nâng cao hiệu quả khuyến nghị của hệ thống lọc cộng tác Các mô hình này có khả năng hoạt động hiệu quả trên dữ liệu nhị phân và khai thác luật kết hợp để cải thiện độ chính xác của các gợi ý.
Tiếp tục phát triển mô hình tư vấn dựa trên trường hàm ý bằng cách tích hợp độ đo biến thiên hàm ý thống kê vào khung khai thác luật kết hợp Điều này giúp khai thác các luật hàm ý từ tập dữ liệu nhị phân và phi nhị phân, tăng hiệu quả và giảm thời gian tìm kiếm, đồng thời đưa ra khuyến nghị chính xác hơn.
Việc sử dụng bổ sung độ đo xếp hạng mục trong danh sách khuyến nghị là một phương pháp hiệu quả để đánh giá mô hình tư vấn Bên cạnh các độ đo chính xác dự đoán mục khuyến nghị và độ đo độ chuẩn xác phân lớp của danh sách khuyến nghị, độ đo xếp hạng mục cung cấp một góc nhìn toàn diện hơn về hiệu suất của mô hình Bằng cách kết hợp các độ đo này, các nhà phát triển mô hình có thể đánh giá một cách chính xác hơn khả năng của mô hình trong việc đưa ra những khuyến nghị phù hợp và chính xác.
Đề xuất một phương pháp phân hoạch tập dữ liệu nhằm huấn luyện và đánh giá mô hình hiệu quả cho các tập dữ liệu thưa trong các hệ tư vấn Phương pháp này giúp tối ưu hóa quá trình xử lý dữ liệu và nâng cao độ chính xác của mô hình.
Phát triển công cụ phần mềm để cài đặt và tích hợp các mô hình tư vấn đề xuất, đồng thời cung cấp chức năng hỗ trợ cho việc xây dựng và đánh giá hệ tư vấn là rất quan trọng.
Hình 2-10 minh họa mối quan hệ giữa các hướng nghiên cứu ứng dụng phân tích hàm ý thống kê (được thể hiện bằng màu nâu, xanh dương và xanh lá cây) và định hướng nghiên cứu mới trong luận án, cụ thể là Hệ tư vấn dựa trên trường hàm ý (được trình bày bằng màu đỏ) trong lĩnh vực hệ tư vấn.
Chỉ số hàm ý Cường độ hàm ý
Dữ liệu Nh ị phân Ph i nh ị phân
Hệ tư vấn dựa trên phân tích hàm ý thống kê
Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê
Hệ tư vấn dựa trên trường hàm ý thống
Hệ tư vấn dựa trên A.S.I
Cường độ hàm ý Cường dộ hàm ý entropy
Chỉ số gắn kết Chỉ số đóng góp Chỉ số tiêu biểu
Biến thiên chỉ số hàm ý Biến thiên cường độ hàm
Kết luận chương
Chương 1 của luận án trình bày các vấn đề chính Thứ nhất, nội dung cơ bản của lý thuyết phân tích hàm ý thống kê với các độ đo chỉ số hàm ý và cường độ hàm ý cùng khuynh hướng biến thiên hàm ý của chúng, cùng các đặc tính đáng chú ý của chúng so với các độ đo khác đối với hệ tư vấn, mặt đẳng trị hàm ý và trường hàm ý thống kê Thứ hai, hệ tư vấn, phân loại, phương pháp đánh giá và vai trò của hệ tư vấn thông qua tìm hiểu các lĩnh vực ứng dụng của chúng hiện nay Thứ ba, trình bày các vấn đề còn cần phải giải quyết của hệ tư vấn nói chung, của hệ tư vấn dựa trên mô hình khai thác luật và đặc biệt là của mô hình hệ tư vấn dựa trên tiếp cận phân tích hàm ý thống kê, từ đó để làm cơ sở đưa ra đề xuất nghiên cứu “Hệ tư vấn dựa trên trường hàm ý thống kê” với các nội dung đề xuất sẽ được trình bày trong các Chương 2 và Chương 3 tiếp sau.
2 CHƯƠNG 2 MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN
Trong chương này, chúng tôi đề xuất một phương pháp mới dựa trên lý thuyết hàm ý thống kê và độ đo biến thiên chỉ số hàm ý để khai thác luật kết hợp trong tư vấn lọc cộng tác Mô hình hệ tư vấn lọc cộng tác dựa trên độ biến thiên hàm ý được giới thiệu nhằm giải quyết các vấn đề hiện tại trong việc khai thác luật kết hợp cho hệ thống tư vấn Mô hình này không chỉ cải thiện hiệu quả của hệ thống khai thác luật kết hợp mà còn vượt trội hơn so với các mô hình tư vấn dựa trên lọc cộng tác hiện có Tuy nhiên, vẫn còn một số điểm cần cải thiện, tạo nền tảng cho việc phát triển mô hình tư vấn dựa trên trường hàm ý thống kê.
Chương này được chia thành ba phần chính Phần đầu tiên giới thiệu mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý, tập trung vào phân tích các vấn đề khai thác tri thức từ luật kết hợp và xây dựng độ đo sự biến thiên của chỉ số hàm ý Phần thứ hai trình bày mô hình tư vấn dựa trên trường hàm ý, nêu rõ các cải tiến cần thiết để nâng cao chất lượng mô hình và đánh giá trên các tập dữ liệu nhị phân và phi nhị phân Cuối cùng, phần kết luận tóm tắt nội dung chương.
Các công trình nghiên cứu liên quan đã được công bố tại nhiều hội thảo quốc gia và quốc tế, bao gồm Hội nghị Fair lần thứ 17 vào năm 2017, Hội nghị quốc gia @ lần thứ 20 năm 2018, và hội thảo quốc tế ICMLSC2018 về Machine learning và Soft computing.
CHƯƠNG MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý
Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý
2.1.1 Phân tích các vấn đề của hệ tư vấn dựa trên mô hình khai thác luật kết hợp
Khai thác luật kết hợp đã được nghiên cứu và phát triển từ nửa cuối thế kỷ trước, với nhiều ứng dụng nổi bật trong phân tích giỏ hàng thông qua các thuật toán dựa trên khung khai thác luật, tập trung vào độ hỗ trợ và độ tin cậy Tuy nhiên, trong lĩnh vực hệ tư vấn, các thuật toán khai thác luật kết hợp (ARM) đang đối mặt với những thách thức về chất lượng, thời gian xử lý và khối lượng lớn luật khi làm việc với các tập dữ liệu ngày càng mở rộng.
Xử lý dữ liệu nhị phân là nền tảng của hầu hết các thuật toán khai thác quy tắc (ARM), dựa trên khung khai thác độ hỗ trợ và độ tin cậy để tạo ra các luật Các thuật toán này có khả năng lọc thông tin và đề xuất các mục phù hợp cho người dùng, chủ yếu tập trung vào dữ liệu phân loại nhị phân Nghiên cứu về việc tìm kiếm luật kết hợp trên dữ liệu phân loại nhị phân hoặc hai giá trị đã mang lại nhiều đóng góp tích cực cho lĩnh vực này.
Trong thực tế, dữ liệu không chỉ tồn tại ở dạng nhị phân mà còn ở dạng định lượng Để giải quyết vấn đề này, các giải pháp như logic mờ được áp dụng nhằm mở rộng kết quả cho các tập dữ liệu định lượng Tuy nhiên, những giải pháp này thường phải đối mặt với sự đánh đổi giữa hiệu suất và độ chính xác của thuật toán, cũng như nguy cơ mất thông tin.
Các thuật toán ARM được phát triển nhằm tối ưu hóa phân tích giỏ hàng, do đó, để nâng cao hiệu quả khuyến nghị về thời gian, số lượng và độ hấp dẫn của các luật, cần điều chỉnh các thuật toán này cho phù hợp hơn.
Các thuật toán ARM, dựa trên khung độ hỗ trợ và độ tin cậy, gặp phải một số vấn đề ảnh hưởng đến chất lượng của các luật, dẫn đến khuyến nghị không đạt yêu cầu.
Độ tin cậy của luật sinh ra từ mối quan hệ giữa tiền đề và hậu quả không phản ánh đúng sự tương quan giữa chúng Cụ thể, độ tin cậy của luật 𝑎 → 𝑏, với 𝑎 và 𝑏 là các tập hợp mục, không bị ảnh hưởng khi kích thước của 𝑏 hoặc quần thể 𝐸 thay đổi Hơn nữa, độ tin cậy này cũng không thay đổi khi kích thước của 𝑏 mở rộng, vì nó không tính đến tần suất xuất hiện của 𝑏 và 𝐸.
Luật 𝑎 → 𝑏 có khả năng xảy ra cao hơn khi kích thước của 𝑏 tăng hoặc khi kích thước của 𝐸 giảm, đặc biệt khi tất cả các tập đều tăng trưởng theo cùng một tỷ lệ Độ tin cậy không phản ánh mối quan hệ giữa tiền đề và hậu quả của luật, do đó để khắc phục hạn chế này, độ đo lift thường được sử dụng bổ sung Tuy nhiên, độ đo lift có thể gây nhiễu trong cơ sở dữ liệu nhỏ, khi các mục hiếm có xác suất thấp xảy ra cùng nhau, dẫn đến giá trị lift cao một cách ngẫu nhiên.
Các thuật toán ARM sử dụng xác suất có điều kiện để xác định các luật kết hợp mạnh, nhưng độ tin cậy của luật 𝑎 → 𝑏 không thay đổi theo kích thước của 𝑛 𝐵 hoặc 𝐸 (𝑛) Mặc dù vậy, khả năng xảy ra của 𝑎 → 𝑏 tăng lên khi kích thước của 𝑛 𝐵 lớn hơn hoặc khi kích thước của E nhỏ hơn Điều này càng trở nên rõ ràng hơn khi kích thước của tất cả các tập hợp phát triển đồng đều.
Mô hình tham chiếu luật 𝑎 → 𝑏
1 𝑛 𝐵 tăng 2 𝑛 giảm 3 𝑛 𝐴 , 𝑛 𝐵 tăng/ giảm cùng tỷ lệ
Hình 2-1 Ba trường hợp với xác suất có điều kiện không đổi
Hình 2-1 minh họa rằng trong trường hợp 1 (𝑛 𝐵 tăng), khi số lượng đối tượng trong kết luận B tăng gần bằng kích thước của E, thì hầu hết các đối tượng trong tiền đề A cũng nằm trong B Ngược lại, trong trường hợp 2 (𝑛 giảm), khi kích thước của A (𝑛 𝐴) và B (𝑛 𝐵) gần bằng kích thước của E, A và B sẽ chia sẻ nhiều đối tượng chung.
Trong trường hợp 3, khi sự tăng/giảm của 𝑛 𝐴 và 𝑛 𝐵 diễn ra theo cùng một tỷ lệ, việc sử dụng một mẫu quan trọng hơn sẽ giúp nâng cao độ tin cậy vào hàm ý thống kê 𝑎 → 𝑏 Để khắc phục giới hạn về độ tin cậy này, độ đo lift thường được áp dụng Tuy nhiên, cần lưu ý rằng độ đo lift có thể bị ảnh hưởng bởi sự nhiễu trong các cơ sở dữ liệu nhỏ, vì các mục hiếm với xác suất thấp có thể tạo ra giá trị lift cao chỉ từ một vài lần (hoặc thậm chí chỉ một lần) xảy ra cùng nhau.
Thuật toán này giới thiệu một độ đo mới có thể điều chỉnh theo kích thước 𝑛 𝐵 và E, nhằm nâng cao hiệu quả của khung khai thác luật dựa trên xác suất có điều kiện Việc cải thiện này sẽ dẫn đến chất lượng cao hơn cho các luật được phát hiện, với độ đo hàm ý thống kê đáp ứng mục tiêu này.
Tính đối xứng của các độ đo như độ tin cậy và độ đo lift là quan trọng trong phân tích giỏ hàng, vì chúng không cần phân biệt giữa các luật đảo ngược Tuy nhiên, trong các bài toán khuyến nghị, các luật này có vai trò khác nhau Ví dụ, luật "điện thoại di động → tai nghe" và "tai nghe → điện thoại di động" đều tương tự trong phân tích giỏ hàng, nhưng lại mang ý nghĩa khác trong khuyến nghị Một người dùng mua điện thoại di động có thể cần tai nghe, nhưng người mua tai nghe không nhất thiết phải mua điện thoại Do đó, cần có các độ đo bất đối xứng để phản ánh giá trị khác nhau giữa hai luật này.
Độ hỗ trợ của luật giảm nhanh chóng khi kích thước tập mục tăng Khi kích thước của tiền đề và/hoặc hậu quả của luật tăng lên, điều này dẫn đến sự gia tăng kích thước của luật, và trong các trường hợp này, độ hỗ trợ cũng giảm nhanh chóng.
Kích thước tập luật tăng theo cấp số nhân với số lượng mục, dẫn đến việc có thể trích xuất một số lượng lớn các luật 6 từ các bộ dữ liệu nhỏ, gây ra vấn đề về thời gian và bộ nhớ Để kiểm soát số lượng luật, cần sử dụng các ngưỡng hỗ trợ và độ tin cậy tối thiểu, tuy nhiên, việc xác định các ngưỡng này là một thách thức đối với người dùng.
Việc xác định ngưỡng độ hỗ trợ và độ tin cậy phù hợp là một thách thức lớn đối với người dùng Các giá trị này thường được lựa chọn để tối ưu hóa số lượng mục hoặc luật có thể quản lý Tuy nhiên, việc sử dụng các luật không phù hợp hoặc ít quan trọng có thể dẫn đến rủi ro và chi phí cao, đặc biệt khi mức hỗ trợ tối thiểu quá nhỏ Ngược lại, nếu các giá trị này quá lớn, có thể dẫn đến việc thiếu hụt các luật quan trọng trong ứng dụng.
Kết luận chương
Chương này tập trung vào việc cải thiện hiệu quả của hệ tư vấn thông qua phân tích hàm ý thống kê và các vấn đề cần giải quyết Đặc biệt, nó đề xuất một mô hình lọc cộng tác dựa trên khai thác luật kết hợp và biến thiên hàm ý thống kê, nhằm nâng cao hiệu quả của hệ tư vấn Để thực hiện điều này, một tập hợp các độ đo biến thiên hàm ý và khung khai thác luật kết hợp đã được xây dựng làm nền tảng cho mô hình.
Mô hình tư vấn dựa trên trường hàm ý thống kê được đề xuất nhằm cải thiện hệ tư vấn lọc cộng tác thông qua việc tích hợp độ đo biến thiên hàm ý vào khung khai thác luật, giúp tăng tốc độ khai thác, giảm tiêu tốn bộ nhớ và hạn chế kích thước tập luật sinh ra Mô hình cũng phát triển để xử lý dữ liệu phi nhị phân và giới thiệu phương pháp phân hoạch dữ liệu mới, hiệu quả cho việc huấn luyện và kiểm tra trong các tập dữ liệu thưa, dựa trên số mục được chọn trong từng giao dịch Cuối cùng, luận án đề xuất bổ sung các độ đo đánh giá xếp hạng vị trí mục trong danh sách khuyến nghị để đánh giá chất lượng tư vấn một cách toàn diện hơn.
Các mô hình đề xuất trong chương này sẽ được tổ chức thực nghiệm, đánh giá so sánh với các mô hình tư vấn khác trong Chương 3 tiếp sau
3 CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT
Chương này trình bày tổ chức thực hiện các thí nghiệm đánh giá và so sánh các mô hình đã đề xuất trong Chương 2 với mô hình tư vấn lọc cộng tác dựa trên bộ nhớ và khai thác luật kết hợp, cũng như các mô hình tiếp cận hàm ý thống kê trước đó Nội dung chương được cấu trúc rõ ràng: đầu tiên là giới thiệu về cấu trúc chương, tiếp theo là mô tả và phân tích các tập dữ liệu sử dụng cho thực nghiệm Phần tiếp theo giới thiệu công cụ implicationfield để xây dựng, huấn luyện và đánh giá các mô hình Phần ba tập trung vào thực nghiệm so sánh mô hình tư vấn dựa trên khai thác luật với biến thiên hàm ý, trong khi phần bốn thảo luận về mô hình tư vấn dựa trên trường hàm ý Các thí nghiệm so sánh độ chính xác, tập luật sinh ra và thời gian thực thi giữa các mô hình lọc cộng tác dựa trên người dùng và mục Cuối cùng, chương kết thúc với phần kết luận.
Research related to this topic has been published in various national and international conferences and journals Notable events include the 10th National Conference on Basic Research Applications in Information Technology (Fair's 17) in 2017, the 20th National Conference on Basic Research Applications in Information Technology in 2018, and the second and third International Conferences on Machine Learning and Soft Computing (ICMLSC) in 2018 and 2019, respectively Additionally, significant contributions have been made to the International Journal of Machine Learning and Computing (IJMLC) in 2018, the EAI Endorsed Transactions on Context-aware Systems and Applications in 2019, and the International Journal of Advanced Computer Science and Applications (IJACSA), Volume 12, Issue 10, in 2021.
CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
Dữ liệu thực nghiệm
Để đánh giá các mô hình tư vấn dựa trên khai thác luật và trường hàm ý, chúng tôi đã thực nghiệm trên hai tập dữ liệu nhị phân MSWeb và định lượng MovieLens 100k Hai tập dữ liệu này được chọn vì chúng có nhiều đặc tính phù hợp cho việc xây dựng và đánh giá hệ tư vấn, bao gồm tính thưa của dữ liệu, kiểu dữ liệu khác nhau (nhị phân cho MSWeb và phi nhị phân cho MovieLens) và kích thước dữ liệu đủ lớn để thực hiện các thí nghiệm, đồng thời được cung cấp miễn phí cho nghiên cứu Một điểm khác biệt thú vị giữa hai tập dữ liệu là tỷ lệ giữa người dùng và mục: trong khi MovieLens có số lượng người dùng nhỏ hơn nhiều so với số lượng phim, thì MSWeb lại có số lượng người dùng vượt trội so với số lượng mục.
3.1.1 Tập dữ liệu Movielens và phân bố dữ liệu của nó
MovieLens là một tập dữ liệu phi nhị phân thú vị, thường được sử dụng để phân tích và xây dựng hệ tư vấn Tập dữ liệu này có nhiều phiên bản khác nhau, bao gồm các phiên bản chuẩn và ổn định để đánh giá các hệ tư vấn với cấu trúc dữ liệu tương đồng, phân biệt qua kích thước dữ liệu từ 100K đến 25M Ngoài ra, còn có hai phiên bản thay đổi theo thời gian, không khuyến khích cho nghiên cứu: một phiên bản mới nhất với hơn 25 triệu dữ liệu và một phiên bản nhỏ hơn, chỉ là tập hợp con của phiên bản mới nhất.
Trong luận văn này, chúng tôi sử dụng tập dữ liệu Movielens 100k, một trong những tập dữ liệu nhỏ nhất, nhằm đảm bảo độ tin cậy của kết quả thực nghiệm và khả năng xử lý của máy tính.
12 https://kdd.ics.uci.edu/databases/msweb/msweb.html
13 https://grouplens.org/datasets/movielens/100k/
Tập dữ liệu MovieLens 100k, do GroupLens thu thập, bao gồm 100.000 xếp hạng từ 943 người dùng cho 1.682 bộ phim, với xếp hạng từ 1 đến 5, trong đó dữ liệu 0 đại diện cho các bộ phim chưa được đánh giá Tập dữ liệu này có bốn cột chính: mã định danh người dùng (user ID) để bảo vệ danh tính người dùng, mã định danh mục (item ID) cho mỗi bộ phim, nhãn thời gian (timestamp) ghi lại thời điểm đánh giá và xếp hạng (rating) do người dùng cung cấp Tuy nhiên, tập dữ liệu này rất thưa thớt do hầu hết các kết hợp giữa người dùng và phim không có xếp hạng.
Bảng 3-1 Thống kê dữ liệu đánh giá phim Đánh giá 0 1 2 3 4 5 Tổng
Hình 3-1 Biểu đồ phân phối xếp hạng phim
Bảng 3-1 cho thấy rằng trong số hơn 1.460.000 phim, có tới 93,67% phim chưa được xếp hạng, cho thấy sự thưa thớt trong các hạng phim Một vấn đề quan trọng trong quá trình khai thác dữ liệu là cần phải tiền xử lý các dữ liệu có thể gây nhiễu và thiên lệch kết quả Đối với tập dữ liệu Movielens, biểu đồ Hình 3-1 minh họa phân phối của các xếp hạng, cho thấy rằng phần lớn các xếp hạng có giá trị cao.
2, và phổ biến nhất là 4 Tuy nhiên, Biểu đồ phân phối xếp hạng trung bình ở Hình
Trong hệ thống xếp hạng phim, giá trị phổ biến nhất thường là 3, trong khi một số bộ phim khác có thể nhận được xếp hạng 1 hoặc 5 Những xếp hạng này thường đến từ những người có sở thích độc đáo và khác biệt.
Để đảm bảo rằng phân phối chung của tập dữ liệu không bị ảnh hưởng bởi các yếu tố không mong muốn, việc tiền xử lý dữ liệu bao gồm việc loại bỏ các phim có số lượt xem dưới ngưỡng nhất định và lọc ra những người dùng chỉ đánh giá phim dưới một ngưỡng nhất định Quá trình này giúp loại bỏ thông tin gây nhiễu và chỉ giữ lại dữ liệu có liên quan Biểu đồ trong Hình 3-3 cho thấy rằng các bảng xếp hạng dao động từ 2 đến 4, với giá trị phổ biến là 4, dựa trên dữ liệu từ những người dùng đã xếp hạng trên 50 phim và các phim được xếp hạng bởi hơn 100 người dùng Kết quả này phù hợp với dữ liệu thống kê trong Hình 3-3, chứng tỏ rằng các dữ liệu gây nhiễu đã được xử lý hiệu quả.
Hình 3-2 Biểu đồ phân phối xếp hạng phim trung bình
Hình 3-3 Biểu đồ phân phối xếp hạng phim trung bình có liên quan
3.1.2 Tập dữ liệu MSWeb và phân bố dữ liệu của nó
Tập dữ liệu MSWEB là một bộ dữ liệu nhị phân được lấy từ kho lưu trữ UCI KDD, ghi lại nhật ký truy cập của 38.000 người dùng ẩn danh trên trang web của Microsoft trong tuần đầu tháng 2 năm 1998 Mỗi người dùng được xác định bằng một số tuần tự, như Người dùng # 14500, và không chứa thông tin nhận dạng cá nhân Tập dữ liệu cung cấp danh sách các khu vực (Vroots) mà người dùng đã truy cập, với mỗi vroot được xác định qua tiêu đề và URL, chẳng hạn như "NetShow cho PowerPoint" và "/stream".
Bảng 3-2 Bảng thống kê tập dữ liệu MSWeb
Các tiêu chí thống kê Số lượng
Tổng số phiên giao dịch 32.711
Tổng số trangweb (mục) 285 tổng số đánh giá được ghi nhận 98.654
Số cột (độ dài) tối thiểu một phiên 2
Số cột trung bình một phiên giao dịch 3
Số cột tối đa một phiên 6 Độ thưa của dữ liệu (%) 98,94
Bảng 3-2 cung cấp các chỉ số thống kê tổng quan của tập dữ liệu MSWeb, cho thấy dữ liệu rất thưa với tỷ lệ lên đến 98.94% Tập dữ liệu này bao gồm 98.654 đánh giá từ 32.711 phiên trên 285 trang web (Vroot), với các giá trị là 1, và độ dài của mỗi phiên có sự biến động.
2 đến 6 cột và bình quân là 3 cột
Nội dung được lưu trữ dưới dạng dữ liệu thưa ASCII, trong đó mỗi dòng bắt đầu bằng một ký tự đại diện cho loại dòng Có ba loại dòng chính cần lưu ý:
The attribute lines, which begin with the character "A," represent vroots of the website www.microsoft.com For example, an entry like 'A, 1277, 1, "NetShow for PowerPoint", "/stream"' indicates that 'A' marks it as an attribute line, '1277' is the ID number for a vroot, '1' can be disregarded, '"NetShow for PowerPoint"' serves as the title of the vroot, and '"/stream"' is the URL associated with "http://www.microsoft.com."
Các dòng trường hợp bắt đầu bằng ký tự "C" và các dòng bình chọn bắt đầu bằng ký tự "V" Mỗi trường hợp người dùng có thể có một hoặc nhiều dòng bình chọn theo sau, hoặc không có dòng nào Ví dụ các dòng sau:
Trong ví dụ này, 'C' đánh dấu một dòng mô tả trường hợp, trong khi '10164' là số ID của người dùng Các dòng bắt đầu bằng 'V' theo sau là các dòng bình chọn cho trường hợp, với '1123', '1009', '1052' là các ID thuộc tính của Vroots mà người dùng đã truy cập Ký tự '1' có thể bị bỏ qua Mỗi trường hợp đại diện cho một người dùng ẩn danh, được chọn ngẫu nhiên từ trang web.
Tập dữ liệu MSWeb, tương tự như Movielens, cũng chứa dữ liệu có thể gây nhiễu cho quá trình khai thác Để đảm bảo tính đại diện của dữ liệu, cần loại bỏ các mục chỉ được bình chọn bởi một số ít người dùng, vì chúng không phản ánh xu hướng chung Chỉ giữ lại những mục có số lượng bình chọn vượt qua ngưỡng nhất định và chỉ giữ lại người dùng đã bình chọn nhiều mục trên ngưỡng yêu cầu Việc này giúp giảm thiểu thiên lệch kết quả và tăng tốc độ xử lý Biểu đồ thống kê phân phối số lượng người dùng liên quan sau khi loại bỏ các giao dịch không đạt yêu cầu được trình bày trong Hình 3-5.
5 mục và các mục được đánh giá không tới 5 người
Hình 3-4 Biểu đồ thống kê phân phối số lượng người dùng
Hình 3-5 Biểu đồ thống kê phân phối số lượng người dùng có liên quan
Qua khảo sát hai tập dữ liệu MSWeb và Movielens, có thể nhận thấy rằng việc tiền xử lý các tập dữ liệu là cần thiết để nâng cao độ chính xác của các thử nghiệm.
Công cụ thực nghiệm
Các thực nghiệm sử dụng công cụ 𝒊𝒎𝒑𝒍𝒊𝒄𝒂𝒕𝒊𝒐𝒏𝒇𝒊𝒆𝒍𝒅𝑹𝑺, phát triển bằng ngôn ngữ R, kết hợp các gói RecommenderLab và Rchic để xây dựng, đánh giá mô hình hệ thống khuyến nghị và xử lý thông tin hàm ý thống kê Công cụ này được thiết kế nhằm lập, thực hiện và đánh giá các mô hình khuyến nghị dựa trên trường hàm ý, như đã trình bày trong Chương 2.
Ngoài ra, hệ thống có khả năng xây dựng và vận hành các mô hình khuyến nghị dựa trên lọc cộng tác, cho phép so sánh và đánh giá hiệu quả của các mô hình khác nhau Các độ đo biến thiên hàm ý đề xuất được tích hợp trong 𝒊𝒎𝒑𝒍𝒊𝒄𝒂𝒕𝒊𝒐𝒏𝒇𝒊𝒆𝒍𝒅𝑹𝑺 Như thể hiện trong Hình 3-6, bộ công cụ này bao gồm nhiều thành phần quan trọng.
Luận án này đề xuất hai mô hình tư vấn: mô hình lọc cộng tác dựa trên biến thiên hàm ý và mô hình tư vấn dựa trên trường hàm ý thống kê Bên cạnh đó, các mô hình lọc cộng tác khác như lọc dựa trên khai thác luật kết hợp, lọc dựa trên người dùng, lọc dựa trên mục, và các mô hình lọc cộng tác dựa trên hàm ý thống kê từ các nghiên cứu trước đây cũng được xây dựng nhằm thực hiện các thí nghiệm so sánh với mô hình đề xuất.
- Các kịch bản thực nghiệm để đánh giá, so sánh giữa mô hình được đề xuất trong luận án với các mô hình khác
- Các thuật toán tư vấn, đánh giá hệ tư vấn
- Các gói công cụ nền tảng được tích hợp vào hệ thống
14 https://cran.r-project.org/web/packages/recommenderlab/index.html
15 https://members.femto-st.fr/raphael-couturier/en/rchic
Hình 3-6 gói công cụ implicationFieldRS
Thực nghiệm
3.3.1 Thực nghiệm mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý
(Các thực nghiệm này được tổng hợp từ các công trình nghiên cứu [38][39][71][72] đã công bố)
Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý được thiết kế để thực hiện các khuyến nghị cho người dùng và theo mục tiêu cụ thể Mục đích của nghiên cứu này là so sánh và đánh giá hiệu suất cũng như độ chính xác của mô hình tư vấn dựa trên luật hàm ý với mô hình tư vấn dựa trên luật kết hợp, đồng thời so sánh độ chính xác của mô hình dựa trên luật hàm ý với các mô hình lọc cộng tác dựa trên người dùng và dựa trên mục tiêu sử dụng các chỉ số tương đồng hiện có Độ biến thiên hàm ý được áp dụng trong nghiên cứu này là biến thiên chỉ số hàm ý theo phản ví dụ, được xác định bằng công thức cụ thể.
Trong nghiên cứu này, chúng tôi sử dụng dữ liệu từ tập Movielens đã được xử lý trước đó để đảm bảo độ chính xác cho các thực nghiệm Một trong những chỉ số được áp dụng là nA(n-nB), như đã trình bày trong Bảng 2-1.
Chuẩn hóa dữ liệu là một bước quan trọng để loại bỏ thiên vị trong đánh giá phim, khi mà những người dùng có xu hướng xếp hạng cao hoặc thấp có thể ảnh hưởng đến kết quả Quá trình này đảm bảo rằng đánh giá trung bình của mỗi người dùng được so sánh trên cùng một thang đo Bên cạnh đó, do mô hình sử dụng dữ liệu nhị phân, các đánh giá phim được phân loại thành hai nhóm: những đánh giá từ 3 trở
Chọn dữ liệu có liên quan là rất quan trọng để tránh kết quả thiên lệch và tăng tốc độ tính toán Cần bỏ qua các phim chỉ được xem một vài lần, vì giá trị xếp hạng của chúng có thể bị ảnh hưởng bởi thiếu dữ liệu Ngoài ra, những người dùng chỉ đánh giá một số ít phim cũng có thể tạo ra thành kiến trong xếp hạng.
Việc đánh giá mô hình được thực hiện qua các kịch bản ngoại tuyến và áp dụng phương pháp đánh giá chéo k-fold lặp lại với 𝑘 = 5 và số lần lặp 𝑡 = 2 Dữ liệu được chia thành 5 tập con ngẫu nhiên dựa trên số lượng giao dịch, và kết quả sẽ được trình bày trong các mục tiếp theo.
3.3.1.1 Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo người dùng
Kịch bản 1 Khảo sát và tư vấn dựa trên mặt đẳng trị biến thiên hàm ý
Kết quả thực nghiệm từ mô hình hệ tư vấn dựa trên độ biến thiên chỉ số hàm ý trong tập dữ liệu Movielens đã được tiền xử lý cho thấy, với ngưỡng hỗ trợ 0.3 và ngưỡng tin cậy 0.8, tổng cộng 119 luật được sinh ra Sau khi loại bỏ các luật không có ý nghĩa (với vế trái bằng 𝑛𝑖𝑙) và chỉ giữ lại những luật có cường độ hàm ý lớn hơn 0.5 (chỉ số hàm ý nhỏ hơn 0), còn lại 84 tập luật Với ngưỡng 𝜃 = 0.5, các giá trị cập nhật của chỉ số hàm ý 𝑞 được xác định theo biến thiên của các yếu tố trong bộ 4 (𝑛, 𝑛 𝐴, 𝑛 𝐵, 𝑛 𝐴𝐵̅) Trong kịch bản này, 𝑏𝑦𝐹𝑎𝑐𝑡𝑜𝑟 𝑛 𝐴𝐵̅ đã cho ra 18 tập các mặt đẳng trị trong trường hàm ý của mô hình, tạo ra các siêu luật có giá trị.
16 Chúng tôi chỉ quan tâm các bộ phim được đánh giá 100 lần trở lên
Chúng tôi chỉ xem xét những người dùng đã đánh giá từ 50 phim trở lên, với các siêu phẳng 3 chiều (𝑛, 𝑛 𝐴 , 𝑛 𝐵 ) có mật độ phân bố tiềm năng của chỉ số hàm ý không điều nhau Danh sách các siêu phẳng này được trình bày trong Bảng 3-3, trong đó mặt đẳng trị số 1 bao gồm các luật (102, 119, 117, 95, 97, 70, 88), mặt đẳng trị số 2 là (103), mặt đẳng trị số 3 gồm (113, 98), mặt đẳng trị số 4 chứa (116, 118, 92, 101, 99), và tiếp tục cho đến mặt đẳng trị số 18.
Các tập luật trên mỗi siêu phẳng đều có giá trị chỉ số hàm ý tương đồng với ngưỡng xấp xỉ 𝜃 Cụ thể, siêu phẳng đẳng trị số 1 bao gồm 7 luật, với chỉ số hàm ý cập nhật theo biến thiên là -8.94194 và ngưỡng xấp xỉ 𝜃 là 0.5, như được trình bày trong Bảng 3-4.
Bảng 3-3 Mật độ của trường hàm ý trên các mặt đẳng trị và chỉ số hàm ý của nó
Số luật Chỉ số hàm ý Mặt đẳng trị Số luật Chỉ số hàm ý
Bảng 3-4 Mặt đẳng trị chỉ số hàm ý thứ 1 trên trường hàm ý
102 {Star Wars (1977),Empire Strikes Back, The (1980)} =>
{Raiders of the Lost Ark (1981)}
119 {Star Wars (1977),Raiders of the Lost Ark (1981),Return of the Jedi (1983)} => {Empire Strikes Back, The (1980)}
117 {Star Wars (1977),Empire Strikes Back, The (1980),Return of the Jedi (1983)} => {Raiders of the Lost Ark (1981)}
95 {Empire Strikes Back, The (1980),Return of the Jedi (1983)} => {Raiders of the Lost Ark (1981)}
97 {Raiders of the Lost Ark (1981),Return of the Jedi (1983)} => {Empire Strikes Back, The (1980)}
70 {Empire Strikes Back, The (1980)} => {Raiders of the Lost Ark (1981)}
88 {Return of the Jedi (1983)} => {Star Wars (1977)} 0.097504225 -8.7934024
Xu hướng biến thiên của hàm ý theo yếu tố byFactor cho thấy yếu tố 𝑛 𝐴𝐵̅ đóng vai trò quan trọng trong việc củng cố hoặc từ chối một luật Khi yếu tố này tăng lên, giá trị chỉ số hàm ý cũng tăng, dẫn đến cường độ hàm ý giảm, nhưng mức giảm này không đáng kể Do đó, tập luật vẫn giữ được ý nghĩa của hàm ý cũ Điều này chứng tỏ độ ổn định cao của chỉ số hàm ý thống kê, khi số lượng phản ví dụ tăng nhẹ, luật vẫn còn giữ được giá trị ý nghĩa.
Mật độ trường hàm ý không đồng đều, với mật độ cao ở các mặt đẳng trị có chỉ số hàm ý biến thiên ít và tập trung nhiều giá trị, như các mặt đẳng trị số 8, 15, 1 và 9 Ngược lại, mật độ thưa dần và thấp nhất ở các mặt đẳng trị số 3, 2, 7 và 13, như thể hiện trong Bảng 3-3 Điều này cho thấy sự phù hợp của luật với xu hướng biến thiên của chỉ số hàm ý; khi chỉ số này biến thiên đến một ngưỡng nhất định mà luật không được chấp nhận, nó sẽ chuyển sang mặt đẳng trị khác có ngưỡng hàm ý phù hợp hơn, từ đó giúp tư vấn cho người dùng những mục dữ liệu có mức độ hàm ý phù hợp nhất.
Người dùng sẽ nhận được các gợi ý phim phù hợp dựa trên những bộ phim họ đã xem trước đó, như ví dụ trong Bảng 3-4, khi một người đã xem các phim như "Star Wars (1977)" và "Empire Strikes Back (1980)", thì sẽ được khuyến nghị bộ phim "Raiders of the Lost Ark (1981)" với chỉ số hàm ý là -5.86122.
Trong kịch bản này, trường hàm ý có thể được chia thành các mặt phẳng đẳng trị, mỗi mặt phẳng chứa các tập luật có cùng chỉ số hàm ý theo byFactor, từ đó tạo nền tảng cho các kết quả tư vấn.
Kịch bản 2 So sánh độ chính xác mục dự đoán của mô hình đề xuất với các mô hình tư vấn lọc cộng tác
Trong nghiên cứu này, mô hình tư vấn được phát triển dựa trên khai thác luật kết hợp với biến thiên chỉ số hàm ý (ISF) đã được thực nghiệm Đồng thời, các mô hình tư vấn lọc cộng tác dựa trên người dùng cũng được áp dụng, sử dụng các phương pháp đo lường như độ đo Cosine (UBCFcosine) và độ đo Pearson.
UBCFpearson) và các mô hình lọc cộng tác trên mục (dùng độ do Cosine – IBCFcosine, dùng độ đo Pearson – IBCFpearson) , dùng các độ đo Cosine và Peason
Các mô hình được so sánh dựa trên hai tiêu chí đánh giá chính: độ chính xác trong việc dự đoán mục khuyến nghị và độ chính xác trong phân lớp danh sách khuyến nghị.
Theo Bảng 3-5 và Hình 3-7, mô hình ISF đạt độ chính xác dự đoán mục khuyến nghị cao nhất, tiếp theo là các mô hình UBCFcosine và UBCFpeason, trong khi các mô hình IBCFpeason và IBCFcosine có độ chính xác thấp hơn Điều này được xác nhận thông qua các chỉ số đánh giá lỗi dự đoán như RMSE, MSE và MAE, cho thấy mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý có hiệu suất tốt hơn so với các mô hình lọc cộng tác dựa trên mục và người dùng.
Bảng 3-5 Tổng hợp các chỉ số lỗi dự đoán của mô hình ISF và các mô hình IBCF và UBCF
Mô hình RMSE MSE MAE
IBCF cosine 1.2441514 1.5479126 0.9296236 IBCF pearson 1.2204327 1.4894560 0.9162715 UBCF pearson 1.0047052 1.0094325 0.7910304 UBCF cosine 0.9918301 0.9837270 0.7775035
Hình 3-7 Biểu đồ so sánh lỗi dự đoán của các mô hình
Kịch bản 3 So sánh độ chính xác phân lớp của mô hình đề xuất với các mô hình tư vấn lọc cộng tác theo người dùng và theo mục
Kết luận chương
Chương 3 tập trung vào việc tiến hành thực nghiệm các mô hình đã đề xuất trong Chương 2, bao gồm mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý và mô hình tư vấn dựa trên trường hàm ý và so sánh với các mô hình lọc cộng tác dựa trên bộ nhớ (gồm cả kỹ thuật dựa trên người dùng và dựa trên mục), lọc cộng tác dựa trên mô hình khai thác luật kết hợp, đặc biệt mô hình tư vấn dựa trên trường hàm ý còn có so sánh trực tiếp với các mô hình lọc cộng tác theo tiếp cận phân tích hàm ý thống kê hiện có Toàn bộ các thực nghiệm được tiến hành trên bộ công cụ implicationfieldRS được xây dựng trên ngôn ngữ R phát triển từ các gói ứng dụng RecommenderLab và Rchic Dữ liệu được chọn dùng cho thực nghiệm là hai bộ dữ liệu MSWeb (dữ liệu nhị phân) và Movielens (dữ liệu phi nhị phân), các bộ dữ liệu này được làm sạch trước khi xử lý như loại bỏ các dữ liệu không liên quan gây ảnh hưởng thiên lệch lên kết quả Sử dụng phương pháp đánh giá chéo k-fold có lặp lại, việc phân hoạch dữ liệu thành tập huấn luyện và tập kiểm tra cho việc đánh giá mô hình thực hiện theo phương pháp đánh giá các mô hình học máy thông thường là dựa theo số giao dịch trên tập dữ liệu Ngoài ra, để khắc phục các hạn chế của cách phân hoạch dữ liệu này trên các tập dữ liệu thưa, luận án cũng đã tiến hành thực nghiệm mô hình hệ tư vấn dựa trên trường hàm ý với phương pháp phân hoạch dữ liệu theo số mục được chọn trên từng giao dịch của tập dữ liệu
Các nhóm độ đo dùng để đánh giá mô hình bao gồm độ chính xác dự đoán mục như MAE, MSE và RMSE, cùng với độ đo chuẩn xác phân lớp danh sách mục khuyến nghị như precision/recall, đường cong ROC và F1 Thêm vào đó, để thực nghiệm đánh giá mô hình hệ tư vấn dựa trên trường hàm ý, luận án đề xuất sử dụng thêm các nhóm độ đo xếp hạng vị trí xuất hiện của mục được khuyến nghị trong danh sách tư vấn, bao gồm nDCG và RankScore.
Kết quả thực nghiệm cho thấy mô hình hệ tư vấn dựa trên trường hàm ý vượt trội hơn các mô hình khác trong cả dữ liệu nhị phân và phi nhị phân, đồng thời cải thiện đáng kể thời gian thực thi và giảm kích thước tập luật Điều này chứng minh rằng các mô hình được đề xuất là hướng tiếp cận mới và hiệu quả trong việc nâng cao chất lượng hệ tư vấn.