Trong cách tiếp cận dựa trên nội dung CbF, mỗi NSD sở hữu một hồ sơ đặc trưng profile mà tùy theo lãnh vực ứng dụng sẽ bao gồm những thông tin khác nhau dùng để mô tả về mình như: tuổi,
Giới thiệu
Đặt vấn đề
Sự phát triển của các công cụ tìm kiếm như Google đã giúp người dùng dễ dàng tiếp cận thông tin trong nhiều lĩnh vực Tuy nhiên, khi nhập từ khóa, họ thường nhận được danh sách kết quả khổng lồ, có thể lên đến hàng triệu thông tin Điều này đặt ra thách thức cho người dùng trong việc lọc và chọn lựa thông tin hữu ích, vì danh sách này thường chứa nhiều nội dung không phù hợp với nhu cầu cụ thể của họ Mặc dù người dùng có thể điều chỉnh từ khóa để thu hẹp kết quả, nhưng vấn đề chính là các hệ thống tìm kiếm thường không đáp ứng được nhu cầu cá nhân hóa của từng người dùng.
Khi một giảng viên và một sinh viên cùng tìm kiếm từ khóa "Information Retrieval", họ sẽ nhận được danh sách kết quả giống nhau Danh sách này bao gồm tài liệu cơ bản phù hợp với sinh viên và tài liệu nâng cao dành cho giảng viên.
Hiện nay, hệ thống tư vấn (Recommender Systems - RSs) đang phát triển mạnh mẽ, cung cấp cho người sử dụng thông tin, hàng hóa và dịch vụ phù hợp với đặc trưng riêng của từng cá nhân.
Các hệ thống như Amazon và MovieLens cung cấp thông tin về sách và phim ảnh dựa trên nhu cầu, mối quan tâm và sở thích của người dùng Hiện nay, hầu hết các hệ thống gợi ý (RS) được phát triển theo ba cách tiếp cận chính: dựa trên nội dung (Content-based Filtering - CbF) và dựa trên sự cộng tác (Collaborative Filtering).
Filtering – CF) và dựa trên việc lai ghép các phương pháp với nhau (Hybrid Approach)
Trong phương pháp tiếp cận nội dung CbF, mỗi người dùng (NSD) có một hồ sơ đặc trưng, bao gồm thông tin như tuổi, nghề nghiệp, mối quan tâm và sở thích, phù hợp với lĩnh vực ứng dụng Hệ thống sẽ gửi đến NSD những nội dung phù hợp dựa trên sự khớp giữa hồ sơ của họ và các items Để cải thiện độ chính xác của hồ sơ, NSD cần cung cấp phản hồi và đánh giá cho các items đã nhận, giúp hệ thống cập nhật thông tin một cách hiệu quả.
Cách tiếp cận CbF giúp phân biệt nhu cầu cá nhân, khác với phương pháp trong lĩnh vực Information Retrieval Tuy nhiên, nhược điểm của nó là khi profile đã ổn định, người sử dụng chỉ nhận được các mục liên quan đến những gì đã được mô tả trong profile, dẫn đến việc thiếu cơ hội khám phá các lĩnh vực mới có thể thú vị.
Cách tiếp cận dựa trên sự cộng tác (CF) hiện đang phát triển mạnh mẽ và vượt trội so với cách tiếp cận dựa trên nội dung (CbF) Phương pháp này sử dụng ma trận đánh giá R, trong đó các điểm số r_ui thể hiện đánh giá của người dùng u đối với item i Hệ thống xác định cộng đồng cho mỗi người dùng dựa trên độ tương đồng giữa vectơ điểm số của họ và các vectơ điểm số của những người khác trong ma trận R Sau khi xác định cộng đồng, người dùng sẽ nhận được các gợi ý về những items được đánh giá cao bởi cộng đồng của mình Ưu điểm nổi bật của CF là khả năng chia sẻ thông tin giữa các người dùng, cho phép hệ thống bỏ qua việc phân tích nội dung và chỉ dựa vào ma trận đánh giá Nhờ đó, CF giúp người dùng khám phá những chủ đề và lĩnh vực mới, chưa được thể hiện trong hồ sơ cá nhân nhưng có thể rất thú vị.
Nguyên tắc của cách tiếp cận lai ghép là kết hợp nhiều phương pháp tư vấn khác nhau nhằm tạo ra sự hỗ trợ lẫn nhau giữa những ưu và khuyết điểm của từng phương pháp Chẳng hạn, phương pháp CF với ưu điểm chia sẻ thông tin có thể khắc phục nhược điểm của phương pháp CbF về lối mòn trong khai thác.
Hầu hết các phương pháp hiện nay trong hệ thống gợi ý (RS) như CbF, CF và các phương pháp lai ghép chỉ tập trung vào mối quan hệ giữa người dùng (NSD) và các mục (items), mà không xem xét các yếu tố ngữ cảnh như thời gian, không gian, mục tiêu, tâm trạng và sự kiện Tuy nhiên, thực tế cho thấy rằng hành vi và sở thích của NSD có thể bị ảnh hưởng bởi các yếu tố ngữ cảnh này Chẳng hạn, một NSD có thể yêu thích du lịch biển, nhưng vào mùa đông, hệ thống cần gợi ý cho họ một địa điểm khác như trượt tuyết trên núi.
Người sử dụng thường tìm đọc sách và tạp chí chuyên môn khi làm việc, nhưng khi cần thư giãn, họ lại chuyển sang các tài liệu về thể thao, âm nhạc và những chủ đề giải trí khác.
Trong những năm gần đây, các hệ thống tư vấn theo ngữ cảnh (Context-Aware
Hệ thống gợi ý (CARSs) đã được nghiên cứu nhằm khắc phục những hạn chế của các hệ thống gợi ý truyền thống, đặc biệt là việc tạo ra danh sách tư vấn mà không xem xét yếu tố ngữ cảnh Việc tích hợp yếu tố ngữ cảnh vào quá trình tư vấn sẽ giúp các hệ thống đưa ra những gợi ý chính xác hơn và đáp ứng tốt hơn nhu cầu của người sử dụng trong các tình huống và hoàn cảnh khác nhau.
Một vấn đề quan trọng trong các phương pháp tư vấn áp dụng trong CARSs là việc xây dựng cộng đồng chỉ dựa trên ratings của người sử dụng (NSD), dẫn đến việc NSD chỉ thuộc về một cộng đồng duy nhất Tuy nhiên, thực tế NSD có thể thuộc nhiều cộng đồng khác nhau dựa trên nghề nghiệp, nhóm tuổi, sở thích, v.v Việc chỉ dựa vào ratings có thể ảnh hưởng xấu đến chất lượng tư vấn, đặc biệt khi số lượng ratings của NSD quá ít, gây ra vấn đề thưa thớt trong ma trận đánh giá Điều này làm cho hai NSD không thể được đánh giá là thuộc cùng một cộng đồng nếu không có ratings chung Hơn nữa, việc bổ sung yếu tố ngữ cảnh tạo ra ma trận 3D với số lượng ô tăng lên nhưng số lượng ratings không thay đổi, vì NSD thường chỉ đánh giá items một lần Do đó, việc xây dựng và khai thác các cộng đồng đa tiêu chí trong CARSs có thể cải thiện chất lượng tư vấn.
Mục tiêu của luận văn
Mục tiêu nghiên cứu của luận văn là nâng cao chất lượng của các hệ thống tư vấn (RS) bằng cách chú trọng đến yếu tố ngữ cảnh trong quá trình tư vấn Điều này có nghĩa là thông tin tư vấn cần được đánh giá dựa trên ngữ cảnh cụ thể, thay vì tách rời như các RS truyền thống Ví dụ, một thông tin có thể được người sử dụng (NSD) đánh giá cao trong một ngữ cảnh nhất định, nhưng lại không phù hợp trong ngữ cảnh khác Sự phong phú này là yếu tố quan trọng để cải thiện hiệu quả của các hệ thống tư vấn.
RS được cải thiện bằng cách không chỉ dựa vào các cộng đồng từ ma trận đánh giá, mà còn khai thác mối quan hệ giữa các cộng đồng đa tiêu chí và ngữ cảnh cho thuật toán tư vấn Vai trò và mức độ ảnh hưởng của các cộng đồng có thể khác nhau tùy vào từng ngữ cảnh cụ thể Chẳng hạn, trong một số tình huống, cộng đồng gia đình và họ hàng có thể có ảnh hưởng lớn nhất đến quyết định của người sử dụng, trong khi ở những ngữ cảnh khác, cộng đồng nghề nghiệp lại đóng vai trò quan trọng hơn.
Nội dung thực hiện
Để đạt được các mục tiêu đã đề ra, luận văn sẽ nghiên cứu các công trình và thuật giải liên quan đến yếu tố ngữ cảnh trong quá trình tư vấn Các công việc cụ thể sẽ được thực hiện nhằm làm rõ vai trò của ngữ cảnh trong tư vấn.
• tìm hiểu hiện trạng về các RS, phân tích ưu và khuyết điểm của những phương pháp được áp dụng phổ biến
• tìm hiểu về các CARS cùng với các thuật toán tư vấn theo ngữ cảnh đạt hiệu quả cao như: item splitting, matrix factorization, contextualizing users’ latent features, …
Nghiên cứu khả năng khai thác các cộng đồng đa tiêu chí thông qua việc xem xét mối quan hệ giữa yếu tố ngữ cảnh và các cộng đồng là rất quan trọng Việc hiểu rõ mối liên hệ này sẽ giúp tối ưu hóa các chiến lược phát triển và quản lý cộng đồng, đồng thời nâng cao hiệu quả khai thác tài nguyên trong các lĩnh vực khác nhau.
Xây dựng các thuật giải tư vấn theo ngữ cảnh cần chú trọng đến các cộng đồng đa tiêu chí, đặc biệt là trong việc giải quyết vấn đề dữ liệu thưa.
Thuật giải tư vấn được đề xuất trong luận văn sẽ được thử nghiệm và đánh giá theo phương pháp offline, sử dụng bộ dữ liệu mẫu như MovieLens, một bộ dữ liệu "chuẩn" trong lĩnh vực hệ thống tư vấn Quá trình thử nghiệm sẽ được thực hiện qua các bước chính đã được xác định.
• xây dựng quy trình thử nghiệm
• tiến hành thử nghiệm theo phương pháp offline để phân tích và đánh giá.
Tóm tắt những đóng góp của luận văn
Luận văn đã áp dụng các khái niệm cơ bản của mô hình không gian cộng đồng đa tiêu chí (αCSM) và đề xuất mở rộng bằng cách bổ sung yếu tố ngữ cảnh, cùng với việc định nghĩa thứ tự ưu tiên cho các tiêu chí trong từng ngữ cảnh cụ thể Dựa trên đó, ba thuật toán CRMC, CRESC và CREOC đã được đề xuất để tư vấn theo ngữ cảnh Đặc biệt, các thuật toán CRESC và CREOC có khả năng giảm thiểu tác động tiêu cực của dữ liệu thưa, giúp tạo ra danh sách tư vấn hiệu quả hơn so với một số phương pháp tư vấn khác.
Luận văn đã thực hiện thử nghiệm các phương pháp đề xuất và phân tích kết quả từ nhiều khía cạnh khác nhau Kết quả thực nghiệm đã chứng minh rằng vai trò và mức độ ảnh hưởng của các cộng đồng, được xây dựng theo các tiêu chí khác nhau, sẽ thay đổi tùy theo ngữ cảnh cụ thể Bên cạnh đó, luận văn cũng đã làm rõ ưu và nhược điểm của các thuật toán đề xuất, từ đó gợi ý cách chọn áp dụng các thuật toán CRMC, CRESC và CREOC một cách hiệu quả nhất.
Luận văn được thực hiện từ tháng 10/2012 đến tháng 8/2013, với các kết quả chính đã được chấp nhận đăng trong kỷ yếu Những kết quả này sẽ được trình bày tại ba hội nghị khoa học quốc tế tại Mỹ vào tháng 10 và tháng 12 năm 2013.
Báo cáo của luận văn được trình bày thành năm chương như sau:
Chương 1 giới thiệu tổng quan về những vấn đề của RS, nêu lên mục tiêu, nội dung nghiên cứu và những kết quả đạt được của luận văn
Chương 2 trình bày hiện trạng của các RS truyền thống với những cách tiếp cận như: lọc theo nội dung, lọc cộng tác và lai ghép các phương pháp cũng như trình bày ba mô hình thường được áp dụng trong các CARS gồm: pre-filtering, post-filtering và contextual modeling
Chương 3 giới thiệu ba thuật toán đề xuất CRMC, CRESC và CREOC được xây dựng từ việc mở rộng mô hình αCSM
Chương 4 trình bày quá trình tiến hành cũng như kết quả thử nghiệm của các thuật toán đề xuất trên bộ dữ liệu MovieLens Những đánh giá và phân tích cũng được trình bày nhằm giúp cho việc lựa chọn áp dụng các thuật toán đề xuất
Chương 5 là phần kết luận và nêu lên một số hướng phát triển trong tương lai của luận văn.
Hiện trạng về hệ thống tư vấn
Các hệ thống tư vấn
Sự phát triển của Internet mang lại nhiều tiện ích nhưng cũng gây ra vấn đề quá tải thông tin cho người dùng Chẳng hạn, một website thương mại điện tử có thể giới thiệu hàng trăm sản phẩm khác nhau, khiến người dùng bối rối trong việc lựa chọn Họ thường phải mất nhiều thời gian và công sức để phân loại thông tin, tìm ra những gì thực sự phù hợp với nhu cầu của mình Để giải quyết vấn đề này, các hệ thống tư vấn đã được phát triển nhằm gợi ý cho người dùng những sản phẩm, dịch vụ hay thông tin phù hợp nhất với sở thích cá nhân.
Trong số các hệ thống gợi ý (RS) hiện nay, hai phương pháp phổ biến nhất là lọc theo nội dung và lọc cộng tác Ngoài ra, phương pháp lai ghép cũng được áp dụng, kết hợp giữa hai phương pháp này để nâng cao hiệu quả gợi ý.
2.1.1Phương pháp lọc theo nội dung
Phương pháp lọc theo nội dung (CbF) giúp người sử dụng (NSD) tìm kiếm các items tương đồng về nội dung với những items mà họ đã yêu thích, mua, xem hoặc đánh giá cao trước đó Mỗi NSD sẽ có một hồ sơ đặc trưng mô tả sở thích và quan tâm của họ, bao gồm các thể loại phim, nhạc yêu thích hoặc lĩnh vực nghiên cứu Hệ thống sẽ so khớp thông tin trong hồ sơ với phần biểu diễn nội dung của item để dự đoán mức độ ưa thích của NSD đối với item đó.
Có nhiều mô hình có thể áp dụng cho CbF, và trong phần này, luận văn sẽ giới thiệu một phương pháp đơn giản và phổ biến, đó là tiếp cận dựa trên mô hình không gian vectơ, kế thừa từ lĩnh vực tìm kiếm thông tin Trong phương pháp này, mỗi item và profile được biểu diễn bằng các vectơ Để ước lượng độ tương đồng giữa hai vectơ đại diện cho item và profile, phương pháp thường sử dụng công thức cosine của góc giữa hai vectơ Công thức tính cosine của góc giữa vectơ item i và vectơ profile p được thể hiện như sau: cosine( , ).
Giá trị cosine gần 1 cho thấy hai vectơ rất khớp nhau, nghĩa là item phù hợp cao với người sử dụng (NSD) và sẽ được tư vấn cho họ Ngược lại, nếu giá trị cosine gần 0, vectơ nội dung của item sẽ vuông góc với vectơ profile của NSD, cho thấy không có mối liên hệ giữa item và sở thích của NSD Cuối cùng, giá trị cosine gần -1 chỉ ra rằng item hoàn toàn trái ngược với nhu cầu hay sở thích của NSD.
Ví dụ, vectơ profile thể hiện mức độ yêu thích của người sử dụng (NSD) u đối với các thể loại phim được mô tả như sau: giá trị dương biểu thị sự yêu thích, trong khi giá trị âm cho thấy sự không thích.
Action Adventure Children Comedy Crime Drama u 0.5 0.4 -0.2 0.7 -0.4 -0.6
Tương tự, vectơ biểu diễn nội dung của phim Home Alone được biểu diễn như bên dưới Đây là vectơ nhị phân với hai giá trị 0 và 1
Action Adventure Children Comedy Crime Drama
Giá trị của ô trong hệ thống đánh giá phim cho thấy "Home Alone" thuộc thể loại hành động với giá trị 1, trong khi giá trị 0 chỉ ra rằng phim này không thuộc thể loại tình cảm Để xác định tính phù hợp của "Home Alone" cho người dùng, hệ thống CbF sẽ sử dụng độ đo cosine để tính toán độ tương đồng giữa hai vectơ.
Giá trị trong vectơ profile của người sử dụng (NSD) có thể được điều chỉnh dựa trên các đánh giá mà NSD đưa ra cho những sản phẩm đã được hệ thống tư vấn.
Phương pháp CbF có hiệu quả cao khi trích chọn và biểu diễn đặc trưng của items thành vectơ một cách hợp lý Tuy nhiên, thách thức lớn là việc trích chọn đặc trưng cho các lĩnh vực như âm nhạc và tranh ảnh, nơi việc phân tích và biểu diễn nội dung không phải lúc nào cũng dễ dàng.
Các hệ thống gợi ý dựa trên Content-based Filtering (CbF) thường thiếu tính đa dạng và bất ngờ, khiến người dùng dễ dàng đoán trước các nội dung được tư vấn Chẳng hạn, nếu người dùng yêu thích phim tình cảm, hệ thống sẽ chỉ gợi ý những phim cùng thể loại, dẫn đến sự nhàm chán và hạn chế khả năng khám phá các thể loại mới thú vị mà họ chưa từng biết đến.
2.1.2Phương pháp lọc cộng tác
Phương pháp lọc cộng tác (CF) sử dụng ý kiến phản hồi và đánh giá từ cộng đồng người sử dụng (NSD) để tư vấn các items phù hợp Cộng đồng này bao gồm những người có sở thích hoặc mối quan tâm tương đồng với NSD Để xây dựng các cộng đồng, CF khai thác ma trận đánh giá, trong đó mỗi NSD và item được biểu diễn lần lượt ở các dòng và cột Mỗi ô trong ma trận thể hiện giá trị rating, phản ánh mức độ ưa thích của NSD đối với từng item.
Bảng 2-1 Minh họa ma trận đánh giá
NSD Titanic Mummy Apollo 13 Spider Man u 1 5 3 1 u 2 4 1 u 3 1 1 5 u 4 1 4 u 5 1 5 4
Phương pháp Collaborative Filtering (CF) sử dụng tập hợp các đánh giá đã biết của người sử dụng (NSD) để ước lượng hàm dự đoán cho những mục chưa được đánh giá Hàm này được biểu diễn dưới dạng f: User x Item → Rating, trong đó Rating có thể từ 1 đến 5 hoặc chỉ là hai giá trị thích/không thích, tùy thuộc vào hệ thống Mục tiêu của CF là ước lượng các giá trị f(user, item) chưa được đánh giá Chẳng hạn, NSD u1 đã đánh giá các bộ phim Titanic, Mummy và Spider Man với các điểm số lần lượt là 5, 3 và 1, trong khi đánh giá cho phim Apollo 13 vẫn chưa được biết Do đó, hệ thống cần dự đoán điểm số mà u1 sẽ dành cho Apollo 13 để quyết định xem có nên tư vấn bộ phim này cho NSD hay không.
Việc xác định hai người dùng có phải là láng giềng trong một cộng đồng hay không phụ thuộc vào độ tương đồng giữa các đánh giá của họ Hiện nay, các thuật toán trong hệ thống gợi ý (Collaborative Filtering - CF) được chia thành hai nhóm chính: thuật toán dựa trên bộ nhớ và thuật toán dựa trên mô hình.
2.1.2.1 Cách tiếp cận dựa trên bộ nhớ
Cách tiếp cận dựa trên bộ nhớ (Memory-based Approach), hay còn gọi là cách tiếp cận dựa vào láng giềng (Neighborhood-based), tập trung vào việc khai thác mối quan hệ giữa người dùng (NSD) hoặc giữa các mục (items) Phương pháp này không yêu cầu quá trình huấn luyện, vì việc tư vấn dựa vào đánh giá của những láng giềng gần nhất với NSD đang được xem xét Để xác định các láng giềng gần nhất, cách tiếp cận này sử dụng các độ đo về mức độ tương đồng hoặc khoảng cách giữa các NSD, với các phương pháp phổ biến như tương quan Pearson, cosine và khoảng cách Euclidean.
[6] Công thức tính toán mức độ tương đồng giữa hai NSD bằng tương quan Pearson được định nghĩa như sau:
Trong công thức (2.2), I a,b là tập hợp các items mà hai người dùng u a và u b cùng đánh giá Giá trị r a,t đại diện cho rating của người dùng u a cho item i t, trong khi r a là rating trung bình của u a trên tất cả các items Công thức tính tương quan Pearson cho kết quả trong khoảng [-1, 1] Nếu độ tương đồng giữa hai người dùng là 1, điều đó có nghĩa là các rating của họ cho những items chung hoàn toàn giống nhau Ngược lại, nếu độ tương đồng là -1, hai người dùng có sự khác biệt lớn trong cách đánh giá các items chung.
Các h ệ th ố ng t ư v ấ n theo ng ữ c ả nh
Ngữ cảnh có nhiều định nghĩa khác nhau tùy thuộc vào lĩnh vực, và trong lĩnh vực tư vấn thông tin, định nghĩa của Dey được sử dụng phổ biến.
“Ngữ cảnh là bất cứ thông tin gì có thể đặc trưng cho trạng thái của một thực thể”
Trong hệ thống RS, các thực thể chính bao gồm người sử dụng (NSD), các mục (item) và các điều kiện mà NSD sử dụng để đánh giá các mục này Thuộc tính ngữ cảnh (contextual feature) có thể phụ thuộc vào NSD, item hoặc cả hai Chẳng hạn, với thuộc tính ngữ cảnh là thời tiết, các ngữ cảnh có thể bao gồm nắng, mưa, có mây, hay tuyết Tương tự, nếu xét đến thuộc tính ngữ cảnh là tâm trạng của NSD, các ngữ cảnh có thể là vui, buồn, hay lo lắng.
Gần đây, các hệ thống CARS đã cải tiến ma trận đánh giá bằng cách tích hợp yếu tố ngữ cảnh, mở rộng hàm ước lượng dự đoán theo công thức: f: Người dùng x Mặt hàng x Ngữ cảnh → Đánh giá.
Context là tập các giá trị của các thuộc tính ngữ cảnh liên quan đến ứng dụng
Trong mô hình ước lượng dự đoán, điểm số (rating) của người sử dụng (NSD) phụ thuộc vào ba yếu tố chính: NSD, item (mục), và ngữ cảnh Chẳng hạn, như minh họa trong Hình 2-4, điểm số của NSD u1 dành cho bộ phim Titanic thay đổi theo ngữ cảnh Cụ thể, khi xem phim một mình tại nhà, NSD u1 đánh giá bộ phim với 5 điểm, nhưng khi xem cùng bạn bè tại rạp, điểm số chỉ còn 3.
Hình 2-4 Mô hình lưu trữ các đánh giá trong hệ thống CARS
Hình 2-5 Ma trận đánh giá tương ứng với các ngữ cảnh
Các giá trị ngữ cảnh trong tập Context có thể được ghi nhận theo hai cách: tường minh và không tường minh Cách tường minh yêu cầu người sử dụng (NSD) cung cấp thông tin trực tiếp, như trong trường hợp ứng dụng tư vấn âm nhạc hỏi về tâm trạng của NSD, hoặc thông qua thiết bị GPS để xác định vị trí, thời gian và khí hậu Ngược lại, cách không tường minh dựa vào việc xây dựng mô hình học hành vi của NSD thông qua suy luận, như phân biệt mục đích mua sắm cá nhân và quà tặng Ưu điểm của cách tường minh là tiết kiệm chi phí cho việc học hành vi, nhưng nhược điểm là NSD phải tốn công sức để xác định ngữ cảnh, đặc biệt khi không thể diễn tả chính xác Trong khi đó, cách không tường minh không ảnh hưởng đến NSD nhưng đòi hỏi chi phí cao cho việc xây dựng mô hình suy diễn, và kết quả có thể bị ảnh hưởng bởi thông tin nhiễu.
Hiện nay, các thuật toán tư vấn theo ngữ cảnh được phân loại thành ba mô hình chính: pre-filtering, post-filtering và contextual modeling, dựa vào cách thức và thời điểm sử dụng ngữ cảnh trong quá trình tư vấn.
Pre-filtering là phương pháp sử dụng yếu tố ngữ cảnh để loại bỏ các ratings không liên quan trước khi áp dụng phương pháp tư vấn Collaborative Filtering (CF) truyền thống trên ma trận đánh giá User x Item Ví dụ, trong hệ thống tư vấn phim, nếu người dùng muốn xem phim vào thứ Bảy, chỉ các ratings vào ngày đó mới được sử dụng Ưu điểm của pre-filtering là cho phép áp dụng nhiều kỹ thuật tư vấn truyền thống sau khi đã loại bỏ ratings không liên quan Một ví dụ điển hình của mô hình này là phương pháp item-splitting do Baltrunas và Ricci đề xuất, trong đó một item ban đầu được tách thành hai items ảo nếu ratings của chúng có sự khác biệt đáng kể về mặt thống kê.
Phương pháp này giả định rằng mỗi đánh giá r ui trong ma trận R mxn (với m là số người dùng và n là số item) gắn liền với một điều kiện ngữ cảnh c(u, i) mà người dùng u đã đánh giá item i Cụ thể, c(u, i) = (c 1 , …, c k ), trong đó c j thuộc C j, với C j là các thuộc tính ngữ cảnh như thời tiết, tâm trạng, địa điểm, v.v Ví dụ, nếu C j là thời tiết, giá trị của c j sẽ thuộc tập {nắng, mưa, mây, tuyết} Đối với mỗi item, thuật toán sẽ phân tách các đánh giá thành hai tập con dựa trên giá trị cụ thể của ngữ cảnh c j Cụ thể, tập con thứ nhất chứa các đánh giá liên quan đến item i 1 trong ngữ cảnh c j = v, trong khi tập con thứ hai chứa các đánh giá liên quan đến item i 2 trong ngữ cảnh c j ≠ v Tổng số đánh giá của ma trận sau khi phân tách không thay đổi, nhưng do số cột tăng lên, ma trận trở nên thưa thớt hơn so với ban đầu.
Hình 2-6 Ví dụ minh họa item-splitting
Thuật toán phân chia item dựa trên giá trị ngữ cảnh c j để tạo ra hai tập con có sự khác biệt đáng kể về ratings Nếu sự khác biệt này được xác nhận, item ban đầu sẽ được thay thế bằng hai items mới, i 1 và i 2 Item i 1 chứa rating trong ngữ cảnh c j = trời nắng, trong khi item i 2 chứa rating khi c j ≠ trời nắng Khi dự đoán rating của user u cho item i trong ngữ cảnh c j = trời nắng, hệ thống sẽ sử dụng rating của item i 1 Ngược lại, nếu c j ≠ trời nắng, hệ thống sẽ dự đoán dựa trên item i 2.
Các tác giả cho rằng việc phân tách các items sẽ mang lại lợi ích nếu các ratings của hai items mới có sự đồng nhất hoặc sự khác biệt đáng kể về mặt thống kê Để thực hiện điều này, cần có tiêu chuẩn đánh giá sự đồng nhất và khác biệt giữa các ratings trong hai tập con Trong bài báo, các tác giả đề xuất sử dụng các tiêu chuẩn t mean, t prop, t size, t IG và t random Để tối ưu hóa kết quả, các tác giả đã chọn cách chia s sao cho giá trị phân tách item i theo tiêu chí t, ký hiệu là t(i, s), đạt giá trị lớn nhất.
• t mean (i, s) sử dụng t-test để ước lượng sự khác biệt về giá trị ratings trung bình trong hai tập ratings con khi sử dụng s
Phương pháp t prop (i, s) áp dụng hai thành phần z-test để kiểm tra sự khác biệt đáng kể giữa các đánh giá có điểm số cao (rating > 3) và đánh giá có điểm số thấp (rating < 4) trong hai tập ratings mới được tạo ra.
Kích thước t(i, s) đo lường số lượng đánh giá của item i mà không bị ảnh hưởng bởi cách chia s Theo các tác giả, tiêu chuẩn này được áp dụng để xác định item nào sẽ được chọn để phân tách trước, vì những item có số lượng đánh giá đủ hoặc nhiều sẽ được ưu tiên tách trước.
• t IG (i, s) là tiêu chuẩn đo mức độ có lợi của thông tin (information gain) được tạo ra từ cách chia s đối với các đánh giá của item i
• t random (i, s) được dùng như là hình thức tham khảo để so sánh với các phương pháp khác Tiêu chuẩn trả về giá trị ngẫu nhiên cho mỗi cách chia s
Phương pháp item-splitting đã được kiểm thử trên hai tập dữ liệu thực là Yahoo! Webscope movies dataset và MovieLens, cùng với một tập dữ liệu bán nhân tạo Bài báo lựa chọn thuộc tính ngữ cảnh là nhóm tuổi và giới tính của người sử dụng.
Bộ dữ liệu semi-synthetic được tạo ra bằng cách mở rộng bộ dữ liệu Yahoo! ban đầu, thông qua việc thêm thuộc tính tuổi tác và giới tính với giá trị ngẫu nhiên c ∈ {0, 1} Giá trị c này phản ánh ảnh hưởng của yếu tố ngữ cảnh lên các ratings của người sử dụng Các tác giả đã chọn ngẫu nhiên một tỷ lệ (α * 100%) ratings để điều chỉnh, cụ thể là tăng một điểm nếu c = 1 và rating nhỏ hơn 5, hoặc giảm một điểm nếu c = 0 và rating lớn hơn 1 Với α = 0.5, 50% ratings sẽ được thay đổi, tùy thuộc vào giá trị của c.
Trong quá trình thử nghiệm, các kỹ thuật KNN, FACT và AVG đã được áp dụng để đánh giá hiệu quả của việc tách và không tách items Kết quả từ đo lường MAE cho thấy, với hai bộ dữ liệu Yahoo! và MovieLens, phương pháp item-splitting không mang lại hiệu quả đáng kể so với việc không sử dụng Các tác giả chỉ ra rằng việc lựa chọn thuộc tính ngữ cảnh như giới tính và nhóm tuổi không ảnh hưởng nhiều đến ratings của người sử dụng, vì thực chất chúng chỉ là đặc trưng của người sử dụng, không phải là điều kiện ngữ cảnh.
Tư vấn thông tin theo ngữ cảnh
Cách tiếp cận theo các cộng đồng đa tiêu chí
Cách tiếp cận được đề xuất trong luận văn cho thấy rằng người sử dụng (NSD) có thể thuộc nhiều loại cộng đồng khác nhau, không chỉ dựa trên tiêu chí ratings như trong các hệ thống tư vấn truyền thống Điều này mang lại cho NSD sự đa dạng và phong phú trong các gợi ý tư vấn Chẳng hạn, khi NSD muốn xem phim, họ có thể nhận được nhiều gợi ý từ các cộng đồng khác nhau như gia đình, đồng nghiệp, hoặc những người đam mê phim tình cảm cổ điển mà họ là thành viên.
Mức độ ảnh hưởng của các cộng đồng đến việc tư vấn cho người sử dụng trong từng ngữ cảnh cụ thể có sự khác biệt Chẳng hạn, khi xem phim một mình ở nhà vào cuối tuần, một giảng viên có thể có sở thích riêng về thể loại phim.
Cuốn theo chiều gió là một bộ phim được yêu thích trong thể loại tình cảm cổ điển, được khuyến nghị bởi các thành viên trong hội yêu thích phim Tuy nhiên, nếu bạn muốn đi xem phim với bạn bè tại rạp, giảng viên có thể lựa chọn bộ phim hành động giả tưởng Chiến tranh giữa các vì sao, theo gợi ý từ đồng nghiệp.
Trong ngữ cảnh xem phim một mình ở nhà vào cuối tuần, sở thích cá nhân (thể loại) có ảnh hưởng mạnh đến sự lựa chọn của người xem Ngược lại, khi xem phim cùng bạn tại rạp chiếu, cộng đồng theo nghề nghiệp lại tác động nhiều hơn đến quyết định của người dùng Điều này cho thấy rằng, khi ngữ cảnh thay đổi, mức độ ảnh hưởng của các cộng đồng đến việc tư vấn cho người dùng cũng sẽ thay đổi.
Hệ thống tư vấn theo ngữ cảnh (CARS) trong luận văn sử dụng thông tin từ hồ sơ người dùng (NSD) để phân loại họ thành các cộng đồng khác nhau dựa trên tiêu chí như nghề nghiệp, nhóm tuổi, địa bàn cư trú và thể loại phim yêu thích Do mức độ ảnh hưởng của các tiêu chí này đối với tư vấn có thể khác nhau trong từng ngữ cảnh, luận văn cần xác định tiêu chí phù hợp nhất trước khi áp dụng thuật toán Mô hình đề xuất định nghĩa một quan hệ tiền thứ tự (pre-order) cho các tiêu chí trong từng ngữ cảnh và giới thiệu ba thuật toán tư vấn theo ngữ cảnh dựa trên các quan hệ này.
Trong phần tiếp theo, luận văn mở rộng mô hình không gian các cộng đồng đa tiêu chí (α-Community Spaces Model - αCSM) bằng cách tích hợp yếu tố ngữ cảnh, đồng thời định nghĩa một quan hệ tiền thứ tự trên tập hợp các tiêu chí tương ứng với từng ngữ cảnh cụ thể Quan hệ tiền thứ tự này nhằm thể hiện mức độ phù hợp giữa các tiêu chí và ngữ cảnh đang được xét đến Cuối cùng, luận văn sẽ trình bày ba thuật toán tư vấn CRMC.
CRESC và CREOC, có khai thác mô hình mở rộng trên vào quá trình tư vấn theo ngữ cảnh
3.1.1Các khái niệm cơ bản
Trong mô hình αCSM, tác giả định nghĩa U là tập hợp những người dùng (NSD) và A là tập hợp các tiêu chí phân hoạch NSD Ví dụ, trong bộ dữ liệu MovieLens, các tiêu chí khai thác bao gồm nhóm tuổi, nghề nghiệp, thể loại yêu thích và ratings Đối với mỗi tiêu chí α thuộc A, có thể định nghĩa một quan hệ tương đương ℜ(α) trên tập hợp U.
∀u, u’∈ U, (u ℜ ( α ) u’) ⇔ α(u) = α(u’) (3.1) trong đó α(u) là giá trị của tiêu chí α gắn với NSD u
Ví dụ, quan hệ (u ℜ(occupation) u’) thể hiện rằng nghề nghiệp của u và u’ là giống nhau, tức là occupation(u) = occupation(u’) Một lớp tương đương của quan hệ ℜ(α), được ký hiệu là Gk(α), được gọi là cộng đồng theo tiêu chí α (α-community).
Trong mô hình này, mỗi người dùng (NSD) u sẽ có một vectơ định vị được ký hiệu là P(u) Vectơ định vị này được định nghĩa gồm nhiều thành phần G(αi)(u), thể hiện cộng đồng của NSD u dựa trên tiêu chí αi.
Tất cả các vectơ định vị của người sử dụng (NSD) được tổng hợp trong Bảng 3-1, cho thấy rằng mỗi NSD sẽ có những cộng đồng khác nhau dựa trên tiêu chí α Chẳng hạn, NSD u2 trong Bảng 3-1 có vectơ định vị P(u2).
Nhóm tuổi từ 25-34, bao gồm các kỹ sư và những người yêu thích hài kịch, có thể được phân loại thành nhiều cộng đồng khác nhau Theo tiêu chí nhóm tuổi, họ sẽ cùng cộng đồng với những người trong độ tuổi 35-44 Nếu xem xét theo nghề nghiệp, họ sẽ chia sẻ cộng đồng với những cá nhân thuộc nhóm nghề nghiệp khác Cuối cùng, khi phân loại theo thể loại yêu thích hoặc đánh giá, họ sẽ thuộc về cộng đồng yêu thích hài kịch.
Bảng 3-1 Minh họa NSD có thể thuộc nhiều cộng đồng
NSD αααα 1 = Nhóm tuổi αααα 2 = Nghề nghiệp αααα 3 = Thể loại αααα 4 = Ratings u 1 18–24 Sinh viên Hài kịch Nhóm#2 u 2 25–34 Kỹ sư Hài kịch Nhóm#2 u 3 25–34 Giáo viên Phiêu lưu Nhóm#3 u 4 45–49 Kỹ sư Tình cảm Nhóm#5
Các cộng đồng có thể được tính toán theo nhiều cách khác nhau phụ thuộc vào bản chất của tiêu chí α [6], [8], [14], [16]
3.1.2Sự mở rộng của mô hình αCSM Đầu tiên, luận văn định nghĩa G ( α ) (u, i) bao gồm những láng giềng của NSD u đã từng đánh giá item i Kế đến, trong mô hình αCSM, tác giả không xét đến yếu tố ngữ cảnh, nhưng trong cách tiếp cận của luận văn, một ngữ cảnh sẽ được hình thành từ tập hợp các thuộc tính ngữ cảnh (contextual feature): C = {C 1 , …, C t } Khi đó, một ngữ cảnh sẽ được định nghĩa như một vectơ c = (c 1 , …, c t ), trong đó, c i là giá trị của thuộc tính ngữ cảnh C i Ví dụ, trong một hệ thống tư vấn có xét đến tập hợp gồm hai thuộc tính ngữ cảnh C = { location, day_type } thì những ngữ cảnh có thể xảy ra là (at cinema, weekend), (at home, workday),
Phương pháp CF truyền thống chỉ khai thác một cộng đồng duy nhất của người dùng dựa trên tiêu chí đánh giá để dự đoán sự đánh giá của người dùng đối với một mục cụ thể Tuy nhiên, luận văn này cho rằng mức độ quan trọng của từng tiêu chí đối với một ngữ cảnh cụ thể là khác nhau, từ đó mở ra khả năng cải thiện độ chính xác trong việc dự đoán đánh giá.
Yếu tố ngữ cảnh sẽ được tích hợp vào mô hình dựa trên định nghĩa:
Cộng đồng G(α)(u, i, c) bao gồm tất cả những người có sự tương đồng với người sử dụng u dựa trên tiêu chí α và đã từng đánh giá item i trong ngữ cảnh c Tương tự, cộng đồng G(α)(u, c) được xác định bởi tất cả các láng giềng của người sử dụng u theo tiêu chí α, những người đã đánh giá ít nhất một item trong ngữ cảnh c Rõ ràng, mối quan hệ giữa các cộng đồng này là: G(α)(u, i, c) thuộc G(α)(u, c), và G(α)(u, c) thuộc G(α)(u).
Bài viết đề xuất một thuật toán tư vấn TTTT cho hệ thống CARS, trong đó TTTT sẽ khai thác cộng đồng dựa trên các tiêu chí α của NSD u để tạo danh sách tư vấn Để phù hợp với từng ngữ cảnh c cụ thể, vai trò của các tiêu chí α i ∈ A sẽ khác nhau Luận văn đưa ra một thứ tự ưu tiên cho tập hợp các tiêu chí A tương ứng với mỗi ngữ cảnh c, thể hiện qua một quan hệ tiền thứ tự đơn giản trên tập A.
Các thuật toán đề xuất cho hệ thống CARS
Luận văn đề xuất ba thuật toán nhằm tạo ra các tư vấn trong hệ thống CARS với yếu tố ngữ cảnh được xem xét Đầu tiên, thuật toán CRMC tìm kiếm cộng đồng G(α)(u) phù hợp nhất cho người sử dụng (NSD) u trong một ngữ cảnh cụ thể, từ đó dự đoán mức độ ưa thích của NSD đối với item i trong ngữ cảnh c Tuy nhiên, do CRMC dựa trên phương pháp CF, nó gặp phải vấn đề dữ liệu thưa Để cải thiện chất lượng tư vấn, luận văn giới thiệu hai thuật toán mở rộng là CRESC và CREOC, bổ sung thêm láng giềng cho cộng đồng ưu tiên G(α)(u) khi số lượng NSD đánh giá item i trong ngữ cảnh c quá ít Sự khác biệt giữa CRESC và CREOC nằm ở các phương pháp bổ sung láng giềng từ các cộng đồng khác của NSD u vào cộng đồng ưu tiên.
Hệ thống CARS thường chỉ dựa vào một cộng đồng duy nhất xây dựng trên tiêu chí ratings để dự đoán mức độ ưa thích của người sử dụng (NSD) đối với các items trong mọi ngữ cảnh Ngược lại, thuật toán CRMC (Context-aware Recommendation based on Multi-criteria Communities) dự đoán ratings của NSD trong một ngữ cảnh cụ thể bằng cách sử dụng các cộng đồng xây dựng từ nhiều tiêu chí khác nhau, tập trung vào tiêu chí có độ ưu tiên cao nhất trong ngữ cảnh đó Với các ngữ cảnh khác nhau, tiêu chí ưu tiên cũng sẽ thay đổi; ví dụ, khi NSD muốn xem phim ở rạp vào ngày làm việc, cộng đồng dựa trên nhóm tuổi sẽ phù hợp hơn, trong khi vào cuối tuần ở nhà, cộng đồng dựa trên sở thích thể loại phim sẽ thích hợp hơn Thuật toán CRMC tính toán giá trị dự đoán của rating cho NSD trong ngữ cảnh cụ thể thông qua ba bước minh họa trong Hình 3-1.
CARS sẽ quyết định việc tư vấn item i cho người sử dụng u dựa vào giá trị của ˆ( , , )r u i c Nếu giá trị này cao hơn ngưỡng đã được xác định, item i sẽ được hệ thống giới thiệu cho người sử dụng u.
Hình 3-1 Các bước trong thuật toán CRMC
Bước đầu tiên trong quy trình là chọn cộng đồng ưu tiên cho ngữ cảnh, nhằm xác định tiêu chí α phù hợp nhất để tư vấn cho ngữ cảnh đang xét Sau khi hoàn thành thuật toán CRMC, nó sẽ được áp dụng trên tập dữ liệu huấn luyện để sắp xếp các tiêu chí theo thứ tự ưu tiên trong từng ngữ cảnh cụ thể, dựa trên quan hệ tiền thứ tự đã được trình bày Hệ thống CARS sẽ xem xét từng tiêu chí α j ∈ A như một tiêu chí ưu tiên để thực hiện các bước tiếp theo của CRMC, từ đó tính toán giá trị ˆ( , , ) r u i c và ước lượng sai số so với rating thực sự r(u, i, c) trong tập dữ liệu thử Qua đó, hệ thống tích lũy giá trị cho error_rate(α j , c) và có khả năng sắp xếp các tiêu chí α j.
Cộng đồng G(α)(u) được hình thành dựa trên tiêu chí α với độ ưu tiên cao nhất so với các tiêu chí khác, là kết quả của bước đầu tiên trong mối quan hệ tiền thứ tự.
Lưu ý rằng thứ tự ưu tiên trên tập hợp tiêu chí A cho từng ngữ cảnh có thể được tính toán trước và lưu trữ trên bộ nhớ thứ cấp Các cộng đồng G (α)(u) cũng có thể được xây dựng offline theo nhiều phương pháp khác nhau, tùy thuộc vào bản chất của tiêu chí α Nếu α là một tiêu chí đơn giản trong việc gom nhóm người sử dụng, như các thuộc tính về nhân thân, thì cộng đồng sẽ được hình thành một cách hiệu quả.
G (α)(u) của người sử dụng (NSD) có thể được xác định thông qua quan hệ ℜ(α) được định nghĩa trong (3.1) Đối với các tiêu chí α phức tạp như thể loại yêu thích hoặc đánh giá, việc nhóm NSD theo tiêu chí α đòi hỏi một số bước thực hiện Các độ đo như cosine, khoảng cách Euclidean và tương quan Pearson có thể được sử dụng để tính toán sự tương đồng giữa các NSD.
Bước 2 là quá trình tinh chế cộng đồng ưu tiên G (α)(u) đã chọn ở Bước 1, nhằm xác định cộng đồng phù hợp nhất cho ngữ cảnh c Tại bước này, G (α)(u) sẽ được chọn lọc lại dựa trên yếu tố ngữ cảnh, chỉ giữ lại những láng giềng đã đánh giá item i trong ngữ cảnh c, thay vì sử dụng tất cả các láng giềng của NSD u Kết quả là G (α)(u, i, c), cộng đồng đã được tinh chế, chỉ bao gồm những láng giềng của NSD u theo tiêu chí α và đã đánh giá item i trong ngữ cảnh c Dự đoán rating ˆ( , , )r u i c của NSD u ở bước tiếp theo sẽ dựa vào ratings của những NSD thuộc cộng đồng đã được tinh chế này.
Bước 3: Phát sinh dự đoán Trong một số trường hợp, mức độ ưa thích của người sử dụng (NSD) đối với các item có thể thay đổi theo ngữ cảnh, trong khi ở những trường hợp khác, sở thích này lại không bị ảnh hưởng Chẳng hạn, một NSD có thể luôn thích xem phim "Forest Gump" bất kể tâm trạng, nhưng lại chỉ thích xem "Thời đại tân kỳ" của danh hài Charlot khi vui vẻ Từ đó, luận văn phân loại sở thích ngắn hạn là những sở thích thay đổi do ngữ cảnh, còn sở thích dài hạn là những sở thích bền vững Công thức dự đoán mức độ ưa thích của NSD đối với item trong ngữ cảnh sẽ bao gồm hai thành phần: phần dự đoán chung không xét đến ngữ cảnh (sở thích dài hạn) và phần dự đoán có xét đến ngữ cảnh (sở thích ngắn hạn), kết hợp thông qua tham số γ Đối với phần dự đoán không xét đến ngữ cảnh, thuật toán CRMC áp dụng phương pháp ma trận nhân (MF) để dự đoán mức độ ưa thích chung của NSD cho item trong mọi ngữ cảnh, với các thành phần của vectơ q thể hiện mức độ quan trọng của đặc trưng item và p thể hiện mức độ ảnh hưởng đến sở thích của NSD.
Giá trị rˆ ( , , ) ( ) Ctx α u i c được xác định dựa vào các đánh giá của cộng đồng G ( α ) (u, i, c) đã được tinh chế ở Bước 2 và phụ thuộc vào yếu tố ngữ cảnh trong công thức (3.4) Công thức dự đoán này sẽ thay đổi tùy theo đặc điểm của cộng đồng ưu tiên G ( α ) (u) được chọn ở Bước 1 Nếu cộng đồng ưu tiên được xây dựng từ các tiêu chí đơn giản, ký hiệu α+, như các thuộc tính cá nhân, thì giá trị rˆ Ctx ( α + ) ( , , )u i c sẽ được ước lượng bằng cách tính trung bình các đánh giá từ những láng giềng của người dùng u trong cộng đồng đã được tinh chế ở Bước 2 cho item i trong ngữ cảnh c, với r(u’, i, c) là rating của láng giềng u’ dành cho item i trong ngữ cảnh c.
Khi cộng đồng được chọn ở Bước 1 dựa trên các tiêu chí phức tạp như thể loại yêu thích hoặc đánh giá, thì thành phần tính toán yếu tố ngữ cảnh sẽ được xác định theo công thức tư vấn của phương pháp Collaborative Filtering (CF) truyền thống.
∑ u G u i c Ctx u G u i c sim u u r u i c r u i c sim u u (3.7) trong đó, sim(u, u’) chính là mức độ tương đồng giữa hai NSD u và u’ Đoạn mã giả của thuật toán CRMC được trình bày trong Hình 3-2
Input: NSD u, item i, ngữ cảnh c
Output: giá trị dự đoán r u i cˆ( , , )
Tinh chế cộng đồng G ( α ) (u) để tạo G ( α ) (u, i, c)
Tính ˆr nonCtx ( , )u i như trong (3.5) if (α là tiêu chí đơn giản) then Tính rˆ Ctx ( α + ) ( , , )u i c như trong (3.6) else Tính rˆ Ctx ( *) α ( , , )u i c như trong (3.7)
Hình 3-2 Mô tả thuật toán CRMC
Xét mối quan hệ giữa hai yếu tố dự đoán có ngữ cảnh và độc lập ngữ cảnh, tham số γ trong (3.4) cho thấy rằng kích thước của cộng đồng G(α)(u, i, c) càng lớn, thì ảnh hưởng của ngữ cảnh c đến sở thích của người dùng u đối với item i càng mạnh Cụ thể, khi số lượng người dùng trong cộng đồng G(α)(u, i, c) vượt qua ngưỡng λ max, giá trị tham số γ có khả năng điều chỉnh tiến gần tới 1.
|G ( α ) (u, i, c)| nhỏ hơn một ngưỡng λ min thì giá trị γ có thể được thay đổi để tiến về 0
Trong trường hợp |G ( α ) (u, i, c)| nằm trong đoạn [λ min , λ max ] thì giá trị của γ có thể được gán trong khoảng lân cận của 0.5
Trong thuật toán CRMC, số lượng người dùng (NSD) thuộc cộng đồng G(α)(u, i, c) quá ít có thể dẫn đến giảm độ chính xác trong việc tính toán ˆ( , , ) r u i c Để khắc phục vấn đề này, luận văn đề xuất thuật toán CRESC (Context-aware Recommendation based on Enrichment from Similar multi-criteria Communities) như một sự mở rộng của CRMC Thuật toán CRESC tích hợp quy trình bổ sung láng giềng cho cộng đồng G(α)(u, i, c) khi cần thiết trước khi đưa ra dự đoán CRESC bao gồm bốn bước, trong đó Bước 1 và Bước 2 tương tự như hai bước đầu tiên của thuật toán CRMC.
Hình 3-3 Các bước trong thuật toán CRESC
Trong bước 3 của thuật toán CRESC, khi kích thước của cộng đồng G(α)(u, i, c) nhỏ hơn ngưỡng λ max, thuật toán sẽ bổ sung các láng giềng từ những cộng đồng khác của người sử dụng u Việc bổ sung này dựa trên sự tương đồng cao nhất với cộng đồng ưu tiên G(α)(u, i, c) Để thực hiện điều này, CRESC cần xác định mức độ tương đồng giữa G(α)(u, i, c) và các cộng đồng khác G(α')(u, i, c) (với α' ≠ α) Mức độ tương đồng được tính toán dựa trên độ lệch giữa rating trung bình trong ngữ cảnh c của hai cộng đồng, sử dụng công thức (3.8), với r u( , , )α c là rating trung bình của cộng đồng G(α)(u, c) bao gồm tất cả các láng giềng của người sử dụng u theo tiêu chí α đã đánh giá các items trong ngữ cảnh c.
Lưu ý, giá trị tuyệt đối trong công thức (3.8) cho độ lệch càng nhỏ thì độ tương đồng giữa hai cộng đồng càng lớn
Thực nghiệm
Qui trình th ự c nghi ệ m
Quá trình chuẩn bị cho các thực nghiệm trong luận văn bao gồm tiền xử lý dữ liệu, thiết lập giá trị tham số, lựa chọn thuật toán so sánh và xác định các tiêu chí đo lường để đánh giá hiệu quả của các thuật toán.
Các thực nghiệm trong luận văn được thực hiện trên bộ dữ liệu MovieLens
Bộ dữ liệu MovieLens được coi là tiêu chuẩn trong nghiên cứu hệ thống gợi ý (RS), bao gồm 100.000 đánh giá từ 943 người dùng trên 1.682 bộ phim thuộc 19 thể loại khác nhau Để đảm bảo độ tin cậy của kết quả, luận văn đã sử dụng bộ dữ liệu đã được phân chia sẵn, trong đó 80% được dùng cho huấn luyện và 20% cho kiểm thử chất lượng dự đoán.
Bộ dữ liệu MovieLens ban đầu thiếu thông tin ngữ cảnh cụ thể, vì vậy để thử nghiệm các thuật toán tư vấn có ngữ cảnh, luận văn đã áp dụng phương pháp suy luận ngữ cảnh của Said và cộng sự Phương pháp này sử dụng thuộc tính ngữ cảnh về địa điểm mà người sử dụng đã xem phim để cải thiện chất lượng gợi ý.
Việc xác định liệu người dùng xem phim tại rạp hay ở nhà được thực hiện thông qua sự kết hợp giữa ngày khởi chiếu và thời điểm đánh giá phim Nếu phim được đánh giá trong vòng hai tháng kể từ ngày khởi chiếu, người dùng được cho là đã xem phim tại rạp; ngược lại, nếu sau hai tháng, họ được cho là đã xem phim ở nhà Hai thuộc tính ngữ cảnh, bao gồm loại ngày (ngày làm việc hoặc cuối tuần) và mùa, phản ánh thời điểm người dùng xem phim và được suy luận từ timestamp của các đánh giá Sau khi hoàn tất quá trình suy luận ngữ cảnh, quy trình thực nghiệm thu thập được các thuộc tính ngữ cảnh như {location, day type, season} và tạo ra các ngữ cảnh C như {(ngày làm việc, ở nhà, mùa xuân), (cuối tuần, tại rạp, mùa đông), …}.
Sau khi áp dụng phương pháp suy diễn ngữ cảnh của Said và cộng sự, luận văn đã phân tích sự phân bố ratings của người sử dụng theo từng ngữ cảnh và loại bỏ những ngữ cảnh có quá ít ratings Quan sát cho thấy ngữ cảnh “at cinema” có rất ít ratings, trong khi phần lớn ratings đến từ ngữ cảnh “at home” Do đó, thuộc tính location không còn quan trọng và sẽ không được xem xét trong thực nghiệm Việc loại bỏ thuộc tính này không ảnh hưởng đến kết quả thực nghiệm, vì luận văn chỉ tập trung vào số lượng ngữ cảnh mà không quan tâm đến các thuộc tính hay ngữ nghĩa của chúng Kết quả là, bộ dữ liệu MovieLens được sử dụng trong các thực nghiệm của luận văn liên quan đến 8 ngữ cảnh: c 1 = (workday, spring), c 2 = (workday, summer), c 3 = (workday, fall), c 4 = (workday, winter), c 5 = (weekend, spring), c 6 = (weekend, summer), c 7 = (weekend, fall) và c 8 = (weekend, winter).
Luận văn này sẽ tóm tắt quá trình phân hoạch các cộng đồng đa tiêu chí dựa trên bốn tiêu chí từ bộ dữ liệu MovieLens, bao gồm độ tuổi, nghề nghiệp, thể loại và đánh giá Đối với tiêu chí độ tuổi, chúng tôi sẽ tổng hợp tất cả các dữ liệu liên quan.
Trong nghiên cứu này, 943 người dùng (NSD) được phân chia thành 7 cộng đồng theo độ tuổi, cụ thể là: dưới 18 tuổi, 18-24, 25-34, 35-44, 45-49, 50-55, và trên 55 tuổi Ngoài ra, dựa trên thông tin có sẵn trong bộ dữ liệu, NSD cũng được phân loại thành 21 loại nghề nghiệp khác nhau.
Trong việc xây dựng cộng đồng, hai tiêu chí phức tạp là thể loại (genre) và đánh giá (ratings) được áp dụng qua hai bước gom nhóm Đối với tiêu chí thể loại, mỗi người sử dụng (NSD) có một vectơ 19 chiều thể hiện mức độ yêu thích của họ đối với 19 thể loại phim, với trọng số w(u, g i ) được tính dựa trên số lượng phim đã đánh giá và giá trị trung bình của các đánh giá đó Để xác định sự tương đồng giữa các NSD, độ đo cosine được sử dụng Về tiêu chí đánh giá, mỗi vectơ NSD tương ứng với một dòng trong ma trận đánh giá R, và độ tương quan Pearson được áp dụng để ước lượng sự tương đồng giữa các NSD trong việc hình thành cộng đồng.
Liên quan đến những tham số của các thuật toán, trước hết luận văn đã chọn
Ngưỡng λ min và λ max lần lượt có giá trị 20 và 50, phản ánh kích thước phổ biến của một cộng đồng từ 20 đến 50 người trong các nghiên cứu.
Nếu kích thước của G(α)(u, i, c) trong thuật toán CRMC hoặc G*(u, i, c) trong hai thuật toán CRESC và CREOC lớn hơn ngưỡng λ max, giá trị của γ sẽ được chọn trong khoảng (0.5, 1] để thể hiện mức độ ảnh hưởng của thành phần ngữ cảnh trong công thức phát sinh dự đoán Để đảm bảo tính khách quan và hợp lý khi so sánh các thuật toán, tham số γ được gán bằng 0.75, là giá trị trung bình trong khoảng này.
Nếu giá trị G(α)(u, i, c) hay G(*)(u, i, c) nhỏ hơn ngưỡng λ min, thì γ sẽ nằm trong khoảng [0, 0.5), thể hiện mức độ ảnh hưởng của thành phần độc lập với ngữ cảnh, tức là sở thích dài hạn trong việc dự đoán rating của người sử dụng Luận văn chọn giá trị trung bình 0.25 cho tham số γ trong trường hợp này Khi kích thước cộng đồng nằm trong đoạn [λ min, λ max], luận văn giả định tác động của sở thích dài hạn và ngắn hạn là bằng nhau, do đó γ được gán giá trị 0.5 để giữ cân bằng Các tham số của phương pháp MF cho thành phần dự đoán không ngữ cảnh bao gồm tham số điều hòa 0.015, hệ số học 0.01 và số chiều của các đặc trưng ngầm là 10, đây cũng là các giá trị sử dụng trong thực nghiệm của các thuật toán so sánh khác.
Trong nghiên cứu này, chúng tôi sẽ sử dụng thuật toán context baseline predictor (UIC Baseline) làm thuật toán so sánh chính Thuật toán này kết hợp giữa phương pháp pre-filtering và baseline predictor, với công thức dự đoán được thể hiện như sau: ˆ( , , )=à+ i ( )+ u ( ) r u i c b c b c Trong đó, à đại diện cho rating trung bình toàn bộ ma trận, b u (c) là xu hướng đánh giá của người dùng trong ngữ cảnh c, và b i (c) thể hiện xu hướng đánh giá của item trong cùng ngữ cảnh đó.
Dựa vào công thức (4.1), phương pháp này chỉ chọn ra các đánh giá từ tập ratings ban đầu dựa trên ngữ cảnh c Kết quả là tạo ra ma trận User x Items chỉ chứa những ratings liên quan đến ngữ cảnh c, sau đó áp dụng công thức 2D baseline predictor cho ma trận này.
Hai thuật toán do Odic và cộng sự đề xuất, được trình bày chi tiết trong phần 2.2.3, đã được chọn để so sánh với các thuật toán trong luận văn Lý do lựa chọn hai thuật toán này là vì chúng áp dụng cùng một cách tiếp cận MF giống như các thuật toán được đề xuất Đặc biệt, Odic và cộng sự đã thực hiện thử nghiệm và cho thấy kết quả dự đoán của hai thuật toán này khá tốt.
Các thực nghiệm đã được tiến hành trên máy PC với cấu hình chính như sau: CPU Core i3 - 2330M 2.20 GHz, 4 GB RAM
4.1.3Độ đo sử dụng để so sánh hiệu quả của các thuật toán Để đánh giá hiệu quả của các thuật toán tư vấn, luận văn sử dụng độ đo
Kết quả thực nghiệm
Luận văn đã thực hiện hai thí nghiệm để kiểm chứng giả định rằng việc lựa chọn cộng đồng ưu tiên G (α)(u, i, c) trong từng ngữ cảnh cụ thể ảnh hưởng đến chất lượng tư vấn Đồng thời, nghiên cứu cũng đánh giá hiệu quả của ba thuật toán CRMC, CRESC và CREOC Bảng 4-1 cho thấy tốc độ xử lý của các thuật toán này, và kết quả thu được từ các thí nghiệm rất khả quan và đáng khích lệ.
Bảng 4-1 Tốc độ xử lý của các thuật toán được đề xuất
CRMC 340 phút 0.25 giây / rating 22 phút 0.06 giây / rating
CRESC 340 phút 0.25 giây / rating 27 phút 0.08 giây / rating CREOC 340 phút 0.25 giây / rating 25 phút 0.07 giây / rating
4.2.1Thực nghiệm 1: Phân tích vai trò của các tiêu chí Đầu tiên, luận văn áp dụng thuật toán CRMC lần lượt trên các cộng đồng xây dựng từ các tiêu chí age, genre, occupation và ratings để quan sát sự tác động của các tiêu chí lên trên từng ngữ cảnh Kết quả thực nghiệm trong Hình 4-1 cho thấy rằng trong các ngữ cảnh, cộng đồng xây dựng từ tiêu chí ratings không đạt được kết quả tư vấn tốt hơn những cộng đồng của tiêu chí khác
Hình 4-1 Kết quả so sánh các tiêu chí theo thuật toán CRMC
Tiêu chí NRMSE càng nhỏ chứng tỏ chất lượng tư vấn càng tốt Kết quả cho thấy sự khác biệt giữa các tiêu chí trong từng ngữ cảnh: tiêu chí occupation đạt kết quả tốt nhất ở ngữ cảnh 1, 4 và 6; genre thống trị ở ngữ cảnh 3 và 7; trong khi age vượt trội ở ngữ cảnh 2, 5 và 8 Đặc biệt, tiêu chí ratings không thành công ở bất kỳ ngữ cảnh nào do thiếu hụt người sử dụng trong cộng đồng G (ratings), dẫn đến hiệu quả tư vấn bị giảm sút nếu chỉ dựa vào tiêu chí này.
Cộng đồng khởi tạo từ tiêu chí ratings G (ratings) (u, i, c) không thể đạt được sự thống trị trong các ngữ cảnh khác nhau Cụ thể, trong các ngữ cảnh 1, 4 và 6, cộng đồng ưu tiên theo tiêu chí occupation cho kết quả tốt hơn so với các tiêu chí khác Tiêu chí age chiếm ưu thế ở ngữ cảnh 5, trong khi tiêu chí genre thắng ở ngữ cảnh 7 và 8 Việc lựa chọn tiêu chí phù hợp cho từng ngữ cảnh cụ thể sẽ nâng cao độ chính xác của thuật toán CRESC, thay vì chỉ dựa vào tiêu chí ratings Nghiên cứu đã xem xét số liệu chi tiết về các cộng đồng đa tiêu chí, cho thấy tiêu chí α trở nên ưu tiên trong một ngữ cảnh khi sự thiếu hụt NSD trong cộng đồng G (α) (u, i, c) là không đáng kể Nói cách khác, tiêu chí α nên được chọn khi cộng đồng G (α) (u, i, c) có đủ số lượng NSD cần thiết để đảm bảo độ tin cậy của dự đoán, hoặc khi chỉ cần bổ sung một hoặc hai cộng đồng tương đồng.
Hình 4-2 Kết quả so sánh các tiêu chí theo thuật toán CRESC
Theo số liệu quan sát, luận văn chỉ ra rằng chất lượng tư vấn sẽ giảm đáng kể khi số lượng người sử dụng thuộc cộng đồng ưu tiên tăng lên.
G (α)(u, i, c) hiện đang thiếu hụt Việc kết hợp quá nhiều người sử dụng từ các cộng đồng có tiêu chí khác nhau vào cộng đồng G (α)(u, i, c) có thể làm giảm độ chính xác của dự đoán, do ảnh hưởng của thông tin nhiễu.
Luận văn đã áp dụng thuật toán CREOC trong thực nghiệm 1 và nhận được kết quả tương tự như thuật toán CRESC, vì vậy không trình bày chi tiết kết quả của thuật toán CREOC.
Kết quả thực nghiệm với ba thuật toán CRMC, CRESC và CREOC cho thấy rằng việc chỉ dựa vào tiêu chí ratings để khai thác cộng đồng sẽ không mang lại kết quả tối ưu trong mọi ngữ cảnh, do ảnh hưởng của vấn đề dữ liệu thưa Điều này cung cấp câu trả lời quan trọng cho câu hỏi Q1 trong Chương 4.
Hiện tượng các tiêu chí luân phiên giành chiến thắng trong các ngữ cảnh đã cung cấp câu trả lời tích cực cho câu hỏi Q2 và củng cố giả định rằng mức độ ảnh hưởng của các cộng đồng đa tiêu chí đối với chất lượng tư vấn thay đổi theo từng ngữ cảnh cụ thể Điều này cho thấy việc lựa chọn tiêu chí α phù hợp để xây dựng cộng đồng tư vấn trong một ngữ cảnh nhất định sẽ nâng cao độ chính xác của tư vấn, ngược lại, nếu không chọn đúng, hiệu quả tư vấn sẽ bị giảm sút.
4.2.2Thực nghiệm 2: So sánh các thuật toán
Khi đánh giá tính hiệu quả của các thuật toán đề xuất trong Q3, kết quả so sánh trong Hình 4-3 cho thấy các thuật toán này luôn đạt hiệu suất tốt hơn so với các thuật toán tư vấn khác trong mọi ngữ cảnh.
Hình 4-3 So sánh các thuật toán
Sự thắng thế của các thuật toán đề xuất trong các ngữ cảnh thực nghiệm cho thấy việc khai thác cộng đồng đa tiêu chí mang lại lợi ích cho tư vấn theo ngữ cảnh Thuật toán CRMC đạt kết quả tốt nhất ở ngữ cảnh 5 và 6, trong khi thuật toán CREOC vượt trội hơn trong bốn ngữ cảnh (1, 3, 4 và 8) Đồng thời, thuật toán CRESC dẫn đầu toàn cục ở ngữ cảnh 2 và 7.
Sự vượt trội của các thuật toán CRMC, CRESC và CREOC đến từ khả năng xử lý thông tin ngữ cảnh, đặc biệt trong những trường hợp mà thông tin này có thể trở thành dữ liệu nhiễu Trong khi phương pháp contextualizing latent models của Odic và cộng sự không thể phân biệt giữa thông tin nhiễu và mối quan hệ ngữ nghĩa trong ngữ cảnh, các phương pháp đề xuất lại kết hợp hiệu quả giữa mô hình yếu tố tiềm ẩn và phương pháp láng giềng Điều này cho phép chúng điều chỉnh giá trị tham số γ dựa trên kích thước của G (α)(u, i, c) trong thuật toán CRMC, từ đó nâng cao khả năng dự đoán trong các cộng đồng đa tiêu chí với yếu tố ngữ cảnh.
Trong thuật toán CRESC và CREOC, G (*) (u, i, c) thể hiện yếu tố ngữ cảnh một cách gián tiếp Các thuật toán này có khả năng phát hiện mối quan hệ cục bộ giữa các cộng đồng đa tiêu chí và ngữ cảnh, đồng thời khai thác các đánh giá toàn cục trên toàn bộ ngữ cảnh Nhờ đó, các thuật toán đề xuất giúp giảm thiểu tác động của thông tin ngữ cảnh bị nhiễu, từ đó nâng cao độ chính xác của các tư vấn.
Luận văn đã phân tích việc lựa chọn áp dụng các thuật toán CRMC, CRESC và CREOC để đạt hiệu quả tối ưu trong các tình huống cụ thể Kết quả thực nghiệm cho thấy, khi số lượng người dùng trong cộng đồng G (α) (u, i, c) gần đạt ngưỡng λ max, thuật toán CRMC là lựa chọn hợp lý Việc này giúp giảm thiểu chi phí tính toán và tìm kiếm người dùng tương đồng từ các cộng đồng khác, đồng thời vẫn đảm bảo độ chính xác trong dự đoán Điều này chỉ ra rằng, trong những trường hợp thiếu hụt người dùng không đáng kể, quy trình bổ sung láng giềng trong thuật toán CRESC có thể phát huy hiệu quả.
Tổng kết
Kết luận
Luận văn đề xuất một phương pháp mới để khai thác các cộng đồng đa tiêu chí trong hệ thống tư vấn theo ngữ cảnh (CARS), nhấn mạnh rằng vai trò của các cộng đồng này thay đổi tùy theo ngữ cảnh cụ thể Để áp dụng hiệu quả, cần xác lập thứ tự ưu tiên cho các tiêu chí hình thành cộng đồng, bao gồm ratings và các thuộc tính trong profile của người sử dụng Luận văn sử dụng ký hiệu đại số của mô hình αCSM và mở rộng mô hình bằng cách tích hợp yếu tố ngữ cảnh, định nghĩa quan hệ tiền thứ tự cho từng ngữ cảnh Từ đó, ba thuật toán tư vấn theo ngữ cảnh được đề xuất: CRMC, CRESC và CREOC, kết hợp giữa phương pháp MF và khai thác cộng đồng đa tiêu chí, nhằm giải quyết vấn đề dữ liệu thưa trong hệ thống tư vấn.
Luận văn đã tiến hành thử nghiệm với bộ dữ liệu MovieLens, áp dụng ba thuật toán đề xuất kết hợp với ba thuật toán đối sánh Kết quả cho thấy việc khai thác mối quan hệ giữa các cộng đồng đa tiêu chí và ngữ cảnh trong các thuật toán đề xuất CRMC, CRESC và CREOC mang lại hiệu quả cao hơn so với việc chỉ dựa vào tiêu chí ratings để hình thành cộng đồng như trong các thuật toán đối sánh.
Luận văn đã phân tích ưu và khuyết điểm của ba thuật toán nhằm tối ưu hóa hiệu quả áp dụng Thuật toán CRMC nổi bật với sự đơn giản và hiệu quả, đặc biệt khi kích thước cộng đồng ưu tiên G(α)(u, i, c) đủ lớn để đảm bảo độ tin cậy Trong trường hợp G(α)(u, i, c) thiếu hụt người dùng, các phương pháp bổ sung láng giềng trong CRESC và CREOC có thể giảm thiểu vấn đề dữ liệu thưa, cải thiện chất lượng tư vấn Thuật toán CRESC mang lại kết quả tốt khi không có sự khác biệt đáng kể về rating trung bình giữa các cộng đồng Ngược lại, CREOC phát huy hiệu quả khi khai thác thứ tự ưu tiên của các tiêu chí trong ngữ cảnh, đặc biệt khi việc tính toán độ tương đồng giữa các cộng đồng không mang lại nhiều lợi ích.
H ướ ng phát tri ể n
Trong tương lai, luận văn dự kiến sẽ tiếp tục nghiên cứu một số hướng phát triển chính như sau:
1 Nghiên cứu thêm những phương pháp hay những độ đo khác có thể được sử dụng để tính toán mức độ tương đồng giữa hai cộng đồng trong thuật toán CRESC
Việc bổ sung các phương pháp và độ đo khác để ước lượng sự tương đồng giữa các cộng đồng sẽ làm cho quá trình thêm láng giềng vào cộng đồng G (α)(u, i, c) trong Bước 3 của phương pháp CRESC trở nên linh hoạt hơn Hệ thống sẽ có khả năng lựa chọn phương pháp hoặc độ đo phù hợp tùy theo ngữ cảnh cụ thể.
Luận văn sẽ khai thác ý tưởng về đặc trưng của cộng đồng, trong đó mỗi cộng đồng có thể được đại diện bởi một thành viên "tiêu biểu" (người dùng thật) hoặc một thành viên "ảo" thể hiện những đặc điểm chính của cộng đồng đó Ví dụ, nếu coi mỗi thành viên là một điểm trong không gian, hệ thống sẽ chọn "trọng tâm" làm đại diện cho cộng đồng Từ đó, bài toán ước lượng mức độ tương đồng giữa hai cộng đồng sẽ được quy về việc so sánh độ tương đồng giữa hai người đại diện, giúp giảm thiểu đáng kể chi phí tính toán.
2 Nghiên cứu thử nghiệm mở rộng các thuật toán được đề xuất vào trong những lãnh vực mà sự tác động của các yếu tố ngữ cảnh lên sở thích của NSD là rõ ràng và đáng kể
Lãnh vực tư vấn âm nhạc cho thấy rằng một bài nhạc có thể được nghe đi nghe lại trong nhiều ngữ cảnh khác nhau, nhưng cảm nhận của người sử dụng (NSD) không luôn giống nhau Chẳng hạn, bài hát "Endless Love" có thể được yêu thích khi NSD cảm thấy vui vẻ, nhưng lại không được ưa chuộng khi họ đang căng thẳng Tương tự, bài hát "Happy New Year" thường được ưa thích vào dịp đầu năm, nhưng không phải là sự lựa chọn phù hợp trong những thời điểm khác trong năm.
3 Nghiên cứu mở rộng tiêu chuẩn về chất lượng của tư vấn
Hiện nay, nhiều hệ thống tư vấn theo ngữ cảnh chỉ tập trung vào độ chính xác như tiêu chuẩn chất lượng thông tin, dẫn đến việc cung cấp danh sách tư vấn với độ chính xác cao nhất cho người sử dụng Tuy nhiên, điều này chưa hoàn toàn đáp ứng nhu cầu đa dạng của người dùng, vì bên cạnh độ chính xác, còn nhiều tiêu chí khác như tính đa dạng, tính mới lạ và tính bất ngờ cũng cần được xem xét để nâng cao chất lượng thông tin tư vấn.
Hệ thống có khả năng lựa chọn tiêu chuẩn chất lượng phù hợp với ngữ cảnh để tạo ra danh sách tư vấn items Chẳng hạn, khi người sử dụng muốn xem phim một mình tại nhà, hệ thống sẽ gợi ý những bộ phim dựa trên tiêu chí độ chính xác, tức là những phim phù hợp nhất với sở thích cá nhân Ngược lại, nếu người sử dụng muốn mời bạn bè xem phim trong buổi liên hoan, hệ thống nên tư vấn phim dựa trên tiêu chí tính mới lạ và đa dạng, nhằm đáp ứng sở thích của nhiều người và tạo cơ hội cho mọi người khám phá các thể loại phim mới.
Luận văn này nhằm tiếp tục nghiên cứu việc tích hợp thông tin ngữ cảnh vào quá trình tư vấn đa mục tiêu, nhằm đáp ứng nhu cầu đa dạng và phong phú của người sử dụng.
Những công trình tại các hội nghị khoa học quốc tế
Nguyen Thuy Ngoc & Nguyen An Te (2013) Context-aware Recommendation Based On Multi-Criteria Communities The IADIS International Conference Applied Computing 2013, Fort Worth, Texas, USA (accepted)
Nguyen Thuy Ngoc and Nguyen An Te (2013) presented a study on the hybridization of matrix factorization techniques combined with merging multi-criteria communities to enhance context-aware recommendations This research was accepted for presentation at the 12th IEEE International Conference on Machine Learning and Applications (ICMLA 2013), held in Miami, Florida, focusing on machine learning applications for predictive modeling.
Nguyen Thuy Ngoc & Nguyen An Te (2013) Towards Context-aware Recommendations: Strategies for Exploiting Multi-criteria Communities The
9 th IEEE International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom 2013), Austin, Texas, USA
IADIS Applied Computing 2013 – Invitation letter
ICMLA 2013 Acceptance Notification for paper 320