(LUẬN ÁN TIẾN SĨ) Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

GIỚI THIỆU CHUNG

Kiến trúc tổng quát của hệ thống lọc thông tin

Hệ thống lọc thông tin tổng quát bao gồm bốn thành phần cơ bản: thành phần phân tích dữ liệu, thành phần mô hình người dùng, thành phần học, và thành phần điều khiển Các thành phần này phối hợp chặt chẽ để tối ưu hóa việc thu thập và xử lý thông tin, nhằm đáp ứng nhu cầu của người dùng một cách hiệu quả nhất.

Component) và thành phần lọc ( Filtering Component)

Hình 1.1 Kiến trúc tổng quát của hệ thống lọc thông tin

Thành phần phân tích dữ liệu (DAC) chịu trách nhiệm thu thập thông tin sản phẩm từ nhiều nguồn khác nhau như tài liệu, thư điện tử, sách, báo, tạp chí, phim và ảnh Dữ liệu này sau khi được phân tích sẽ được biểu diễn theo một khuôn dạng phù hợp, trước khi được chuyển đến bộ phận lọc để xử lý tiếp.

Biểu diễn Thông tin sản phẩm

Thông tin các sản phẩm

Sản phẩm phù hợp với người dùng

Cập nhật thông tin huấn luyện

Thông tin đặc tả người dùng

Thành phần mô hình người dùng

Thành phần phân tích dữ liệu

Người dùng Nhà cung cấp thông tin

Thành phần mô hình người dùng (UMC) có khả năng "hiện" hoặc "ẩn" thông tin như giới tính, tuổi, nơi sinh sống và các truy vấn trước đó của người dùng để xây dựng hồ sơ người dùng Sau khi hồ sơ được tạo, nó sẽ được chuyển đến thành phần học để thực hiện quá trình huấn luyện.

Thành phần học (LC) sử dụng thuật toán máy học để huấn luyện trên dữ liệu hồ sơ và phản hồi của người dùng Thuật toán này thu thập thông tin từ mô tả người dùng và sản phẩm, kết hợp với phản hồi của người dùng để tiến hành huấn luyện Kết quả của quá trình học sẽ được gửi lại cho bộ phận lọc để thực hiện các nhiệm vụ tiếp theo.

Thành phần lọc (FC) là yếu tố quan trọng nhất trong hệ thống, có nhiệm vụ xác định sự phù hợp giữa hồ sơ người dùng và dữ liệu sản phẩm để quyết định phân bổ sản phẩm Khi dữ liệu sản phẩm tương thích với hồ sơ người dùng, sản phẩm sẽ được cung cấp cho họ; ngược lại, hệ thống sẽ loại bỏ sản phẩm không phù hợp khỏi danh sách Người dùng sẽ nhận được các sản phẩm thích hợp, từ đó xem xét, đánh giá và phản hồi, giúp cải thiện quá trình lọc trong tương lai.

Lọc thông tin và truy vấn thông tin

Belkin và Croft cho rằng lọc thông tin và truy vấn thông tin là hai khía cạnh của cùng một vấn đề Do đó, nhiều đặc trưng cơ bản của lọc thông tin cũng xuất hiện trong lĩnh vực truy vấn thông tin (IR) Tuy nhiên, có thể phân biệt sự khác nhau giữa hai hệ thống này bằng cách so sánh một số đặc trưng cơ bản.

Hệ thống truy vấn thông tin phục vụ nhu cầu của tất cả người dùng mà không cần biết họ là ai Ngược lại, lọc thông tin tập trung vào những người dùng thường xuyên, có hồ sơ rõ ràng và mối quan tâm lâu dài đối với hệ thống, đảm bảo họ luôn nhận được thông tin phù hợp tại mọi thời điểm.

Hệ thống truy vấn thông tin thể hiện nhu cầu của người dùng thông qua các câu truy vấn cụ thể Đồng thời, thông tin được lọc để phản ánh nhu cầu lâu dài của người dùng dưới dạng hồ sơ cá nhân Hồ sơ này không chỉ ghi lại các đặc điểm thông tin cá nhân mà còn bao gồm các đặc trưng liên quan đến lịch sử truy cập và thói quen sử dụng thông tin của người dùng.

Hệ thống truy vấn thông tin nhằm cung cấp thông tin phù hợp với nhu cầu của từng người dùng dựa trên truy vấn của họ Lọc thông tin tập trung vào việc loại bỏ dữ liệu không cần thiết thay vì tìm kiếm thêm thông tin mới Do đó, lọc thông tin được coi là phương pháp quan trọng nhất trong việc giảm tải thông tin hiện nay.

Hệ thống truy vấn thông tin cung cấp dữ liệu từ các cơ sở dữ liệu tĩnh, đồng thời lọc và cung cấp thông tin từ các cơ sở dữ liệu động với cấu trúc đa dạng và thường xuyên thay đổi.

Hệ thống truy vấn không chú trọng đến sự tương tác giữa các người dùng, mà tập trung vào việc lọc thông tin dựa trên sự tương đồng về sở thích, thói quen và các đặc trưng xã hội, tự nhiên khác nhau Để đảm bảo hiệu quả, hệ thống luôn duy trì một mô hình người dùng nhằm lưu giữ những đặc điểm cần thiết cho từng cá nhân.

Học máy và lọc thông tin

Học máy là một lĩnh vực trong trí tuệ nhân tạo, chuyên nghiên cứu cách ra quyết định và phát hiện tri thức từ dữ liệu Các kỹ thuật học máy được áp dụng rộng rãi trong việc dự đoán nhu cầu người dùng, phân loại thông tin và xếp hạng người dùng.

Lọc thông tin và học máy (ML) đều nhằm cung cấp thông tin cần thiết cho người dùng, dựa trên kinh nghiệm cộng đồng trong quá khứ Do đó, lọc thông tin được phát triển theo hai phương pháp chính của học máy: lọc dựa trên tri thức và lọc dựa trên dữ liệu.

Lọc dựa trên tri thức (KBC) là phương pháp lọc thông tin thông qua các luật, mỗi luật phản ánh nhu cầu hoặc mẫu thông tin của người dùng Quyết định lọc được thực hiện khi các điều kiện của luật được đáp ứng, ví dụ như trong hệ thống lọc thư điện tử, nơi các luật có thể áp dụng cho các trường như người gửi, ngày gửi, và chủ đề Điểm mạnh của phương pháp này là hệ thống trở nên đơn giản hơn do không cần kỹ thuật học tự động, nhưng nhược điểm là việc xây dựng và cập nhật các luật lọc yêu cầu nhiều thời gian và kinh nghiệm từ chuyên gia Do đó, lọc dựa trên tri thức ít được sử dụng hơn.

Lọc dựa trên dữ liệu (DBC) là phương pháp xây dựng quy tắc lọc từ dữ liệu thu thập được thông qua kỹ thuật thống kê hoặc thuật toán học máy, khác với lọc dựa trên tri thức Phương pháp này cho phép tạo ra và cập nhật quy tắc lọc thông tin mà không cần tri thức chuyên gia, đồng thời cải thiện chất lượng lọc, đặc biệt khi có lượng dữ liệu lớn và biến động thường xuyên.

Với sự phát triển nhanh chóng trong việc thu thập dữ liệu, lọc thông tin dựa trên dữ liệu đã trở thành phương pháp chính trong việc xử lý thông tin Do đó, luận án này sẽ tập trung nghiên cứu các kỹ thuật lọc thông tin cho hệ tư vấn dựa trên cách tiếp cận hiện đại này.

Lọc thông tin và các hệ tƣ vấn

Hệ tư vấn (RS) là một dạng đặc biệt của hệ thống lọc thông tin, giúp người dùng tìm kiếm hàng hóa hoặc thông tin phù hợp Dựa trên dữ liệu người dùng đã có, hệ tư vấn phân tích và chọn lọc từ một lượng lớn sản phẩm, cung cấp cho người dùng một danh sách ngắn gọn nhưng đầy đủ những mặt hàng mà họ có khả năng quan tâm.

Việc áp dụng hệ tư vấn trong thương mại điện tử giúp khách hàng tiết kiệm thời gian tìm kiếm sản phẩm, chỉ cần chọn lựa hàng hóa hoặc dịch vụ yêu thích do hệ thống gợi ý Điều này không chỉ nâng cao khả năng mua sắm mà còn thúc đẩy doanh thu cho toàn bộ hệ thống Chính vì vậy, nhiều công ty đa quốc gia như Amazon, Netflix, CDNOW và J.C Penney đã nhanh chóng triển khai công nghệ này.

Procter & Gamble ) đã đầu tƣ và phát triển thành công công nghệ tƣ vấn để gia tăng hệ thống khách hàng và bán hàng qua mạng [7]

Hệ tư vấn là một trường hợp riêng của hệ thống lọc tin, mang nhiều đặc điểm của hệ lọc tin tiêu biểu Tuy nhiên, do sự khác biệt về dữ liệu, người dùng và nội dung, hệ tư vấn cũng có những khác biệt nhất định về các kỹ thuật được sử dụng Tùy thuộc vào phương pháp lọc tin, các hệ tư vấn có thể được phân loại thành ba loại khác nhau.

Content-based filtering, collaborative filtering, and hybrid filtering are three essential recommendation methods used in personalized advice systems Content-based filtering relies on the characteristics of items to suggest similar options, while collaborative filtering leverages user behavior and preferences to make recommendations Hybrid filtering combines both approaches to enhance the accuracy and relevance of suggestions.

Phương pháp tư vấn dựa vào lọc nội dung giúp hệ thống gợi ý cho người dùng những sản phẩm mới có nội dung tương tự với các sản phẩm mà họ đã mua hoặc truy cập trước đó.

Phương pháp tư vấn dựa vào lọc cộng tác giúp người dùng nhận được những gợi ý sản phẩm dựa trên sở thích của những người có cùng đam mê trong quá khứ.

Phương pháp tư vấn dựa vào lọc kết hợp cung cấp cho người dùng những sản phẩm tương tự mà họ đã từng mua hoặc truy cập trước đó Hệ thống này cũng gợi ý các sản phẩm được ưa chuộng bởi những người có sở thích tương đồng, giúp nâng cao trải nghiệm mua sắm cá nhân hóa.

Có hai phương pháp lọc chính trong các hệ tư vấn: lọc dựa vào bộ nhớ (Memory-Based Filtering) và lọc dựa vào mô hình (Model-Based Filtering).

 Các phương pháp lọc dựa vào bộ nhớ (MBF) [21, 22, 29, 52, 57, 63, 64,

Phương pháp lưu lại toàn bộ ví dụ huấn luyện cho phép hệ thống tìm kiếm và dự đoán dựa trên các trường hợp tương tự Một ví dụ tiêu biểu là thuật toán K người láng giềng gần nhất (KNN), nổi bật với tính đơn giản và dễ cài đặt Tuy nhiên, nhược điểm của phương pháp này là thời gian lọc chậm, do cần so sánh và tìm kiếm trên toàn bộ dữ liệu người dùng và sản phẩm.

 Phương pháp lọc dựa trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,

Phương pháp này sử dụng dữ liệu để xây dựng mô hình rút gọn như mô hình xác suất hoặc cây quyết định Mô hình này sau đó được áp dụng để đưa ra các tư vấn.

Phương pháp này cho phép thực hiện việc dự đoán nhanh, do quá trình dự đoán thực hiện trên mô hình đã học trước đó

Bảng 1.1 thống kê một số nghiên cứu tiêu biểu các phương pháp lọc thông tin cho hệ tƣ vấn [36]

Bảng 1.1.Phân loại các phương pháp tư vấn và một số nghiên cứu điển hình

PHƯƠNG PHÁP TƯ VẤN DỰA VÀO LỌC NỘI DUNG Lọc nội dung dựa vào bộ nhớ Lọc nội dung dựa vào mô hình

Các kỹ thuật thông dụng:

 Tần suất xuất hiện ngƣợc

Những nghiên cứu điển hình:

 Mô hình cây quyết định

 Mô hình mạng nơ ron nhân tạo

 Zhang và các cộng sự [113]

PHƯƠNG PHÁP TƯ VẤN DỰA VÀO LỌC CỘNG TÁC Lọc cộng tác dựa vào bộ nhớ Lọc cộng tác dựa vào mô hình

 K người láng giềng gần nhất (K-

Nearest Neighbour) sử dụng độ tương tự cosin hoặc các độ tương quan

 Độ tương quan gián tiếp (Indirect Similarity)

 Resnick và các cộng sự [83]

 Breese và các cộng sự [52]

 Sarwar và các cộng sự [21]

 Yu và các cộng sự [63, 64]

 Herlocker và các cộng sự [55]

 Wang và các cộng sự [57]

 Mô hình cây quyết định

 Mô hình mạng nơ ron nhân tạo

 Mô hình hồi qui tuyến tính

 Aggarwal và các cộng sự [24]

 Condliff và các cộng sự [71]

 Kumar và các cộng sự [89]

 Shani và các cộng sự [41]

 Goldberg và các cộng sự [62]  Si và Jin [66]

 Huang và các cộng sự [119]

 Su và các cộng sự [105, 106,

PHƯƠNG PHÁP TƯ VẤN DỰA VÀO LỌC KẾT HỢP

Lọc kết hợp dựa vào bộ nhớ Lọc kết hợp dựa vào mô hình

 Tổ hợp tuyến tính kết quả dự đoán của cả hai phương pháp

 Kết hợp các đặc tính của lọc cộng tác vào lọc nội dung

 Kết hợp các đặc tính của lọc nội dung vào lọc cộng tác

 Hợp nhất lọc cộng tác và lọc nội dung trong cùng mô hình

 Basu và các cộng sự [23]

 Claypool và các cộng sự [70]

 Melville và các cộng sự [82]

 Adomavicius và các cộng sự

 Hợp nhất mô hình biểu diễn dữ liệu

 Hợp nhất mô hình dự đoán

 Hợp nhất mô hình biểu diễn dữ liệu và mô hình dự đoán

 Popescul và các cộng sự [12]

 Huang và các cộng sự [120,

 Su và các cộng sự [104]

 Good và các cộng sự [76]

PHƯƠNG PHÁP LỌC THEO NỘI DUNG

Bài toán lọc theo nội dung

Bài toán lọc theo nội dung liên quan đến tập hợp sản phẩm P = {p1, p2, , pN}, trong đó mỗi sản phẩm p thuộc P có nội dung được ký hiệu là Content(p) Nội dung này được thể hiện qua tập K, bao gồm các đặc trưng nội dung của P Tập các đặc trưng sản phẩm p được xây dựng bằng các kỹ thuật truy vấn thông tin nhằm dự đoán những sản phẩm tương tự với p.

Cho U = {u1, u2, , uM} là tập hợp M người dùng Mỗi người dùng u thuộc U có hồ sơ cá nhân gọi là ContentBasedProfile(u), phản ánh lịch sử truy cập hoặc đánh giá của họ đối với các sản phẩm Hồ sơ này được xây dựng thông qua việc phân tích nội dung các sản phẩm mà người dùng u đã truy cập hoặc đánh giá, sử dụng các kỹ thuật truy vấn thông tin.

Bài toán lọc theo nội dung nhằm dự đoán những sản phẩm mới phù hợp với người dùng, dựa trên tập hồ sơ sản phẩm Content(p) và hồ sơ người dùng ContentBasedProfile(u).

Các phương pháp pháp lọc theo nội dung

Lọc nội dung có thể được phân loại thành hai xu hướng chính: lọc dựa trên bộ nhớ và lọc dựa trên mô hình Dưới đây là chi tiết các phương pháp được áp dụng trong từng xu hướng này.

1.2.2.1 Lọc nội dung dựa vào bộ nhớ

Lọc nội dung dựa vào bộ nhớ là một phương pháp sử dụng toàn bộ tập hồ sơ sản phẩm và người dùng để huấn luyện và dự đoán Phương pháp này so sánh các sản phẩm mới với hồ sơ người dùng, từ đó tư vấn những sản phẩm có mức độ tương tự cao nhất Nó còn được gọi là học lười hay học dựa trên ví dụ trong học máy Để thực hiện lọc theo nội dung, cần giải quyết hai vấn đề chính: biểu diễn nội dung sản phẩm dưới dạng vector trọng số và tính độ tương tự giữa hồ sơ người dùng và hồ sơ sản phẩm.

Phương pháp biểu diễn hồ sơ sản phẩm:

Phương pháp ước lượng trọng số các đặc trưng phổ biến thường áp dụng phép đo tần suất kết hợp với tần suất xuất hiện ngược.

Frequency / Inverse Document Frequency) Phương pháp được thực hiện như sau

Gọi f i,j là số lần xuất hiện của đặc trưng nội dung k i trong sản phẩm p j Tần suất TF i,j của đặc trưng k i trong sản phẩm p j được xác định theo công thức (1.1).

Trong bài viết này, chúng ta sử dụng công thức max z f z, j để xác định số lần xuất hiện nhiều nhất của đặc trưng nội dung k z trong sản phẩm p j Tuy nhiên, những đặc trưng nội dung xuất hiện phổ biến trong nhiều sản phẩm không được xem xét khi đánh giá mức độ tương tự giữa các sản phẩm, vì chúng không cung cấp nhiều thông tin giá trị về nội dung sản phẩm Do đó, tần suất xuất hiện ngược IDF i, kết hợp với tần suất TF i,j, giúp chúng ta chú ý hơn đến những đặc trưng nội dung có trong sản phẩm cụ thể nhưng ít xuất hiện ở các sản phẩm khác.

Phương pháp xác định tần suất xuất hiện ngược được thực hiện bằng cách giả định hệ có N sản phẩm cần phân bổ cho người dùng, trong đó đặc trưng nội dung k i xuất hiện trong n i sản phẩm Tần suất xuất hiện ngược (IDF i) của đặc trưng nội dung k i trong sản phẩm p j được xác định thông qua công thức (1.2) Mức độ quan trọng hay trọng số của đặc trưng nội dung k i được tính toán theo công thức (1.3).

Trong công thức 1.2, nếu đặc trưng nội dung k i xuất hiện trong hầu hết các sản phẩm, trọng số w i,j sẽ gần bằng 0, cho thấy những đặc trưng này không cung cấp nhiều thông tin về sản phẩm Ngược lại, nếu đặc trưng nội dung chỉ xuất hiện trong một sản phẩm duy nhất, n i sẽ bằng 1 và w i,j sẽ tương đương với TF i,j Điều này cho thấy những đặc trưng nội dung độc nhất chỉ có ở một loại sản phẩm mang lại nhiều thông tin quan trọng hơn về sản phẩm đó.

Mỗi sản phẩm p j trong tập P được đại diện bằng một véc tơ trọng số các đặc trưng nội dung, được biểu diễn dưới dạng Content(p j) = (w 1,j , w 2,j , ,w K,j) Trong đó, K là tổng số lượng đặc trưng nội dung của tất cả các sản phẩm.

Phương pháp biểu diễn hồ sơ người dùng:

Mỗi hồ sơ người dùng trong hệ thống ContentBasedProfile(u) được thể hiện dưới dạng một vectơ trọng số các đặc trưng nội dung (w 1,u, w 2,u, , w K,u) Mỗi trọng số w k,u phản ánh mức độ quan trọng của đặc trưng nội dung k đối với người dùng u Vectơ trọng số này được xác định thông qua nhiều kỹ thuật khác nhau, dựa trên các vectơ hồ sơ sản phẩm mà người dùng đã thường xuyên truy cập hoặc đánh giá.

Balabanovic [69] tính toán véctơ trọng số mỗi hồ sơ người dùng

Profile dựa trên nội dung (ContentBasedProfile(u)) được xây dựng bằng cách tính trung bình trọng số của các vectơ nội dung (Content(p j)) từ các tài liệu p j thuộc tập P mà người dùng đã truy cập hoặc đánh giá Pazzani [74] đã áp dụng bộ phân loại Bayes để ước lượng mức độ tương đồng giữa các sản phẩm và đề xuất thuật toán Winnow, đặc biệt hữu ích trong các tình huống với nhiều đặc trưng nội dung.

Xác định mức độ tương tự:

Với cách biểu nhƣ trên, véctơ trọng số các đặc trƣng nội dung sản phẩm

ContentBasedProfile(u) và Content(p) có số chiều tương đương và được ước lượng bằng phương pháp TF-IDF Để xác định mức độ phù hợp của mỗi sản phẩm p thuộc tập P với người dùng u thuộc tập U, ta xem xét mức độ tương đồng giữa vector hồ sơ người dùng u và vector hồ sơ sản phẩm p.

Phương pháp phổ biến để ước lượng mức độ tương đồng giữa hồ sơ người dùng u thuộc tập U và hồ sơ sản phẩm p thuộc tập P là tính cosine giữa hai vector trọng số wu và wp.

K là số lượng đặc trưng nội dung của hệ thống Nếu cosin của hai vectơ gần với 1, tức là góc giữa chúng nhỏ, thì mức độ tương tự giữa hồ sơ người dùng và hồ sơ sản phẩm cao Ngược lại, nếu cosin gần với 0, tức là góc lớn, mức độ phù hợp của sản phẩm với hồ sơ người dùng sẽ thấp Khi người dùng truy cập nhiều sản phẩm liên quan đến một chủ đề, hệ thống lọc theo nội dung sẽ ưu tiên phân bổ các sản phẩm thuộc chủ đề đó cho người dùng.

Ngoài cosin, các độ đo tương tự khác như khoảng cách Euclid hay độ tương quan Pearson cũng đƣợc sử dụng trong những nghiên cứu khác nhau

1.2.2.2 Lọc nội dung dựa vào mô hình

Lọc nội dung dựa trên mô hình là phương pháp kết hợp hồ sơ sản phẩm và hồ sơ người dùng để xây dựng mô hình huấn luyện Mô hình này sau đó dự đoán và cung cấp tư vấn cho người dùng Để thực hiện, lọc nội dung áp dụng các kỹ thuật học máy như mạng Bayes, phân cụm, cây quyết định và mạng nơron nhân tạo nhằm tạo ra các dự đoán chính xác.

Pazzani và Billsus [73] sử dụng bộ phân loại Bayes dựa trên những đánh giá

Để phân loại sản phẩm, người dùng sẽ thể hiện sự "thích" hoặc "không thích" Phương pháp ước lượng xác suất sản phẩm p j thuộc lớp C i dựa vào tập các đặc trưng nội dung k 1,j , ,k n,j của sản phẩm đó.

Panzanni và Billsus giả thiết các đặc trƣng nội dung xuất hiện độc lập nhau, vì vậy xác suất ở trên tương ứng với:

Vì P (k x,j | C i ) và P (C i ) có thể ƣớc lƣợng dựa vào tập dữ liệu huấn luyện Do vậy, sản phẩm p j đƣợc xem là thuộc lớp C i nếu xác suất

P | 1 , & 2 , & & , có giá trị cao nhất thuộc lớp này

Những vấn đề tồn tại

Mặc dù lọc theo nội dung đã được áp dụng thành công trong nhiều ứng dụng lọc văn bản, nhưng phương pháp này vẫn gặp phải một số vấn đề cần được nghiên cứu và giải quyết tiếp tục.

Vấn đề trích chọn đặc trưng trong lĩnh vực truy vấn thông tin tập trung vào việc lọc nội dung kế thừa và phát triển Để tạo ra một tập hợp đặc trưng đầy đủ, tài liệu cần được biểu diễn dưới dạng phù hợp cho máy tính, cho phép tự động phân tích và tính toán trọng số các đặc trưng nội dung, hoặc thực hiện bán tự động Tuy nhiên, phương pháp này gặp khó khăn trong việc trích chọn nội dung phức tạp, đặc biệt là với các đối tượng dữ liệu đa phương tiện như hình ảnh, âm thanh và dịch vụ.

Người dùng mới gặp khó khăn trong việc nhận được gợi ý sản phẩm phù hợp từ các hệ thống lọc nội dung, vì họ chưa có đủ dữ liệu để hệ thống có thể phân tích Với hồ sơ người dùng trống rỗng, hệ thống không thể dự đoán hoặc phân bổ sản phẩm một cách hiệu quả.

PHƯƠNG PHÁP LỌC CỘNG TÁC

Bài toán lọc cộng tác

Tập hợp người dùng được ký hiệu là U = {u1, u2,…, uN} với N là số lượng người dùng, trong khi tập hợp sản phẩm được ký hiệu là P = {p1, p2,…, pM} với M là số lượng sản phẩm mà người dùng có thể lựa chọn Mỗi sản phẩm p_i thuộc P có thể bao gồm hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ hoặc bất kỳ loại thông tin nào mà người dùng cần.

Ký hiệu R={ r ij }, với i = 1 N và j = 1 M, đại diện cho ma trận đánh giá, trong đó mỗi người dùng u i thuộc tập U đưa ra đánh giá cho các sản phẩm p j thuộc tập P thông qua giá trị r ij Giá trị r ij thể hiện mức độ ưa thích của người dùng u i đối với sản phẩm p j, có thể được thu thập trực tiếp từ ý kiến của người dùng hoặc gián tiếp qua cơ chế phản hồi Nếu người dùng u i chưa đánh giá hoặc không biết đến sản phẩm p j, giá trị r ij sẽ là ∅.

Đối với người dùng cần tư vấn (gọi là người dùng hiện tại hoặc người dùng tích cực), bài toán lọc cộng tác nhằm dự đoán đánh giá của họ đối với những sản phẩm chưa được đánh giá (r aj = ∅) Dựa trên những dự đoán này, hệ thống sẽ tư vấn cho người dùng những sản phẩm được đánh giá cao.

Bảng 1.2 trình bày một ví dụ về ma trận đánh giá R = (r ij) trong hệ thống gồm 5 người dùng U = {u 1, u 2, u 3, u 4, u 5} và 4 sản phẩm P = {p 1, p 2, p 3, p 4} Mỗi người dùng đã cung cấp các đánh giá cho các sản phẩm theo thang điểm {∅, 1, 2}.

Giá trị r ij = ∅ thể hiện rằng người dùng u i chưa đánh giá hoặc chưa biết đến sản phẩm p j Cần dự đoán giá trị r 5,2 cho sản phẩm mà hệ thống sẽ giới thiệu cho người dùng u 5.

Bảng 1.2 Ví dụ về ma trận đánh giá của lọc cộng tác p1 p2 p3 p4 u1 2 1 3 5 u2 4 2 1  u3 3  2 4 u4 4 4   u5 4 ? 5 5

Hình 1.2 Các thành phần của hệ thống lọc cộng tác

Ma trận đánh giá R = (r ij) là thông tin đầu vào quan trọng cho các phương pháp lọc cộng tác Dựa vào ma trận này, các phương pháp lọc cộng tác thực hiện hai nhiệm vụ chính: dự đoán ý kiến của người dùng hiện tại về các sản phẩm chưa được đánh giá và cung cấp danh sách các sản phẩm được đánh giá cao nhất cho người dùng Hình 1.2 minh họa các thành phần của hệ thống lọc cộng tác.

Các phương pháp lọc cộng tác

Lọc cộng tác được chia thành hai xu hướng chính: lọc cộng tác dựa trên bộ nhớ và lọc cộng tác dựa trên mô hình Mỗi phương pháp này có những ưu điểm và hạn chế riêng, tận dụng các mối liên hệ trong ma trận đánh giá người dùng Cách tiếp cận của từng phương pháp được thực hiện một cách cụ thể.

1.3.2.1 Lọc cộng tác dựa trên bộ nhớ

Các phương pháp lọc dựa trên bộ nhớ sử dụng toàn bộ ma trận đánh giá để dự đoán sản phẩm cho người dùng hiện tại Đây là phương pháp học lười (LL) hoặc học dựa trên ví dụ (IBL) trong học máy Quy trình thực hiện bao gồm hai bước chính: tính toán mức độ tương tự và tạo ra dự đoán.

 Tính toán mức độ tương tự sim(x, y): Mô tả khoảng cách, sự liên quan, hay trọng số giữa hai người dùng x và y (hoặc giữa hai sản phẩm x và y)

Dự đoán là quá trình cung cấp thông tin tư vấn cho người dùng bằng cách xác định tập láng giềng của họ Tập láng giềng này được xác định dựa trên mức độ tương đồng giữa các cặp người dùng hoặc sản phẩm, giúp đưa ra những dự đoán chính xác và phù hợp hơn.

Các phương pháp tính toán mức độ tương tự

Để tính toán mức độ tương tự giữa hai người dùng x và y, ta dựa vào tập sản phẩm mà cả hai người dùng đều đã đánh giá Tương tự, mức độ tương tự giữa hai sản phẩm x và y được xác định thông qua tập người dùng đã đánh giá cả hai sản phẩm Cuối cùng, một độ đo cụ thể sẽ được sử dụng để xác định mức độ tương tự giữa hai người dùng hoặc hai sản phẩm.

Có nhiều phương pháp để tính toán mức độ tương tự sim(x, y) giữa các cặp người dùng Hai phương pháp phổ biến nhất là độ tương quan Pearson và giá trị cosin giữa hai vectơ.

 Độ tương quan Pearson giữa hai người dùng x, y (User-Based Similarity) đƣợc tính toán theo công thức (1.8) Trong đó,

P | , , là tập tất cả các sản phẩm người dùng x và người dùng y cùng đánh giá, r x ,r y là trung bình cộng các đánh giá khác  của người dùng x và người dùng y

 Độ tương quan Pearson giữa hai sản phẩm x, y (Item-Based Similarity) đƣợc tính toán theo công thức (1.9) Trong đó,

U | , , là tập tất cả người dùng cùng đánh giá sản phẩm x và sản phẩm y Giá trị r x , r y là đánh giá trung bình cho sản phẩm x và sản phẩm y

Độ tương tự giữa hai người dùng x và y được xác định bằng cosin của hai véctơ x và y, theo công thức (1.10) Hai người dùng này được coi như hai véctơ trong không gian m chiều, với m là số lượng sản phẩm mà cả hai người cùng đánh giá.

Độ tương tự véctơ giữa hai sản phẩm x và y được xác định bằng cosin của hai véctơ x và y, theo công thức (1.11) Trong đó, hai sản phẩm này được coi như hai véctơ cột n chiều, với n = |U xy| là số lượng người dùng đã cùng đánh giá sản phẩm p.

Cả hai phương pháp lọc theo nội dung và lọc cộng tác đều áp dụng độ đo cosin trên tập sản phẩm, nhưng chúng sử dụng các cách tiếp cận khác nhau Lọc theo nội dung dựa vào độ tương tự cosin giữa các vectơ trọng số được tính bằng phương pháp TF-IDF, trong khi lọc cộng tác sử dụng độ đo cosin giữa các vectơ biểu diễn đánh giá của người dùng.

Một số độ tương tự khác cũng được sử dụng trong lọc cộng tác như:

Constrained Pearson correlation, Root Mean Square, Spearman rank correlation, Kendall’s  correlation Về bản chất, những độ đo tương tự này là biến đổi của độ tương quan Pearson [56]

Các phương pháp dự đoán

Phương pháp dự đoán mức độ phù hợp của sản phẩm p cho người dùng u chưa được đánh giá dựa trên đánh giá của những người dùng khác Tập hợp Uˆ gồm N người dùng tương tự nhất với u sẽ được sử dụng để tính toán Mức độ phù hợp của người dùng u với sản phẩm mới p được xác định thông qua các đánh giá từ tập láng giềng Dưới đây là một số phương pháp phổ biến để dự đoán mức độ phù hợp của sản phẩm p đối với người dùng u.

Trong công thức (1.12), k đƣợc gọi là nhân tố chuẩn hóa, rlà trung bình các đánh giá của người dùng u được xác định theo (1.13)

1.3.2.2 Lọc cộng tác dựa vào mô hình

Khác với phương pháp dựa trên bộ nhớ, phương pháp lọc dựa trên mô hình [3, 11, 18, 34, 41, 59, 65, 68, 71, 77, 81, 88, 93, 94, 95, 103, 106, 117, 118,

Sử dụng tập đánh giá để xây dựng mô hình huấn luyện cho phép tạo ra dự đoán về quan điểm của người dùng đối với các sản phẩm chưa được đánh giá Phương pháp này có ưu điểm là kích thước mô hình huấn luyện nhỏ hơn nhiều so với ma trận đánh giá, đồng thời thực hiện dự đoán nhanh chóng Mô hình chỉ cần được cập nhật khi có những thay đổi lớn và chỉ cần thực hiện lại quá trình xây dựng mô hình.

Mô hình mạng Bayes mô tả mỗi sản phẩm như một đỉnh trong đồ thị, với trạng thái của đỉnh phản ánh giá trị đánh giá của người dùng đối với sản phẩm đó Cấu trúc mạng được xác định từ tập dữ liệu huấn luyện.

Breese [52] đã đề xuất một phương pháp mạng Bayes đơn giản cho lọc cộng tác, trong đó các đánh giá chưa biết được tính toán theo công thức (1.14) Ông giả thiết rằng các giá trị đánh giá được xem như những số nguyên nằm giữa 0 và n Đánh giá chưa biết của người dùng u đối với sản phẩm p, ký hiệu là r u,p, được ước lượng dựa trên các đánh giá trước đó của người dùng u Gọi P u = { p‘∈P | r u,p‘≠∅} Do đó, đánh giá chưa biết của người dùng u đối với sản phẩm p được tính theo công thức (1.14).

Billsus và Pazzani đã chuyển đổi dữ liệu với nhiều mức đánh giá thành dữ liệu nhị phân, tạo ra ma trận đặc trưng nhị phân từ ma trận đánh giá Sự chuyển đổi này giúp việc áp dụng mô hình mạng Bayes trở nên dễ dàng hơn Tuy nhiên, kết quả phân loại dựa trên các đặc trưng nhị phân không phản ánh chính xác các bộ dữ liệu thực tế.

Su và Khoshgoftaar đã mở rộng mô hình mạng Bayes để xử lý các tập dữ liệu thực với nhiều lớp đánh giá khác nhau Kết quả cho thấy mô hình này có khả năng dự đoán tốt hơn so với các phương pháp dựa trên độ tương quan Pearson và các mô hình mạng Bayes đơn giản.

Một cụm là tập hợp các đối tượng dữ liệu có sự tương đồng cao giữa các phần tử trong cùng một cụm và sự khác biệt lớn với các phần tử thuộc các cụm khác Phương pháp phân cụm trong lọc cộng tác được áp dụng để phân chia người dùng hoặc sản phẩm thành các nhóm có sở thích tương tự Điều này cho phép dự đoán và tư vấn các sản phẩm được đánh giá cao trong cụm mà người dùng hoặc sản phẩm đó thuộc về Để ước lượng mức độ tương đồng giữa các đối tượng dữ liệu, các chỉ số như khoảng cách Minkowski và độ tương quan Pearson thường được sử dụng.

Cho hai đối tƣợng dữ liệu X = (x 1 , x 2 , ,x n ), Y = (y 1 , y 2 , ,y n ) Khi đó, khoảng cách Minkowski đƣợc định nghĩa theo công thức (1.15)

Trong đó, n là số chiều của X và Y; x i, y i là giá trị thành phần thứ i của X và Y; q là một số nguyên dương Nếu q =1, thì d(X,Y) là khoảng cách

Minkowski Nếu q =2, thì d(X,Y) là khoảng cách Euclid

Những vấn đề tồn tại

Lọc cộng tác có ưu điểm vượt trội so với lọc theo nội dung vì không yêu cầu biểu diễn sản phẩm thông qua các đặc trưng nội dung, đồng thời mang lại kết quả chính xác hơn trong một số ứng dụng Tuy nhiên, phương pháp này vẫn tồn tại những hạn chế cần được nghiên cứu thêm để cải thiện hiệu quả.

Vấn đề người dùng mới trong lọc cộng tác là một thách thức lớn, bởi vì để gợi ý sản phẩm phù hợp, hệ thống cần ước lượng sở thích của người dùng dựa trên các đánh giá trước đó Tuy nhiên, đối với người dùng mới, khi chưa có bất kỳ đánh giá nào, phương pháp lọc cộng tác không thể cung cấp những gợi ý chính xác Do đó, việc phát triển các giải pháp thay thế để xử lý tình huống này là rất cần thiết.

Vấn đề sản phẩm mới trong hệ thống lọc thông tin thường xảy ra khi các sản phẩm được bổ sung và cập nhật liên tục Khi có sản phẩm mới xuất hiện, mọi đánh giá từ người dùng dành cho sản phẩm này đều là yếu tố quan trọng cần được xem xét.

 Do đó, lọc cộng tác không thể tư vấn sản phẩm cho bất kỳ người dùng nào trong hệ thống

Vấn đề dữ liệu thưa (Sparsity Data Problem) ảnh hưởng lớn đến kết quả dự đoán của lọc cộng tác, khi mà độ chính xác của dự đoán phụ thuộc vào số lượng đánh giá hiện có của người dùng đối với sản phẩm Trong các hệ thống thực tế, số lượng người dùng và sản phẩm thường rất lớn, lên đến hàng triệu, trong khi đó số lượng đánh giá có sẵn lại rất hạn chế so với nhu cầu dự đoán đánh giá cho nhiều sản phẩm khác nhau.

PHƯƠNG PHÁP LỌC KẾT HỢP

Bài toán lọc kết hợp

Ngoài tập người dùng U, tập sản phẩm P và ma trận lọc cộng tác R, ký hiệu C = {c1, c2, , cK} đại diện cho K đặc trưng mô tả thông tin nội dung của các sản phẩm p thuộc P hoặc người dùng u thuộc U Ví dụ, nếu p thuộc P là một bộ phim, nội dung của phim có thể được biểu diễn thông qua các đặc trưng ci.

Trong lĩnh vực điện ảnh, các yếu tố như thể loại, đạo diễn, diễn viên, hãng sản xuất và các đặc trưng nội dung khác của phim đóng vai trò quan trọng Nếu u là một người dùng, chúng ta có thể xem xét các đặc trưng này để hiểu rõ hơn về nội dung phim.

―tuổi‖, ―giới tính‖, ―nghề nghiệp‖ và các đặc trƣng nội dung khác phản ánh thông tin cá nhân người dùng

Bài toán của lọc kết hợp là dự đoán sở thích của người dùng hiện tại đối với những sản phẩm chưa được yêu thích, dựa trên ma trận đánh giá và các đặc trưng nội dung.

Các phương pháp lọc kết hợp

Lọc kết hợp được phát triển dựa trên bốn xu hướng chính: kết hợp tuyến tính, tích hợp đặc tính lọc nội dung vào lọc cộng tác, đưa đặc tính lọc cộng tác vào lọc nội dung, và xây dựng mô hình hợp nhất giữa hai phương pháp lọc này.

Kết hợp tuyến tính là phương pháp xây dựng hai lược đồ lọc nội dung và lọc cộng tác độc lập, cho phép lựa chọn kết quả dự đoán tốt hơn Ưu điểm của phương pháp này là kế thừa được các phương pháp biểu diễn và tính toán vốn có Tuy nhiên, nhược điểm lớn nhất là kết quả không cao do thiếu sự kết hợp hiệu quả giữa nội dung và đánh giá người dùng.

Kết hợp lọc nội dung và lọc cộng tác là một phương pháp sử dụng kỹ thuật lọc cộng tác thuần túy, đồng thời duy trì hồ sơ người dùng (ContentBasedProfile(u)) như một tham biến tham khảo để tính toán sự tương tự giữa các cặp người dùng Phương pháp này có khả năng phát hiện các sản phẩm tương tự hoặc không tương tự với hồ sơ người dùng Đặc biệt, trong trường hợp dữ liệu thưa hoặc người dùng mới, mức độ tương tự giữa hồ sơ người dùng và sản phẩm sẽ được xem xét để đưa ra dự đoán chính xác.

Kết hợp đặc tính của lọc cộng tác và lọc nội dung là một phương pháp quan trọng trong việc xem xét các đánh giá của người dùng như một phần của hồ sơ người dùng Phương pháp này dự đoán dựa trên lọc nội dung thuần túy và so sánh với kết quả từ hồ sơ người dùng được mở rộng Một trong những kỹ thuật phổ biến nhất trong mô hình này là giảm số chiều cho hồ sơ người dùng trước khi kết hợp với các đánh giá của người dùng.

Mô hình hợp nhất (Unifying Models) là phương pháp kết hợp nội dung và đánh giá người dùng trong một mô hình thống nhất Kết quả dự đoán được xây dựng từ dữ liệu hợp nhất này Basu và cộng sự đã đề xuất việc sử dụng lọc cộng tác và lọc nội dung trong một bộ phân loại đơn lẻ Schein đưa ra phương pháp thống kê để kết hợp hai phương pháp dựa trên mô hình phân tích ngữ nghĩa ẩn (LSM) Ansari phát triển mô hình hồi quy dựa trên mạng Bayes, trong đó mỗi hồ sơ người dùng và sản phẩm được thể hiện trong cùng một mô hình thống kê.

Các đánh giá chưa biết r ij của người dùng i cho sản phẩm j được xác định theo công thức (1.16)

Trong mô hình này, i đại diện cho tập người dùng (i=1,2, ,N) và j cho tập sản phẩm (j=1,2, ,M) Biến ngẫu nhiên e_ij kiểm soát nhiễu tương tác giữa người dùng và sản phẩm, trong khi _i và _j lần lượt là các biến ngẫu nhiên điều khiển nhiễu không quan sát được đối với người dùng và sản phẩm Các đặc trưng của người dùng và sản phẩm được biểu diễn qua x_ij, z_i, và w_j Các tham biến chưa biết của mô hình, bao gồm , ^2, , và , được ước lượng từ dữ liệu đánh giá trước đó bằng phương pháp chuỗi Markov ẩn và Monte Carlo.

Mô hình này sử dụng tập thuộc tính người dùng {z i} và thuộc tính sản phẩm {w j} để xây dựng hồ sơ người dùng và hồ sơ sản phẩm, kết hợp với ma trận tương tác {x ij} nhằm ước lượng đánh giá chưa biết của sản phẩm.

Nhiều nghiên cứu đã chỉ ra rằng phương pháp lọc kết hợp mang lại kết quả dự đoán vượt trội hơn so với các phương pháp lọc cộng tác và lọc nội dung thuần túy.

Lọc kết hợp là một giải pháp hiệu quả để giảm thiểu vấn đề dữ liệu thưa và hỗ trợ người dùng mới Tuy nhiên, vẫn còn một số hạn chế trong các phương pháp này cần được nghiên cứu và cải thiện.

Những vấn đề còn tồn tại

 Thiếu sự kết hợp hiệu quả các đặc trưng nội dung vào lọc cộng tác

Không phải tất cả các đặc trưng nội dung sản phẩm đều tác động đến thói quen sử dụng của mọi người dùng Việc xác định những đặc trưng nội dung quan trọng ảnh hưởng đến thói quen sử dụng của từng người dùng cụ thể sẽ nâng cao đáng kể độ chính xác của các mô hình dự đoán.

 Thiếu sự kết hợp hiệu quả các đặc tính của lọc cộng tác vào lọc nội dung

Các phương pháp lọc cộng tác dựa trên đánh giá của người dùng để dự đoán sở thích sản phẩm, trong khi các phương pháp lọc nội dung tập trung vào biểu diễn nội dung sản phẩm và hồ sơ người dùng Tuy nhiên, việc tính toán mức độ tương tự giữa nội dung sản phẩm và đánh giá người dùng vẫn chưa giải quyết triệt để mâu thuẫn giữa hai phương pháp này.

PHÂN LOẠI VỚI CÁC ĐẶC TRƢNG CHUNG

Phương pháp học đa nhiệm

Trong phần này, chúng tôi sẽ tóm tắt phương pháp học đa nhiệm, sau đó sẽ đề xuất việc áp dụng học đa nhiệm dựa trên Boosting cho bài toán lọc cộng tác.

Hầu hết các phương pháp học máy hiện nay trong lọc cộng tác đều thực hiện các nhiệm vụ học đơn lẻ, với kết quả của mỗi nhiệm vụ hoàn toàn độc lập Tuy nhiên, thực tế cho thấy rằng kết quả phân loại cho từng người dùng không hoàn toàn tách biệt, mà có thể được sử dụng làm ví dụ huấn luyện cho các bài toán phân loại khác.

Có thể áp dụng kết quả từ việc học nhận diện quả táo để học nhận diện quả lê, hoặc sử dụng phương pháp học chơi đàn Violin để chuyển sang chơi đàn Organ Trước khi thực hiện bất kỳ nhiệm vụ nào, chúng ta thường nhớ lại và chuyển giao những kiến thức đã có để áp dụng cho các nhiệm vụ khác.

Phương pháp học máy thực hiện đồng thời từ nhiều nhiệm vụ liên quan để nâng cao kết quả dự đoán được gọi là phương pháp học đa nhiệm [3, 48, 81,

Học đa nhiệm cho phép suy diễn đồng thời giữa các nhiệm vụ, từ đó phát hiện tri thức chung để cải thiện kết quả dự đoán cho từng nhiệm vụ riêng lẻ Đặc biệt, trong các bài toán với nhiều nhiệm vụ nhưng ít ví dụ huấn luyện, học đa nhiệm giúp nâng cao độ chính xác dự đoán bằng cách chia sẻ thông tin giữa các nhiệm vụ.

Hình 2.2 minh họa phương pháp học đơn lẻ cho bốn bài toán phân loại, dựa trên ma trận đầu vào từ Bảng 3.3 Mỗi bài toán được coi như một nhiệm vụ dự đoán, được biểu diễn dưới dạng đồ thị Trong đồ thị này, các cạnh nối từ đỉnh người dùng \(u_i\) đến đỉnh sản phẩm \(p_j\) được gán trọng số theo giá trị đặc trưng tương ứng Các cạnh nối từ đỉnh sản phẩm đến các đỉnh nhiệm vụ (Task1, Task2, Task3, Task4) mang trọng số là các nhãn phân loại, trong đó trọng số đánh dấu "?" biểu thị cho các nhãn chưa biết cần được dự đoán.

Trong bài toán phân loại này, các người dùng được huấn luyện độc lập trên cùng một tập dữ liệu đầu vào Kết quả của mỗi bài toán phân loại là các nhãn đầu ra cho những sản phẩm chưa được đánh giá bởi người dùng Quá trình huấn luyện và dự đoán không xem xét mối quan hệ giữa các nhiệm vụ, dẫn đến hiệu suất kém của các phương pháp học đơn lẻ, đặc biệt khi có ít dữ liệu huấn luyện.

Task1: Bài toán phân loại cho người dùng u 1

Hình 2.2 Phương pháp STL cho bốn bài toán phân loại độc lập nhau

Hình 2.3 Phương pháp học MTL cho bốn bài toán phân loại đồng thời

Phương pháp học đa nhiệm cho phép huấn luyện đồng thời nhiều nhiệm vụ, giúp chia sẻ các giá trị đặc trưng và tối ưu hóa kết quả thông qua một lớp ẩn Lớp ẩn này được hình thành từ quá trình xử lý dữ liệu, tạo điều kiện thuận lợi cho việc học tập hiệu quả hơn.

Các nhiệm vụ 1, 2, 3 và 4 có mối quan hệ chặt chẽ với nhau, giúp tăng cường hiệu quả cho từng nhiệm vụ riêng lẻ Điều này cũng là trọng tâm trong nghiên cứu về học đa nhiệm.

Nhiều đề xuất xem xét mối liên hệ giữa các nhiệm vụ trong học đa nhiệm

Một trong những cách tiếp cận phổ biến trong quá trình huấn luyện là xem xét các mối liên hệ như những ràng buộc cứng đã được xác định trước Ngoài ra, có những đề xuất khác cho rằng các nhiệm vụ có thể chia sẻ thông tin thông qua một phần của tham biến Trong phần tiếp theo, chúng tôi sẽ phân tích các bài toán phân loại có sự chia sẻ thông qua một tập hợp các giá trị đặc trưng chung và tìm kiếm chiến lược tối ưu cho phương pháp dự đoán dựa trên các đặc trưng này.

Boosting đồng thời cho nhiều bài toán phân loại

Lọc cộng tác có thể được thực hiện thông qua phương pháp học đa nhiệm với kỹ thuật Boosting, trong đó mỗi bài toán phân loại được xem như một nhiệm vụ riêng biệt Thay vì xử lý từng bài toán phân loại cho từng người dùng, ta thực hiện đồng thời cho tập con các bài toán này Phương pháp này giúp giảm sai số không chỉ cho một bài toán mà cho toàn bộ tập con, cho phép thuật toán Boosting tìm ra đặc trưng chung cho tất cả các bài toán trong tập con Đặc trưng chung này đóng vai trò quan trọng trong việc chia sẻ và bổ sung thông tin giữa các bài toán phân loại, từ đó nâng cao độ chính xác của kết quả dự đoán.

2.3.2.1 Xây dựng hàm mục tiêu

Trong bài toán phân loại với N người dùng và M sản phẩm, mỗi bài toán thứ n được xây dựng từ M ví dụ huấn luyện, trong đó y n j là đánh giá của người dùng n cho sản phẩm j, và x n j là đánh giá của các người dùng khác cho sản phẩm j Chỉ những ví dụ có r nj khác không mới được sử dụng để huấn luyện, trong khi các ví dụ có r nj bằng không sẽ được gán trọng số bằng 0, đảm bảo không ảnh hưởng đến kết quả huấn luyện.

Mỗi ví dụ huấn luyện thứ j có n trọng số w n j, với n = 1,…,N Trọng số w n j được sử dụng khi ví dụ j được áp dụng cho bộ phân loại thứ n; nếu r nj = 0, thì w n j = 0, tức là ví dụ j không tham gia vào huấn luyện bộ phân loại n Sai số phân loại được tính bằng tổng sai số của tất cả N bộ phân loại.

Mục tiêu của các phương pháp Boosting là lựa chọn các bộ phân loại yếu trong mỗi vòng lặp sao cho (2.14) đạt giá trị nhỏ nhất

2.3.2.2 Xây dựng bộ phân loại yếu

Tại mỗi vòng lặp k, S(t) là tập con các bài toán cần giải quyết Thay vì tìm đặc trưng f tốt nhất cho từng bài toán riêng lẻ, thuật toán xác định đặc trưng chung cho toàn bộ bài toán trong S(t) Mục tiêu là chọn gốc quyết định tương ứng sao cho sai số (2.14) đạt giá trị nhỏ nhất Gốc cây quyết định sẽ có dạng như sau:

Trong đó, các tham số a, b, c được xác định nhằm tối thiểu hóa hàm lỗi phân loại (2.14) Giá trị gốc cây quyết định phụ thuộc vào tập con S(t) được chọn, dẫn đến việc f k trở thành một hàm của t Ký hiệu f k n (x, t) biểu thị hàm phân loại yếu tại bước k cho bài toán n, và hàm này áp dụng cho tập con S(t) của các bài toán phân loại Do hàm lỗi (2.14) cũng phụ thuộc vào tập con S(t), nên nó cần được diễn đạt lại dưới dạng hàm của tham số t.

Điểm khác biệt chính giữa quyết định gốc và quyết định mới là việc phân biệt giữa trường hợp n thuộc tập con S(t) và không thuộc tập con S(t) Khi n không thuộc S(t), hàm f k n (x, t) được xác định là hằng số c n để ngăn chặn việc lựa chọn bộ phân loại một cách ngẫu nhiên, do sự chênh lệch số lượng giữa các ví dụ huấn luyện 1 và -1 Ví dụ, nếu có quá nhiều ví dụ 1, bộ phân loại có thể chỉ dự đoán nhãn là 1 mà không cần xem xét các đặc trưng khác.

Với mỗi tập con S(t), giải bài toán cực tiểu hoá sai số (2.15) ta nhâ ̣n được:

Tại mỗi bước lặp, thuật toán lựa chọn tập con S(t) tối ưu với giá trị hàm lỗi nhỏ nhất, đồng thời xác định gốc quyết định tốt nhất cho tập con đó Ký hiệu F n (x) đại diện cho bộ phân mạnh trong bài toán phân loại thứ n, và thuật toán được minh họa trong Hình 2.4.

Thuật toán MC-Boost cần làm rõ cách xác định tập con S(t), vì số lượng tập con từ N bài toán là O(2^N) Thay vì liệt kê tất cả các tập con, chúng ta có thể áp dụng phương pháp tìm kiếm tham lam để giảm số tập con cần duyệt từ O(2^N) xuống O(KN^2), như được nêu trong Mệnh đề 2.3.

 Tập ví dụ huấn luyện của N bài toán phân loại, bài toán thứ n, n=

1,…, N được cho bởi M ví dụ huấn luyện (x n 1 , y n 1 ), , (x n M , y n M )

 K là số vòng lặp (K200) Đầu ra:

 Trả về bộ phân loại sign[ F n (x)]

1 Khởi tạo w n j = 1 nếu r nj  và w n j = 0 nếu r nj = , j = 1, ,M; n = 1, , N

2 Lặp với k = 1, …, K a Lặp với tập con các bài toán S(t) i Tính tham số a S , b S , và c n theo (2.17), (2.18), (2.19) ii Tính sai số     M   i i n k n i n i

) ( b Chọn tập S(t) tốt nhất t * argminJ(t) t

 c Cập nhật F n ( x )  F n ( x )  f k n ( x i , t * ) d Cập nhật trọng số w i n  w i n e  y i n f k ( x i , t * ) , i=1, 2, , M

3 Trả về bộ phân loại sign [ F n (x)]

Hình 2.4 Thuật toán MC-Boost cải tiến sử dụng đặc trưng chung cho nhiều bài toán

Mệnh đề 2.2 Thuật toán MC-Boost cực tiểu hóa hàm lỗi phân loại thông qua các bước của phép khai triển Niutơn

Chứng minh Các phân tích lý thuyết đối với thuật toán GentleBoost ở Mục

2.2.2 vẫn đúng đối với thuật toán MC-Boost Thực vậy, thay hàm lỗi (2.14) theo tiêu chuẩn hàm ta nhận đƣợc (2.20)

Xấp xỉ J  F   x f k n (x )  n  dưới dạng khai triển Taylor bậc 2 ta có

Thay kỳ vọng bằng giá trị trung bình trên M ví dụ huấn luyện và đặt

) ( i n n i F x y n i e w   , khi đó (2.21) đƣợc viết lại thành (2.22)

Triển khai các bước cập nhật của phương pháp Niutơn tương tự trong

Mục 2.2.2, thay trọng số w i n e  y i n F n ( x i ) và xác định f k n (x )từ (2.21) bằng cách cho đạo hàm bằng 0 ta nhận đƣợc (2.23) là điều cần thực hiện

Tại mỗi bước lặp, thuật toán có thể không tìm được hàm f k n () với sai số nhỏ nhất do việc xác định tập con S(t) một cách tham lam Điều này dẫn đến tốc độ hội tụ chậm hơn so với trường hợp tìm được f k n () tối ưu Tuy nhiên, thuật toán vẫn cho phép giảm dần lỗi phân loại ở mỗi bước lặp và đạt kết quả tốt trong các thử nghiệm.

2.2.2.3 Độ phức tạp thuật toán Mệnh đề 2.3 Số lượng các tập con S(t) cần duyệt của thuật toán MC- Boost là O(KN 2 ) Trong đó, K là số vòng lặp, N là số lượng người dùng

Chứng minh Phương pháp tìm kiếm tham lam trong thuật toán MC-

Boost đƣợc tiến hành nhƣ sau:

Đầu tiên, cần xác định tập con t với bài toán có sai số nhỏ nhất (2.16) Số lượng các tập con cần so sánh trong N tập con để tìm ra tập con có sai số (2.16) nhỏ nhất là N.

Trong bước tiếp theo, từ (N-1) bài toán còn lại, chúng ta sẽ thêm một bài toán mới vào tập con t trước đó với mục tiêu giảm thiểu sai số (2.16) xuống mức thấp nhất Để xác định bài toán có sai số (2.16) nhỏ nhất, chúng ta cần so sánh (N-1) tập con bài toán.

Trong bài toán phân loại, giả sử chúng ta đã xác định được i bài toán có sai số nhỏ nhất trong số (N-i) bài toán còn lại Để tìm ra bài toán có sai số nhỏ nhất, chúng ta cần so sánh (N-i) bài toán, dẫn đến tổng số tập con cần được xem xét là (N-i).

 Quá trình đƣợc tiếp tục cho đến khi chỉ còn một bài toán phân loại với số lƣợng các tập con cần so sánh là 1

Nhƣ vậy tổng toàn bộ các tập con cần duyệt của thuật toán là:

( N + (N-1) + + (N-i) + +1)= ( N * (N-1) )/2 =O(N 2 ) Thuật toán bao gồm K vòng lặp, mỗi vòng lặp duyệt O(N 2 ) tập con S(t)

Do vậy, số lƣợng các tập con S(t) cần duyệt của thuật toán là O(KN 2 )

Hình 2.5 dưới đây, mô tả phương pháp duyệt tập con các bài toán phân loại theo MC-Boost

Hình 2.5 Phương pháp duyệt tập con các bài toán phân loại

THỬ NGHIỆM VÀ KẾT QUẢ

Phương pháp thử nghiệm

Toàn bộ khách hàng được chia thành hai phần: phần U tr dùng làm dữ liệu huấn luyện và phần U te dùng để kiểm tra Dữ liệu huấn luyện giúp xây dựng mô hình theo thuật toán đã mô tả Đối với mỗi khách hàng trong tập dữ liệu kiểm tra U te, các đánh giá có sẵn được phân chia thành hai phần O u (đã biết) và P u (đánh giá cần dự đoán từ dữ liệu huấn luyện và O u).

Sai số dự đoán MAE cho mỗi khách hàng u trong tập dữ liệu kiểm tra được tính bằng trung bình cộng của sai số tuyệt đối giữa giá trị dự đoán và giá trị thực cho tất cả sản phẩm trong tập P u.

Sai số dự đoán trên toàn tập dữ liệu kiểm tra đƣợc tính bằng trung bình cộng sai số dự đoán cho mỗi khách hàng thuộc U te te

Giá trị MAE càng nhỏ, phương pháp cho lại kết quả càng chính xác.

Dữ liệu thử nghiệm

Thuật toán lọc cộng tác đã được kiểm nghiệm trên hai bộ dữ liệu nổi bật là EachMovie và MovieLens EachMovie có thể truy cập tại www.reserch.compaq.com/SRC/eachmovie/, trong khi MovieLens có sẵn tại www.grouplens.org/node/12 Cả hai bộ dữ liệu này đều được cộng đồng nghiên cứu sử dụng rộng rãi trong các nghiên cứu về lọc cộng tác.

Mặc dù lọc cộng tác đã được nghiên cứu và ứng dụng thương mại, số bộ dữ liệu chuẩn để đánh giá thuật toán này vẫn hạn chế hơn so với học máy nói chung Nguyên nhân chính là việc thu thập sở thích khách hàng tốn nhiều thời gian, cần phương pháp lấy ý kiến hợp lý và phải tuân thủ quy định về thông tin cá nhân Do đó, hầu hết các nghiên cứu về lọc cộng tác chủ yếu dựa vào hai bộ dữ liệu là EachMovie và MovieLens để thực hiện đánh giá thuật toán Trong luận án này, hai bộ dữ liệu này cũng sẽ được sử dụng cho các thử nghiệm.

EachMovie đƣợc xây dựng bởi trung tâm nghiên cứu hệ thống thông tin của hãng Compaq Bộ dữ liệu này gồm 72916 người dùng, 1628 bộ phim với

Trong nghiên cứu này, có tổng cộng 2,811,983 đánh giá với các mức từ 0.0 đến 1.0, tương ứng với 6 mức đánh giá (0.0, 0.2, 0.4, 0.6, 0.8, 1.0) Trung bình, 97.6% số lượng phim chưa được người dùng đánh giá Hai mức đánh giá cao nhất là 0.8 và 1.0 được chuyển đổi thành "thích" (+1), trong khi bốn mức còn lại được coi là "không thích" (-1) Phương pháp chuyển đổi này dựa trên các phân tích thực nghiệm của Billsus và Pazzani.

Vào tháng 10 năm 2004, Compaq đã sát nhập với HP và ngừng cung cấp bộ dữ liệu EachMovie phục vụ nghiên cứu Bộ dữ liệu này được chúng tôi thu thập trước thời điểm đó.

MovieLens là cơ sở dữ liệu đƣợc xây dựng bởi nhóm nghiên cứu GroupLens của trường đại học Minnesota MovieLens có 6040 người dùng,

Trong tổng số 3900 bộ phim, đã có 1.000.209 đánh giá với các mức đánh giá từ 1 đến 5 Trung bình, 95,7% số lượng phim chưa được người dùng đánh giá Dựa trên phân tích thực nghiệm của Billsus và Pazzani, hai mức đánh giá cao nhất (4 và 5) được coi là "thích", trong khi các mức còn lại được xem là "không thích".

So sánh và đánh giá dựa vào giá trị MAE

Phương pháp Boosting với đặc trưng chung (ký hiệu là MC-Boost) trình bày trong Mục 2.3.2 được so sánh với những phương pháp sau:

Phương pháp K hàng xóm gần nhất sử dụng độ tương quan Pearson (KPC) là một trong những phương pháp lọc cộng tác phổ biến nhất KPC thường được áp dụng trong các bài toán so sánh để nâng cao độ chính xác của kết quả.

Phương pháp Boosting không sử dụng đặc trưng chung (GentleBoost) như đã trình bày ở Mục 2.2.2, giúp làm nổi bật sự khác biệt so với Boosting thông thường Việc so sánh này cho phép làm rõ ảnh hưởng của Boosting đa nhiệm đến hiệu quả lọc cộng tác.

Để tiến hành thử nghiệm và so sánh, chúng tôi đã thực hiện việc lấy ngẫu nhiên 100, 200 và 300 người dùng từ bộ dữ liệu MovieLens làm dữ liệu huấn luyện, trong khi 200 người dùng còn lại được chọn để làm tập kiểm tra Đối với bộ dữ liệu EachMovies, chúng tôi đã chọn ngẫu nhiên 1000, 2000 và 6000 người dùng làm dữ liệu huấn luyện, với 4000 người dùng còn lại được sử dụng cho kiểm tra Quá trình tạo tập huấn luyện và tập người dùng này được thực hiện 10 lần, và độ chính xác được tính trung bình trên 10 lần thử nghiệm.

Kết quả thử nghiệm

Để đánh giá hiệu quả của phương pháp mới trong việc giảm thiểu ảnh hưởng của dữ liệu thưa, chúng tôi đã điều chỉnh số lượng đánh giá của mỗi người dùng trong tập kiểm tra, với các mức đánh giá đã biết là 5, 10 và 20 Các đánh giá còn lại sẽ được dự đoán Giá trị MAE cho từng bộ dữ liệu được trình bày trong Bảng 2.5 và Bảng 2.6, và kết quả này được tính trung bình từ 10 lần thử nghiệm ngẫu nhiên với dữ liệu của tập kiểm tra.

Bảng 2.5 Kết quả thử nghiệm với MovieLens

Kích thước tập huấn luyện

Phương pháp Số đánh giá cho trước của tập kiểm tra

Bảng 2.6 Kết quả thử nghiệm với EachMovie

Kích thước tập huấn luyện Phương pháp Số đánh giá cho trước của tập kiểm tra

Kết quả sai số phân loại MAE trên cả hai bộ dữ liệu cho thấy rằng, dù số lượng dữ liệu biết trước có ít hay nhiều (N=5, 10, 20), phương pháp GentleBoost và MC-Boost đều đạt được giá trị MAE nhỏ hơn phương pháp KPC Điều này chứng tỏ rằng việc sử dụng gốc quyết định trong trích chọn đặc trưng của thuật toán GentleBoost giúp cải thiện hiệu quả phân loại so với KPC.

Khi có đủ dữ liệu, cụ thể là khi biết trước nhiều đánh giá của người dùng trong tập kiểm tra (N), phương pháp GentleBoost cho kết quả tốt hơn so với MC-Boost Điều này có thể giải thích là do GentleBoost chọn được đặc trưng tối ưu cho từng bài toán phân loại, trong khi MC-Boost chỉ chọn được đặc trưng tối ưu cho cả nhóm bài toán phân loại.

Khi dữ liệu hạn chế, đặc biệt là chỉ với 5 hoặc 10 đánh giá từ người dùng, MC-Boost cho thấy sai số MAE thấp hơn so với các phương pháp khác.

GentleBoost thường được sử dụng vì nó cho phép kết hợp thông tin từ những người dùng tương tự với người dùng kiểm tra, dựa trên các đặc trưng chung Điều này giúp giảm thiểu ảnh hưởng của việc thiếu nhãn phân loại, mang lại hiệu quả cao hơn trong việc phân tích dữ liệu.

Phân tích kết quả

Để đánh giá sự ưu việt của mô hình, chúng tôi đã tính toán giá trị trung bình MAE từ 10 lần kiểm nghiệm ngẫu nhiên trên tập dữ liệu kiểm tra và thực hiện một bài kiểm tra t-paired Các tham số thống kê được so sánh giữa KPC, GentleBoost và MC-Boost.

 Tham số DF (Degree of Freedom) là số bậc tự do của paired t-test

 Tham số Mean là trung bình độ lệch giữa KPC và phương pháp so sánh

 Tham số SD (Standard Deviation) là độ lệch chuẩn giữa KPC và phương pháp so sánh

 Tham số SE (Standard Error) là lỗi chuẩn đƣợc tính theo độ lệch chuẩn của KPC và phương pháp so sánh

Giá trị t và p trong kiểm nghiệm t-test được tính dựa trên bậc tự do, trung bình độ lệch và lỗi chuẩn giữa các phương pháp Kết quả cho thấy giá trị p

Tiêu đề	Phát triển một số phương pháp lọc thông tin cho hệ tư vấn
Tác giả	Nguyễn Duy Phương
Người hướng dẫn	PGS TS Từ Minh Phương, PGS TS Đinh Mạnh Tường
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2011
Thành phố	Hà Nội

Định dạng
Số trang	136
Dung lượng	2,11 MB