Trong mục này, chúng ta mơ tả chi tiết phương pháp lọc cộng tác dựa trên mơ hình phân bố cĩ điều kiện được đề cập trong mục 2.2.2. Khác với cách tiếp cận trên, mơ hình phân bố xác suất cĩ điều kiện được xây dựng dựa trên cơ sở cây quyết định xác suất. Mục đích của cách tiếp cận này là tính tốn xác suất một Item được chọn trong điều kiện tồn bộ các Item cịn lại thay vì chỉ trong điều kiện một nhĩm các Item theo cơng thức Bayes. Sử dụng Cây quyết định xác suất để tính tốn xác suất cho từng Item riêng lẻ. Ý tưởng này hiệu quả hơn trong việc trực tiếp dự đốn xác suất của mỗi Item thay vì làm mơ hình mật độ chung và sau đĩ sử dụng mơ hình đĩ để tính tốn xác suất cho từng Item riêng lẻ phụ thuộc vào các Item khác như thế nào.
2.2.3.1 Cây quyết định xác suất [1][11]
với nút con của nĩ thể hiện một giá trị cụ thể của biến đĩ. Mỗi nút lá đại diện cho giá trị dự đốn của biến mục tiêu, giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá. Trong khai phá dữ liệu, cây quyết định mơ tả một cấu trúc cây, trong đĩ các lá đại diện cho các phân loại và các cành đại diện cho kết hợp của các thuộc tính dẫn tới phân loại đĩ. Cây quyết định cĩ thể xây dựng bằng cách chia tập hợp nguồn thành các tập con căn cứ theo các thuộc tính. Quá trình này được lặp lại theo phương pháp đệ qui cho mỗi tập con. Quá trình đệ qui hồn thành khi khơng thể thực hiện việc chia nhỏ các tập con được nữa. Cây cũng được sử dụng để tính tốn một phân phối xác suất cĩ điều kiện với kích thước.
2.2.3.2 Cây quyết định xác suất với phương pháp lọc cộng tác
Để xây dưng mơ hình phân phối xác suất chung của m Item
1
( ,...., )m
P v v [5][8], chúng ta cĩ thể xây dựng m những mơ hình mật độ cĩ điều kiện khác nhau, mỗi mơ hình là phân phối xác suất của một Item riêng lẻ
( | \ )j j
P v S v với 1<= j <= m, S là tập hợp đầy đủ m biến ngẫu nhiên, mỗi biến tương ứng với một Item (mỗi biến trong S cĩ hai trạng thái 1, 0 tương ứng với liệu một Item cĩ được mua hay khơng).
1 2 1 1
( | \ )j j ( | , ,...,j j , j ,..., )m
P v S v =P v v v v − v + v (21)
( j 1| \ )j
P v = S v đánh giá xác suất Item đĩ được mua. Hệ thống khuyến cáo sản phẩm đưa ra danh sách các Item cho User (các Item mà User chưa bỏ phiếu). Danh sách này được sắp xếp theo xác suất của từng Item riêng lẻ. Theo cách tiếp cận này, cây quyết định xác suất được sử dụng để xây dựng m mơ hình điều kiện. Cây quyết định xác suất được xây dựng từ cơ sở dữ liệu theo phương pháp tham lam, bằng việc chọn một nút làm gốc và đệ quy theo cây nhị phân bên dưới nút này.
Mỗi nút trong cây tương ứng với việc thêm vào một biến nhị phân dự đốn vk, với một nhánh tương ứng với một giá trị đặc biệt của vk, và nhánh kia tương ứng với tất cả giá trị khác của vk. Xác suất của tập dữ liệu con được tính theo cơng thức:
với D là dữ liệu. P(D|T) là xác suất dữ liệu dưới mơ hình cây hiện tại T (xác suất tập dữ liệu con được chọn trong tập dữ liệu cha). P(T) được định nghĩa là phân phối xác suất của cấu trúc cây trước khi phân nhánh. Nếu khơng cĩ biến đổi chia nhỏ các tập hợp để thêm vào các nút cho cây thì sự phát triển của cây dừng lại. Xác suất cĩ điều kiện của vj được đánh giá tại những lá cây. Xác suất đĩ được tính theo cơng thức (21) xuất phát từ gốc đến mỗi lá. Tất cả các biến vj dùng để dự đốn xác suất cho một Item chỉ gồm cặp giá trị (0,1) do đĩ cấu trúc cây tương đối đơn giản. Các biến đĩ cung cấp dữ liệu trong xây dựng mơ hình mật độ cĩ điều kiện.
Hệ thống khuyến cáo sản phẩm sử dụng cách tiếp cận cây xác suất trên tập dữ liệu để thực hiện những khuyến cáo. m cây xác suất khác nhau được xây dựng (như mơ tả ở trên) để dự đốn xác suất của m Item khác nhau trong cơ sở dữ liệu. Xác suất của mỗi Item này phụ thuộc vào những Item khác, xác suất đĩ xây dựng từ ma trận lá phiếu V. Khi thực hiện khuyến cáo, với mỗi Item cĩ thể sử dụng tất cả m - 1 lá phiếu trên các Item cịn lại như thơng tin đầu vào để dự đốn lá phiếu quan tâm. Hệ thống thực hiện dự đốn cho mỗi Item (sản phẩm khơng được mua hay bình chọn), và tập kết quả xác suất đã xếp hạng là khuyến cáo cho User.
Đánh giá phương pháp
Các mơ hình trên được xây dựng trên tập dữ liệu cũ và tiếp tục đánh giá trên dữ liệu thực tế. Trong việc kiểm tra hiệu quả của các mơ hình, tập lá phiếu của mỗi User (những Item đã mua hay bình chọn giá trị sử dụng) ngẫu nhiên được phân chia vào trong hai tập:
- Input set: tập lá phiếu giả thiết được biết và sử dụng như đầu vào của mỗi mơ hình.
- Measurement set: tập lá phiếu giả thiết khơng được biết và dùng để kiểm tra khả năng của mơ hình dự báo.
User a cĩ một tập hợp lá phiếu cho các Item, một tập con các Item được sử dụng trong việc làm mơ hình và sử dụng mơ hình đĩ để dự đốn cho các Item khác (điều này tương ứng tới việc biết càng nhiều càng tốt về các User).
Bảng 2.2 trình bày tổng kết thí nghiệm trên ba tập dữ liệu. Mơ hìng sử dụng cây quyết định xác suất làm tăng tốc đáng kể trong dự đốn (Chẳng hạn 23.5 với 3.9 trên tập dữ liệu Web), nĩ là đặc tính quan trọng ứng dụng trong dự đốn yêu cầu thời gian thực tại các Websites thương mại. Các số liệu trong bảng cung cấp so sánh rõ ràng giữa hiệu quả của hai phương pháp. Phương pháp sử dụng cây xác suất cĩ lợi thế: chúng yêu cầu ít thời gian và bộ nhớ để tính tốn so với phương pháp Bayes. Cả hai phương pháp đều hiệu quả khi xây dựng hệ thống, các mơ hình cĩ thể xây dựng nhanh với dữ liệu kích thước lớn, chẳng hạn: khoảng 100s cho tập dữ liệu đầu tiên dựa vào 1000 Item và 10000 User.
Bảng 2.2 Bảng tập dữ liệu và những kết quả thí nghiệm khi dự đốn sản phẩm. BN là mơ hình mạng Bayes và PT là mơ hình cây xác suất.
Web data 1 Web data 2 TV data User in training data 10000 32711 1637 User in test data 5000 32711 1673 Number of Items 1001 294 203 Mean positive votes per row 2.7 3.0 8.6 Predictions per second (BN) 7.1 3.9 23.5 Predictions per second (PT) 11.8 23.5 37.4 Training time [s] (BN) 105.8 144.6 7.7 Training time [s] (PT) 98.9 98.3 6.5 Training memory [MB] (BN) 43.0 42.4 3.3 Training memory [MB] (PT) 3.7 5.3 2.1
Trong các ứng dụng trên các trang Web thương mại điện tử hiên nay, số lượng User và Item thường lớn hơn rất nhiều so với tập dữ liệu được mơ tả ở trên. Tuy nhiên, thí nghiệm này cung cấp những hướng dẫn hữu ích trong việc lựa chọn và sử dụng kỹ thuật mơ hình cho hệ thống khuyến cáo sản phẩm.