Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
523,66 KB
Nội dung
KDD Cup 2007 Task Winner Report Abstract KDD Cup 2007 tập trung vào việc dự đoán khía cạnh hành vi đánh giá phim Chúng trình bày phương pháp dự báo cho Nhiệm vụ “Ai đánh giá năm 2006” mà mục đích để dự đoán người dùng đánh giá phim năm 2006 Chúng sử dụng kết hợp phương pháp sau, liệt kê theo thứ tự tính hiệu chúng dự báo: • Số xếp hạng dự đoán cho phim dựa phân tích chuỗi thời gian, sử dụng phim ngày phát hành DVD phát hàng loạt phim cách edit khoảng cách tựa đề • Số xếp hạng dự đoán người dùng cách sử dụng thực tế xếp hạng lấy mẫu tỷ lệ với margin • Các xấp xỉ bậc thấp ma trận 0-1 cặp user-movie rating biết • Dự đoán cách sử dụng ma trận giống movie-movie • Luật kết hợp thu cách khai phá chuỗi phổ biến xếp hạng người dùng tập mục có thứ tự Bằng cách kết hợp dự đoán hồi quy tuyến tính, thu dự đoán với rmse 0,256 Kết the first runner up 0,263 a pure all zeroes prediction already gives 0,279, cho thấy khó khăn nhiệm vụ INTRODUCTION Chúng trình bày phương pháp chiến thắng vị trí cho Nhiệm vụ “Ai đánh giá năm 2006” Nhiệm vụ để dự đoán xác suất mà người sử dụng đánh giá phim vào năm 2006 (với ngày tháng rating thực tế không liên quan) danh sách 100.000 cặp usermovie liệu giải Netflix [2] User movie rút từ tập liệu Prize, tức phim phát hành (hoặc nhận xếp hạng) trước năm 2006 người dùng xếp hạng họ trước năm 2006 Ngoài ra, không số cặp chọn cho nhiệm vụ KDD Cup đánh giá tập huấn luyện Chúng cung cấp mô tả chi tiết phương pháp lấy mẫu mục 2.1 cung cấp thông tin mà sử dụng để dự báo Phương pháp tóm tắt sau: Sự kết hợp ước lượng riêng cho số lượng xếp hạng phim người sử dụng cách giả thuyết độc lập user-movie Chúng dự đoán xếp hạng phim sử dụng phân tích chuỗi thời gian phù hợp với phim ngày phát hành DVD từ IMDB sở liệu videoeta.com (mục 2.2) Mặt khác, số rating người dùng xây dựng lại từ lề mẫu (sample margins) (mục 2.1) Việc thực SVD (mục 3.1) tương tự item-item (mục 3.2) dựa recommender khai phá luật kết hợp (mục 3.3) Kết hợp phương pháp cách sử dụng công cụ học máy Weka [11] (Phần 4) Chúng sử dụng the root mean squared error: thước đo đánh giá nhất, wij ma trận 0-1 với giá trị người dùng i đánh giá cho phim j, giá trị dự đoán khoảng đến đưa hệ thống recommender Việc sử dụng rmse ngụ ý thực dự đoán xác suất tồn rating: biến ngẫu nhiên có giá trị với xác suất p, lại 0, rmse dự đoán giá trị nhỏ p Nếu đoán cách xác số xếp hạng 7.804 số 100.000 mẫu, kết phương pháp rmse 0,268 đạt vị trí 5-6th Cup, cho thấy khó khăn dự đoán cách xác giá trị Tuy nhiên lưu ý rmse 0,279 the trivial all zeroes prediction đạt vị trí 10-13th xa rmse người chiến thắng Các thí nghiệm tiến hành nhóm xử lý 3GHz P-D 64-bit với 4GB RAM hệ thống đa xử lý Opteron 1.8GHz với 20GB nhớ RAM Với thay đổi định tùy thuộc vào thiết lập thông số, khoảng thời gian chạy 15 phút cho SVD, vài cho tương tự item-item dựa recommender, vài ngày cho mẫu phổ biến cuối vài phút cho hồi quy tuyến tính Khai phá mẫu phổ biến tốn thời gian Phiên hành báo có thử nghiệm kỹ lưỡng với mẫu phổ biến mà không đủ khả để cạnh tranh KDD Cup hạn chế thời gian CPU Phần lại báo tổ chức sau Trong phần 2, dự đoán marginals sử dụng giả thuyết độc lập user-movie Sau đó, phần mô tả ba phương pháp khai phá liệu chúng tôi: phân tích giá trị đơn, recommender dựa tương tự item-item khai phá luật kết hợp Các dự đoán kết hợp hồi quy tuyến tính; kết mô tả phần BASE PREDICTION ASSUMPTION BY USER-MOVIE INDEPENDENCE Trong phần giả sử có độc lập người sử dụng phim dự đoán “Ai đánh giá gì?” Vì tìm kiếm xác suất tồn đánh giá, bắt đầu với xác suất cận biên (marginals) sử dụng tích chúng Chúng mô tả cách tiếp cận user movie hai phần riêng biệt Các dự báo đưa tích marginals tỉ lệ để tính tổng tới R, tổng số xếp hạng dự đoán thực tế cho task movie Cho dự đoán Nu u ratings người dùng Nm phim m, sử dụng: dự đoán đơn cho cặp user-movie u, m Khác với giá trị Nu Nm mô tả hai phần tiếp theo, dự đoán phụ thuộc vào việc chọn R Chúng sử dụng khoảng 10.000.000 thu cách tạo cặp mẫu user-movie thủ tục Task 1, ngoại trừ việc sử dụng marginals khoảng thời gian tháng 11 năm 2004 tháng 10 năm 2005 loại bỏ cặp với rating trước tháng Mười năm 2004 Chúng thu mẫu 100.000 cặp sử dụng phim, có 6.800 thực đánh giá khoảng thời gian năm Bằng việc sử dụng marginals biết, quan sát R = 10, 000, 000 cho giá trị pum mà tổng lên đến 6.800 2.1 How Many Ratings by User Để dự đoán số rating người dùng, dựa thực tế mẫu sử dụng cho task “Who rated what?” thực tỉ lệ với số xếp hạng người dùng Chúng ta bắt đầu với mô tả chi tiết phương pháp lấy mẫu 100.000 cặp user-movie hình thành cách rút phim từ 6822 phim lựa chọn cho Task người sử dụng từ tập liệu Prize, tức từ người đưa rating họ trước năm 2006 Các cặp tương ứng với ratings liệu Netflix Prize tồn loại bỏ; bỏ qua kiện dự đoán Khó khăn việc có số đánh giá người dùng Nu xác suất nhỏ có user mà ngụ ý xác suất cao đánh giá thấp người dùng Đặc biệt giả sử số ratings thực tế Khác cho hầu hết tất người dùng không xuất mẫu điều chỉnh tăng cần thiết Chúng sửa số lần người dùng chèn vào mẫu độ lệch chuẩn ước tính để có Nu sau Giá trị kỳ vọng số lần người dùng u chèn vào mẫu nu = 100, 000 · Nu / R Vì Nu/R nhỏ, độ lệch chuẩn khoảng (𝑁𝑢 /𝑅) độ lệch chuẩn nu (𝑁𝑢 /𝑅) * 100000 = 𝑛𝑢 Ngoại trừ cho người sử dụng với số lần xuất lớn mẫu, tất người dùng xảy nhiều 20 lần Chúng xét người dùng thường xuyên giá trị ngoại lai dựa giá trị lớn 20, giả sử độ lệch chuẩn Do cộng thêm với số lần xuất người dùng mẫu (kể người không xuất lần cả) đạt ước lượng cách chuẩn hóa để tính tổng tổng số ratings ước lượng R; sử dụng R = 10, 000, 000 Chúng cung cấp minh chứng lựa chọn cho điều chỉnh xuất quan sát mẫu trở lên Lưu ý kể từ xác suất người sử dụng u không chứa mẫu xấp xỉ exp (-100, 000 · Nu / R), xác suất 2% cho người sử dụng với số lượng xuất dự kiến 2.2 How Many Ratings by Movie Nhiệm vụ dự đoán xếp hạng số người sử dụng tương tự Task “How Many Ratings in 2006” KDD Cup 2007, tập movies khác Nhiệm vụ để ước lượng số xếp hạng tăng thêm người sử dụng đanhs giá cho phim từ liệu giải Netflix Tập Các phim xuất (hoặc nhận xếp hạng) trước năm 2006 chia ngẫu nhiên thành hai tập, kết 6822 phim cho task 8863 cho Task Không giống đội thắng cho task 2, họ sử dụng movíe task để huấn luyện [9], không sử dụng thực tế cặp user-movie nhiệm vụ lấy mẫu tỷ lệ với lợi nhuận mô tả phần trước Chúng dự đoán xếp hạng cho phim cách phân tích chuỗi thời gian xếp hạng sử dụng phát hành phim IMDB ngày phát hành videoeta.com DVD cho phim có khả hàng loạt phiên tiếp nối tựa phim sở liệu khác nhau, hàng loạt tựa đề phát cách tính toán khoảng cách Damerau-Levenshtein [8] tiêu đề cách cho more weight cho tiền tố tiêu đề less weight cho từ hoàn chỉnh thiếu loại bỏ từ Dừng thực trước; danh sách từ dừng mở rộng bao gồm cụm từ “the best of”, “the adventures of”,… dự đoán tổng ước tính sở từ xếp hạng trước bổ sung xếp hạng dự đoán kiện phát hành có liên quan Chúng ta quan sát gia tăng số lượng xếp hạng sau ngày phát hành phim DVD có liên quan, kiện giả định xảy ra, số ratings ước lượng cao cho phù hợp Sự gia tăng trường hợp tỷ lệ thuận với dự đoán ban đầu (baseline) The baseline tổng số xếp hạng phim giai đoạn tháng 11 2004 tháng Mười năm 2005 Tổng nhân với hệ số phân rã, nhân tố khác cho kiện phát hành DVD, nhân tố thứ ba cho chuỗi kiện phát hành loạt phim Các nhân tố huấn lyện năm 2005 thời điểm xác nhận Phim xuất nửa cuối năm 2005 điều chỉnh lên Hình 1: Sự phân bố xấp xỉ 10 chiều ma trận user-movie, tương ứng với không xếp hạng DATA MINING METHODS 3.1 SVD based recommendation Để huấn luyện, sử dụng ma trận đầy đủ 0-1 tất xếp hạng biết; bậc k xấp xỉ ma trận yield dự đoán Singular Value Decomposition (SVD) ma trận W bậc ρ cho W = UTΣV với U la ma trận kích thước m × ρ, Σ ma trận có kích thước ρ × ρ V ma trận có kích thươc n × ρ mà U V trực giao Theo định lý Eckart-Young [4] bậc k xấp xỉ tốt W chuẩn Frobenius là: Trong Uk ma trận m × k Vk ma trận n × k có chứa k cột U V đường chéo Σk chứa k đầu vào Σ Trong chuẩn Frobenius đơn giản rmse dự đoán cho tồn xếp hạng cặp user-movie lựa chọn thống cách ngẫu nhiên, điều không phương pháp lấy mẫu sử dụng để tạo cặp task mô tả chi tiết mục 2.1 Nếu xác suất mà cặp hình thành người dùng i phim j chọn mẫu pij, sau phải giảm thiểu tương tự với giảm thiểu SVD 𝑝𝑖𝑗 · wij, chia theo điểm 𝑝𝑖𝑗 Trong thực chúng tôi, sử dụng Lanczos code svdpack [3] mà tạo chúng nhanh xác thí nghiệm gần [7; 6] Kể từ quan sát thấy phù hợp cho số lượng lớn chiều [6], sử dụng xấp xỉ 10 chiều ma trận tỉ lệ phương trình (1) giá trị pij giá trị thu phương pháp Mục Sự khác biệt phân bố giá trị dự đoán cho xếp hạng thực tế, tương ứng với không xếp hạng thể hình 3.2 Item-item similarity based recommendation recommender dựa item-item tính cosin tương tự điều chỉnh [10] dựa không tồn xếp hạng wij phần lại báo, mà giá trị Rij khoảng 5: Trong 𝑟u trung bình xếp hạng người dùng u tổng tất người dùng u, người mà đánh giá j j ' Vì số lượng người dùng njj' nhỏ, thay giá trị sim với khoảng tin cậy thấp 95% tương tự cosin điều chỉnh đạt biến đổi r-to-z Fisher [5] (sử dụng độ lệch chuẩn) Một phim j chưa xếp hạng gợi ý cho người dùng i dựa trung bình trọng số phim j ' tới j gần K đánh giá người dùng Trọng số xác định khoảng tin cậy thấp sim Chúng chọn giá trị K = cách quan sát khác biệt dự đoán cho cặp usermovie có xếp hạng hình Trong lựa chọn này, cần phải lưu ý giá trị lớn có đưa vào nhiễu, nhiên bắt đầu với R xếp hạng biết, có thể đưa dự báo cho R · K cặp user-movie mà thưa thớt ma trận xếp hạng K nhỏ Hình 2: Sự phân bố tương tự item-item dựa dự đoán cặp usermovie có xếp hạng cho top danh sách tương tự kích thước K = 3.3 Association Rules in Sequences Chúng sử dụng luật kết hợp Task thông qua chuỗi tần suất tập phim xếp hạng người dùng theo thứ tự thời gian đánh giá Để tính toán độ hỗ trợ supp (m1, , Ms), phải chịu hạn chế lớn ràng buộc thời gian CPU mà có quy định phải nối 20.000 số 100.000 cặp user-movie Cho độ hỗ trợ tất chuỗi thường xuyên (frequent), tính toán tất luật kết hợp áp dụng cho 6822 movie Task Các luật kết hợp có dạng là: m1, ,ms → m hai tần suất supp (m1, , ms) supp (m1, , ms, m) ngưỡng độ hỗ trợ nhỏ Độ tin cậy quy luật Vì có số lượng nhỏ người dùng có liên quan, đơn giản nối tất luật kết hợp với cặp user-movie task 1; phương pháp tiếp cận dựa Trie (trie-based approach) tăng tốc điều lên quy mô đánh giá lớn yêu cầu Cuối lấy maximum độ tin cậy tất luật phù hợp với cặp user-movie dự đoán Chúng mô tả tập hạn chế ban đầu mà sử dụng phạm vi thực APriori [1] để khai phá chuỗi phổ biến Chúng loại bỏ tất phim nhận 50.000 xếp hạng tất người dùng đưa 3.000 xếp hạng tập liệu Prize Chúng thêm điều kiện chuỗi phổ biến, số xếp hạng phim phải không khác hệ số 4; tính chất đơn điệu, we could implement it as a lter in the two-element candidate generation step of the APRIORI algorithm Ngoài đặt điều kiện sau đó, nghĩa có ứng cử viên dạng (m1, , ms, ms + 1) với Chúng đếm tần số chuỗi hạn chế để phù hợp cửa sổ thời gian 30 ngày; cho phép tất hoán vị phim nhận đánh giá họ từ người sử dụng ngày Chúng thiết lập độ hỗ trợ tối thiểu 50 Bằng cách điều tra thủ công, we found that the most restrictive rule was the 30 day time window restriction that resulted in the low number of matches with the Task pairs CONCLUSION Chúng kết hợp bốn dự đoán độc lập bản, phương pháp SVD, tương quan item-item luật kết hợp dựa theo phương pháp hồi quy tuyến tính công cụ học máy Weka [11] Chúng thu phương trình dự đoán cuối mà đạt rmse 0,256, 0,007 so với the first runner up 0.023 so với hạng nhì… Trong phiên sơ bộ, sử dụng phương pháp thay thế, dường phức tạp để kết hợp dự đoán gần tồi tệ hơn, đạt vị trí thi sử dụng thêm để kết hợp dự báo Tiếp theo phác họa phương pháp Như thấy hình hình 2, giá trị dự đoán cho x, đếm (trong tập huấn luyện liệu năm 2005) phần xếp hạng thực tế với giá trị dự đoán x Bằng cách sử dụng binning bước 0.1, đưa giá trị dự đoán cho phạm vi định tỷ lệ phần (fraction) Đối với dãy liệu thưa thớt, sử dụng hiệu chỉnh tay Vì số bins thưa thớt (Cũng tất bins) nhỏ chúng ảnh hưởng đến số lượng nhỏ cặp user-movie, không cần thiết phải tìm phương pháp tốt Các dự đoán cuối cho cặp user-movie tăng thêm maximum tất dự đoán bin mà cặp thuộc Các học học cách giải nhiệm vụ có lẽ thực tế kỹ thuật khai thác liệu khác lại xây dựng mô hình giống liệu mà làm cho ngày khó khăn để nâng cao chất lượng dự báo vượt điểm định nhiên Chúng nhấn mạnh dự báo dựa luật kết hợp điều chỉnh công việc tốn thời gian (và CPU) phương pháp kết thử nghiệm đầy đủ Chúng chứng minh khó khăn nhiệm vụ cách hiển thị cách thực ước lượng không đáng kể, cần làm tốt so với kết đánh bại hầu hết đội tham gia Cũng trường hợp Nhiệm vụ [9], thông tin bị rò rỉ phương pháp lấy mẫu sử dụng để tạo cặp test user-movie sử dụng Trong không cần xây dựng lại marginals có khả đến vòng ba While without reconstructing marginals it would likely have been impossible to come within rst three