Mô tả dữ liệu Dataset Netflix

0 5 10 15 20 25 0 1 2 3 4 5 6 y= 1.94x +13.34

Khối 1, dữ liệu theo như [9] và Netflix [11 ] cung cấp, dữ liệu được thu thập từ giữa tháng 10 năm 1998 đến tháng 12 năm 2005 gồm những đánh giá của người dùng đối với những bộ phim theo định dạng hình 3.4.

Hình 3-4: Định dạng của đánh giá những người dùng đối với những bộ phim

Trong hình 3.4 mô tả dữ liệu dataset của nhiều người dùng. Mỗi người dùng chứa một mảng hai chiều là mã những bộ phim và giá trị được người dùng đánh giá. Ví dụ xét người dùng trong hình ô số 1. Các giá trị 252, 411, 788,... chiều thứ nhất là mã của các bộ phim. Chiều số hai là 1, 4, 1,... là kết quả đánh giá của người đó với tương ứng mã các bộ phim ở mảng một. Ở ô số 2 và các ô còn lại cũng tương tự.

Khi huấn luyện, Netflix cung cấp các tập: dữ liệu huấn luyện (Training set) bao gồm 100,480,507 đánh giá từ 480,189 người dùng và 17,770 bộ phim, dữ liệu kiểm tra (validation) bao gồm 1,408,395 đánh giá, và dữ liệu kiểm định (testing set, gồm các mẫu hoàn toàn mới) gồm 2,817,131 cặp người dùng / bộ phim đánh giá. Bảng 3.3 sẽ mô tóm lược lại các thông số dữ liệu.

Bảng 3-3: Thông số dữ liệu mà Netflix cung cấp

Người dùng (User) Bộ phim (Movie) Đánh giá (Rating value) Huấn luyện (Training Set) Kiểm tra (Validation Set) Kiểm định (Testing Set) 480,189 17,770 [1,4] 100,480,507 1,408,395 2,817,131

Hình 3.4 cũng mô tả định dạng dữ liệu của cả ba tập : dữ liệu huấn luyện, dữ liệu kiểm tra, dữ liệu kiểm định. Tức là dữ liệu gồm n người dùng theo thứ tự từ trên xuống, mỗi người dùng sẽ có một cặp id (mã) bộ phim và đánh giá (rating) tương ứng của bộ phim đó.

Tập huấn luyện thường là tập lớn nhất, được sử dụng để huấn luyện cho mạng RBMs. Tập kiểm tra thường nhỏ hơn rất nhiều tập dữ liệu huấn luyện, được sử dụng để kiểm tra mức độ tổng quát hóa của mạng sau khi huấn luyện. Tập kiểm định bao gồm các dữ liệu hoàn toàn độc lập /khác với tập huấn luyện và kiểm tra. Kích thước của tập kiểm định cần được cân bằng giữa việc cần có đủ số mẫu để có thể kiểm định mạng đã được huấn luyện và việc cần có đủ các mẫu còn lại cho cả pha huấn luyện và kiểm tra. Tập kiểm định nên bao gồm các giá trị liên tục mới nhất.

Có hai cách thực hiện xác định tập kiểm tra. Một là lấy ngẫu nhiên các mẫu từ tập huấn luyện ban đầu. Lợi điểm của cách này là có thể tránh được nguy hiểm khi mà đoạn dữ liệu được chọn có thể chỉ điển hình cho một tính chất của dữ liệu (đang tăng hoặc đang giảm). Hai là chỉ lấy các dữ liệu ở phần sau của tập huấn luyện, trong trường hợp các dữ liệu gần với hiện tại là quan trọng hơn các dữ liệu quá khứ.

Tập dữ liệu kiểm tra ngẫu nhiên không nên lặp lại trong tập huấn luyện, bởi vì điều này có thể làm mất khả năng tổng quát hóa của mạng neuron, đặc biệc trong

trường hợp kích thước của tập kiểm tra tương đối lớn so với tập huấn luyện. Phương pháp tất định, như sử dụng mỗi dữ liệu thứ n làm dữ liệu kiểm tra, cũng không nên được sử dụng bởi vì nó chịu ảnh hưởng bởi tính chu kỳ của dữ liệu.

Một phương pháp chặt chẽ mà Netflix sử dụng để chia dữ liệu là walk-forward. Phương pháp walk-forward chia tập dữ liệu thành một chuỗi các tập dữ liệu nhỏ hơn huấn luyện- kiểm tra- kiểm định gối chồng lên nhau hình 3.5 [11].

Hình 3-5: Thủ tục sử dụng phương pháp walk-forward chia tập dữ liệu trong Netflix

Netflix cũng cung cấp số điểm RMSE của hệ thống riêng của mình được huấn luyện trên cùng tập dữ liệu, đó là 0.9514.

Huấn luyên cho máy Bolzmann

Kết quả thực nghiệm và đánh giá