MỤC LỤC
Các phương pháp lọc cộng tác dựa trên việc thu thập và phân tích một lượng lớn thông tin về những hoạt động, hành vi hoặc sở thích của người dùng và dự đoán những gì người dùng sẽ thích dựa trên sự tương đồng của họ với người dùng khác. Một lợi thế quan trọng của phương pháp lọc cộng tác là nó không dựa vào nội dung phân tích máy và do đó nó có khả năng đề xuất chính xác các mục phức tạp như phim mà không yêu cầu “hiểu biết” về mục đó. Xấp xỉ trên và xấp xỉ dưới là hai khái niệm chính trong lý thuyết tập thô cổ điển, và một quan hệ tương đương (ví dụ như một phân vùng) là phép toán cơ bản nhất của xấp xỉ trên và xấp xỉ dưới.
“Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng. Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo. Bài toán sử dụng mô hình dựa trên một ý tưởng đơn giản là tập nhãn cần gán cho một đối tượng dữ liệu chưa có nhãn chính là tập nhãn được tính toán theo mô hình đối với một ví dụ gần nhất với đối tượng với.
Thuật toán rút gọn trên được thực hiện: Thuật toán bắt đầu với lời gọi Reduct_Finding(CL,CL), trong trường hợp này, thuật toán thực hiện lần lượt đối với tất các các dàn con của dàn điều kiện CL. Với mỗi lần gọi (CCL, PCCL) sau đó, thuật toán trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CLL là dàn điều kiện rút gọn được thì bổ sung nó vào GCRL, loại bỏ dàn cha nếu có trong GCRL, tiếp tục tìm kiếm đối với mọi con SCCL của CCL. Thuật toán tìm thích nghi của dàn phủ quyết định của bảng quyết định dàn phủ Thuật toán Fitting_Finding dưới đây thực hiện việc rút gọn dàn quyết định trong bảng quyết định dựa trên dàn phủ.
Trong hệ thống tư vấn dựa trên lọc cộng tác, việc xác định một tập con thuộc tính quyết định (các mục) đù phù hợp để cung cấp cho người dùng hiện thời là một phương án ứng dụng của thuật toán. Với mỗi lần gọi (CDL) sau đó, thuật toán trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CDL đáp ứng điều kiện cần tìm (ρCDL ≥ ) thì bổ sung CDL vào GCFL, trong trường hợp ngược lại, cần tiếp tục tìm kiếm đối với mọi con SCDL của CDL. Từ định nghĩa của rút gọn tập thô, chúng ta có thể thấy rằng các dàn con trong dàn quyết định ban đầu có là dàn điều kiện thích hợp với dàn quyết định mà người dùng có thể quan tâm.
Nhiệm vụ rút gọn dàn điều kiện sẽ thực hiện gọi thuật toán Recuct_finding() và thực hiện gọi tất cả các dàn con của nếu độ phụ thuộc của dàn con với phù hợp thì sẽ được thêm vào dàn điều kiện. Nhiệm vụ học là xây dựng một mô hình phân lớp đa nhãn = , trong đó là tập nhãn tương ứng với Thuật toán học dựa trên ý tưởng về sử dụng tương quan nhãn trong phân lớp đa nhãn song tính toán trực tiếp tập nhãn tiềm năng cho một ví dụ học. Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tương quan với nhau cao trong ngữ cảnh của.
Thuật toán sử dụng mô hình phân lớp đa nhãn dựa trên một giả định là trên không gian đối tượng dữ liệu sẵn có một độ đo tương tự , (hoặc độ đo khoảng cách ()) với mọi cặp đối tượng. Ý tưởng về bài toán là việc rút gọn dàn điều kiện và dàn quyết định trong lọc cộng tác giúp hệ thống tư vấn có thể giảm số chiều trong ma trận đánh giá người dùng nhằm mục đích có thể đem ra được chính xác hơn các gợi ý cho người dùng đích. Bước 1: Xây dựng bảng quyết định dàn phủ từ tập dữ liệu đầu vào, trong đó, dàn điều kiện (dàn quyết định ) là tương ứng với tập () mà mỗi phim tương ứng với tập người dùng đã đánh giá.
Bước 2: Rút gọn dàn điều kiện (tìm tập con để giảm số mục trong bài toán con tìm tập láng giềng cho người dùng hiện thời ) và thích nghi dàn quyết định (tìm tập con để giảm số mục trong bài toán con xác định tập các bộ phim dự đoán người dùng hiện thời sẽ quan tâm).
● Tập dữ liệu kiểm thử: Bao gồm 20% các đánh giá của người dùng có số đánh giá lớn hơn 25 trong tập dữ liệu đầu vào sử dụng làm tập kiểm thử để đánh giá sau khi chạy xong mô hình. ● Tập mục: Tập các mục được đánh giá có trong tập dữ liệu đầu vào sắp xếp theo thứ tự tăng dần của mã mục. ● Phân tích dữ liệu lấy ra những người dùng có trên 25 đánh giá, tập người dùng, tập mục phục vụ các bước sau của mô hình.
Tập dữ liệu bao gồm nhiều dòng, mỗi dòng chứa các thông tin mã người dùng có kiểu dữ liệu là integer, mã mục có kiểu dữ liệu là integer, đánh giá của người dùng về mục có kiểu dữ liệu là float theo thứ tự từ trái sang phải và phân cách nhau bởi dấu tab (“\t”). Những người dùng có số lượng đánh giá thấp hơn ngưỡng này sẽ được thêm vào tập người dùng đem vào mô hình. ● Từ bảng quyết định dàn phủ tiến hành lấy ngẫu nhiên 20 mục trong dàn điều kiện và dàn quyết định để rút gọn phủ.
● Sử dụng bảng quyết định dàn phủ ta chạy 2 thuật toán Reduct_Finding và Fitting_Finding thực hiện chạy trên dàn điều kiện và dàn quyết định tiến hành rút gọn phủ. ● Dự đoán rating của các mục của người dùng đích chưa đánh giá trong dàn quyết định rút gọn dựa trên đánh giá của người dùng tương tự. Việc xác định là số người dùng tương tự với người dùng đích là quan trọng bởi vì nó ảnh hưởng trực tiếp đến hiệu suất của hệ tư vấn.
Dựa vào tập dữ liệu huấn luyện là đầu ra của bước thứ 2, ta sử dụng một trong các độ đo Cô-sin để xây dựng và tính toán ma trận tương tự. Dựa trên ma trận tương tự vừa tìm được ta có được những người dùng có độ tương tự cao nhất với mỗi người dùng đích gọi là láng giềng gần nhất. Dựa vào thông tin đánh giá của k láng giềng gần nhất ta sẽ tính độ quan tâm của người dùng hiện thời với các mục còn thiếu của người dùng đích.
Từ tập dự đoán đánh giá đã tính toán được ở bước trước, chọn ra mục có kết quả dự đoán cao nhất và gợi ý cho người dùng mới.
● () là mức đánh giá trung bình của người dùng (người dùng đối với các phim đã được đánh giá. Đầu tiên, tập dữ liệu Hotel được chia thành tập dữ liệu học và tập dữ liệu kiểm thử. Tiếp đó, sử dụng phương pháp mô hình chủ đề ẩn trên để xây dựng không gian biểu diễn các đánh giá khách sạn tiếng Việt theo chủ đề ẩn.
Pha xây dựng mô hình được bắt đầu bằng bước xây dựng bảng quyết định dàn phủ với là tập các đánh giá trong , là dàn điều kiện tương ứng với tập mục (chủ đề ẩn) và là dàn quyết định tương ứng với tập 5 nhãn. Pha kiểm thử được bắt đầu bằng biểu diễn các dữ liệu kiểm thử theo mô hình chủ đề ẩn. Cuối cùng tính toán các độ đo hiệu năng mô hình phân lớp đa nhãn dựa trên kết quả phân lớp đa nhãn tập dữ liệu kiểm thử.
Trong chương 3, khóa luận đã trình bày chi tiết về các bước thực hiện cho mô hình lọc cộng tác và phân lớp đa nhãn áp dụng bảng quyết định dàn phủ. Chương tiếp theo, khóa luận sẽ tiến hành thực nghiệm dựa theo mô đã xây dựng được ở chương 3, từ đó đánh giá và nhận xét kết quả đạt được.