Nhóm nghiên cứu thuộc Trường Đại học Công nghệ đã đề xuất mô hình bảng quyết định dàn phủ, xác định hai bài toán ứng dụng điển hình là rút gọn bảng quyết định dàn phủ và áp dụng bảng quy
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Văn Tuấn
ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌC
CỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Văn Tuấn
ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌC
CỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: Ths Vương Thị Hồng
HÀ NỘI – 2021
Trang 3Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời biết ơn chân thành đến thầy giáo PGS TS Hà Quang Thụy và ThS Vương Thị Hồng đã tận tình hướng dẫn, chỉ bảo em trong suốt quá trình
em thực hiện khóa luận
Em cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm công nghệ tri thức và khoa học dữ liệu (DS&KTLab) đã giúp đỡ em rất nhiều
để hoàn thành tốt khóa luận
Cuối cùng, em muốn gửi lời cảm ơn tới gia đình, bạn bè và tập thể lớp K62CC đãluôn bên cạnh, động viên, giúp đỡ trong quá trình học tập và thực hiện đề tài khóa luận
Xin chân thành cảm ơn!
Hà Nội, ngày tháng năm 2021
Sinh viên
Phan Văn Tuấn
Trang 4TÓM TẮT
Tóm tắt: Lý thuyết tập thô phủ là một mở rộng quan trọng của lý thuyết tập thô của
Pawlak, trong đó, nhiều nghiên cứu áp dụng tập thô phủ giải quyết các bài toán thực tiễn đã được tiến hành Từ năm 2017 tới nay, một số mô hình áp dụng giải pháp rút gọn tập thô phủ vào lọc cộng tác đã được Z Zhang và cộng sự đề xuất Việc áp dụng lý thuyết tập thô phủ vàolọc cộng tác trong hệ tư vấn vẫn cần được tiếp tục nghiên cứu, hơn nữa, bảng quyết định tập thô phủ hiện được đề cập ở mức độ sơ bộ Nhóm nghiên cứu thuộc Trường Đại học Công nghệ đã đề xuất mô hình bảng quyết định dàn phủ, xác định hai bài toán ứng dụng điển hình
là rút gọn bảng quyết định dàn phủ và áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn Các nghiên cứu này hiện vẫn ở dạng thuật toán mà cần phải được triển khai thực nghiệm
Khóa luận này tham gia vào các nghiên cứu về bảng quyết định dàn phủ với đóng góp chính là triển khai thực nghiệm các mô hình, thuật toán hiện có, thông qua đó, phát hiện các nội dung cần được bổ sung cho các mô hình và thuật toán hiện đó Khóa luận đã triển khai cácphần mềm thi hành thuật toán rút gọn dàn phủ vào bài toán lọc cộng tác người dùng trong hệ
tư vấn và thuật toán phân lớp đa nhãn khai phá quan điểm Kết quả thực nghiệm của cả hai bàitoán chỉ ra tính hợp lý của hai thuật toán trong bảng quyết định dàn phủ
Từ khóa: Lọc cộng tác dựa trên người dùng, lý thuyết tập thô, phân lớp đa nhãn, bảng quyết định dàn phủ
Trang 5Lời cam đoan
Tôi xin cam đoan các kỹ thuật sử dụng để giải quyết vấn đề khởi đầu nguội trong tư vấn
xã hội được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS.TS
Hà Quang Thụy và ThS Vương Thị Hồng
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách
rõ ràng từ danh sách mục tài liệu tham khảo trong khóa luận Trong khóa luận này không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Sinh viên
Phan Văn Tuấn
Trang 6Mục lục
Lời cảm ơn i
TÓM TẮT ii
Lời cam đoan iii
Danh sách các thuật ngữ và từ viết tắt vi
Danh sách bảng vii
Danh sách hình vẽ viii
Mở đầu 1
Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân lớp đa nhãn 3
1.1 Giới thiệu về hệ thống tư vấn 3
1.2 Lọc cộng tác trong hệ thống tư vấn 4
1.3 Bảng quyết định dàn phủ 6
1.3.1 Lý thuyết tập thô phủ 6
1.3.2 Định nghĩa bảng quyết định dàn phủ 6
1.4 Các độ đo tương tự 7
1.4.1 Độ tương tự Cô-sin 7
1.4.2 Độ tương tự Euclidean 7
1.5 Phân lớp đa nhãn 8
1.6 Phát biểu bài toán khóa luận 8
Tóm tắt chương 1: 10
Chương 2 Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn .11 2.1 Rút gọn bảng quyết định dàn phủ 11
2.1.1 Rút gọn tập thô phủ 11
2.1.2 Định nghĩa rút gọn tập thô dàn phủ 11
2.1.3 Hai thuật toán 13
2.2 Áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác 15
2.2.1 Rút gọn điều kiện lọc cộng tác người dùng 15
2.2.2 Rút gọn thích nghi danh sách mục tư vấn 16
2.3 Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn 16
Trang 72.3.1 Mô hình bảng quyết định cho phân lớp đa nhãn 16
2.3.2 Thuật toán phân lớp đa nhãn 17
2.3.3 Độ phức tạp thuật toán 18
2.4 Ý tưởng về mô hình giải quyết bài toán khóa luận 19
2.4.1 Bài toán lọc cộng tác trong hệ tư vấn 19
2.4.2 Bài toán phân lớp đa nhãn 19
Tóm tắt chương 2: 20
Chương 3 Mô hình giải quyết bài toán 21
3.1 Mô hình áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác 21
3.1.1 Các bước trong mô hình 21
3.1.2 Chi tiết các bước trong mô hình 22
3.2 Mô hình áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn 25
Tóm tắt chương 3: 25
Chương 4 Thực nghiệm và đánh giá kết quả 27
4.1 Mô tả thực nghiệm 27
4.1.1 Môi trường cài đặt thực nghiệm 27
4.1.2 Project thực hiện quá trình thực nghiệm 28
4.2 Thực nghiệm mô hình lọc cộng tác 29
4.2.1 Dữ liệu thực nghiệm 29
4.2.2 Kết quả thực nghiệm và nhận xét 31
4.3 Thực nghiệm mô hình phân lớp đa nhãn 35
4.3.1 Dữ liệu thực nghiệm 35
4.3.2 Kết quả thực nghiệm và nhận xét 36
Tóm tắt chương 4: 42
Kết luận và hướng nghiên cứu tiếp theo 43
Trang 8Danh sách các thuật ngữ và từ viết tắt
Tiếng Anh Từ viết tắt Tiếng Việt/Cụm từ đầy đủItem Mục/mặt hàng/sản phẩm
Recommender System RS Hệ tư vấn/ Hệ gợi ý
rating_score Điểm đánh giá
timestamp Thời gian đánh giá
learning step Bước học mô hình
training dataset Dữ liệu huấn luyện
CL Dàn điều kiện
DL Dàn quyết định
Trang 10Danh sách hình vẽ
Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2]
Hình 1.2: Mô tả về hệ tư vấn dựa trên lọc cộng tác
Hình 3.1: Các bước chính trong mô hình lọc cộng tác
Hình 3.2 Mô hình phân lớp đa nhãn đánh giá khách sạn tiếng ViệtHình 4.1 Project thực hiện quá trình thực nghiệm
Hình 4.2 Một phần dữ liệu tập MovieLens
Hình 4.3 Phân bố người dùng đánh giá các mục [4]
Hình 4.4: Một phần dữ liệu tập kiểm thử
Hình 4.5: Một phần dữ liệu huấn luyện
Hình 4.6: Một phần dữ liệu sau khi rút gọn phủ
Hình 4.7: Biểu đồ rút gọn phủ chi tiết
Trang 11Mở đầu
Ngày nay, sự phát triển nhanh chĩng về kinh tế, cơng nghệ và các phương tiện xãhội trở nên phổ biến như: Youtube, Facebook, Amazone, … và nhiều dịch vụ web khácdẫn tới lượng thơng tin người dùng cung cấp ngày càng một lớn lên gĩp phần làm giàunguồn tài nguyên cho khai phá dữ liệu Lượng thơng tin cung cấp đĩ cũng là một nguyên liệu cho hệ thống tư vấn Hệ thống tư vấn chính là hệ thống cĩ khả năng gợi ý tới những đối tượng với sự cá nhân hĩa cao Hệ thống tư vấn gĩp phần nâng cao chất lượng phục vụ khách hàng cũng như đem lại giá trị thương mại và tiềm năng lớn vì vậy nĩ ngày càng cĩ ý nghĩa trong những năm gần đây
Hệ thống tư vấn sử dụng dữ liệu thu thập được từ người dùng tiến hành lọc cộng tác, luật kết hợp, … từ đĩ đưa ra dự đốn và gợi ý cho người dùng ở những mục (mục
ở đây cĩ thể là dịch vụ, video, hay bài hát) Nghiên cứu cải tiến hệ thống tư vấn giúp đưa ra chính xác và hiệu quả hơn trong việc đưa ra gợi ý cho người dùng
Hệ tư vấn cũng đứng trước nhiều thách thức khi cĩ rất nhiều bài tốn quan trọng đặt ra để cải thiện hiệu suất của nĩ Như một vấn đề khi dữ liệu thơng tin người dùng ngày càng được mở rộng thì một hệ quả dẫn tới việc ma trận đánh giá của người dùng cũng theo đĩ ngày càng lớn dần Vì vậy, bài tốn rút gọn dàn điều kiện làm giảm độ phức tạp tính tốn và bài tốn thích nghi dàn quyết định tập danh sách tập mục cần tư vấn cho người dùng được đặt ra Vậy phải làm thế nào để giải quyết được vấn đề nêu ra?
Ngồi ra, việc dữ liệu thu thập và được lưu trữ với lượng rất lớn tuy nhiên thơngtin lại nghèo nàn như hiện tượng “ngập trong dữ liệu nhưng thiếu thơng tin” Do đĩ, vấn đề đặt ra là làm thế nào để các tổ chức, cá nhân cĩ thể thu được các tri thức từ những thơng tin được lưu trữ Để giải quyết vấn đề này ta cần phải phân lớp cho dữ liệu đĩ Trong các thuật tốn khai phá dữ liệu điển hình, cĩ một số thuật tốn liên quantới thuật tốn phân lớp đĩ là: Thuật tốn C4.5, thuật tốn k-láng giềng gần nhất, thuật tốn Bayes “ngây thơ” (Nạve Bayes) … Thực tế, việc phân lớp các dữ liệu từ kho dữ liệu khổng lồ đĩ, tức là gán cho nĩ một nhãn và đặt nĩ vào một lớp cụ thể nào đĩ Trong nghiên cứu của khĩa luận đề xuất một thuật tốn “học” trong phân lớp đa nhãn
để gắn nhãn cho dữ liệu
Cĩ nhiều phương pháp khác nhau đã được đưa ra để giải quyết các vấn đề trên vàkhĩa luận tập trung vào việc áp dụng bảng quyết định dàn phủ vào lọc cộng tác trong
Trang 12Khóa luận được trình bày theo các chương như sau:
Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân
lớp đa nhãn: Giới thiệu tổng thể về hệ thống tư vấn, các lý thuyết về bảng quyết định dàn phủ và phát biểu về bài toán cho khóa luận
Chương 2: Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa
nhãn: Trình bày về lý thuyết rút gọn trong bảng quyết định dàn phủ, đề xuất phương pháp, thuật toán giải quyết các vấn đề được nêu ra
Chương 3: Mô hình giải quyết bài toán: Trình bày chi tiết các bước trong bài
toán khóa luận áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn
Chương 4: Thực nghiệm và đánh giá kết quả: Trình bày về kịch bản thực
nghiệm của bài toán khóa luận được mô tả ở chương 3 và thực hiện thực nghiệm, đưa
ra những đánh giá về bài toán khóa luận
Phần kết luận: Tổng kết lại các kết quả đạt được của khóa luận, đưa ra các vấn
đề tồn tại và định hướng phát triển tương lai
Trang 13Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân lớp đa nhãn
1.1 Giới thiệu về hệ thống tư vấn
Định nghĩa [2]:
Hệ thống tư vấn (recommendation system) là các công cụ phần mềm và kỹ thuật cung cấp các tư vấn về các mục có khả năng cao là hữu ích nhất đối với mộtngười dùng đích
Hệ thống tư vấn có mặt ở khắp mọi nơi và đóng vai trò quan trọng trong mọi lĩnhvực trong nền kinh tế hiện đại: Chúng tư vấn cho người dùng (cá nhân hay tổ chức) về mọi đối tượng trong xã hội mà người dùng quan tâm Sau đây được gọi chung là “mục
tư vấn” hay ngắn gọn là “mục” (item), ví dụ như: sản phẩm (hàng hóa, dịch vụ), bài báo, bản nhạc, phim ảnh, con người, …vv… “Mục(Item)” là thuật ngữ chung biểu thị những gì hệ thống đề xuất cho người dùng RS thường tập trung vào một loại mặt hàng
cụ thể (ví dụ: phim hoặc tin tức)
Hệ thống Trang web Sản phẩm đích
Amazon https://www.amazon.com/ Các sản phẩm kinh doanhNetflix https://www.netflix.com/vn/ Phim, chương trình
truyền hìnhFacebook https://www.facebook.com/ Bạn bè, quảng cáoYoutube https://www.youtube.com/ Video, kênh
Spotify https://www.spotify.com/ Nghe nhạc
Google News https://news.google.com/ Tin tức
Bảng 1.1: Một số hệ thống có chứa thành phần tư vấn [2]
Hệ thống tư vấn hướng tới người dùng Vì các đề xuất thường được cá nhân hóa, những người dùng khác nhau hoặc nhóm người dùng nhận được các đề xuất đa dạng hơn
Hệ tư vấn thường được chia thành ba pha chính:
● Thu thập thông tin: Xây dựng đầu vào cho hệ thống Một hệ tư vấn không hệ hoạt động hiệu quả nếu đầu vào không được xây dựng tốt
Trang 14● Huấn luyện mô hình: Áp dụng những thuật toán để khai thác những đặc trưng của người dùng từ những thông tin thu được từ pha trước
● Dự đoán và gợi ý: Dự đoán và tư vấn những mục mà người dùng có thể thích
Ba loại hệ thống tư vấn chính là[2]:
● Hệ tư vấn dựa trên nội dung
● Hệ tư vấn dựa trên lọc cộng tác
● Hệ tư vấn kết hợp (lai)
Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2]
Trong phạm vi khóa luận này ta chủ yếu đề cập tới Hệ thống tư vấn dựa trên lọc cộng tác (dựa trên ghi nhớ)
1.2 Lọc cộng tác trong hệ thống tư vấn
Một trong những cách tiếp cận để thiết kế các hệ thống tư vấn được sử dụng rộngrãi là lọc cộng tác Các phương pháp lọc cộng tác dựa trên việc thu thập và phân tích một lượng lớn thông tin về những hoạt động, hành vi hoặc sở thích của người dùng và
dự đoán những gì người dùng sẽ thích dựa trên sự tương đồng của họ với người dùng khác Một lợi thế quan trọng của phương pháp lọc cộng tác là nó không dựa vào nội dung phân tích máy và do đó nó có khả năng đề xuất chính xác các mục phức tạp như phim mà không yêu cầu “hiểu biết” về mục đó Nhiều thuật toán đã được sử dụng để tính sự tương đồng của người dùng hoặc sự tương đồng về mặt hàng trong các hệ thống tư vấn Ví dụ, cách tiếp cận láng giềng gần nhất (k-nearest neighbor k-NN)
Trang 15Lọc cộng tác dựa trên giả định rằng những người dùng đã đồng ý trong quá khứ
sẽ đồng ý trong tương lai và rằng họ sẽ thích các loại mặt hàng tương tự như họ thích trong quá khứ
Khi xây dựng mô hình từ hành vi của người dùng, sự phân biệt thường được thựchiện giữa các hình thức thu thập dữ liệu rõ ràng và tiềm ẩn
Ví dụ về thu thập dữ liệu rõ ràng bao gồm:
● Yêu cầu người dùng xếp hạng một mục trên thang trượt
● Yêu cầu người dùng tìm kiếm
● Yêu cầu người dùng xếp hạng một bộ sưu tập các mục từ yêu thích đến ítyêu thích nhất
● Trình bày hai mục cho một người dùng và yêu cầu anh ta / cô ấy chọn một trong số chúng tốt hơn
● Yêu cầu người dùng tạo danh sách các mục mà anh / cô ấy thích
Ví dụ về thu thập dữ liệu ngầm bao gồm:
● Quan sát các mục mà người dùng đã xem trong cửa hàng trực tuyến
● Phân tích thời gian xem mục / người dùng
● Lưu giữ một bản ghi các mục mà người dùng mua trực tuyến
● Lấy danh sách các mục mà người dùng đã xem hoặc nghe trên máy tính của họ
● Phân tích mạng xã hội của người dùng và khám phá những lượt thích và không thích
Trang 16Hình 1.2: Mô tả về hệ tư vấn dựa trên lọc cộng tác.
Hệ thống tư vấn so sánh dữ liệu đã thu thập với dữ liệu tương tự và khác nhau được thu thập từ những người khác và tính toán danh sách các mục được đề xuất cho người dùng Một trong những cách so sánh dữ liệu là đưa dữ liệu thu thập được vào bảng quyết định và dựa trên lọc cộng tác để đưa ra gợi ý cho người dùng
Lý thuyết tập thô phủ được mở rộng từ lý thuyết tập thô cổ điển bằng biệc sử dụng các miền phủ thay vì sử dụng một phân vùng Sau đây là một số định nghĩa về tập thô phủ:
Định nghĩa 1.1: Cho là một miền giá trị, là một tập các tập con trong Nếu
không có tập con nào trong là rỗng và tập hợp tất cả các tập con trong lại mà thu được tập thì ta gọi là một phủ của
Định nghĩa 1.2: Cho là một tập khác rỗng và là một phủ của Khi đó, ta gọi
mỗi cặp là một không gian phủ xấp xỉ Ký hiệu < , >
1.3.2 Định nghĩa bảng quyết định dàn phủ
Cho là tập vũ trụ, giả sử tồn tại một quan hệ thứ tự một phần, ký hiệu “” trong tập của tất cả tập phủ của Dưới đây giới thiệu một số định nghĩa về bảng quyết định dàn phủ [3, 5, 6]
Định nghĩa 1.3 (Dàn phủ) được xác định như một dàn phủ của nếu và chỉ nếu
là một tập của các phủ của () và với mọi thuộc về , tồn tại , cũng thuộc về sao cho , và
Định nghĩa 1.4 (Phủ đỉnh và phủ đáy của một dàn phủ) Vì tập vũ trụ là hữu hạn
nên tồn tại , sao cho , thuộc về và () với mọi trong
Trang 17Định nghĩa 1.5 Bảng quyết định phủ (CDT) là một bộ ba , với và là hai dàn của
phủ của tập vũ trụ và được gọi tương ứng là dàn điều kiện và dàn quyết định.Dưới đây là định nghĩa phủ cảm sinh của và
Định nghĩa 1.6 (Phủ cảm sinh của ) Cho là bảng quyết định phủ, là một phủ
đỉnh của Với mọi , cho , khi đó, tập } cũng là một phủ của và nó được gọi là phủ cảmsinh của
và phủ cảm sinh của cũng được xác định theo cách này
Định nghĩa 1.7 (Miền CL-dương của ) Cho là một bảng quyết định phủ Miền
-dương của được tính toán bởi
Trang 181.5 Phân lớp đa nhãn
Bài toán phân lớp bản chất là việc xây dựng một hàm từ tập dữ liệu của miền ứngdụng vào một tập các nhãn cho trước Đối tượng cần phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bởi tập đặc trưng Như vậy, một đối tượng cần phân lớp có thể được biểu diễn bởi nhiều tập đặc trưng khác nhau “Đơn thể hiện” (single instance)chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng Ngầm định bài toán phân lớp trong khóa luận là phân lớp dữ liệu “đơn thể hiện” nếu không có thêm chỉ dẫn tường minh
Trong nhiều ứng dụng thực tế (Gán nhãn ảnh, phân lớp văn bản, dự đoán, phân lớp video, …), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau Đây
là bài toán phân lớp đa nhãn Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do
đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận
đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo
Cho trước một tập dữ liệu {(), (),…, ()} trong đó, là một thể hiện và là một tập nhãn {} ( ), là số nhãn trong Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn
Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản Xây dựng một tập các đặc trưng (ví dụ: Tập tất cả các từ xuất hiện trong tập văn bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện) Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau Trong phạm vi khóa luận này đề xuất một thuật toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ bao gồm thuật toán học mô hình và thuật toán sử dụng mô hình Đây là một thuật toán phân lớp đa nhãn theo tiếp cận thích nghi, không sử dụng các bộ phân lớp trung gian
1.6 Phát biểu bài toán khóa luận
Bài toán lọc cộng tác:
Bài toán áp dụng bảng quyết định dàn phủ vào hệ thống tư vấn lọc cộng tác đượcphát biểu như sau:
Đầu vào:
Trang 19+ Tập người dùng U, tập các phim và ma trận đánh giá người dùng – phim : [0 ÷ ], = , trong đó = > 0 nếu u đã đánh giá (rating) mức với bộ phim , ngược lại = 0.+ Cho một người dùng hiện thời và = {} là tập các bộ phim được người dùng đánh giá (gọi là tập tất cả các phim chưa được người dùng đánh giá).
+ Số > 0 là số lượng nhiều nhất “láng giềng” của và > 0 là song lượng nhiều nhất các phim sẽ tư vấn cho người dùng
Đầu ra:
+ Tập các phim mà hệ tư vấn dự đoán rằng người dùng hiện thời có thể quan tâm tới hoặc có tiềm năng
Bài toán phân lớp đa nhãn:
Bài toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ được phát biểu như sau:
Cho tập dữ liệu học (đa nhãn) = {(), (),…, ()} với , ta xây dựng bảng quyết định dàn phủ =
Bài toán học sẽ tiến hành xây dựng một mô hình phân lớp đa nhãn , trong đó làtập nhãn ứng với Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tương quanvới nhau cao trong ngữ cảnh của Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng Việc khai thác nhóm đối tượng gần theo phủ cảm sinh từ dàn quyết định cho phép khai thác một khía cạnh về mối quan hệ lẫn nhau giữa các nhãn trong tập nhãn
Bài toán sử dụng mô hình dựa trên một ý tưởng đơn giản là tập nhãn cần gán cho một đối tượng dữ liệu chưa có nhãn chính là tập nhãn được tính toán theo mô hình đối với một ví dụ gần nhất với đối tượng với
Tóm tắt chương 1:
Chương 1 đã trình bày tổng quát về hệ tư vấn, lọc cộng tác trong hệ thống tư vấn,một số lý thuyết liên quan, phân lớp đa nhãn cũng như phát biểu bài toán khóa luận Khóa luận sẽ tập trung giải quyết các vấn đề được nêu ở trên Chương tiếp theo sẽ trình bày giải pháp và ý tưởng mô hình cho bài toán khóa luận
Trang 20Chương 2 Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn
và giải quyết bài toán khởi đầu người dùng [8] Mục con tiếp theo giới thiệu khái niệmrút gọn tập thô phủ
2.1.1 Rút gọn tập thô phủ
Rút gọn tập thô phủ là một ý tưởng trong lý thuyết rút gọn phủ Dưới đây là một
số định nghĩa đối với rút gọn trong tập thô phủ [7, 8]
Định nghĩa 2.1 Cho C là một phủ của miền , Nếu là hợp của một vài tập
trong – {}, thì được gọi là có thể được rút gọn trong , ngược lại, được gọi là không thể được rút gọn trong Khi tất cả các phần tử có thể rút gọn được loại bỏ, tập phủ không thể rút gọn mới được gọi là rút gọn loại 1 của
Định nghĩa 2.2 Cho là một phủ của miền , Nếu tồn tại một phần tử sao cho
⊂ thì là một phần tử dư thừa trong phủ của Khi bỏ đi hết các phần tử dư thừa trong ,tập còn lại vẫn là phủ của , và tập phủ mới này không chứa phần tử dư thừa Ta gọi đó
là rút gọn loại 2 của
Định nghĩa 2.3 Cho C là một phủ của miền , Nếu tồn tại , ,… sao cho = , ∈
và x và {x} không phải là một phần tử duy nhất của , ∀ ∈ ⊆ ∪{| C }, được ∈ ∈gọi là phần tử có thể rút gọn chính xác (exact-reducible) của Khi loại bỏ hết các phần
tử exact-reducible trong Tập phủ không thể rút gọn mới là rút gọn loại 3 của
2.1.2 Định nghĩa rút gọn tập thô dàn phủ
Cho là một bảng quyết định phủ, với , tương ứng là dàn điều kiện, dàn quyết định Dưới đây là một số định nghĩa về rút gọn đối với tập thô dàn phủ [3, 5, 6]
Định nghĩa 2.4 (Dàn con trong bảng quyết định phủ) Cho là một dàn phủ Một
phủ trên được gọi là dàn con của nếu và chỉ nếu tập các phủ trong là một tập con của
Trang 21các phủ trong ; và nếu một phủ trong thì tất cả các phủ trong thỏa mãn thì cũng trong
Định nghĩa 2.4 về dàn con của một dàn phủ phù hợp với dàn tương ứng với một tập mục là dàn con của dàn tương ứng với mọi tập mục chứa nó trong khai phá luật kết hợp
Định nghĩa 2.5 (Rút gọn trong một bảng quyết định phủ)
Cho là một bảng quyết định phủ Nhiệm vụ rút gọn điều kiện trong là để tìm dàn con của sao cho
Ý nghĩa của nhiệm vụ rút gọn điều kiện giống như nhiệm vụ rút gọn trong hệ thống quyết định thô phủ
Định nghĩa 2.6 (Sự thích nghi quyết định trong bảng quyết định phủ)
Cho là một bảng quyết định phủ, là một ngưỡng Nhiệm vụ thích nghi quyết định trong là để tìm dàn con của sao cho độ tin cậy của không nhỏ hơn ngưỡng , tức
là, với ; phủ cảm sinh là lớn nhất theo quan hệ “≤”
Quyết định danh sách tư vấn cho người dùng đích là một bài toán quan trọng trong hệ tư vấn Giải pháp tốt cho bài toán thích nghi quyết định trong bảng quyết địnhphủ có tiềm năng ứng dụng vào bài toán quyết định tư vấn nói trên
Trong phần này, khóa luận giới thiệu hai định nghĩa cần thiết và quan trọng cho rút gọn dàn phủ điều kiện và tìm thích nghi của dàn phủ quyết định [3, 5, 6]
Định nghĩa 2.7 (Rút gọn điều kiện) Cho là bảng quyết định dựa vào dàn phủ
Một dàn con S của được gọi là một rút gọn của nếu mức độ phụ thuộc của là bằng vớimức độ phụ thuộc của Một rút gọn của được gọi là một rút gọn của nếu và chỉ nếu: (i) là một rút gọn của ,
(ii) Nếu tồn tại một rút gọn của và là dàn con của thì =
Định nghĩa 2.8 (Thích nghi quyết định) Cho một bảng quyết định dàn phủ, cho
là một ngưỡng, với mức ngưỡng lớn hơn hoặc bằng độ phụ thuộc của CDT, tức là, Nhiệm vụ của thích nghi quyết định trong là để tìm tất cả các dàn con của sao cho: (i) Mức độ phụ thuộc của không kém hơn ;
ii) Mức độ phụ thuộc của không kém hơn , với PSDL là dàn cha của SDL
Trang 222.1.3 Hai thuật toán
Theo nội dung của định nghĩa 2.7 và 2.8, khóa luận giới thiệu hai thuật toán thực hiện hai nhiệm vụ [6]:
- Thuật toán tìm các tập mục con đã được người dùng đánh giá thay thế cho tập tất cả các mục đã được người dùng đánh giá
- Thuật toán tìm các tập mục con chưa được người dùng đánh giá để tư vấn cho người dùng với độ tin cậy không nhỏ hơn một ngưỡng cho trước
2.1.3.1 Thuật toán rút gọn dàn điều kiện
Thuật toán Reduct_Finding dưới đây thực hiện việc rút gọn dàn điều kiện trong bảng quyết định dựa trên dàn phủ
Đầu vào: Bảng quyết định dựa dàn phủ , hằng số chung là độ phụ thuộc của DL;Đầu ra: GCRL chứa các dàn rút gọn của CL //Khởi đầu thuật toán GCRL={CL}
Trang 23Thuật toán Reduct_Finding (, )
// là dàn điều kiện hiện thời
// là cha của ( chính là cha của chính nó)
1: IF = THEN
2: FOREACH dàn con của
3: Reduct_Finding (, )//Chạy trên tất cả dàn con
12: FOREACH dàn con của
//chạy tất cả dàn con của 13: Reduct_Finding (, )
14: END FOR
15: END IF
16: END IF
Thuật toán rút gọn trên được thực hiện: Thuật toán bắt đầu với lời gọi
Reduct_Finding(CL,CL), trong trường hợp này, thuật toán thực hiện lần lượt đối với tất các các dàn con của dàn điều kiện CL Với mỗi lần gọi (CCL, PCCL) sau đó, thuật toán trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CLL là dàn điều kiện rút gọn được thì bổ sung nó vào GCRL, loại bỏ dàn cha nếu có trong GCRL, tiếp tục tìm kiếm đối với mọi con SCCL của CCL Khi kết thúc thuật toán, GCRL chứa tất
cả các dàn con rút gọn của dàn điều kiện CL; khi không tìm được một dàn con đáp ứngthì GCRL chỉ chứa CL như khi bắt đầu thuật toán
2.1.3.2 Thuật toán tìm thích nghi của dàn phủ quyết định của bảng quyết định dàn phủThuật toán Fitting_Finding dưới đây thực hiện việc rút gọn dàn quyết định trongbảng quyết định dựa trên dàn phủ Trong hệ thống tư vấn dựa trên lọc cộng tác, việc xác định một tập con thuộc tính quyết định (các mục) đù phù hợp để cung cấp cho người dùng hiện thời là một phương án ứng dụng của thuật toán
Trang 24Đầu vào: Bảng quyết định dựa dàn phủ ,
Ngưỡng Độ phụ thuộc của
Đầu ra: GCFL chứa các dàn thích nghi của DL, ban đầu GCFL là dàn rỗng //Khởi đầu thuật toán CDL={DL}
Thuật toán Fitting_Finding (CDL) //CDL là dàn phủ quyết định hiện thời
2.2 Áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác
Phương pháp lọc cộng tác vẫn là một trong những mô hình được sử dụng rất nhiều trong hệ tư vấn vì tính dễ cài đặt của nó Phần này sẽ trình bày việc áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác hướng người dùng
2.2.1 Rút gọn điều kiện lọc cộng tác người dùng
Trong lọc cộng tác, dàn điều kiện đóng vai trò giúp hệ thống có thể tìm được những người dùng cùng đánh giá trên các item này và đưa ra gợi ý dựa theo các láng giềng gần tìm được Trong RS thực tế, chúng phải xử lý dữ liệu lớn bao gồm số lượng lớn người dùng và mục
Trang 25Cho bảng quyết định dàn phủ từ tập dữ liệu đầu vào Trong đó, dàn điều kiện (dàn quyết định ) tương ứng là tập () mà mỗi phim tương ứng với tập người dùng đã đánh giá (chưa đánh giá)
Từ định nghĩa của rút gọn tập thô, chúng ta có thể thấy rằng các dàn con trong dàn quyết định ban đầu có là dàn điều kiện thích hợp với dàn quyết định mà người dùng có thể quan tâm Việc rút gọn phủ giúp hệ thống gợi ý tăng độ chính xác trong việc tìm kiếm số lượng láng giềng gần để đưa ra tư vấn
Nhiệm vụ rút gọn dàn điều kiện sẽ thực hiện gọi thuật toán Recuct_finding() và thực hiện gọi tất cả các dàn con của nếu độ phụ thuộc của dàn con với phù hợp thì sẽ được thêm vào dàn điều kiện
2.2.2 Rút gọn thích nghi danh sách mục tư vấn
Quyết định danh sách tư vấn cho người dùng đích là một bài toán quan trọng trong hệ tư vấn Giải pháp tốt cho bài toán thích nghi quyết định trong bảng quyết địnhphủ có tiềm năng ứng dụng vào bài toán quyết định tư vấn nói trên Vì vậy một trong những nhiệm vụ của khóa luận là thực hiện rút gọn dàn quyết định đối với mỗi người dùng
Trong thuật toán Fitting_finding(), sẽ thực hiện gọi tất cả các dàn con trong dàn quyết định Nếu như độ phụ thuộc của dàn con phù hợp thì dàn con đó sẽ là dàn rút gọn cho ban đầu Trong dữ liệu thực tế, việc có rất nhiều mục trong khi số lượng đánh giá trên các mục của người dùng có thể không nhiều dẫn đến các mục chưa được người dùng xem xét sẽ lớn Thuật toán tìm thích nghi dàn quyết định giúp giảm số lượng các mục chưa đánh giá không phù hợp với người dùng, giúp tăng hiệu quả tư vấn chính xác tới người dùng đích
2.3 Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn
2.3.1 Mô hình bảng quyết định cho phân lớp đa nhãn
Mô hình áp dụng bảng quyết định cho phân lớp đa nhãn được phát biểu như sau:
Cho là tập vũ trụ chứa tất cả các đối tượng, là tập các đặc trưng, là tập các nhãn Khi đó, mỗi đặc trưng tương ứng với một phân hoạch (phủ suy biến) trên , mỗi giá trị của tương ứng với một tập con đối tượng nhận giá trị theo đặc trưng Mỗi nhãn tương ứng với một tập con = { là tập các nhãn của } Nhiệm vụ của mô hình là
từ các tập đặc trưng thực hiện phân lớp theo tập các nhãn dựa vào bảng quyết định
Trang 262.3.2 Thuật toán phân lớp đa nhãn
2.3.2.1 Thuật toán học mô hình phân lớp
Cho tập dữ liệu học (đa nhãn) , với , …, , sử dụng cách thức như Ví dụ 2.3, xây dựng bảng quyết định dàn phủ = <> Nhiệm vụ học là xây dựng một mô hình phân lớp
đa nhãn = , trong đó là tập nhãn tương ứng với Thuật toán học dựa trên ý tưởng về sửdụng tương quan nhãn trong phân lớp đa nhãn song tính toán trực tiếp tập nhãn tiềm năng cho một ví dụ học Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tươngquan với nhau cao trong ngữ cảnh của Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng.Thuật toán học MLM_learn được mô tả như sau đây
Thuật toán MLM_learn:
Đầu vào:
Tập dữ liệu học , trong đó là tập nhãn của đối tượng và , …,
Giá trị α: 0 ≤ α ≤ 1 xác định ngưỡng tin cậy để một nhãn thuộc vào tập nhãn của một đối tượng
Đầu ra:
Mô hình phân lớp đa nhãn
Nội dung:
1 Xác định dàn phủ = <, , > theo tập dữ liệu học như cách thức ở Ví dụ 2.3 Ký
hiệu () = { | } là tập tất cả các đối tượng có chứa nhãn ∈ ∈
2 Xây dựng phủ cảm sinh dàn điều kiện () và phủ cảm sinh dàn quyết định ().