Ứng Dụng Bảng Quyết Định Dàn Phủ Vào Lọc Cộng Tác Và Phân Lớp Đa Nhãn.pdf

Nhóm nghiên cứu thuộc Trường Đại học Công nghệ đã đề xuất mô hình bảng quyết định dàn phủ, xác định hai bài toán ứng dụng điển hình là rút gọn bảng quyết định dàn phủ và áp dụng bảng quy

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Văn Tuấn

ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌC

CỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Văn Tuấn

ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌC

CỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: Ths Vương Thị Hồng

HÀ NỘI – 2021

Trang 3

Lời cảm ơn

Lời đầu tiên, tôi xin gửi lời biết ơn chân thành đến thầy giáo PGS TS Hà Quang Thụy và ThS Vương Thị Hồng đã tận tình hướng dẫn, chỉ bảo em trong suốt quá trình

em thực hiện khóa luận

Em cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm công nghệ tri thức và khoa học dữ liệu (DS&KTLab) đã giúp đỡ em rất nhiều

để hoàn thành tốt khóa luận

Cuối cùng, em muốn gửi lời cảm ơn tới gia đình, bạn bè và tập thể lớp K62CC đãluôn bên cạnh, động viên, giúp đỡ trong quá trình học tập và thực hiện đề tài khóa luận

Xin chân thành cảm ơn!

Hà Nội, ngày tháng năm 2021

Sinh viên

Phan Văn Tuấn

Trang 4

TÓM TẮT

Tóm tắt: Lý thuyết tập thô phủ là một mở rộng quan trọng của lý thuyết tập thô của

Pawlak, trong đó, nhiều nghiên cứu áp dụng tập thô phủ giải quyết các bài toán thực tiễn đã được tiến hành Từ năm 2017 tới nay, một số mô hình áp dụng giải pháp rút gọn tập thô phủ vào lọc cộng tác đã được Z Zhang và cộng sự đề xuất Việc áp dụng lý thuyết tập thô phủ vàolọc cộng tác trong hệ tư vấn vẫn cần được tiếp tục nghiên cứu, hơn nữa, bảng quyết định tập thô phủ hiện được đề cập ở mức độ sơ bộ Nhóm nghiên cứu thuộc Trường Đại học Công nghệ đã đề xuất mô hình bảng quyết định dàn phủ, xác định hai bài toán ứng dụng điển hình

là rút gọn bảng quyết định dàn phủ và áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn Các nghiên cứu này hiện vẫn ở dạng thuật toán mà cần phải được triển khai thực nghiệm

Khóa luận này tham gia vào các nghiên cứu về bảng quyết định dàn phủ với đóng góp chính là triển khai thực nghiệm các mô hình, thuật toán hiện có, thông qua đó, phát hiện các nội dung cần được bổ sung cho các mô hình và thuật toán hiện đó Khóa luận đã triển khai cácphần mềm thi hành thuật toán rút gọn dàn phủ vào bài toán lọc cộng tác người dùng trong hệ

tư vấn và thuật toán phân lớp đa nhãn khai phá quan điểm Kết quả thực nghiệm của cả hai bàitoán chỉ ra tính hợp lý của hai thuật toán trong bảng quyết định dàn phủ

Từ khóa: Lọc cộng tác dựa trên người dùng, lý thuyết tập thô, phân lớp đa nhãn, bảng quyết định dàn phủ

Trang 5

Lời cam đoan

Tôi xin cam đoan các kỹ thuật sử dụng để giải quyết vấn đề khởi đầu nguội trong tư vấn

xã hội được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS.TS

Hà Quang Thụy và ThS Vương Thị Hồng

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách

rõ ràng từ danh sách mục tài liệu tham khảo trong khóa luận Trong khóa luận này không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Sinh viên

Phan Văn Tuấn

Trang 6

Mục lục

Lời cảm ơn i

TÓM TẮT ii

Lời cam đoan iii

Danh sách các thuật ngữ và từ viết tắt vi

Danh sách bảng vii

Danh sách hình vẽ viii

Mở đầu 1

Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân lớp đa nhãn 3

1.1 Giới thiệu về hệ thống tư vấn 3

1.2 Lọc cộng tác trong hệ thống tư vấn 4

1.3 Bảng quyết định dàn phủ 6

1.3.1 Lý thuyết tập thô phủ 6

1.3.2 Định nghĩa bảng quyết định dàn phủ 6

1.4 Các độ đo tương tự 7

1.4.1 Độ tương tự Cô-sin 7

1.4.2 Độ tương tự Euclidean 7

1.5 Phân lớp đa nhãn 8

1.6 Phát biểu bài toán khóa luận 8

Tóm tắt chương 1: 10

Chương 2 Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn .11 2.1 Rút gọn bảng quyết định dàn phủ 11

2.1.1 Rút gọn tập thô phủ 11

2.1.2 Định nghĩa rút gọn tập thô dàn phủ 11

2.1.3 Hai thuật toán 13

2.2 Áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác 15

2.2.1 Rút gọn điều kiện lọc cộng tác người dùng 15

2.2.2 Rút gọn thích nghi danh sách mục tư vấn 16

2.3 Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn 16

Trang 7

2.3.1 Mô hình bảng quyết định cho phân lớp đa nhãn 16

2.3.2 Thuật toán phân lớp đa nhãn 17

2.3.3 Độ phức tạp thuật toán 18

2.4 Ý tưởng về mô hình giải quyết bài toán khóa luận 19

2.4.1 Bài toán lọc cộng tác trong hệ tư vấn 19

2.4.2 Bài toán phân lớp đa nhãn 19

Chương 3 Mô hình giải quyết bài toán 21

3.1 Mô hình áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác 21

3.1.1 Các bước trong mô hình 21

3.1.2 Chi tiết các bước trong mô hình 22

3.2 Mô hình áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn 25

Chương 4 Thực nghiệm và đánh giá kết quả 27

4.1 Mô tả thực nghiệm 27

4.1.1 Môi trường cài đặt thực nghiệm 27

4.1.2 Project thực hiện quá trình thực nghiệm 28

4.2 Thực nghiệm mô hình lọc cộng tác 29

4.2.1 Dữ liệu thực nghiệm 29

4.2.2 Kết quả thực nghiệm và nhận xét 31

4.3 Thực nghiệm mô hình phân lớp đa nhãn 35

4.3.1 Dữ liệu thực nghiệm 35

4.3.2 Kết quả thực nghiệm và nhận xét 36

Kết luận và hướng nghiên cứu tiếp theo 43

Trang 8

Danh sách các thuật ngữ và từ viết tắt

Tiếng Anh Từ viết tắt Tiếng Việt/Cụm từ đầy đủItem Mục/mặt hàng/sản phẩm

Recommender System RS Hệ tư vấn/ Hệ gợi ý

rating_score Điểm đánh giá

timestamp Thời gian đánh giá

learning step Bước học mô hình

training dataset Dữ liệu huấn luyện

CL Dàn điều kiện

DL Dàn quyết định

Trang 10

Danh sách hình vẽ

Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2]

Hình 1.2: Mô tả về hệ tư vấn dựa trên lọc cộng tác

Hình 3.1: Các bước chính trong mô hình lọc cộng tác

Hình 3.2 Mô hình phân lớp đa nhãn đánh giá khách sạn tiếng ViệtHình 4.1 Project thực hiện quá trình thực nghiệm

Hình 4.2 Một phần dữ liệu tập MovieLens

Hình 4.3 Phân bố người dùng đánh giá các mục [4]

Hình 4.4: Một phần dữ liệu tập kiểm thử

Hình 4.5: Một phần dữ liệu huấn luyện

Hình 4.6: Một phần dữ liệu sau khi rút gọn phủ

Hình 4.7: Biểu đồ rút gọn phủ chi tiết

Trang 11

Mở đầu

Ngày nay, sự phát triển nhanh chĩng về kinh tế, cơng nghệ và các phương tiện xãhội trở nên phổ biến như: Youtube, Facebook, Amazone, … và nhiều dịch vụ web khácdẫn tới lượng thơng tin người dùng cung cấp ngày càng một lớn lên gĩp phần làm giàunguồn tài nguyên cho khai phá dữ liệu Lượng thơng tin cung cấp đĩ cũng là một nguyên liệu cho hệ thống tư vấn Hệ thống tư vấn chính là hệ thống cĩ khả năng gợi ý tới những đối tượng với sự cá nhân hĩa cao Hệ thống tư vấn gĩp phần nâng cao chất lượng phục vụ khách hàng cũng như đem lại giá trị thương mại và tiềm năng lớn vì vậy nĩ ngày càng cĩ ý nghĩa trong những năm gần đây

Hệ thống tư vấn sử dụng dữ liệu thu thập được từ người dùng tiến hành lọc cộng tác, luật kết hợp, … từ đĩ đưa ra dự đốn và gợi ý cho người dùng ở những mục (mục

ở đây cĩ thể là dịch vụ, video, hay bài hát) Nghiên cứu cải tiến hệ thống tư vấn giúp đưa ra chính xác và hiệu quả hơn trong việc đưa ra gợi ý cho người dùng

Hệ tư vấn cũng đứng trước nhiều thách thức khi cĩ rất nhiều bài tốn quan trọng đặt ra để cải thiện hiệu suất của nĩ Như một vấn đề khi dữ liệu thơng tin người dùng ngày càng được mở rộng thì một hệ quả dẫn tới việc ma trận đánh giá của người dùng cũng theo đĩ ngày càng lớn dần Vì vậy, bài tốn rút gọn dàn điều kiện làm giảm độ phức tạp tính tốn và bài tốn thích nghi dàn quyết định tập danh sách tập mục cần tư vấn cho người dùng được đặt ra Vậy phải làm thế nào để giải quyết được vấn đề nêu ra?

Ngồi ra, việc dữ liệu thu thập và được lưu trữ với lượng rất lớn tuy nhiên thơngtin lại nghèo nàn như hiện tượng “ngập trong dữ liệu nhưng thiếu thơng tin” Do đĩ, vấn đề đặt ra là làm thế nào để các tổ chức, cá nhân cĩ thể thu được các tri thức từ những thơng tin được lưu trữ Để giải quyết vấn đề này ta cần phải phân lớp cho dữ liệu đĩ Trong các thuật tốn khai phá dữ liệu điển hình, cĩ một số thuật tốn liên quantới thuật tốn phân lớp đĩ là: Thuật tốn C4.5, thuật tốn k-láng giềng gần nhất, thuật tốn Bayes “ngây thơ” (Nạve Bayes) … Thực tế, việc phân lớp các dữ liệu từ kho dữ liệu khổng lồ đĩ, tức là gán cho nĩ một nhãn và đặt nĩ vào một lớp cụ thể nào đĩ Trong nghiên cứu của khĩa luận đề xuất một thuật tốn “học” trong phân lớp đa nhãn

để gắn nhãn cho dữ liệu

Cĩ nhiều phương pháp khác nhau đã được đưa ra để giải quyết các vấn đề trên vàkhĩa luận tập trung vào việc áp dụng bảng quyết định dàn phủ vào lọc cộng tác trong

Trang 12

Khóa luận được trình bày theo các chương như sau:

Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân

lớp đa nhãn: Giới thiệu tổng thể về hệ thống tư vấn, các lý thuyết về bảng quyết định dàn phủ và phát biểu về bài toán cho khóa luận

Chương 2: Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa

nhãn: Trình bày về lý thuyết rút gọn trong bảng quyết định dàn phủ, đề xuất phương pháp, thuật toán giải quyết các vấn đề được nêu ra

Chương 3: Mô hình giải quyết bài toán: Trình bày chi tiết các bước trong bài

toán khóa luận áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn

Chương 4: Thực nghiệm và đánh giá kết quả: Trình bày về kịch bản thực

nghiệm của bài toán khóa luận được mô tả ở chương 3 và thực hiện thực nghiệm, đưa

ra những đánh giá về bài toán khóa luận

Phần kết luận: Tổng kết lại các kết quả đạt được của khóa luận, đưa ra các vấn

đề tồn tại và định hướng phát triển tương lai

Trang 13

Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân lớp đa nhãn

1.1 Giới thiệu về hệ thống tư vấn

Định nghĩa [2]:

Hệ thống tư vấn (recommendation system) là các công cụ phần mềm và kỹ thuật cung cấp các tư vấn về các mục có khả năng cao là hữu ích nhất đối với mộtngười dùng đích

Hệ thống tư vấn có mặt ở khắp mọi nơi và đóng vai trò quan trọng trong mọi lĩnhvực trong nền kinh tế hiện đại: Chúng tư vấn cho người dùng (cá nhân hay tổ chức) về mọi đối tượng trong xã hội mà người dùng quan tâm Sau đây được gọi chung là “mục

tư vấn” hay ngắn gọn là “mục” (item), ví dụ như: sản phẩm (hàng hóa, dịch vụ), bài báo, bản nhạc, phim ảnh, con người, …vv… “Mục(Item)” là thuật ngữ chung biểu thị những gì hệ thống đề xuất cho người dùng RS thường tập trung vào một loại mặt hàng

cụ thể (ví dụ: phim hoặc tin tức)

Hệ thống Trang web Sản phẩm đích

Amazon https://www.amazon.com/ Các sản phẩm kinh doanhNetflix https://www.netflix.com/vn/ Phim, chương trình

truyền hìnhFacebook https://www.facebook.com/ Bạn bè, quảng cáoYoutube https://www.youtube.com/ Video, kênh

Spotify https://www.spotify.com/ Nghe nhạc

Google News https://news.google.com/ Tin tức

Bảng 1.1: Một số hệ thống có chứa thành phần tư vấn [2]

Hệ thống tư vấn hướng tới người dùng Vì các đề xuất thường được cá nhân hóa, những người dùng khác nhau hoặc nhóm người dùng nhận được các đề xuất đa dạng hơn

Hệ tư vấn thường được chia thành ba pha chính:

● Thu thập thông tin: Xây dựng đầu vào cho hệ thống Một hệ tư vấn không hệ hoạt động hiệu quả nếu đầu vào không được xây dựng tốt

Trang 14

● Huấn luyện mô hình: Áp dụng những thuật toán để khai thác những đặc trưng của người dùng từ những thông tin thu được từ pha trước

● Dự đoán và gợi ý: Dự đoán và tư vấn những mục mà người dùng có thể thích

Ba loại hệ thống tư vấn chính là[2]:

● Hệ tư vấn dựa trên nội dung

● Hệ tư vấn dựa trên lọc cộng tác

● Hệ tư vấn kết hợp (lai)

Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2]

Trong phạm vi khóa luận này ta chủ yếu đề cập tới Hệ thống tư vấn dựa trên lọc cộng tác (dựa trên ghi nhớ)

1.2 Lọc cộng tác trong hệ thống tư vấn

Một trong những cách tiếp cận để thiết kế các hệ thống tư vấn được sử dụng rộngrãi là lọc cộng tác Các phương pháp lọc cộng tác dựa trên việc thu thập và phân tích một lượng lớn thông tin về những hoạt động, hành vi hoặc sở thích của người dùng và

dự đoán những gì người dùng sẽ thích dựa trên sự tương đồng của họ với người dùng khác Một lợi thế quan trọng của phương pháp lọc cộng tác là nó không dựa vào nội dung phân tích máy và do đó nó có khả năng đề xuất chính xác các mục phức tạp như phim mà không yêu cầu “hiểu biết” về mục đó Nhiều thuật toán đã được sử dụng để tính sự tương đồng của người dùng hoặc sự tương đồng về mặt hàng trong các hệ thống tư vấn Ví dụ, cách tiếp cận láng giềng gần nhất (k-nearest neighbor k-NN)

Trang 15

Lọc cộng tác dựa trên giả định rằng những người dùng đã đồng ý trong quá khứ

sẽ đồng ý trong tương lai và rằng họ sẽ thích các loại mặt hàng tương tự như họ thích trong quá khứ

Khi xây dựng mô hình từ hành vi của người dùng, sự phân biệt thường được thựchiện giữa các hình thức thu thập dữ liệu rõ ràng và tiềm ẩn

Ví dụ về thu thập dữ liệu rõ ràng bao gồm:

● Yêu cầu người dùng xếp hạng một mục trên thang trượt

● Yêu cầu người dùng tìm kiếm

● Yêu cầu người dùng xếp hạng một bộ sưu tập các mục từ yêu thích đến ítyêu thích nhất

● Trình bày hai mục cho một người dùng và yêu cầu anh ta / cô ấy chọn một trong số chúng tốt hơn

● Yêu cầu người dùng tạo danh sách các mục mà anh / cô ấy thích

Ví dụ về thu thập dữ liệu ngầm bao gồm:

● Quan sát các mục mà người dùng đã xem trong cửa hàng trực tuyến

● Phân tích thời gian xem mục / người dùng

● Lưu giữ một bản ghi các mục mà người dùng mua trực tuyến

● Lấy danh sách các mục mà người dùng đã xem hoặc nghe trên máy tính của họ

● Phân tích mạng xã hội của người dùng và khám phá những lượt thích và không thích

Trang 16

Hình 1.2: Mô tả về hệ tư vấn dựa trên lọc cộng tác.

Hệ thống tư vấn so sánh dữ liệu đã thu thập với dữ liệu tương tự và khác nhau được thu thập từ những người khác và tính toán danh sách các mục được đề xuất cho người dùng Một trong những cách so sánh dữ liệu là đưa dữ liệu thu thập được vào bảng quyết định và dựa trên lọc cộng tác để đưa ra gợi ý cho người dùng

Lý thuyết tập thô phủ được mở rộng từ lý thuyết tập thô cổ điển bằng biệc sử dụng các miền phủ thay vì sử dụng một phân vùng Sau đây là một số định nghĩa về tập thô phủ:

Định nghĩa 1.1: Cho là một miền giá trị, là một tập các tập con trong Nếu

không có tập con nào trong là rỗng và tập hợp tất cả các tập con trong lại mà thu được tập thì ta gọi là một phủ của

Định nghĩa 1.2: Cho là một tập khác rỗng và là một phủ của Khi đó, ta gọi

mỗi cặp là một không gian phủ xấp xỉ Ký hiệu < , >

1.3.2 Định nghĩa bảng quyết định dàn phủ

Cho là tập vũ trụ, giả sử tồn tại một quan hệ thứ tự một phần, ký hiệu “” trong tập của tất cả tập phủ của Dưới đây giới thiệu một số định nghĩa về bảng quyết định dàn phủ [3, 5, 6]

Định nghĩa 1.3 (Dàn phủ) được xác định như một dàn phủ của nếu và chỉ nếu

là một tập của các phủ của () và với mọi thuộc về , tồn tại , cũng thuộc về sao cho , và

Định nghĩa 1.4 (Phủ đỉnh và phủ đáy của một dàn phủ) Vì tập vũ trụ là hữu hạn

nên tồn tại , sao cho , thuộc về và () với mọi trong

Trang 17

Định nghĩa 1.5 Bảng quyết định phủ (CDT) là một bộ ba , với và là hai dàn của

phủ của tập vũ trụ và được gọi tương ứng là dàn điều kiện và dàn quyết định.Dưới đây là định nghĩa phủ cảm sinh của và

Định nghĩa 1.6 (Phủ cảm sinh của ) Cho là bảng quyết định phủ, là một phủ

đỉnh của Với mọi , cho , khi đó, tập } cũng là một phủ của và nó được gọi là phủ cảmsinh của

và phủ cảm sinh của cũng được xác định theo cách này

Định nghĩa 1.7 (Miền CL-dương của ) Cho là một bảng quyết định phủ Miền

-dương của được tính toán bởi

Trang 18

1.5 Phân lớp đa nhãn

Bài toán phân lớp bản chất là việc xây dựng một hàm từ tập dữ liệu của miền ứngdụng vào một tập các nhãn cho trước Đối tượng cần phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bởi tập đặc trưng Như vậy, một đối tượng cần phân lớp có thể được biểu diễn bởi nhiều tập đặc trưng khác nhau “Đơn thể hiện” (single instance)chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng Ngầm định bài toán phân lớp trong khóa luận là phân lớp dữ liệu “đơn thể hiện” nếu không có thêm chỉ dẫn tường minh

Trong nhiều ứng dụng thực tế (Gán nhãn ảnh, phân lớp văn bản, dự đoán, phân lớp video, …), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau Đây

là bài toán phân lớp đa nhãn Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do

đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận

đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo

Cho trước một tập dữ liệu {(), (),…, ()} trong đó, là một thể hiện và là một tập nhãn {} ( ), là số nhãn trong Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn

Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản Xây dựng một tập các đặc trưng (ví dụ: Tập tất cả các từ xuất hiện trong tập văn bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện) Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau Trong phạm vi khóa luận này đề xuất một thuật toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ bao gồm thuật toán học mô hình và thuật toán sử dụng mô hình Đây là một thuật toán phân lớp đa nhãn theo tiếp cận thích nghi, không sử dụng các bộ phân lớp trung gian

1.6 Phát biểu bài toán khóa luận

Bài toán lọc cộng tác:

Bài toán áp dụng bảng quyết định dàn phủ vào hệ thống tư vấn lọc cộng tác đượcphát biểu như sau:

Đầu vào:

Trang 19

+ Tập người dùng U, tập các phim và ma trận đánh giá người dùng – phim : [0 ÷ ], = , trong đó = > 0 nếu u đã đánh giá (rating) mức với bộ phim , ngược lại = 0.+ Cho một người dùng hiện thời và = {} là tập các bộ phim được người dùng đánh giá (gọi là tập tất cả các phim chưa được người dùng đánh giá).

+ Số > 0 là số lượng nhiều nhất “láng giềng” của và > 0 là song lượng nhiều nhất các phim sẽ tư vấn cho người dùng

Đầu ra:

+ Tập các phim mà hệ tư vấn dự đoán rằng người dùng hiện thời có thể quan tâm tới hoặc có tiềm năng

Bài toán phân lớp đa nhãn:

Bài toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ được phát biểu như sau:

Cho tập dữ liệu học (đa nhãn) = {(), (),…, ()} với , ta xây dựng bảng quyết định dàn phủ =

Bài toán học sẽ tiến hành xây dựng một mô hình phân lớp đa nhãn , trong đó làtập nhãn ứng với Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tương quanvới nhau cao trong ngữ cảnh của Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng Việc khai thác nhóm đối tượng gần theo phủ cảm sinh từ dàn quyết định cho phép khai thác một khía cạnh về mối quan hệ lẫn nhau giữa các nhãn trong tập nhãn

Bài toán sử dụng mô hình dựa trên một ý tưởng đơn giản là tập nhãn cần gán cho một đối tượng dữ liệu chưa có nhãn chính là tập nhãn được tính toán theo mô hình đối với một ví dụ gần nhất với đối tượng với

Tóm tắt chương 1:

Chương 1 đã trình bày tổng quát về hệ tư vấn, lọc cộng tác trong hệ thống tư vấn,một số lý thuyết liên quan, phân lớp đa nhãn cũng như phát biểu bài toán khóa luận Khóa luận sẽ tập trung giải quyết các vấn đề được nêu ở trên Chương tiếp theo sẽ trình bày giải pháp và ý tưởng mô hình cho bài toán khóa luận

Trang 20

Chương 2 Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn

và giải quyết bài toán khởi đầu người dùng [8] Mục con tiếp theo giới thiệu khái niệmrút gọn tập thô phủ

2.1.1 Rút gọn tập thô phủ

Rút gọn tập thô phủ là một ý tưởng trong lý thuyết rút gọn phủ Dưới đây là một

số định nghĩa đối với rút gọn trong tập thô phủ [7, 8]

Định nghĩa 2.1 Cho C là một phủ của miền , Nếu là hợp của một vài tập

trong – {}, thì được gọi là có thể được rút gọn trong , ngược lại, được gọi là không thể được rút gọn trong Khi tất cả các phần tử có thể rút gọn được loại bỏ, tập phủ không thể rút gọn mới được gọi là rút gọn loại 1 của

Định nghĩa 2.2 Cho là một phủ của miền , Nếu tồn tại một phần tử sao cho

⊂ thì là một phần tử dư thừa trong phủ của Khi bỏ đi hết các phần tử dư thừa trong ,tập còn lại vẫn là phủ của , và tập phủ mới này không chứa phần tử dư thừa Ta gọi đó

là rút gọn loại 2 của

Định nghĩa 2.3 Cho C là một phủ của miền , Nếu tồn tại , ,… sao cho = , ∈

và x và {x} không phải là một phần tử duy nhất của , ∀ ∈ ⊆ ∪{| C }, được ∈ ∈gọi là phần tử có thể rút gọn chính xác (exact-reducible) của Khi loại bỏ hết các phần

tử exact-reducible trong Tập phủ không thể rút gọn mới là rút gọn loại 3 của

2.1.2 Định nghĩa rút gọn tập thô dàn phủ

Cho là một bảng quyết định phủ, với , tương ứng là dàn điều kiện, dàn quyết định Dưới đây là một số định nghĩa về rút gọn đối với tập thô dàn phủ [3, 5, 6]

Định nghĩa 2.4 (Dàn con trong bảng quyết định phủ) Cho là một dàn phủ Một

phủ trên được gọi là dàn con của nếu và chỉ nếu tập các phủ trong là một tập con của

Trang 21

các phủ trong ; và nếu một phủ trong thì tất cả các phủ trong thỏa mãn thì cũng trong

Định nghĩa 2.4 về dàn con của một dàn phủ phù hợp với dàn tương ứng với một tập mục là dàn con của dàn tương ứng với mọi tập mục chứa nó trong khai phá luật kết hợp

Định nghĩa 2.5 (Rút gọn trong một bảng quyết định phủ)

Cho là một bảng quyết định phủ Nhiệm vụ rút gọn điều kiện trong là để tìm dàn con của sao cho

Ý nghĩa của nhiệm vụ rút gọn điều kiện giống như nhiệm vụ rút gọn trong hệ thống quyết định thô phủ

Định nghĩa 2.6 (Sự thích nghi quyết định trong bảng quyết định phủ)

Cho là một bảng quyết định phủ, là một ngưỡng Nhiệm vụ thích nghi quyết định trong là để tìm dàn con của sao cho độ tin cậy của không nhỏ hơn ngưỡng , tức

là, với ; phủ cảm sinh là lớn nhất theo quan hệ “≤”

Quyết định danh sách tư vấn cho người dùng đích là một bài toán quan trọng trong hệ tư vấn Giải pháp tốt cho bài toán thích nghi quyết định trong bảng quyết địnhphủ có tiềm năng ứng dụng vào bài toán quyết định tư vấn nói trên

Trong phần này, khóa luận giới thiệu hai định nghĩa cần thiết và quan trọng cho rút gọn dàn phủ điều kiện và tìm thích nghi của dàn phủ quyết định [3, 5, 6]

Định nghĩa 2.7 (Rút gọn điều kiện) Cho là bảng quyết định dựa vào dàn phủ

Một dàn con S của được gọi là một rút gọn của nếu mức độ phụ thuộc của là bằng vớimức độ phụ thuộc của Một rút gọn của được gọi là một rút gọn của nếu và chỉ nếu: (i) là một rút gọn của ,

(ii) Nếu tồn tại một rút gọn của và là dàn con của thì =

Định nghĩa 2.8 (Thích nghi quyết định) Cho một bảng quyết định dàn phủ, cho

là một ngưỡng, với mức ngưỡng lớn hơn hoặc bằng độ phụ thuộc của CDT, tức là, Nhiệm vụ của thích nghi quyết định trong là để tìm tất cả các dàn con của sao cho: (i) Mức độ phụ thuộc của không kém hơn ;

ii) Mức độ phụ thuộc của không kém hơn , với PSDL là dàn cha của SDL

Trang 22

2.1.3 Hai thuật toán

Theo nội dung của định nghĩa 2.7 và 2.8, khóa luận giới thiệu hai thuật toán thực hiện hai nhiệm vụ [6]:

- Thuật toán tìm các tập mục con đã được người dùng đánh giá thay thế cho tập tất cả các mục đã được người dùng đánh giá

- Thuật toán tìm các tập mục con chưa được người dùng đánh giá để tư vấn cho người dùng với độ tin cậy không nhỏ hơn một ngưỡng cho trước

2.1.3.1 Thuật toán rút gọn dàn điều kiện

Thuật toán Reduct_Finding dưới đây thực hiện việc rút gọn dàn điều kiện trong bảng quyết định dựa trên dàn phủ

Đầu vào: Bảng quyết định dựa dàn phủ , hằng số chung là độ phụ thuộc của DL;Đầu ra: GCRL chứa các dàn rút gọn của CL //Khởi đầu thuật toán GCRL={CL}

Trang 23

Thuật toán Reduct_Finding (, )

// là dàn điều kiện hiện thời

// là cha của ( chính là cha của chính nó)

1: IF = THEN

2: FOREACH dàn con của

3: Reduct_Finding (, )//Chạy trên tất cả dàn con

12: FOREACH dàn con của

//chạy tất cả dàn con của 13: Reduct_Finding (, )

14: END FOR

15: END IF

16: END IF

Thuật toán rút gọn trên được thực hiện: Thuật toán bắt đầu với lời gọi

Reduct_Finding(CL,CL), trong trường hợp này, thuật toán thực hiện lần lượt đối với tất các các dàn con của dàn điều kiện CL Với mỗi lần gọi (CCL, PCCL) sau đó, thuật toán trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CLL là dàn điều kiện rút gọn được thì bổ sung nó vào GCRL, loại bỏ dàn cha nếu có trong GCRL, tiếp tục tìm kiếm đối với mọi con SCCL của CCL Khi kết thúc thuật toán, GCRL chứa tất

cả các dàn con rút gọn của dàn điều kiện CL; khi không tìm được một dàn con đáp ứngthì GCRL chỉ chứa CL như khi bắt đầu thuật toán

2.1.3.2 Thuật toán tìm thích nghi của dàn phủ quyết định của bảng quyết định dàn phủThuật toán Fitting_Finding dưới đây thực hiện việc rút gọn dàn quyết định trongbảng quyết định dựa trên dàn phủ Trong hệ thống tư vấn dựa trên lọc cộng tác, việc xác định một tập con thuộc tính quyết định (các mục) đù phù hợp để cung cấp cho người dùng hiện thời là một phương án ứng dụng của thuật toán

Trang 24

Đầu vào: Bảng quyết định dựa dàn phủ ,

Ngưỡng Độ phụ thuộc của

Đầu ra: GCFL chứa các dàn thích nghi của DL, ban đầu GCFL là dàn rỗng //Khởi đầu thuật toán CDL={DL}

Thuật toán Fitting_Finding (CDL) //CDL là dàn phủ quyết định hiện thời

2.2 Áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác

Phương pháp lọc cộng tác vẫn là một trong những mô hình được sử dụng rất nhiều trong hệ tư vấn vì tính dễ cài đặt của nó Phần này sẽ trình bày việc áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác hướng người dùng

2.2.1 Rút gọn điều kiện lọc cộng tác người dùng

Trong lọc cộng tác, dàn điều kiện đóng vai trò giúp hệ thống có thể tìm được những người dùng cùng đánh giá trên các item này và đưa ra gợi ý dựa theo các láng giềng gần tìm được Trong RS thực tế, chúng phải xử lý dữ liệu lớn bao gồm số lượng lớn người dùng và mục

Trang 25

Cho bảng quyết định dàn phủ từ tập dữ liệu đầu vào Trong đó, dàn điều kiện (dàn quyết định ) tương ứng là tập () mà mỗi phim tương ứng với tập người dùng đã đánh giá (chưa đánh giá)

Từ định nghĩa của rút gọn tập thô, chúng ta có thể thấy rằng các dàn con trong dàn quyết định ban đầu có là dàn điều kiện thích hợp với dàn quyết định mà người dùng có thể quan tâm Việc rút gọn phủ giúp hệ thống gợi ý tăng độ chính xác trong việc tìm kiếm số lượng láng giềng gần để đưa ra tư vấn

Nhiệm vụ rút gọn dàn điều kiện sẽ thực hiện gọi thuật toán Recuct_finding() và thực hiện gọi tất cả các dàn con của nếu độ phụ thuộc của dàn con với phù hợp thì sẽ được thêm vào dàn điều kiện

2.2.2 Rút gọn thích nghi danh sách mục tư vấn

Quyết định danh sách tư vấn cho người dùng đích là một bài toán quan trọng trong hệ tư vấn Giải pháp tốt cho bài toán thích nghi quyết định trong bảng quyết địnhphủ có tiềm năng ứng dụng vào bài toán quyết định tư vấn nói trên Vì vậy một trong những nhiệm vụ của khóa luận là thực hiện rút gọn dàn quyết định đối với mỗi người dùng

Trong thuật toán Fitting_finding(), sẽ thực hiện gọi tất cả các dàn con trong dàn quyết định Nếu như độ phụ thuộc của dàn con phù hợp thì dàn con đó sẽ là dàn rút gọn cho ban đầu Trong dữ liệu thực tế, việc có rất nhiều mục trong khi số lượng đánh giá trên các mục của người dùng có thể không nhiều dẫn đến các mục chưa được người dùng xem xét sẽ lớn Thuật toán tìm thích nghi dàn quyết định giúp giảm số lượng các mục chưa đánh giá không phù hợp với người dùng, giúp tăng hiệu quả tư vấn chính xác tới người dùng đích

2.3 Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn

2.3.1 Mô hình bảng quyết định cho phân lớp đa nhãn

Mô hình áp dụng bảng quyết định cho phân lớp đa nhãn được phát biểu như sau:

Cho là tập vũ trụ chứa tất cả các đối tượng, là tập các đặc trưng, là tập các nhãn Khi đó, mỗi đặc trưng tương ứng với một phân hoạch (phủ suy biến) trên , mỗi giá trị của tương ứng với một tập con đối tượng nhận giá trị theo đặc trưng Mỗi nhãn tương ứng với một tập con = { là tập các nhãn của } Nhiệm vụ của mô hình là

từ các tập đặc trưng thực hiện phân lớp theo tập các nhãn dựa vào bảng quyết định

Trang 26

2.3.2 Thuật toán phân lớp đa nhãn

2.3.2.1 Thuật toán học mô hình phân lớp

Cho tập dữ liệu học (đa nhãn) , với , …, , sử dụng cách thức như Ví dụ 2.3, xây dựng bảng quyết định dàn phủ = <> Nhiệm vụ học là xây dựng một mô hình phân lớp

đa nhãn = , trong đó là tập nhãn tương ứng với Thuật toán học dựa trên ý tưởng về sửdụng tương quan nhãn trong phân lớp đa nhãn song tính toán trực tiếp tập nhãn tiềm năng cho một ví dụ học Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tươngquan với nhau cao trong ngữ cảnh của Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng.Thuật toán học MLM_learn được mô tả như sau đây

Thuật toán MLM_learn:

Đầu vào:

Tập dữ liệu học , trong đó là tập nhãn của đối tượng và , …,

Giá trị α: 0 ≤ α ≤ 1 xác định ngưỡng tin cậy để một nhãn thuộc vào tập nhãn của một đối tượng

Đầu ra:

Mô hình phân lớp đa nhãn

Nội dung:

1 Xác định dàn phủ = <, , > theo tập dữ liệu học như cách thức ở Ví dụ 2.3 Ký

hiệu () = { | } là tập tất cả các đối tượng có chứa nhãn ∈ ∈

2 Xây dựng phủ cảm sinh dàn điều kiện () và phủ cảm sinh dàn quyết định ().

Tiêu đề	Ứng Dụng Bảng Quyết Định Dàn Phủ Vào Lọc Cộng Tác Và Phân Lớp Đa Nhãn
Tác giả	Phan Văn Tuấn
Người hướng dẫn	PGS. TS. Hà Quang Thụy, ThS. Vương Thị Hồng
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	52
Dung lượng	3,59 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Phạm Thị Ngân. Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng. Luận án Tiến sỹ, Trường ĐHCN, ĐHQGHN, 2017	Khác
[2] Phan Xuân Hiếu , Nguyễn Trí Thành, Hà Quang Thụy. Giáo trình Khai phá dữ liệu Web (phiên bản 2021). Trường Đại học Công nghệ , 2021	Khác
[3] Phạm Thanh Huyền. Phát triển mô hình tập thô phủ, tập thô mờ và áp dụng tập thô vào khai phá dữ liệu. Luận án Tiến sỹ (Phiên bản gửi Phản biện độc lập), Trường ĐHCN, ĐHQGHN, 2021	Khác
[4] Nguyễn Mậu Đức Huy. Kỹ thuật tập thô dựa trên phủ giải quyết vấn đề khởi đầu nguội và ứng dụng. Khóa luận tốt nghiệp, Trường ĐHCN, ĐHQGHN.Tiếng Anh	Khác
[5] Thanh-Huyen Pham, Thi-Cam-Van Nguyen, Thi-Hong Vuong, Thuan Ho, Quang- Thuy Ha, Tri-Thanh Nguyen. A Definition of Covering Based Decision Table and Its Sample Applications. ICISA2020, pp. 175-187	Khác
[6] Thanh-Huyen Pham, Thi-Ngan Pham, Thuan Ho, Thi-Hong Vuong, Tri-Thanh Nguyen, Quang-Thuy Ha. Solving Reduction Problems in Cover Lattice Based Decision Tables. ACIIDS (Companion) 2021: 55-64	Khác
[7] Zhipeng Zhang, Yasuo Kudo, Tetsuya Murai. Neighbor selection for user-based collaborative filtering using covering-based rough sets. Ann. Oper. Res. 256(2):359-374, 2017	Khác
[8] Zhipeng Zhang, Yasuo Kudo, Tetsuya Murai, Yonggong Ren. Improved covering- based collaborative filtering for new users' personalized recommendations.Knowl. Inf. Syst. 62(8): 3133-3154, 2020	Khác