MỞ ĐẦU Luận án tập trung nghiên cứu, phân tích các mô hình tập thô phủ, tập thô mờ bức tranh và phát triển một số mô hình giải quyết vấn đề và áp dụng các mô hình này vào một số bài toán
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-
PHẠM THANH HUYỀN
PHÁT TRIỂN MÔ HÌNH TẬP THÔ PHỦ, TẬP THÔ MỜ VÀ
ÁP DỤNG TẬP THÔ VÀO KHAI PHÁ DỮ LIỆU
Chuyên ngành Hệ thống thống tin
Mã số 9480104.01
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI – 2022
Trang 2Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Người hướng dẫn khoa học:
1 PGS.TS Hồ Thuần
2 PGS.TS Nguyễn Trí Thành
Phản biện: PGS TS Phạm Văn Cường, Học viện Công nghệ Bưu chính Viễn thông Phản biện: PGS TS Đỗ Văn Thành, Trường Đại học Nguyễn Tất Thảnh Phản biện: PGS TS Đỗ Trung Tuấn, Trường Đại học Khoa học tự nhiên, Đại học Quốc Gia Hà Nội Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại
vào hồi 9giờ00 ngày 21 tháng 5 năm 2022
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Trung tâm Thông tin – Thư viện, Đại học Quốc gia Hà Nội
Trang 3MỞ ĐẦU
Luận án tập trung nghiên cứu, phân tích các mô hình tập thô phủ, tập thô mờ bức tranh và phát triển một số mô hình giải quyết vấn đề và
áp dụng các mô hình này vào một số bài toán ứng dụng
Mục tiêu nghiên cứu của luận án là phát triển i) các mô hình
quyết định phủ mới (bảng quyết định phủ, bảng quyết định dàn phủ),
và ứng dụng vào một số bài toán ; ii) các khía cạnh bổ sung cho tập mờ bức tranh và các mô hình ứng dụng tập thô mờ bức tranh
Đối tượng nghiên cứu của luận án là phương pháp mở rộng tập
thô phủ, tập thô mờ bức tranh và các mô hình, kỹ thuật khai phá dữ liệu dựa vào lý thuyết tập thô (tập thô phủ và tập thô mờ bức tranh)
Phạm vi nghiên cứu của luận án được giới hạn ở các phương pháp
lý thuyết tập thô phủ, tập thô mờ bức tranh từ hệ thống thông tin đầy đủ
và các ứng dụng dựa trên hai kiểu tập thô mở rộng này
Phương pháp nghiên cứu của luận án là phương phát kết hợp
nghiên cứu định tính đề xuất các mô hình mới trong tập thô phủ, tập thô
mờ bức tranh và nghiên cứu định lượng bằng thực nghiệm để kiểm chứng đánh giá các đề xuất của luận án
Luận án có ba đóng góp chính: i) đề xuất bảng quyết định phủ,
thuật toán và mô hình phân lớp đa nhãn CML-kNN khai thác phụ thuộc nhãn dựa trên bảng quyết định phủ [PTH6], đề xuất thuật toán phân lớp
đa nhãn bán giám sát MULTICS2 khai thác phụ thuộc nhãn từ ma trận quan hệ nhãn-nhãn [PTH1] và thuật toán rút gọn đặc trưng FRR-RED dựa trên tập thô – mờ cho phân lớp đa nhãn [PTH2] ; ii) đề xuất bảng quyết định dàn phủ, thuật toán rút gọn dàn điều kiện Reduct_Finding, thuật toán thích nghi dàn quyết định Fitting_Finding và thuật toán phân lớp đa nhãn CLML dựa trên bảng quyết định dàn phủ [PTH4, PTH5] iii), đề xuất quy tắc suy diễn hợp thành tập mờ bức tranh PFL-CRI [PTH3], định nghĩa HTTT bội và HTTT mờ bức tranh, quy trình hình thành HTTT mờ bức tranh, không gian xấp xỉ mờ bức tranh từ một HTTT bội, mô hình giải pháp đánh giá và xếp hạng ứng viên tuyển dụng
sử dụng quy trình hình thành HTTT mờ bức tranh từ một HTTT bội
Trang 4CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ TẬP THÔ, TẬP THÔ PHỦ, TẬP THÔ MỜ VÀ ỨNG DỤNG
Chương này luận án trình bày các kiến thức sơ bản về tập thô, tập thô phủ, tập thô-mờ và ứng dụng lý thuyết tập thô vào khai phá dữ liệu
1.1 Tập thô truyền thống
Mục này trình bày định nghĩa hệ thống thông tin S=<U, A, V, >, quan
hệ không phân biệt được, tập xấp xỉ và miền dương, độ chính xác xấp
xỉ, không gian xấp xỉ 𝑅𝑋, 𝑅𝑋 và bảng quyết định
1.2 T ẬP THÔ PHỦ
Mục này giới thiệu về các kiến thức cơ bản về phủ và không gian xấp
xỉ phủ, mô tả tối thiểu, quan hệ tương đương theo phủ làm nền tảng mở rộng, phát triển thành các dàn phủ và ứng dụng dàn phủ trong khai phá
dữ liệu
1.3 T ẬP THÔ MỜ
Mục này giới thiệu tập mờ - thô, tập thô - mờ, tập mờ bức tranh, các dạng t - chuẩn, t - đối chuẩn, quan hệ tương tự, không gian xấp xỉ mờ,
các phép toán kéo theo, quan hệ tương tự mờ
1.4 Á P DỤNG LÝ THUYẾT TẬP THÔ VÀO HỌC MÁY VÀ KHAI PHÁ DỮ LIỆU
1.4.1 Một khung chung về áp dụng lý thuyết tập thô
Qua khảo sát, luận án đề nghị một khung khái quát cho thấy tập thô được áp dụng trong cả ba loại hình học máy (giám sát, không giám sát
và bán giám sát), được áp dụng trực tiếp vào tiền xử lý dữ liệu (lựa chọn đặc trưng, lựa chọn mẫu, v.v.), được áp dụng trực tiếp vào khai phá mẫu hấp dẫn từ dữ liệu hoặc được áp dụng gián tiếp bằng cách kết hợp và cải thiện các phương pháp khai phá dữ liệu hiện có (phân lớp, hồi quy, mạng nơ-ron (bao gồm học sâu), phân cụm, ánh xạ tự tổ chức SOM, hệ
tư vấn, v.v.)
1.4.2 Một số áp dụng lý thuyết tập thô điển hình
Rút gọn thuộc tính và suy luận luật là hai áp dụng điển hình của lý thuyết tập thô vào khai phá dữ liệu, đồng thời, phân lớp dữ liệu và lọc cộng tác trong hệ tư vấn cũng được công đồng nghiên cứu quan tâm Luận án cũng chỉ ra đóng góp của các thuật toán do luận án đề xuất trong khung áp dụng lý thuyết tập thô
Trang 5CHƯƠNG 2 BẢNG QUYẾT ĐỊNH PHỦ VÀ ÁP DỤNG TRONG PHÂN LỚP ĐA NHÃN
Chương này trình bày đề xuất của luận án về bảng quyết định phủ, bảng quyết định dàn phủ và một số thuật toán liên quan Kết quả nghiên cứu của chương này đã được công bố [PTH4, PTH5, PTH6]
2.1 Á P DỤNG TẬP THÔ PHỦ VÀO BÀI TOÁN QUYẾT ĐỊNH
2.1.1 Hệ thống quyết định phủ
Dựa trên hệ thống quyết định phủ 𝑆 = (𝑈, ∪ 𝐷), mục này giới thiệu
các khái niệm Phủ cảm sinh của một phủ, Phủ cảm sinh của một họ các phủ, Hệ thống quyết định phủ, Miền -dương của thuộc tính quyết định 𝐷trong hệ thống quyết định phủ, Hệ thống quyết định phủ nhất quán và không nhất quán và một số kết quả liên quan
2.1.2 Hệ thống quyết định phủ mờ
Dựa trên nghiên cứu của C Yan và H Zhang, của J Zhan và B Sun,
mục này giới thiệu các khái niệm Tập mờ Pi-ta-go, -phủ PF và không gian xấp xỉ -phủ PF và một số kết quả liên quan
2.1.3 Sử dụng xấp xỉ phủ trong bảng quyết định truyền thống
Mục này giới thiệu một số nghiên cứu khai thác lợi thế của tập thô phủ vào bảng quyết định tập thô truyền thống
2.1.4 Nhận xét
Luận án chỉ ra ba hướng nghiên cứu trên chưa đề cập tới áp dụng trực tiếp tập thô phủ vào thuật toán phân lớp đã nhãn Nêu ý tưởng thành phần quyết định là phủ quyết định để khai thác sự phụ thuộc nhãn
2.2 PHÂN LỚP ĐA NHÃN SỬ DỤNG MA TRẬN NHÃN – NHÃN
VÀ RÚT GỌN ĐẶC TRƯNG DỰA TRÊN TẬP THÔ
2.2.1 Mô hình phân lớp đa nhãn bán giám sát MULTICS2 sử dụng ma trận nhãn-nhãn
MULTICS2 là cải tiến từ MULTICS (P.T Ngan và cộng sự, 2017) ở
Trang 6Procedure MULTICSLearn1 (𝑫 𝑳 , 𝑫 𝑼 , 𝑳 𝟏 , 𝑳 𝟐 , 𝑪)
Đầu vào: Tập dữ liệu có nhãn hiện thời 𝐷𝐿 , tập dữ liệu không nhãn hiện thời 𝐷 𝑈 , tập nhãn ngầm định sẵn trong 𝐷 𝐿 là 𝐿 1 Khi khởi động, 𝐿 1 rỗng, tập nhãn khả năng hiện thời
𝐿 2 = 𝐿\𝐿 1
Đầu ra: Một tập toàn bộ các cụm dữ liệu đã có nhãn 𝐶 Khi khởi động, 𝐶 rỗng, 𝐶 sẽ được
cập nhất trong mỗi lần lặp gọi MULTICSLearn1
Phương pháp:
𝐷 𝐷 𝐿 + 𝐷 𝑈 ;
Bước 1 Xác định nhãn ảnh hưởng lớn nhất
1 Xây dựng ma trận nhãn-tài liệu 𝐿𝐷 có 𝐾 dòng và 𝑁 cột, trong đó 𝐾 = |𝐿2|, 𝑁 =
|𝐷| và 𝐿𝐷[𝑖, 𝑗] = 1 nếu tài liệu thứ 𝑗 trong 𝐷 có nhãn thứ 𝑖 trong 𝐿 2 , ngược lại 𝐿𝐷 [𝑖, 𝑗] = 0;
2 Xây dựng ma trận tài liệu-đặc trưng 𝐷𝐹 có 𝑁 dòng và 𝑀 cột, trong đó 𝐷𝐹[𝑖, 𝑗] là giá trị của đặc trưng thứ 𝑗 trong biểu diễn dữ liệu của tài liệu thứ 𝑖 trong 𝐷;
3 Tính toán ma trận nhãn - đặc trưng 𝐿𝐹: 𝐿𝐹𝐿𝐷𝐷𝐹;
4 Tính toán ma trận nhãn - nhãn 𝐿𝐿: 𝐿𝐿𝐿𝐹𝐿𝐹 𝑇 ;
5 Xây dựng mạng xã hội có trọng số 𝑊𝑁 = (𝑉, 𝐸, 𝑊), trong đó 𝑉 là 𝐿 2 , 𝐸 là 𝐿 2 𝐿 2
và 𝑊[𝑖, 𝑗] là tích vô hướng của dòng thứ 𝑖 với dòng thứ 𝑗 của ma trận 𝐿𝐿 Xác định nhãn ảnh hưởng nhất là nhãn có độ lớn nhất trong mạng xã hội 𝑊𝑁 (nếu có nhiều hơn độ lớn nhất thì chọn cái đầu tiên)
Bước 2 Chuyển bài toán phân lớp đa nhãn thành bài toán phân lớp đơn nhãn và
áp dụng thuật toán TESC
9 Call TESC (𝐷, { 1 , 2 , 3 }, C TESC )
Bước 3 Bổ sung các cụm kết quả cục bộ vào tập các cụm toàn cục và gọi đệ quy
Trang 7else call MULTICSLearn1(D2 D L , D2 D U , L1 {}, L2 \ {}, C);
12 C3 {c CTESC | 𝑙𝑎𝑏𝑒𝑙(c) = 3}; D3 {dD| cC3: dc};
if ((𝑑 1 , 𝑑 2 ) 𝐷𝐿 3 𝐷𝐿 3 : 𝑙𝑎𝑏𝑒𝑙(𝑑 1 )=𝑙𝑎𝑏𝑒𝑙(𝑑 2)=) then
begin 𝑐𝐶 3 : 𝑙𝑎𝑏𝑒𝑙(𝑐) ;𝑑𝐷 3 , 𝑙𝑎𝑏𝑒𝑙(𝑑);𝐶 ← 𝐶𝐶 3 end else call MULTICSLearn1 (𝐷 3 𝐷 𝐿 , 𝐷 3 𝐷 𝑈 , 𝐿 1 , 𝐿 2 \ {}, C)
Procedure MULTICSClassify2 (𝑪, 𝒅)
Đầu vào: 𝐶: tập toàn bộ các cụm là kết quả gọi thủ tục MULTICSClassify2,
𝐶 = {𝑐: 𝑙𝑎𝑏𝑒𝑙(𝑐), 𝑐𝐶, 𝑑𝑐: 𝑙𝑎𝑏𝑒𝑙(𝑑) = 𝑙𝑎𝑏𝑒𝑙(𝑐)}, tài liệu mới cần được gán nhãn 𝑑
Đầu ra: Tập nhãn 𝐿 được gán cho tài liệu d
Bảng 2.1 Đặc điểm của hai tập dữ liệu thực nghiệm Hotel1 và Enron1)
Tập 𝑆 |S| Dim(S) L(S) F(S) LCard(S) LDen(S) DL(S) PDL(S)
𝐸𝑛𝑟𝑜𝑛1 520 1000 53 text 3.658 0.070 323 0.621
𝐻𝑜𝑡𝑒𝑙1 520 1266 5 text 1.250 0.250 24 0.046
Từ một tập dữ liệu, luận án xây dựng 16 tập dữ liệu huấn luyện 𝐷𝐿𝑒𝑎𝑟𝑛 Tập dữ liệu kiểm thử 𝐷𝑡𝑒𝑠𝑡 gồm 300 dữ liệu trong phần còn lại và không thay đổi trong toàn bộ quá trình thực nghiệm
Triển khai theo hai phương pháp tìm nhãn có ảnh hưởng nhất: sử dụng quan hệ nhãn - tài liệu LD và phương pháp đề xuất LF Tổng cộng, có
144 trường hợp thực nghiệm được tiến hành
Ba độ đo hiệu năng dựa trên nhãn là F1_Micro, AUC_Macro và AUC_Micro) được sử dụng
Luận án tiến hành so sánh các MULTICS2 và MULTICS theo
AUC_Macro và AUC_Micro; so sánh MULTICS2 với một vài thuật
toán phân lớp đa nhãn phổ biến
Bảng 2.2 Kết quả thực nghiệm trên tập dữ liệu Enron1 (SN: số lượng dữ
Trang 8Luận án đưa ra một biến thể nhỏ với việc sử dụng quan hệ tập thô mờ
để rút gọn số lượng đặc trưng biểu diễn dữ liệu Thuật toán FRR_RED được đề xuất nhằm cải thiện phân lớp đa nhãn LIFT (FRR_MLL)
Thuật toán rút gọn đặc trưng riêng theo quan hệ thô mờ
Trang 9Thuật toán FRR-RED
Đầu vào: Tập hữu hạn n mẫu 𝑈, tập các đặc trưng điều kiện 𝐶, tập các đặc trưng quyết
định 𝐷, Ngưỡng 𝜀 để kiểm soát sự thay đổi của chất lượng xấp xỉ 𝑈 = {𝑢1, … , 𝑢 𝑛 }, 𝐶 = {𝑎 1 , 𝑎 𝑚 }, 𝐷 = {𝑑 1 , … 𝑑 𝑙 };
Đầu ra: Tập rút gọn đặc trưng B
Thuật toán phân lớp đa nhãn FRR-MLL
Luận án đề nghị một thuật toán phân lớp đa nhãn FRR-MLL là tích hợp FRR-RED vào FRS-LIFT như trình bày dưới đây
Thuật toán FRR-MLL
Đầu vào: Tập huấn luyện đa nhãn 𝒯, tham số tỉ lệ 𝓇 để kiểm soát số lượng các cụm,
ngưỡng 𝜀 để kiếm soát sự thay đổi của chất lượng xấp xỉ Cho một mẫu chưa được gắn
nhãn 𝑢′
Đầu ra: Tập nhãn dự đoán 𝑌′
Phương pháp:
1: for k = 1 to q do
2: Tạo tập mẫu dương 𝒫 𝑘 và tập mẫu âm 𝒩 𝑘 dựa vào 𝒯
3: Thực hiện phân cụm theo phương pháp k-means trên 𝒫𝑘 và 𝒩𝑘, với mỗi tập đều có 𝑚 𝑘 cụm
4: ∀(𝑥𝑖, 𝑌𝑖) ∈ 𝒯, Tạo một ánh xạ 𝜑 𝑘 (𝑥 𝑖 ), một không gian đặc trưng nhãn riêng gốc được hình thành 𝐿𝐼𝐹𝑇 𝑘 cho nhãn 𝑙 𝑘 ;
5: Thực hiện tìm tập đặc trưng rút gọn quyết định B bằng thuật toán rút gọn FRR-RED;
Trang 106: Với B, hình thành không gian đặc trưng nhãn riêng có số chiều được rút gọn FRR-MLL k cho nhãn l k (tức là thu được ánh xạ 𝜑′𝑘(𝑢 𝑖 ));
7: end for
8: for k = 1 to q do
9: Xây dựng tập huấn luyện nhị phân 𝒯 𝑘∗ trong 𝜑 𝑘′(𝑢 𝑖)
10: Tạo ra mô hình phân lớp 𝑓𝑘: 𝐹𝑅𝑅-𝑀𝐿𝐿𝑘→ ℝ bằng việc tạo ra bộ học nhị phân bất kỳ trên 𝒯 𝑘∗;
11 end for
12 Tập lớp dự đoán: Y = {𝑙𝑘 | 𝑓(𝜑 𝑘′(𝑢 𝑖))> 0, 1 ≤ k ≤ q}
Kết quả tính toán độ phức tạp tính toán về thời gian của FRR-MLL thấp hơn so sánh với LIFT và FRS-LIFT Độ phức tạp về thời gian của FRS-LIFT như sau: 𝒪(𝑚𝑘(𝑡1|𝑃𝑘| + 𝑡2|𝑁𝑘|) + 2𝑚𝑘|𝒯| + 2𝑡3|𝒯| +4𝑚𝑘|𝒯|2) Và độ phức tạp về thời gian của FRR-MLL là 𝒪(𝑚𝑘(𝑡1|𝑃𝑘| + 𝑡2|𝑁𝑘|) + 2𝑚𝑘|𝒯| + 4|𝒯|𝑚𝑘), với 𝑡1, 𝑡2, 𝑡3 lần lượt là các tương tác của k-mean trên 𝑃𝑘, 𝑁𝑘 và |𝒯|
Ví dụ 2.1 Bảng quyết định phủ cho bài toán phân lớp đa nhãn Cho tập
n thể hiện dữ liệu đa nhãn 𝑈 = {𝑢1, 𝑢2, … , 𝑢𝑛} với tập m đặc trưng 𝐹 ={𝑓1, 𝑓2, … , 𝑓𝑚} có giá trị nhị phân {0, 1}, tập k nhãn 𝐿 = {𝑙1, 𝑙2, … , 𝑙𝑘} Khi
đó, một bảng quyết định phủ 𝐶𝐷𝑇 =< 𝑈, 𝐶𝐶, 𝐷𝐶 > với phủ điều kiện 𝐶𝐶
và phủ quyết định 𝐷𝐶 tương ứng được xác định như sau:
𝐶𝐶 = {𝐹𝐶1, 𝐹𝐶2, … , 𝐹𝐶𝑚} và 𝐷𝐶 = {𝐿𝐶1, 𝐿𝐶2, … , 𝐿𝐶𝑘} (2.2), (2.3) trong đó, 𝐹𝐶𝑖= {𝑢 ∈ 𝑈|𝑢(𝑓𝑖) = 1}, 𝐿𝐶𝑖= {𝑢 ∈ 𝑈|𝑙𝑖(𝑢) = 1} (2.4), (2.5)
𝑙𝑖(𝑢) = 1 chỉ dẫn 𝑙𝑖 là một nhãn thuộc tập nhãn 𝑙(𝑢) của thể hiện 𝑢
2 Khi tập giá trị của một đặc trưng 𝑓𝑖 là liên tục, có thể sử dụng phương pháp phân thùng (binning) hoặc mờ hóa để chuyển đặc trưng 𝑓𝑖 thành một tập hữu hạn các đặc trưng nhị phân
Trang 11Mô tả tối thiểu của thể hiện 𝑢 theo phủ điều kiện là:
𝑀𝑑 𝐶𝐶 (𝑢) = {𝐶𝐶 𝑖 ∈ 𝐶𝐶|𝑢 ∈ 𝐶𝐶 𝑖 ∧ (∀𝑆 ∈ 𝐶𝐶 ∧ 𝑢 ∈ 𝑆 ∧ 𝑆 ⊆ 𝐶𝐶 𝑖 ⟹ 𝐶𝐶 𝑖 = 𝑆)}
và theo phủ quyết định là:
𝑀𝑑𝐷𝐶(𝑢) = {𝐷𝐶 𝑖 ∈ 𝐷𝐶|𝑢 ∈ 𝐷𝐶𝑖∧ (∀𝑆 ∈ 𝐷𝐶 ∧ 𝑢 ∈ 𝑆 ∧ 𝑆 ⊆ 𝐷𝐶𝑖⟹ 𝐷𝐶𝑖= 𝑆)} Láng giềng gần của 𝑢 theo phủ điều kiện và phủ quyết định lần lượt:
𝑁 𝐶𝐶 (𝑢) =∩ {𝐶𝐶 𝑖 ∈ 𝐶𝐶|𝑢 ∈ 𝐶𝐶 𝑖 } = ⋂ 𝐶𝐶𝑖∈𝑀𝑑𝐶𝐶(𝑢) 𝐶𝐶 𝑖
𝑁 𝐷𝐶 (𝑢) =∩ {𝐷𝐶 𝑖 ∈ 𝐷𝐶|𝑢 ∈ 𝐷𝐶 𝑖 } = ⋂ 𝐷𝐶𝑖∈𝑀𝑑𝐷𝐶(𝑢) 𝐷𝐶 𝑖
Như đã được đề cập tại Định nghĩa 2.1, phủ cảm sinh của phủ điều kiện
và phủ cảm sinh của phủ quyết định là
𝐶𝑜𝑣(𝐶𝐶) = {𝑁𝐶𝐶(𝑢) |𝑢 𝜖 𝑈},𝐶𝑜𝑣(𝐷𝐶) = {𝑁 𝐷𝐶 (𝑢) |𝑢 𝜖 𝑈}
2.3.3 Thuật toán phân lớp đa nhãn sử dụng bảng quyết định phủ
CDTML -KNN
Luận án đề xuất thuật toán phân lớp đa nhãn dựa trên bảng quyết định
phủ CDTML-KNN (Cover decision table based Multi-label
Learning-KNN) được phát triển từ thuật toán phân lớp ML-KNN
Thuật toán CDTML-KNN_learner;
Đầu vào: Tập dữ liệu 𝐷𝑙𝑒𝑎𝑟𝑛= {(𝑢1, 𝐿𝑢1), (𝑢2, 𝐿𝑢2), … , (𝑢𝑚, 𝐿𝑢𝑚)}, trong đó
𝑈 𝑙𝑒𝑎𝑟𝑛 = {𝑢 1 , 𝑢 2 , … , 𝑢 𝑚 } với tập đặc trưng nhị phân; 𝐿 𝑢𝑖là tập nhãn của đối tượng
𝑢𝑖; ∀𝑢𝑖∈ 𝐷𝑙𝑒𝑎𝑟𝑛lập véc-tơ |𝐿| chiều 𝑦⃗𝑢𝑖:
Đầu ra: Mô hình phân lớp
𝐶𝑀𝐿 = {(𝑃(𝐻 1𝑙), 𝑃(𝐻 0𝑙), 𝑃(𝐸 𝑗𝑙|𝐻 1𝑙), 𝑃(𝐸 𝑗𝑙|𝐻 0𝑙)) , 𝑙 ∈ 𝐿, 𝑗 = {0, 1, … , 𝐾}} trong đó (𝑃(𝐻 1𝑙), 𝑃(𝐻 0𝑙)) , 𝑙 ∈ 𝐿 là các xác suất tiên nghiệm và (𝑃(𝐸𝑗𝑙 |𝐻1𝑙 ), 𝑃(𝐸𝑗𝑙 |𝐻0𝑙 ), 𝑙 ∈ 𝐿, 𝑗 = {0, 1, … , 𝐾}) là các xác suất hậu nghiệm như được
mô tả trong thuật toán M L - KNN
Nội dung
// Sử dụng M L - KNN T ÍNH CÁC XÁC SUẤT TIÊN NGHIỆM
// Tính các xác suất tiên nghiệm 𝑃(𝐻 𝑏𝑙) (𝑙 ∈ 𝐿, 𝑏 ∈ {0,1})
// Xác định lân cận theo bảng quyết định phủ cho ∀𝑢 ∈ 𝑈𝑙𝑒𝑎𝑟𝑛
3 Xây dựng bảng quyết định phủ 𝐶𝐷𝑇 = < 𝑈 𝑙𝑒𝑎𝑟𝑛 , 𝐶𝐶, 𝐷𝐶 > trên tập dữ liệu
Trang 12Thuật toán CDTML-KNN_classifier;
Đầu vào: CDTML − KNN_learner {(𝑃(𝐻1𝑙 ), 𝑃(𝐸𝑗𝑙 |𝐻1𝑙 ), 𝑃(𝐸𝑗𝑙 |𝐻0𝑙 )) , 𝑙 ∈ 𝐿, 𝑗 = {0, 1, … , 𝐾}} ; Một thể hiện 𝑣 chưa có nhãn; 𝛼 > 0 rất nhỏ làm ngưỡng quyết định nhãn
Đầu ra: 𝑙𝑣⊆ 𝐿 là tập nhãn cần tìm cho thể hiện 𝑣; vectơ hạng các nhãn 𝑟⃗𝑣 của thể hiện 𝑣 có ý nghĩa như trong thuật toán ML-KNN
Nội dung
// Tìm 𝑁(𝑣) gồm 𝐾 phần tử 𝑢 ∈ 𝑈 𝑙𝑒𝑎𝑟𝑛 gần 𝑣 nhất; 𝑚: độ tương tự dữ liệu; tính xác suất hậu nghiệm liên quan
Thuật toán CDTML-KNN_learner và CDTML-KNN_classifier đáp
ứng yêu cầu tính toán và thời gian thực hiện ngoại tuyến có độ phức tạp tuyến tính theo kích thước của tập 𝑈𝑙𝑒𝑎𝑟𝑛 và số lượng lân cận 𝐾
2.3.4 Mô hình phân lớp đa nhãn dựa trên bảng quyết định phủ CDTML-KNN
Hình 2.1 mô tả các bước thực hiện chính trong mô hình phân lớp đa
nhãn dựa trên thuật toán CDTML-KNN
Trang 132.4 Thực nghiệm mô hình phân lớp đa
nhãn CDTML-KNN
Bài toán thực nghiệm mô hình phân lớp đa
nhãn CDTML-KNN:
Đầu vào: Tập ví dụ đa nhãn được sử dụng để huấn
luyện và đánh giá mô hình
Đầu ra: Mô hình phân lớp đa nhãn dựa trên thuật
toán 𝐶𝐷𝑇𝑀𝐿 − 𝐾𝑁𝑁 từ tập ví dụ đa nhãn đầu vào
Tập giá trị đánh giá hiệu năng mô hình phân lớp đa
nhãn
Các tập dữ liệu thực nghiệm
Bảng 2.5 mô tả các tập dữ liệu thực nghiệm
và đặc trưng sau:
Bảng 2.5 Đặc trưng của ba tập dữ liệu thực nghiệm mô hình CDTML-KNN
𝑆 |S| Dim(S) L(S) F(S) LCard(S) LDen(S) DL(S) PDL(S)
𝐻𝑜𝑡𝑒𝑙 1524 1266 5 text 1.250 0.250 24 0.046 𝐸𝑛𝑟𝑜𝑛 1702 1000 53 text 3658 0.070 753 0.442
𝑀𝑒𝑑𝑖𝑐𝑎𝑙 978 1449 45 text 1245 0.028 94 0.096
Kịch bản thực nghiệm
Triển khai thực nghiệm theo hai mô hình phân lớp đa nhãn KNN và ML-KNN Đối với CDTML-KNN, ngoài CDTML-KNN_Learner lấy giao hai tập láng giềng phủ quyết định và điều kiện, còn bổ sung: (i) hợp hai tập láng giềng theo hai phủ, (ii) láng giềng theo phủ quyết định và (iii) láng giềng theo phủ điều kiện Bốn dạng đặc trưng biểu diễn dữ liệu được sử dụng là TFIDF và kết hợp TFIDF với chủ đề ẩn LDA (với ba phương án LDA10, LDA15 và LDA20)
Các độ đo đánh giá hiệu năng
Sử dụng thêm các độ đo trung bình dựa trên nhãn Recall (𝑅), Precision (𝑃), các độ đo dựa trên thể hiện Hamming Loss (𝐻𝐿), Zero-one loss (𝑍𝑂𝐿), Coverage (𝐶𝑉), Label ranking (𝐿𝑅), Average precision (𝐴𝑃), Accuracy (𝐶𝑅)
Bảng 2.6 Kết quả thực nghiệm thuật toán đề xuất cùng ba biến thể và ML-KNN trên tập dữ liệu 𝑬𝒏𝒓𝒐𝒏 theo các độ đo P, R và F1