Mã giả giải thuật tối ưu heuristic của phương pháp MISVM

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh (Trang 33 - 39)

Nhìn chung, giải thuật tối ưu heuristic (Hình 2.7) gồm hai bước chính. Bước đầu tiên, từ các nhãn cho trước, ta sử dụng phương pháp SVM để tìm ra hàm phân tách tối ưu. Bước tiếp theo, từ hàm phân tách có được, ta cập nhật lại giá trị của nhãn cho một số hữu hạn các thể hiện (chỉ các thể hiện thuộc túi dương). Ngoài ra, còn có bước cập nhật giá trị nhãn cho các túi có một thể hiện. Có một lưu ý, việc khởi tạo giá trị các nhãn ở dòng 1 của giải thuật là cho các thể hiện của từng túi dương.

2.4. Một số độ đo đánh giá của học máy đa nhãn – đa thể hiện

Trong học máy giám sát truyền thống, mỗi đối tượng chỉ có duy nhất một nhãn lớp, độ chính xác thường được sử dụng như tiêu chí đánh giá hiệu năng của mô hình. Thông thường, độ chính xác được định nghĩa là tỷ lệ phần trăm của tập các ví dụ được phân lớp đúng. Tuy nhiên, khi phân lớp các đối tượng phức tạp (được gắn với nhiều lớp) thì độ chính xác trở nên ít có ý nghĩa hơn [17, 18]. Ví dụ, nếu phương pháp A thiếu một nhãn đúng, phương pháp B thiếu bốn nhãn đúng cho một tập dữ liệu kiểm tra có năm nhãn. Rõ ràng rằng, phương pháp A tốt hơn phương pháp B. Tuy nhiên, độ chính xác của cả phương pháp A và phương pháp B có thể giống nhau do cả hai phương pháp đều phân lớp sai tập dữ liệu kiểm tra. Ngoài các độ đo đánh giá precision, recall và fmeasure, năm độ đo đánh giá thường được sử dụng để đánh giá hiệu năng của các phương pháp học máy đa nhãn cũng được sử dụng cho phương pháp học máy đa nhãn – đa thể hiện. Năm tiêu chí đánh giá bao gồm: hamming loss (hay hloss), one-error, coverage, ranking loss (hay rloss) và average precision (hay avgprec). Ta có định nghĩa của năm tiêu chí trên như sau [17, 18]:

Giả sử ta có tập dữ liệu kiểm tra 𝑆 = {(𝑋1, 𝑌1), (𝑋2, 𝑌2), … , (𝑋𝑝, 𝑌𝑝)} của p dữ liệu kiểm tra, ℎ(𝑋𝑖) là tập các nhãn đúng của 𝑋𝑖, ℎ(𝑋𝑖, 𝑦) là giá trị thực cho thấy độ tin cậy của việc 𝑦 là nhãn đúng của 𝑋𝑖, 𝑟𝑎𝑛𝑘ℎ(𝑋𝑖, 𝑦) là thứ hạng của 𝑦 dựa trên ℎ(𝑋𝑖, 𝑦).

Độ đo hamming loss:

ℎ𝑙𝑜𝑠𝑠𝑆(ℎ) = 1

𝑝∑ 1

|𝑌||ℎ(𝑋𝑖)∆𝑌𝑖|

𝑝

𝑖=1 (2.20) Trong đó ∆ khoảng cách đối xứng giữa hai tập 𝑌̂𝑖 và 𝑌𝑖 (phép toán XOR logic). Độ đo hamming loss cho thấy số lần cặp đối tượng – nhãn bị gán sai ví dụ một nhãn đúng bị thiếu hay gán sai nhãn. Trường hợp lý tưởng khi ℎ𝑙𝑜𝑠𝑠𝑆(ℎ) = 0. Giá trị ℎ𝑙𝑜𝑠𝑠𝑆(ℎ) càng nhỏ thì hiệu năng càng cao.

Độ đo one-error:

𝑜𝑛𝑒 − 𝑒𝑟𝑟𝑜𝑟𝑆(ℎ) = 1

𝑝∑𝑝𝑖=1⟦[arg 𝑚𝑎𝑥𝑦∈𝑌ℎ(𝑋𝑖, 𝑦)] ∉ 𝑌𝑖⟧ (2.21) Độ đo one-error chỉ ra số lần các nhãn được xếp hạng đầu không phải là nhãn đúng của đối tượng. Trường hợp lý tưởng là 𝑜𝑛𝑒 − 𝑒𝑟𝑟𝑜𝑟𝑆(ℎ) = 0. Giá trị 𝑜𝑛𝑒 − 𝑒𝑟𝑟𝑜𝑟𝑆(ℎ) càng nhỏ thì hiệu năng càng cao.

Độ đo coverage:

𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒𝑆(ℎ) = 1

𝑝∑𝑝𝑖=1𝑚𝑎𝑥𝑦∈𝑌𝑖𝑟𝑎𝑛𝑘ℎ(𝑋𝑖, 𝑦)− 1 (2.22) Độ đo coverage đánh giá hiệu năng cho tất cả các nhãn của một mẫu. Độ đo coverage được định nghĩa như giá trị trung bình cho tất cả các nhãn đúng được gán cho một đối tượng. Giá trị 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒𝑆(ℎ) càng nhỏ thì hiệu năng càng cao.

Độ đo ranking loss:

𝑟𝑙𝑜𝑠𝑠𝑆(ℎ) = 1 𝑝∑ 1 |𝑌𝑖||𝑌̅ |𝑖 𝑝 𝑖=1 |{(𝑦1, 𝑦2)|ℎ(𝑋𝑖, 𝑦1) ≤ ℎ(𝑋𝑖, 𝑦2), (𝑦1, 𝑦2) ∈ 𝑌𝑖 × 𝑌̅}}| (2.23) 𝑖 Trong đó 𝑌̅𝑖 là phần bù cho tập 𝑌𝑖 trong 𝑌. Độ đo ranking loss là trung bình phân số của các cặp nhãn bị sắp xếp thiếu của một đối tượng. Trường hợp lý tưởng khi 𝑟𝑙𝑜𝑠𝑠𝑆(ℎ) = 0. Giá trị 𝑟𝑙𝑜𝑠𝑠𝑆(ℎ) càng nhỏ thì hiệu năng càng cao.

Độ đo average precision:

𝑎𝑣𝑔𝑝𝑟𝑒𝑐𝑆(ℎ) = 1 𝑝∑ 1 |𝑌𝑖| 𝑝 𝑖=1 ∑ |{𝑦′|𝑟𝑎𝑛𝑘ℎ(𝑋𝑖,𝑦′)≤𝑟𝑎𝑛𝑘ℎ(𝑋𝑖,𝑦),𝑦′∈𝑌𝑖}| 𝑟𝑎𝑛𝑘ℎ(𝑋𝑖,𝑦) 𝑦∈𝑌𝑖 (2.24)

Độ đo average precision là trung bình phân số của các nhãn đúng được xếp hạng trên một nhãn cụ thể 𝑦 ∈ 𝑌. Trường hợp lý tưởng khi 𝑎𝑣𝑔𝑝𝑟𝑒𝑐𝑆(ℎ) = 1. Giá trị của 𝑎𝑣𝑔𝑝𝑟𝑒𝑐𝑆(ℎ) càng cao thì hiệu năng càng cao.

Ngoài năm độ đo trên, Zhi-Hua Zhou và Min-Ling Zhang [17, 18] còn đề xuất hai độ đo mới để đánh giá đó là average recall (hay avgrecl) và average F1 (hay avgF1).

Độ đo average recall:

𝑎𝑣𝑔𝑟𝑒𝑐𝑙𝑆(ℎ) = 1

𝑝∑ |{𝑦|𝑟𝑎𝑛𝑘ℎ(𝑋𝑖,𝑦)≤|ℎ(𝑋𝑖)|,𝑦∈𝑌𝑖}| |𝑌𝑖|

𝑝

1 (2.25)

Độ đo average recall đánh giá trung bình phân số của các nhãn đúng được xếp hạng trên một nhãn cụ thể 𝑦 ∈ 𝑌. Trường hợp lý tưởng khi 𝑎𝑣𝑔𝑟𝑒𝑐𝑙𝑆(ℎ) = 1. Giá trị 𝑎𝑣𝑔𝑟𝑒𝑐𝑙𝑆(ℎ) càng cao thì hiệu năng càng cao.

Độ đo average F1:

𝑎𝑣𝑔𝐹1𝑆(ℎ) = 2×𝑎𝑣𝑔𝑝𝑟𝑒𝑐𝑆(ℎ)×𝑎𝑣𝑔𝑟𝑒𝑐𝑙𝑆(ℎ)

Độ đo average F1 thể hiện sự cân bằng giữa độ đo average precision và độ đo average recall. Trường hợp lý tưởng khi 𝑎𝑣𝑔𝐹1𝑆(ℎ) = 1. Giá trị của 𝑎𝑣𝑔𝐹1𝑆(ℎ) càng cao thì hiệu năng càng cao.

2.5. Kết luận

Trong chương hai, luận văn đã trình bày về các hướng giải pháp giải quyết bài toán học máy đa nhãn – đa thể hiện. Tiếp đó, luận văn đã trình bày về các phương pháp học máy đa thể hiện như DD [9], EM-DD [11] và MISVM [3]. Ngoài ra, luận văn cũng giới thiệu một số độ đo đánh giá của học máy đa nhãn – đa thể hiện.

Trong chương tiếp theo, luận văn sẽ trình bày đề xuất tích hợp các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] vào học máy MIML để ứng dụng cho bài toán gán nhãn vùng ảnh.

CHƯƠNG 3. ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH

3.1. Phương pháp đề xuất

3.1.1. Giới thiệu

Trên cơ sở hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện lấy học máy đa thể hiện làm cầu nối, luận văn đề xuất tích hợp các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] đã trình bày ở Chương hai vào học máy MIML thành các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML-EMDD, MIML-MISVM. Ngoài ra, luận văn đề xuất bổ sung một số thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn.

Tuy hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện lấy học máy đa thể hiện làm cầu nối đã được thực hiện trước đây [17, 18]. Việc tích hợp các phương pháp học máy đa thể hiện DD, EM-DD, MISVM vào học máy MIML và ứng dụng trong bài toán gán nhãn vùng ảnh là hoàn toàn mới.

Luận văn tiến hành thực nghiệm, so sánh việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD và MISVM vào học máy MIML để giải quyết không chỉ bài toán gán nhãn vùng ảnh mà còn cả bài toán gán nhãn cấp độ hình ảnh.

3.1.2. Nội dung phương pháp đề xuất

Hình 3.1 là mô hình của phương pháp đề xuất. Đầu tiên, từ tập dữ liệu MIML ta thực hiện chuyển đổi thành tập dữ liệu đa thể hiện. Với mỗi ví dụ MIML (𝑋𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚), ta chuyển đổi thành một tập gồm |𝑌| túi đa thể hiện [17, 18]:

{[(𝑋𝑢, 𝑦1), Ψ(𝑋𝑢, 𝑦1) ], [(𝑋𝑢, 𝑦2), Ψ(𝑋𝑢, 𝑦2) ], … , [(𝑋𝑢, 𝑦|𝑌|), Ψ(𝑋𝑢, 𝑦|𝑌|) ]} Trong đó [(𝑋𝑢, 𝑦𝑣), Ψ(𝑋𝑢, 𝑦𝑣)] (𝑣 = 1,2, … , |𝑌|) là các túi đa thể hiện đã được gán nhãn. Ψ(𝑋𝑢, 𝑦𝑣) ∈ {0,1} là nhãn của túi (𝑋𝑢, 𝑦𝑣), (𝑋𝑢, 𝑦𝑣) là một túi chứa 𝑛𝑢 thể hiện: {(𝑥𝑢1, 𝑦𝑣), (𝑥𝑢1, 𝑦𝑣), … , (𝑥𝑢,𝑛𝑢, 𝑦𝑣)}. Ψ(𝑋𝑢, 𝑦) = 1 nếu 𝑦 ∈ 𝑌𝑢 và Ψ(𝑋𝑢, 𝑦) = 0 nếu 𝑦 ∉ 𝑌𝑢.

Vì vậy, tập dữ liệu MIML ban đầu đã được chuyển thành tập dữ liệu đa thể hiện 𝐷𝑀𝐼 chứa 𝑚 × |𝑌| túi thể hiện. Ta sắp xếp danh sách các túi trong tập dữ liệu 𝐷𝑀𝐼 theo thứ tự:

[(𝑋2, 𝑦|𝑌|), Ψ(𝑋2, 𝑦|𝑌|) ], … , [(𝑋𝑚, 𝑦1), Ψ(𝑋𝑚, 𝑦1) ], … , [(𝑋𝑚, 𝑦|𝑌|), Ψ(𝑋𝑚, 𝑦|𝑌|) ]

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh (Trang 33 - 39)

Tải bản đầy đủ (PDF)

(50 trang)