Giai đoạn dự đốn của CC cho phiên bản kiểm tra x

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 30 - 37)

Phương pháp chuỗi này thơng qua thơng tin nhãn giữa các lớp, CC xem xét mối tương quan nhãn và từ đĩ khắc phục vấn đề độc lập nhãn của phương pháp phân lớp nhị phân (BM). Tuy nhiên, CC vẫn giữ được lợi thế của BM bao gồm cả bộ nhớ thấp và độ phức tạp về thời gian chạy.

Mặc dù trung bình |L|/2 đặc trưng được thêm vào mỗi trường hợp, vì |L| luơn được giới hạn trong thực tế, điều này ảnh hưởng khơng đáng kể đến độ phức tạp kể trên.

Tuy nhiên độ phức tạp tính tốn chuỗi phân lớp cĩ thể gần bằng với BM, tùy thuộc vào tổng số các nhãn và độ phức tạp tiềm ẩn của tài liệu học.

Độ phức tạp của BM được xác định là: O(|L| f(|X|,|D|)), trong đĩ f(|X|, |D|) là độ phức tạp của tài liệu học; Sử dụng các ký hiệu tương tự, độ phức tạp của CC là: O(|L| f(|X||L|,|D|)), tức là phát sinh thuộc tính bổ sung |L|.

Ngồi ra, mặc dù các thủ tục Training hàm ý rằng CC khơng thể thực hiện song song được, nĩ chỉ cĩ thể diễn ra tuần tự và do đĩ chỉ yêu cầu một bài tốn nhị phân trong bộ nhớ tại mọi thời điểm trong chuỗi thời gian – đấy là một lợi thế rõ ràng hơn các phương pháp khác.

Trình tự của chính các chuỗi rõ ràng đã ảnh hưởng đến độ chính xác. Mặc dù cịn tồn tại một số chẩn đốn cho phép lựa chọn thứ tự chuỗi cho CC, nhĩm tác giả sử dụng một khung đồng bộ với một chuỗi ngẫu nhiên khác nhau cho mỗi lần lặp. Vấn đề này sẽ được đề cập đến trong phần 2.4 của chương này.

2.4 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp cải tiến

Trong [DCH10]cho thấy:

Trong lĩnh vực phân lớp đa nhãn, thơng thường thì việc thực hiện tiên đốn tối ưu chỉ cĩ thể đạt được với các tài liệu học phụ thuộc nhãn một cách rõ ràng. Để thực hiện được điều này, nhĩm tác giả đã chính thức hĩa và phân tích MLC thơng qua chuỗi phân lớp xác suất. Vì vậy, cĩ thể xem xét vấn đề từ quan điểm của giảm thiểu rủi ro và dự đốn tối ưu Bayes. Hơn nữa, bằng cách thiết lập xác suất, nhĩm tác giả đề xuất một phương pháp mới cho MLC đĩ là khái quát và thực hiện tốt hơn so với phương pháp khác, được gọi là chuỗi phân lớp theo xác suất (Probabilistic Classifier Chains - PCC).

Nhĩm tác giả đề nghị một chương trình xác suấtđể xem xét vấn đề từ quan điểm giảm thiểu rủi ro và dự đốn tối ưu Bayes. Cụ thể, phân tích ba loại chức năng mất và dựa trên kết quả này để nâng cao phỏng đốn sau đây: Trong khi xem xét sự phụ thuộc nhãn cĩ điều kiện thực sự cĩ thể hữu ích cho các chức năng mất nhất định, thì những chức năng khác ít cĩ khả năng hưởng lợi [DCH10].

Bài tốn phân lớp đa nhãn đã được mơ tả chi tiết trong mục 1.1.2 của Chương 1.

Mơ hình phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp theo xác suất được chi tiết như sau:

Cho một phiên bản x, xác suất (cĩ điều kiện) của mỗi nhãn kết hợp

y=(y1,ym)Y cĩ thể được tính bằng cách sử dụng quy tắc tính sản phẩm của xác suất: ) 8 . 2 ( ) ,... | ( ). ( ) ( P 1 1 2 1     m i i i x x x y P y p y y y

Vì vậy, để đánh giá sự phân bố của các nhãn, phải coi m của hàm fi(.) trên khơng gian đầu vào tăng cường X {0,1}i-1, ta nĩiy ,…, y như các thuộc tính bổ sung:

Giả thiết rằng, hàm fi(.) được coi là một xác suất phân lớp cĩ xác suất dự đốn là y1=1 hoặc tối thiểu cũng phải xấp xỉ như thế. Do đĩ, cơng thức (2.8) trở thành: ) 10 . 2 ( ) ,... , ( ). ( ) ( P 1 1 2 1     m i i i x y f x f x y y

Với Px (và chức năng mất L(.) đã được giảm thiểu), một dự đốn tối ưu (2.11) sau đĩ cĩ thể được xuất phát một cách rõ ràng. Cách tiếp cận này được gọi là chuỗi phân lớp xác suất (PCC).

) 11 . 2 ( ) , ( min arg ) ( * x | L Y y h YX y   a) Nguồn gốc của PCC

PCC được bắt xuất phát từ chuỗi phân loại (CC) mà gần đây Read et al. (năm 2009) đề xuất là một siêu kỹ thuật cho MLC. Đặc biệt hơn là những gì CC đề cập đến là dựa trên ý tưởng phân lớp “chaining” (Xâu/chuỗi) mặc dù khơng cĩ bất kỳ liên quan nào đến lý thuyết xác suất [DCH10].

Phương pháp PCC hoạt động như sau:

Một phân lớp hi được huấn luyện cho mỗi nhãn tương tự như cách tính điểm của hàmfi(.) ở trên. Với một trương hợp mới x được phân lớp, mơ hình h1 dự đốn y1, nghĩa là độ thích hợp của λ1 đối với x. Sau đĩ h2 dự đốn độ thích hợp của λ2, x cùng với giá trị dự đốn y1  {0, 1} như một đầu vào.

Cứ tiếp tục như vậy, hi dự đốn yi sử dụng y1,…, yi-1 như đầu vào bổ sung thơng tin [DCH10].

Điều đáng nĩi ở đây là các chuỗi ban đầu cĩ thể được xem như một xấp xỉ được xác định qua cơng thức (2.10) ở trên, trong ý nghĩa của việc sử dụng {0, 1} – xác suất giá trị. Trong thực tế, CC thu được từ cơng thức (2.10) ở trên trong trường hợp đặc biệt đầu ra fi(.) hoặc bằng 0 hoặc bằng 1. Kết quả đĩ dẫn tới dự đốn:

Px(y) = [y=yCC](2.12)

Trong đĩ, yCC là tập hợp nhãn dự đốn của các chuỗi phân lớp [DCH10]. Cần phải nĩi, (2.12) thường là một dự đốn kém (khơng chính xác) của phân phối chuẩn P(x)(Y). Trong thực tế, việc coi ý tưởng của chuỗi phân lớp là một đường dẫn trong một cây nhị phân mà nút lá được gắn với nhãn yY, và 0/1 nhánh đối với yi ở mức i, CC sẽ là đường dẫn duy nhất của cây nhị phân này theo cách tham lam. Mơ hình này được xem như là một phương thức tìm kiếm -

mode seeker”, hy vọng tìm được nhãn y* cĩ xác suất cao nhất. Do tính chất

tham lam, tuy vậy, phương pháp này khơng phải lúc nào cũng đạt được kết quả như mong muốn [DCH10].

Ví dụ, giả sử phân lớp các cơ sở sản xuất, dự đốn xác suất chính xác, và CC biến đổi xác suất ước tính thành xác suất dự đốn [p> 0.5]. Nhưvậy, dễ dàng nhận thấy yCC = y* nếu Px(y*) > 0.5. Nếu xác suất của phương pháp như đã nĩi ở trên mà nhỏ hơn ½, thì chuỗi phân lớp cĩ thể bị thất bại.

Xét minh họa nhỏ sau đây, xét trường hợp m=3, và giả sử rằng

Px(0,0,1)=0.4, Px(1,0,1)=0.25 và Px(1,1,0) = 0.35. Trường hợp này, chuỗi phân lớp đã khơng chính xác ngay từ lúc bắt đầu, cụ thể là với y1 = 1 và sau cùng là tạo ra các dự đốn tối ưu y=(1,1,0) [DCH10].

b) Độ phức tạp

Theo [DCH10] việc hy vọng việc hy vọng PCC sẽ tạo ra dự tốn tốt hơn là hồn tồn hợp lý. Tất nhiên, giá phải trả là tính phức tạp sẽ cao hơn nhiều. Trong thực tế, trong khi CC chỉ tìm kiếm một đường dẫn duy nhất trong cây nhị phân nĩi trên, thì PCC phải xem xét từng đường dẫn 2m. Điều này hạn chế khả năng áp dụng của phương pháp tới các tập hợp dữ liệu cĩ số nhãn nhỏ và trung bình, chẳng hạn như tập hợp dữ liệu cĩ dưới 15 nhãn.

Thứ hai, cịn cĩ nhiều khả năng phát triển chương trình suy luận gần đúng cĩ tính chính xác so với hiệu quả một cách hợp lý theo một cách nào đĩ chính xác giữa cơng thức (2.10) và phép xấp xỉ thơ (cơng thức – 2.12).Những khả năng này được thực hiện theo nhiều cách khác nhau, ví dụ lược bỏ các nhãn đơn (với xác suất thấp hoặc cĩ liên quan), hoặc bằng cách bỏ qua các kết hợp nhãn với xác suất thấp (để giảm thiểu việc mất tập con 1/0, chỉ cĩ các kết hợp nhãn với khả năng xảy ra nhiều nhất là cần thiết để lại) [DCH10].

Như vậy, về mặt lý thuyết, kết quả được tạo ra từ các quy tắc khơng phụ thuộc vào thứ tự của các biến (các tài liệu). Thực tế, hai chuỗi phân lớp khác nhau sẽ cho hai kết quả khác nhau đơn giản vì chúng liên quan đến các tài liệu học được đưa vào để phân lớp là khác nhau trên tập huấn luyện khác nhau [DCH10].

Để giảm ảnh hưởng của thứ tự nhãn, năm 2009 Read et al. đã đề xuất tính trung bình các dự đốn đa nhãn CC trên một bộ hốn vị (được chọn ngẫu nhiên). Vì vậy, các nhãn λ1, … ,λmlần đầu tiên được sắp xếp lại do phép hốn vị  của {1, … ,m}, trong đĩ di chuyển λi nhãn từ vị trí i đến vị trí π(i), và sau đĩ CC được áp dụng như thường lệ. Phần mở rộng này được gọi là tập hợp chuỗi phân lớp (Classifier Chain - ECC) [DCH10, ZPH09].

ECC được biết đến với nhiều với những tác động tích cực làm tăng độ chính xác tổng thể và khắc phục sự khơng phù hợp cũng như cho phép thực hiện song song. Tập hợp chuỗi phân lớp này đã được sử dụng thành cơng trong nhiều bài tốn đa nhãn [ZPH09].

Tác động tích cực của ECC được biết đến: ECC tạo ra m phân lớp CC: C1,

C2,…, Cm. Mỗi Ck tạo ra:

- Một thứ tự chuỗi ngẫu nhiên (của L); và - Một tập hợp con ngẫu nhiên của D.

Do đĩ, mỗi một mơ hình Ck cĩ thể là duy nhất cĩ khả năng cung cấp các dự đốn đa nhãn khác nhau. Những dự đốn này được tĩm tắt theo nhãn để mỗi

nhãn nhận được một số xác nhận. Sau đĩ, sử dụng một ngưỡng để chọn các nhãn phổ biến nhất hình thành bộ đa nhãn dự đốn cuối cùng.

Mỗi mơ hình riêng kth (của m mơ hình) dự đốn vector yk = (l1, …, l|L|)∈ {0, 1}|L|. Tổng số dự đốn này được lưu trữ trong một vector W=(λ1,…, λ|L|)∈R|L|

như vậy λjmk1ljyk. Do đĩ mỗi λjW đại diện cho tổng số xác nhận của nhãnljL. Sau đĩ tiêu chuẩn hĩa W thành Wnorm, đại diện cho một phân phối điểm của mỗi nhãn trong [0,1]. Sử dụng một ngưỡng để chọn bộ đa nhãn Y cuối cùng, như vậyljYtrong đĩ λjt đối với ngưỡng t. Do đĩ, các nhãn cĩ liên quan trong Y là đại diện cho dự đốn đa nhãn cuối cùng [ZPH09].

ECC sẽ được tác giả chọn làm thuật tốn cải tiến trong phần thực nghiệm ở Chương 3 của luận văn này.

2.5Phân lớp đa nhãn Bayes trực tuyến

Các ứng dụng trong thực tế thường liên quan đến một số lượng lớn các lớp và mỗi tài liệu cĩ thể được gán cho nhiều lớp. Chẳng hạn, một bài báo đưa tin về “Obama ủng hộ cứu trợ AIG $170 tỷ sau khi tranh cãi căng thẳng” cĩ thể được gán nhãn liên quan đến bảo hiểm, kinh tế và chính trị[ZGH10].

Phân lớp đa nhãn thường phải đối mặt với những thách thức thực tế sau đây:

1. Quy mơ vấn đề thì lớn với số lượng các điểm dữ liệu -n, số lượng các tính năng - D, và số lượng các lớp - C. Thơng thường, chúng ta cĩ thể đáp ứng hầu hết độ phức tạp tính tốn O(nDC). Do đĩ, quan trọng là phải cĩ hiệu quả và tránh các hoạt động đắt tiền (như so sánh cặp đơi)[ZGH10].

2. Thơng thường phân lớp đa nhãn đượcthực hiện nhờ các biện pháp đa biến, ví dụ: F1-score trung bình cao và khu vực thuộc ROC. Chúng ghép đơi nhãn của tất cả các điểm dữ liệu và/hoặc các lớp một cách khơng thể phân tích

3. Các nhãn cĩ liên quan chặt chẽ với nhau và nhiều ứng dụng sử dụng một mơ hình học máy cĩ cấu trúc hình cây. Các thuật tốn hiện tại trong phân lớp đa nhãn cĩ thể được chia thành ba loại:

a) Batch v. s online

b) Frequentist v. s Bayesian

c) Sử dụng các cấu trúc phân cấp trong khơng gian nhãn v. s xử lý nhãn như là đối tượng độc lập [ZGH10].

Trong phần này, tác giả giới thiệu phân lớp đa nhãn Bayesian trực tuyến (Bayesian online Learning for Multi – label classification framework - BOMC) với mơ hình phân lớp tuyến tính [ZPH10]. Mơ hình được đề xuất bởi các tác giả Xinhua Zhang của Đại học Alberta và nhĩm nghiên cứu. Mơ hình này được gọi là phân lớp đa nhãn Bayes trực tuyến sử dụng phân lớp tuyến tính xác suất. Khả năng này được mơ hình hĩa bằng một mơ hình đồ họa tương tự như TrueSkillTM, và suy luận dựa trên mật độ lọc Gaussian với lan truyền mong muốn. Phương pháp Bayesian nhận biết sự phân bổ trong một nhĩm mơ hình hữu ích và phổ biến được chấp nhận [ZGH10].

Mơ hình được chi tiết hĩa như sau:

Giả sử chúng ta cĩ n tài liệu huấn luyện cĩ vectơ tính năng là . Giả sử cĩ C lớp {1, …, C} =:[C], và vector nhãn yi{0,1}C mã hĩa tập hợp đa nhãn mà nếu mẫu xicĩ trong lớp c, và bằng 0 nếu ngược lại [ZGH10].

Mơ hình sử dụng một biệt số tuyến tính xác suất wc cho mỗi lớp c, và đường chéo Gaussians độc lập cĩ trung bình và phương sai được ước tính từ dữ liệu xử lý. Mơ hình bắt đầu từ một trường hợp đa nhãn đặc biệt: đa lớp mà chỉ một nhãn cĩ liên quan. Mơ hình tập trung chủ yếu vào khả năng p(y|{wc}c,x), xác suất của nhãn y xác định trọng số {wc}c. Thơng qua quy tắc Bayes, hậu nghiệm của {wc}c cĩ thể được tính bởi cơng thức(2.13) [ZGH10]:

  | , ) ( |  , ) (  | ) (2.13)

( w y x p y w x p w x

p cc c c c

a) Trường hợp đa lớp:

Sử dụng đồ thị được mơ tả trong hình 2.3 (bên dưới đường kẻ đứt), giả định lớp 2 là lớp đúng, ac = wc,x là một biến số tuyến tính, được mã hĩa bằng cơng thức:

Fwa(wc,ac) := (ac- wc,x) (2.14) trong đĩ,  là hàm thúc đẩy/Dirac.

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử (Trang 30 - 37)

Tải bản đầy đủ (PDF)

(66 trang)