Vấn đề phân loại đa nhãn cho đồ thị

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	8
Dung lượng	679,63 KB

Nội dung

Bài viết đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng hạn như các cấu trúc hóa học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị..

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00074 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ Hoàng Minh Quang1, Nguyễn Ngọc Cương2 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Cục Công nghệ thông tin - Bộ Công An TÓM TẮT: Học máy lĩnh vực quan trọng khai phá liệu, đặc biệt bối cảnh liệu ngày tăng nhanh chóng kiểu liệu ngày đa dạng thu thập từ nhiều nguồn thông tin khác Phân loại hay phân lớp liệu kỹ thuật yếu lĩnh vực học máy Với tăng trưởng liệu nhanh chóng đa dạng kiểu liệu, phân loại đa nhãn trở thành xu chất vấn đề phân loại liệu thường đa nhãn chẳng hạn âm nhạc phân vào nhiều nhãn cảm xúc đồng thời, hay hình ảnh phân vào nhiều nhãn đồng thời động vật, tự nhiên, hoang dã, Tuy nhiên, phân loại đa nhãn phải có độ tin cậy định ảnh rộng chứa vài cỏ phân vào nhãn hoang dã Hầu hết cơng trình phân loại đa nhãn áp dụng cấu trúc liệu biểu diễn dạng vecto, báo đề xuất phương pháp phân loại đa nhãn cho kiểu liệu biểu diễn dạng đồ thị chẳng hạn cấu trúc hoá học thành phần thuốc tây cách xây dựng dàn giao khái niệm cho liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu độ xác phân loại đa nhãn đồ thị Từ khóa: Khai phá liệu, đồ thị thường xuyên, khai phá đồ thị, phân loại đồ thị, phân loại đa nhãn, phân loại đa nhãn cho đồ thị I GIỚI THIỆU Học máy lĩnh vực quan trọng khai phá liệu, đặc biệt liệu lớn mà thuật toán tìm kiếm xác khơng khả thi độ phức tạp tính tốn thuộc lớp NP-đầy đủ Các liệu ngày đa dạng mặt cấu trúc, phương pháp khai phá liệu bảng gặp nhiều khó khăn liệu cấu trúc tế bào, cấu trúc mạng nơron, cấu trúc protein, v.v Để giải vấn đề nhà khoa học áp dụng biểu diễn liệu cấu trúc đồ thị, cây, dàn giao áp dụng phương pháp khai phá liệu có với loại biểu diễn liệu khác lên biểu diễn liệu đồ thị Học máy áp dụng đồ thị hướng đắn cho xu liệu đa dạng phức tạp ngày Do tính chất đa dạng liệu đa dạng mục tiêu, phương pháp phân lớp liệu học máy dần chuyển từ phân loại đơn nhãn sang phân loại đa nhãn Tuy nhiên để áp dụng phân loại đa nhãn cho đồ thị khó khăn chất biểu diễn liệu đồ thị khó chuyển đổi biểu diễn vectơ để áp dụng thuật tốn phân loại đa nhãn Các cơng nghệ thu thập liệu ngày cải tiến, nhiều lĩnh vực ứng dụng phải đối với liệu đa dạng đa cấu trúc cấu trúc hóa học, cấu trúc luồng chương trình, tài liệu XML, web Khác với liệu truyền thống không gian đặc trưng, liệu biểu diễn dạng vecto mà biểu diễn dạng đồ thị dẫn đến thách thức khai phá liệu đồ thị thiếu biểu diễn vecto [11] Một mơ hình hiệu cho liệu đồ thị trích xuất tìm tập đồ thị đặc trưng để thực phân tích quản lý Những thách thức thúc đẩy vấn đề nghiên cứu khai phá đồ thị đặc biệt phân loại đồ thị nhận quan tâm đáng kể thập niên gần Phân loại liệu nghiên cứu rộng rãi Hầu hết phương pháp phân loại tập trung vào phân loại đơn nhãn Tuy nhiên, nhiều lĩnh vực sống đòi hỏi đối tượng phải gán nhiều nhãn ảnh, nhạc, gen, web Không thể phủ nhận vai trò phân loại đa nhãn việc giải nhiều vấn đề quan trọng sống đại Phân loại đa nhãn giải vấn đề gán tập nhãn cho đối tượng tập hợp liệu Tức là, đối tượng tập liệu gán đồng thời nhiều nhãn Ví dụ, nhiều trang thương mại điện tử, có hàng tỉ đoạn quảng cáo, gắn nhiều thẻ, có sẵn cho người tìm kiếm phân tích Có hàng tỉ thẻ mạng toàn cầu Làm cách Google đưa cho ta câu trả lời thỏa mãn hầu hết tìm kiếm Rõ ràng học đa nhãn vấn đề nghiên cứu quan trọng để tìm kết tốt suất hiệu Vấn đề phân loại đơn nhãn loại trừ lẫn nhãn Cho X miền đối tượng Y tập nhãn, H tập hàm hàm phân loại cho X  Y Mục tiêu tìm hàm phân loại h ∊ H có khả tối đa h(x) = y với y ∊ Y nhãn xác thực x Với phân loại đa nhãn, lớp khơng loại trừ lẫn chồng đè lên Cho B tập vecto nhị phân có độ dài |Y| H tập hàm phân loại X  B Mục tiêu tìm hàm phân loại h ∊ H mà tối thiểu khoảng cách (ví dụ Hamming) h(x) bx cho đối tượng x Trong phương pháp xác suất, mục tiêu phân loại đối tượng x để tìm nhiều nhãn lớp sở tập nhãn C với ngưỡng T mà P(c|x) > T, ∀ c ∊ C Thông thường nhất, tiếp cận hợp đơn giản, lấy số đông, lớn trung bình sử dụng Lý thuyết Dempster Shafer khung hợp hàm phân loại dựa luật Dempster tăng độ xác phân lớp Áp dụng lý thuyết Dempster Shafer [3] để phân loại đa nhãn cho đồ thị tăng độ xác phân loại giảm độ phức tạp Denoeux giới thiệu phân loại đa nhãn áp dụng lý thuyết Dempster [4, 5, 6] đề xuất phương pháp đề giảm độ phức tạp tính tốn thao tác kết hợp hàm khối, hàm tin cậy xác định tập phù hợp khung phân biệt kết hợp với cấu trúc dàn giao Phương pháp áp dụng cho phân loại đa nhãn dựa hàm phân loại k-láng giềng gần (KNN) minh chứng [5] Theo Denoeux [5] áp dụng lý thuyết Dempster Shafer cho phân loại đa nhãn sử dụng phương pháp kNN, với thành phần tập k 568 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ láng giềng lấy hàm khối theo luật Dempster hợp k hàm khối để hàm khối cho đối tượng x Tuy nhiên, áp dụng lý thuyết Dempster Shafer cho phân loại đa nhãn cho tập liệu đối tượng có biểu diễn vecto Dựa vào biểu diễn vecto này, tìm tập k láng giềng gần Nhưng với liệu đồ thị có nhiều cách để tìm tập k láng giềng phương pháp sử dụng độ đo khác đẳng cấu đồ thị con, đồ thị chung lớn nhất, khoảng cách Hausdorff, đỉnh hai đồ thị gần nhau, cạnh hai đồ thị gần nhau, nhân đường ngắn nhất, khoảng cách sửa đổi đồ thị Các phương pháp đưa phương pháp xác định để so sánh tìm k đồ thị láng giềng gần với đồ thị xét Tuy nhiên, mục tiêu cần tìm k đồ thị láng giềng mà có tập nhãn xấp xỉ với k tập nhãn k đồ thị láng giềng Như vậy, phải có mối liên hệ tập nhãn tập đồ thị Mối liên hệ chìa khóa mở việc tìm tập k láng giềng Theo đó, phương pháp độ đo đồ thị chung lớn Hausdorff hay khoảng cách chỉnh sửa đồ thị, nhân đường ngắn áp dụng cho phân loại đa nhãn đồ thị dùng lý thuyết Dempster Shafer Theo [11] mối quan hệ tập nhãn tập đồ thị tập đồ thị đồ thị với tập nhãn [11] coi việc xác định đặc trưng phù hợp cho phân loại đa nhãn tìm tập đồ thị coi tập đồ thị lựa chọn đặc trưng [13] đưa phương pháp xây dựng dàn giao khái niệm cho đồ thị áp dụng vào phân loại đồ thị chưa áp dụng cho phân loại đồ thị đa nhãn Từ dàn giao khái niệm này, mà tính chất đồ thị thể đồ thị nó, nghiên cứu sinh xây dựng dàn giao khái niệm áp dụng vào phân loại đa nhãn đồ thị theo lý thuyết Dempster Shafer, dàn giao khái niệm thỏa mãn mối quan hệ tập nhãn tập đồ thị làm độ đo tương tự trình tìm tập k láng giềng đồ thị để xác định tập nhãn cho đồ thị cần phân loại đa nhãn Phân loại đa nhãn áp dụng cho nhiều lĩnh vực, nhiên liệu biểu diễn dạng đồ thị phân loại đa nhãn gặp nhiều khó khăn đồ thị khó véctơ hóa dạng biểu diễn liệu khác Tùy thuộc vào yêu cầu vấn đề cụ thể có tương ứng cách biến đổi liệu đồ thị sang biểu diễn véctơ Do gặp nhiều khó khăn q trình xác định độ tương tự hai đồ thị Tác giả nghiên cứu xây dựng thành công dàn giao khái niệm làm sở để xác định độ đo tương tự hai đồ thị Từ áp dụng phương pháp k láng giềng gần để tìm tập nhãn cho đồ thị dựa tập nhãn k đồ thị láng giềng có độ đo gần với Để xây dựng dàn giao khái niệm, tác giả sử dụng thuật toán khai phá đồ thị thường xuyên đóng PSI-CFSM để xác định tập đồ thị thường xuyên đóng đồ thị gi ∊ GD Dựa vào đồ thị thường xuyên đóng làm đặc trưng cho đồ thị xây dựng khái niệm thức, quan hệ cha hai khái niệm thức hình thành nên dàn giao khái niệm Trong báo này, đề xuất phương pháp phân loại đa nhãn cho đồ thị sử dụng tập đồ thị thường xuyên đóng đồ thị làm đặc trưng xây dựng dàn giao khái niệm cho đồ thị sở liệu đồ thị giao tác Từ dàn giao khái niệm tính tốn khoảng cách đồ thị từ xác định độ đo tương tự đồ thị đồng thời áp dụng kỹ thuật k láng giềng gần luật kết hợp Dempster-Shafer để thực phân loại đa nhãn cho đồ thị ứng viên II MỘT SỐ ĐỊNH NGHĨA [10] Một đồ thị gắn nhãn G G = (V,E,∑ ,∑ ,l) với V tập đỉnh, E ⊂ V × V tập cạnh ∑ ∑ nhãn đỉnh cạnh tương ứng Hàm gắn nhãn l ánh xạ V → ∑ E → ∑ Khơng tính tổng qt, ta giả sử có thứ tự tồn thể ≼ tập nhãn ∑ ∑ [10] Cho cặp đồ thị G = (V,E,∑ ,∑ ,l) G' = (V',E',∑ ,∑ ,l'), G đồ thị G' nếu: (1.) V ⊆ V' (2.) ∀ u ∈ V, (l(u) = l'(u)) (3.) E ⊆ E' (4.) ∀ (u,v) ∈ E, (l(u,v) = l'(u,v)) G' gọi đồ thị cha G [10] Hai đồ thị G = (V,E,∑ ,∑ ,l) G' = (V',E',∑ ,∑ ,l') đẳng cấu tồn song ánh f:V → V' thỏa mãn: (1.) ∀ u ∈ V, (l(u) = l'(f(u))) (2.) ∀ u,v ∈ V, ((u,v) ∈ E) ↔ (f(u),f(v)) ∈ E' (3.) ∀ (u,v) ∈ E, (l(u,v) = l'(f(u),f(v)) [10] Đồ thị G đồ thị đẳng cấu G', ký hiệu G ⊆ G', tồn đồ thị G" G' mà G đẳng cấu với G" [10] Cho tập liệu đồ thị GD ngưỡng σ (0 ≤ σ ≤ 1), độ hỗ trợ G, ký hiệu supG xác định phân số G’ với đồ thị GD mà G đồ thị đẳng cấu G': Hoàng Minh Quang, Nguyễn Ngọc Cương 569 = | ∈ | ⊆ | | ′| G đồ thị thường xuyên supG≥ σ Vấn đề khai phá đồ thị thường xuyên cho ngưỡng σ sở liệu đồ thị GD phải tìm tất đồ thị thường xuyên GD Theo [15], g đồ thị g’ , g’ đồ thị cha g, ký hiệu g ⊆ g’ (đồ thị cha g ⊂ g’ ) Tập đồ thị thường xuyên GD, ký hiệu FS, chứa tất đồ thị có độ hỗ trợ khơng ngưỡng độ hỗ trợ tối thiểu, σ Tập đồ thị thường xuyên đóng GD, CS, định nghĩa CS = {(g’ | g’ ∈ FS) ∧ (∄g ∈ FS : (g ⊂ g’) ∧ (supg = supg’ ))} [2] Một k-đồ thị đồ thị g đồ thị g ⊆ g mà |V g | = k [10] Cho n × n ma trận kề M đồ thị G với n đỉnh, định nghĩa mã M , ký hiệu code(M), có dạng chuỗi cách ghép thành phần thấp ma trận tam giác M (gồm thành phần đường chéo) theo thứ tự: m1,1m2,1m2,2 mn,1mn,2 mn,n−1mn,n mà mi,j thành phần hàng thứ i cột thứ j M (0 < j ≤ i ≤ n) Giả sử hàng M đánh số từ tới n từ xuống cột đánh số từ tới n từ trái sang phải Trong [10], tác giả dùng thứ tự từ điển chuẩn (standard lexicographic order) theo trình tự để xác định thứ tự toàn thể hai mã p q Cho đồ thị G, dạng chuẩn (canonical form) mã cực đại tất mã Ma trận kề M xuất dạng chuẩn định nghĩa ma trận dạng chuẩn G (G’s canonical adjacency matrix, CAM G) Vậy code(CAM(G)) mã ma trận dạng chuẩn đồ thị G [1] Cho quan hệ hai ≤ tập P, (P,≤) thỏa mãn ba điều kiện (phản xạ, phản đối xứng bắc cầu) gọi tập có thứ tự (hay tập thứ tự phận hay poset) Tập tất tập P(X), gồm tất tập X, bao gồm thứ tự: cho A,B ∈ P(X), xác định A ≤ B A ⊆ B [8] Cho Y ⊆ X, với (X,≤) poset Một toán tử meet hay infimum (hay inf ) tập tập X ký hiệu m = inf(Y ) nếu: (i) ∀y ∈ Y : m ≤ y, (ii) ∀m ∈ X : (∀y ∈ Y : m ≤ y) ⇒ m ≤ m m gọi lớn cận (glb) tập Y Một toán tử join hay supremum (hay sup) s = sup(Y ) nếu: (i) ∀y ∈ Y : y ≤ s, (ii) ∀s ∈ X : (∀y ∈ Y : y ≤ s ) ⇒ s ≤ s s gọi nhỏ cận (lub) tập Y Ký hiệu glb {a,b} a∧b, lub {a,b} a∨b Lớn cận nhỏ cận lúc tồn với poset [8] Một poset (X,≤) dàn giao ∀x,y ∈ X : x∨y x∧y tồn [8] Một khoảng [x, y] poset (X,≤) xác định: {z | x ≤ z ≤ y} Một poset hữu hạn cục tất khoảng hữu hạn [12] Một hệ thống tập hợp tập S họ Ψ tập S Một hệ đóng ζ tập S hệ thống tập hợp S thỏa mãn hai thuộc tính sau: (i) S ∈ ζ (ii) C1, C2 ∈ ζ ⇒ C1 ∩ C2 ∈ ζ Các tập hệ đóng ζ gọi tập đóng ζ [12] Một hệ đóng (ζ,⊆) dàn giao (ζ,⊆,∧,∨) với (i) C1 ∧ C2 = C1 ∩ C2 C1 ∨ C2 = ∩{C ∈ ζ : C1 ∪ C2 ⊆ C} Bất kỳ dàn giao đẳng cấu với dàn giao tập đóng hệ đóng [7] Một ngữ cảnh thức ba (G,M,I), với G tập đối tượng, M tập thuộc tính I quan hệ G M, I ⊆ G × M Một kết nối Galois G M xác định sau: AI = {m ∈ M|∀g ∈ A,(g,m) ∈ I}, A ⊆ G BI = {g ∈ G|∀m ∈ B,(g,m) ∈ I}, B ⊆ M [7] Một khái niệm thức cặp (A,B), với A ⊆ G tập đối tượng, B ⊆ M tập thuộc tính, mà đẳng thức (1) AI = B A = BI (2), với A gọi phạm vi khái niệm, B gọi ý định khái niệm Các khái niệm ngữ cảnh cho trước có thứ tự mặc định quan hệ khái niệm - khái niệm cha xác định ((A1, B1 ) ≤ (A2, B2 )) ⇔ A1 ⊆ A2 (⇔ B2 ⊆ B1 ) Tập có thứ tự tất khái niệm thức (G,M,I) ký hiệu B(G,M,I) gọi dàn giao khái niệm (G,M,I) [9] Cho (L,≤) poset hữu hạn cục có phần tử đáy dàn giao Bất kỳ hàm f (L,≤), biến đổi Mobius f hàm m: L → R giải pháp phương trình: ( ) = m(y) Phương trình ln có nghiệm nhất, biểu thức m nhận thơng qua hàm Mobius µ: L → R = ( , ) ≤ µ xác định theo quy nạp ( , ) = − ∑ ℎ ( )=∑ μ(y, x)f(y) với 570 VẤN ĐỀ Ề PHÂN LOẠII ĐA NHÃN CH HO ĐỒ THỊ [9] Đồồng biến đổi M Mobius f, kký hiệu q, đượ ợc xác định bở ởi ( ) = ∑ phục p từ q sau: ( )= m(y), x ∈ L m khơi μ(y, x)q(y) [9] Choo Ω khhông gian hữuu hạn Một hààm m: 2Ω → [0,1] [ gọọi hàm cấp phát khố ối (hay đơn giản g mass) n m(∅) = ∑ ⊆Ω ( ) = Một tậập A ⊆ N đ gọi phần tử tiêu đđiểm m(A)) > [9] Mộtt hàm tin cậy ttrên Ω hàm bel: 2Ω → [0,1] sinh hhàm cấp phát khối sau: ( )= ⊆ ( ), ⊆ Ω r bel(∅) = bel(Ω) = Hàm tin cậy c nhận m nh hư biến đổi M Mobius bell, công thức nghịch n đảo, Chú ý nhận n bằnng cách sử dụnng phươngg trình Mobius là: ( )= ⊆ (−1)| \ | ( ) [9] Choo cấp phátt khối m, hàm m thật xác định ( )= | ∩ ∅ ( ( )=1− ), ⊆ Ω ∑ ⊆ ung, đồng biến n đổi Mobiuss bel đượợc xác định ( ) = Cho mộột cấp phát kkhối m, hàm ttính chất chu ( ) , ⊆ Ω [9] Choo hai cấp phát khối m1, m2 , luật kết hợp Dempster D tính kết hợp củủa hai khối vàoo khối: ( )=( ⊕ )( ) ( ) ( ) , ∀ ⊆ Ω, A ∅ ∩ m(∅) = Luật kết hợp Dempsster đư ược tính thơng g qua hàm m tính chất chuung, gọi q, q1, q2 hàm tính chất chungg kết hợp m, m1, m2, trở thàành là: q(A) = q1(A)q q2(A), ∀A ⊆ Ω Ω III P PHÂN LOẠI ĐA NHÃN CHO C ĐỒ TH HỊ Để phâân loại đa nhãnn cho tập lliệu đồ thị tập nhãn gắn với đồ thhị, coi tập tất tập nhãn 2L với v tập nhãn L = {l1, l2, , lQ }, |L| = Q Thuật toán t PSI-CFSM M [2] sử dụng để tìm m tập đồ thị thường xuyyên đóng ccơ sở liệu đồ thị GD Thủ T tục TestIssomorphism kkiểm tra đẳng cấu đồ thị n cách sử dụng hàm tììm kiếm nhị pphân kiểm tra đồ thị c g có thuộcc tập đồ thhị hayy không với tập k-đồ thị t ứng vi ên mức k đồ thị Gi ∊ GD Thuật toán PSI-CFSM M thuật toáán sinh kiểm m tra tính thườ ờng xuyên củaa đồ thị m mức k theo địn nh nghĩa kđồ đ thị với tập cáác k-đồ thị coon thường xuyên GD, CS C 2, CS3, , C CSk tập đđồ thị thư ường xuyên đóng đ tương ứnng mức 2, 3, , k GD , tương ứng làà tập k-đồồ thị thườờng xuyên, k đồ thị th hường xuyên đóng mức k ccủa đồ thị Gi ∊ GD Hoàng H Minh Quuang, Nguyễn N Ngọc Cương 571 Cho mộột sở liệệu đồ thị GD,, để xây dựng dàn giao cho đồ thị sử dụng bảảng ngữ cảnh thức GD coi tập b cách xâyy dựng tập tất đồ thị thường xuyên x đóng CS S sở ddữ liệu đồ thị G p CS tập c thuộc tínhh cịn sở ữ liệu đồ thị tập đối tượng Mối quan hệệ tập đối tượng tập thuộc tính th hể qua việc v đồ thhị Gi ∊ GD cóó chứa đồồ thị thườn ng xun đóng g gj ∊ CS đồ thị Gi đđồ thị thường xuyên đóng đ gj có mối m quan hệ vớ ới Từ bảng ngữ cảnh chhính thức, tìm m tất khái niệm thức Từ đđó, xây dựng dàn n giao khái niệm n Định nghĩa n Cho mộột dàn giao khhái niệm ICL,, độ đo tương tự hai đđồ thị gi, gj ∊ GD tính h theo khái niệm n thứ ức thấp củủa hai đồ thị gi, gj ( , )= , ∑ ( , ) ,∀ ∈ GD Độ đo tương t tự giữaa hai đồ thị trêên dàn giao kh hái niệm thể h chínnh xác tập nhããn đồ thị so với c độ đo khácc hai đồ thị đồ thịị chung lớ ớn nhất, đườn ng ngắn nhấất, nhân đđồ thị, sửa đổi đồ thị Độ c xác nhãn phhân loại cho đồồ thị thể quaa chất đồ thị thư ường xuyên đóng c phép biến đổi đồ thị tươ ơng đương phương pháp độ đo ch ho đồ thị khác nhãn n Thuật toán t phân loạii đồ thị đa nhhãn xây dựng theo ph hương pháp k láng giềng ggần để xá ác định tập ⊆ L cho c đồ thị gn ∊ GD chưa đượ ợc gán nhãn với đồ thị Gi ∊ GD đư ược gán nhãn ⊆ L Luật bằằng chứng k lááng giềng gần [4], cho tập k lán ng giềng gần nnhất mẫu đối tượng mớ ới mô tả vecto đặặc trưng x theoo độ đo ttương tự d xi phần n tử tập k láng giềng gầần có tập p nhãn nằm trrong khoảng [A [ i, Bi] (posett hữu hạn cục bbộ) mục m chứng đượcc mơ tả hààm khối sau: m( ∅ m ( ∅, với , )= )=1− l độ đo tươngg tự hai đđồ thị dàn n giao khái niệm 572 VẤN ĐỀ Ề PHÂN LOẠII ĐA NHÃN CH HO ĐỒ THỊ Theo [66, 16] đề xuấtt luật để xác đđịnh tập nhãn cho đối tượng g x Cho ℽ tập nhãn dự đđoán gán cho x Để Đ địnhh nhãn ∈ gán cho x hay không, hai số lư ượng tínhh cấp độ hààm tin cậy ( , ), ℽ tập nhãn đ chứa , cấp độ hàm m tin cậy ( ∅, ̅ ) mà không k chứa Tập nhãn dự ự đoán gán g ℽ xác x định sau: s ℽ= θ∈ | ( , ) ( ∅, ̅ ) IV VÍ D DỤ PHÂN LO OẠI ĐA NHÃ ÃN CHO ĐỒ THỊ Cho sở liệu đồồ thị GD = {g1, g2, g3, g4} vớ ới tập nhãn L = {l1, l2, l3, l4, l5}, ngưỡng đđộ hỗ trợ σ = 50% Cơ sở d liệu đồ thị GD có |GD| = 4, với ngưỡn ng độ hỗ trợ σ = 2/4= 50% %, tất nhữngg đồ thị bấ ất kỳ sg có độ đ hỗ trợ supsgg >=2/4 làà đồ thị coon thường xuy yên Áp dụng thuật t tốn PSII-CFSM [2] tìm m tập tất đồ củaa GD th hị thườngg xun đóng =⋃: → ∈ Ngữ cảảnh thứcc tập tất mối quan hệ đồ thị t gi ∈ GD vvới tập tất đđồ thị thường xuyên đóng đ CS theo thủ t tục CalcullateFCT Khái niiệm thứcc ngữ cảnnh thức (ký ( hiệu KCT theo thủ tục C CalculateIcebeergLattice) Hoàng H Minh Quuang, Nguyễn N Ngọc Cương 573 Từ mốii quan hệ chaa cáác khái niệm thức taa xây dựng m dàn giao khái niệm theo thủ tục CalculateIcebe C ergLattice: Để xác định nhãn chho đồ thị g4 ∈ GD, dựa vào dàn giao kháii niệm CL tìm m k-láng giềngg gần g4 với k = tập liệu l đồ thị GD D đồ thịị g1, g2, g3 theeo đường ng gắn từ đỉỉnh chung đếnn hai đồ thị cầ ần so sánh: d(g d 4, g1) = 2/66 = 0.3333, d(g4, g3) = 3/6 = 0.5000, d(g4, g2) = 1/6 = 0.1667 Như vậy, xác địnhh k-láng giềng gần n với g4 với k = tương ứng g1, g2 Xác định kho oảng nhãn tươ ơng ứng với k láng giềng gầần g1, g2 [{l1, l2}, {l { 1, l2, l4}], [{l2, l4}, {l2, l4}] Tính đư ược hàm kkhối sau: mg1([{l1, l2}, {l1, l2, l4}]) = 0.33 mg1([∅,,L]) = − 0.333 = 0.67 mg2([{l2, l4}, {l2, l4}])) = 0.17 mg2([∅,,L]) = − 0.177 = 0.83 Sử dụngg luật Dempstter thu kkết sau: Dựa vàào luật Dempstter, tính được: m([{l1, l2, l4}, {l1, l2, l4}]) = 0.06 m([{l2, l4}, {l2, l4}]) = 0.11 m([{l1, l2}, {l1, l2, l4}]) = 0.27 L]) = 0.56 m([∅,L Gán tậpp nhãn cho đối tượng x: bel([{l1}, L]) = 0.06 + 0.27 = 0.33 > bel([∅, bel([{l2}, L]) = 0.33 > bel([∅, bel([{l3}, L]) = < bbel([∅, bel([{l4}, L]) = 0.06 > bel([∅, bel([{l5}, L]) = < bbel([∅, ]) = 0.11, g4 có c nhãn l1 ]]) = 0, g4 có nhãn n l2 ]) = 0.11 ]]) = 0, g4 có nhãn n l4 ]) = 0.11 Như vậậy tập nhãn củủa đồ thị g4 đư ược xác định làà {l1, l2, l4} 574 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ V KẾT LUẬN Trong báo này, đề xuất phương pháp hiệu phân loại đa nhãn đồ thị Do chất thiếu tính vecto nên việc phân loại đa nhãn đồ thị gặp nhiều khó khăn Bằng cách sử dụng khái niệm thức xây dựng dàn giao khái niệm, xác định độ đo tương tự hai đồ thị, sau áp dụng luật Dempster-Shafer để kết hợp hàm khối hàm tin cậy để xác định tập hợp nhãn cho đồ thị theo k đồ thị láng giềng gần với độ đo tương tự xác định dàn giao khái niệm Kết có ý nghĩa quan trọng ứng dụng vào thực tiễn phân loại mẫu gen, cấu trúc protein, hợp chất enzim để xác định khả mắc tập hợp bệnh gán nhãn cho trước VI DANH MỤC THAM CHIẾU [1] B A Davey and H A Priestley Introduction to lattices and order Cambridge university press, 2002 [2] J Demetrovics, H Quang, N Anh, and V Thi An optimization of closed frequent subgraph mining algorithm Cybernetics and Information Technologies, 17(1):3-15, 2017 [3] A P Dempster The dempster-shafer calculus for statisticians International Journal of Approximate Reasoning, 48(2):365-377, 2008 [4] T Denoeux A k-nearest neighbor classification rule based on dempster-shafer theory IEEE transactions on systems, man, and cybernetics, 25(5):804-813, 1995 [5] T Denœux and M.-H Masson Evidential reasoning in large partially ordered sets Annals of Operations Research, 195(1):135-161, 2012 [6] T Denœux, Z Younes, and F Abdallah Representing uncertainty on set-valued variables using belief functions Artificial Intelligence, 174(7):479-499, 2010 [7] B Ganter and R Wille Applied lattice theory: Formal concept analysis In In General Lattice Theory, G Grätzer editor, Birkhäuser Citeseer, 1997 [8] V K Garg, N Mittal, and A Sen Applications of lattice theory to distributed computing ACM SIGACT Notes, 34(3):40-61, 2003 [9] M Grabisch Belief functions on lattices International Journal of Intelligent Systems, 24(1):76-95, 2009 [10] J Huan, W Wang, and J Prins Efficient mining of frequent subgraphs in the presence of isomorphism In Data Mining, 2003 ICDM 2003 Third IEEE International Conference on, pages 549-552 IEEE, 2003 [11] X Kong and S Y Philip gmlc: a multi-label feature selection framework for graph classification Knowledge and information systems, 31(2):281-305, 2012 [12] B Monjardet The presence of lattice theory in discrete problems of mathematical social sciences why Mathematical Social Sciences, 46(2):103-144, 2003 [13] V A Nguyen and A Yamamoto Learning from graph data by putting graphs on the lattice Expert Systems with Applications, 39(12):11172-11182, 2012 [14] G Shafer et al A mathematical theory of evidence, volume Princeton university press Princeton, 1976 [15] X Yan and J Han Closegraph: mining closed frequent graph patterns In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 286-295 ACM, 2003 [16] Z Younes, F Abdallah, and T Denœux An evidence-theoretic k-nearest neighbor rule for multi-label classification In International Conference on Scalable Uncertainty Management, pages 297-308 Springer, 2009 ... cho phân loại đa nhãn tìm tập đồ thị coi tập đồ thị lựa chọn đặc trưng [13] đưa phương pháp xây dựng dàn giao khái niệm cho đồ thị áp dụng vào phân loại đồ thị chưa áp dụng cho phân loại đồ thị. .. thỏa mãn mối quan hệ tập nhãn tập đồ thị làm độ đo tương tự trình tìm tập k láng giềng đồ thị để xác định tập nhãn cho đồ thị cần phân loại đa nhãn Phân loại đa nhãn áp dụng cho nhiều lĩnh vực, nhiên... cách chỉnh sửa đồ thị, nhân đường ngắn áp dụng cho phân loại đa nhãn đồ thị dùng lý thuyết Dempster Shafer Theo [11] mối quan hệ tập nhãn tập đồ thị tập đồ thị đồ thị với tập nhãn [11] coi việc

Ngày đăng: 30/09/2021, 16:08