1. Trang chủ
  2. » Công Nghệ Thông Tin

Một số vấn đề về khai phá đồ thị con thường xuyên đóng

9 37 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 763,88 KB

Nội dung

Bài viết đưa ra một số nhận xét, đánh giá về các thuật toán khai phá đồ thị con thường xuyên hiện nay đồng thời cũng đề xuất một vài điểm thay đổi trong việc thực hiện khai phá đồ thị con thường xuyên nhằm tăng hiệu quả khai phá đồ thị con thường xuyên nhất là đồ thị con thường xuyên đóng.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00057 MỘT SỐ VẤN ĐỀ VỀ KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUN ĐĨNG Hồng Minh Quang1, Vũ Đức Thi2, Phạm Quốc Hùng3 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội Khoa Công nghệ thông tin - Đại học Sư phạm kỹ thuật Hưng Yên hoangquang@ioit.ac.vn, 2vdthi@vnu.edu.vn, 3quochungvnu@gmail.com TÓM TẮT— Khai phá mẫu thường xuyên toán quan trọng có nhiều khả ứng dụng vào thực tiễn Các ứng dụng thực tiễn đa dạng phong phú nên phương pháp khai phá tập mục thường xuyên bị giới hạn cấu trúc liệu dạng tập hợp không phản ánh hết chất liệu chẳng hạn cấu trúc thành phần hóa học viên thuốc tân dược, cấu trúc gen tế bào, cấu trúc protein động vật nhiều cấu trúc khác Các cấu trúc liệu hầu hết biểu diễn dạng liệu có cấu trúc biết đồ thị, lattice Do vậy, nghiên cứu khai phá đồ thị thường xuyên có ý nghĩa lớn đặc biệt hữu ích lĩnh vực y tế Trong báo này, đưa số nhận xét, đánh giá thuật toán khai phá đồ thị thường xuyên đồng thời đề xuất vài điểm thay đổi việc thực khai phá đồ thị thường xuyên nhằm tăng hiệu khai phá đồ thị thường xuyên đồ thị thường xuyên đóng Từ khóa— Khai phá liệu, đồ thị thường xuyên, khai phá đồ thị, liệu có cấu trúc, đồ thị thường xuyên đóng, độ phức tạp tính tốn I GIỚI THIỆU Khai phá liệu lĩnh vực quan trọng Một phương pháp khai phá liệu có nhiều ứng dụng khai phá mẫu thường xuyên Vấn đề khai phá mẫu thường xuyên từ tập liệu đối tượng, với ngưỡng độ hỗ trợ tối thiểu minsup cho trước, ta tìm đối tượng có độ hỗ trợ lớn với độ hỗ trợ tối thiểu minsup Dữ liệu đa dạng từ liệu nhị phân, liệu số nguyên, số thực liệu có cấu trúc phức tạp cây, đồ thị, lattice v.v Hầu hết phương pháp khai phá mẫu thường xuyên sử dụng nguyên lý chung tính chất "Downward Closure Property'' (DCP) hay cịn gọi tính chất phản đơn điệu Các tập liệu bảo tồn tính chất DCP áp dụng thuật toán tựa Apriori để khai phá mẫu thường xuyên Về mặt bản, thuật toán Apriori gồm hai bước: thứ bước sinh tập ứng viên thứ hai tỉa tập ứng viên dựa tính chất DCP Ví dụ khai phá tập mục thường xuyên, đối tượng liệu giao tác tập liệu tập giao tác Trong giao tác chứa số mục liệu có xuất hay khơng xuất giao tác Khai phá tập mục thường xuyên tìm tất tập mục mà có tần suất xuất số giao tác lớn ngưỡng cho trước Cơng việc đơn giản ta việc đếm tập mục mà đồng thời tất mục tập xuất số giao tác cho số lần xuất đủ lớn ngưỡng tập thường xun Và ta thấy rằng, tập thường xun tập thường xuyên ngược lại tập khơng thường xun tập cha khơng thường xun Đây tính chất DCP khai phá tập mục thường xuyên Từ tính chất này, vấn đề sinh tập ứng viên tập có k-mục thường xuyên ta xây dựng tập (k+1)-mục tìm xem tập (k+1)-mục thường xuyên với k thực từ đến hết số lượng mục có sở liệu giao tác Nhiều lĩnh vực đòi hỏi khai phá mẫu thường xuyên tập liệu có cấu trúc phức tạp chẳng hạn cấu trúc hóa học hợp chất, cấu trúc gen tế bào, cấu trúc thành phần thuốc, v.v Hầu hết cấu trúc phức tạp biểu diễn dạng đồ thị Khai phá mẫu thường xuyên tập liệu có cấu trúc phức tạp chẳng hạn đồ thị phức tạp nhiều lần so với khai phá tập mục thường xuyên Tính chất DCP đảm bảo cho liệu đồ thị nghĩa đồ thị/cây thường xuyên đồ thị con/cây thường xuyên ngược lại đồ thị/cây không thường xun đồ thị cha/cây cha đồ thị/cây khơng thường xun Mặc dù tính chất DCP đảm bảo vấn đề sinh ứng viên lại gặp nhiều khó khăn với tập đỉnh tập cạnh cho trước, việc tìm đồ thị con/cây với tập đỉnh tập cạnh có phải đồ thị con/cây đồ thị/cây cho hay không vấn đề không dễ giải Vấn đề gọi tìm đồ thị đẳng cấu (subgraph isomorphism) Nhiều cơng trình nghiên cứu chứng minh việc xác định xác đồ thị có phải đồ thị đẳng cấu đồ thị hay khơng có độ phức tạp tính toán thuộc lớp NP-complete [Garey Johnson 1979] Nếu cấu trúc liệu việc xác định đồ thị đẳng cấu giải thời gian đa thức [Chi 2004; Tsur Shamir 1999] Những thách thức dẫn đến nhiều cơng trình nghiên cứu làm tăng hiệu vấn đề xác định đồ thị đẳng cấu thuật toán gSpan [Yan Han 2002], FFSM [Huan 2003], FSG [Kuramochi 2001] Tuy nhiên cơng trình phải giải vấn đề tìm đồ thị đẳng cấu thời gian không đa thức Khai phá đồ thị thường xuyên phương pháp khai phá liệu hiệu Tuy nhiên, ứng dụng thực tiễn với tập liệu vừa có cấu trúc phức tạp lại vừa có kích thước lớn dẫn đến việc tìm tập tất đồ thị thường xuyên lớn Hơn hết, có số đồ thị thường xuyên lại có độ hỗ trợ với đồ thị thường xun cha Vì thế, việc tìm tập tất đồ thị thường xuyên đóng có hiệu ứng dụng thực tiễn Bởi từ đồ thị thường xuyên đóng ta tìm tất đồ thị đồ thị nên việc liệt kê hết MỘT SỐ VẤN ĐỀ VỀ KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUYÊN ĐÓNG 472 đồ thị thường xuyên đồ thị thường xuyên đóng làm tốn thêm nhớ lưu trữ Tuy lúc cần tìm đồ thị thường xuyên nhanh số lượng đồ thị đầu vào lớn số lượng đồ thị thường xuyên lớn việc liệt kê hết hiệu liệt kê đồ thị thường xuyên đóng Trong báo này, chúng tơi đề xuất kết làm tăng hiệu khai phá đồ thị thường xuyên đồ thị thường xuyên đóng Với cách nhìn khác với thuật tốn gSpan, FFSM, FSG cơng trình nghiên cứu liên quan khác chúng tơi giảm thời gian tính tốn việc khai phá đồ thị thuật toán hiệu áp dụng vào khai phá đồ thị thường xuyên đóng II MỘT SỐ ĐỊNH NGHĨA Một đồ thị gắn nhãn G G = (V,E, , ,l) với V tập đỉnh, E ⊂ V × V tập cạnh nhãn đỉnh cạnh tương ứng Hàm gắn nhãn l ánh xạ V → E → Khơng tính tổng qt, ta giả sử có thứ tự tồn thể ≼ tập nhãn→ → Cho cặp đồ thị G = (V,E, , ,l) G' = (V',E', , ,l'), G đồ thị G' nếu: (1.) V ⊆ V' (2.) u ∈ V, (l(u) = l'(u)) (3.) E ⊆ E' (4.) (u,v) ∈ E, (l(u,v) = l'(u,v)) G' gọi đồ thị cha G Hai đồ thị G = (V,E, V' thỏa mãn: , ,l) G' = (V',E', (1.) u ∈ V, (l(u) = l'(f(u))) (2.) u,v ∈ V, ((u,v) ∈ E) ↔ (f(u),f(v)) ∈ E' (3.) (u,v) ∈ E, (l(u,v) = l'(f(u),f(v)) , ,l') đẳng cấu tồn song ánh f:V → Đồ thị G đồ thị đẳng cấu G', ký hiệu G ⊆ G', tồn đồ thị G" G' mà G đẳng cấu với G" Cho tập liệu đồ thị GD ngưỡng σ (0

Ngày đăng: 26/11/2020, 00:17

TỪ KHÓA LIÊN QUAN

w