Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu, phát triển một số phương pháp khai phá dữ liệu trên dữ liệu có cấu trúc

24 3 0
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu, phát triển một số phương pháp khai phá dữ liệu trên dữ liệu có cấu trúc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục tiêu nghiên cứu là tối ưu tính toán các bài toán có độ phức tạp thời gian không đa thức xuống thời gian đa thức sử dụng một số ràng buộc dữ liệu để có thể khám phá tri thức từ dữ liệu trong thời gian chấp nhận được và các bài toán liên quan đến khai phá các tập dữ liệu mà dạng biểu diễn đồ thị còn gặp khó khăn.

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG Hồng Minh Quang NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU TRÊN DỮ LIỆU CÓ CẤU TRÚC Chuyên ngành : Hệ thống thơng tin Mã số: 09.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - Năm 2020 Cơng trình hồn thành tại: Học Viện Cơng Nghệ Bưu Viễn thông Người hướng dẫn khoa học: GS TS Vũ Đức Thi GS TSKH Nguyễn Ngọc San Phản biện 1: ……………………………………………………… Phản biện 2: ……………………………………………………… Phản biện 3: ……………………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: Học viện Công nghệ Bưu Viễn thơng Vào hồi …… ngày …… tháng …… năm …… Có thể tìm hiểu luận án tại: Thư viện Học viện Cơng nghệ Bưu Viễn thơng DANH MỤC CƠNG TRÌNH CƠNG BỐ [1] János Demetrovics, Hoang Minh Quang, Nguyen Viet Anh, and Vu Duc Thi “An Optimization of Closed Frequent Subgraph Mining Algorithm” In: Cybernetics and Information Technologies 17.1 (2017), pp 3–15 [2] János Demetrovics, Hoang Minh Quang, Vu Duc Thi, and Nguyen Viet Anh “An Efficient Method to Reduce the Size of Consistent Decision Tables” In: Acta Cybernetica 23.4 (2018), pp 1039–1054 DOI: 10.14232/actacyb.23.4.2018.4 [3] Hoang Minh Quang and Nguyen Ngoc Cuong “Vấn đề phân loại đa nhãn cho đồ thị” In: Proceeding of the eleventh National Symposium Fundamental and Applied Information Technology Research FAIR, Hanoi, Vietnam, 2018, pp 567–574 [4] Hoang Minh Quang, Vu Duc Thi, and Vu Thi Lan Anh “Xây dựng định từ bảng định quán” In: Proceeding of the tenth National Symposium Fundamental and Applied Information Technology Research FAIR, Da Nang, Vietnam, 2017, pp 633–640 [5] Hoang Minh Quang, Vu Duc Thi, and Pham Quoc Hung “Một số vấn đề khai phá đồ thị thường xuyên đóng” In: Proceeding of the ninth National Symposium Fundamental and Applied Information Technology Research FAIR, Can Tho, Vietnam, 2016, pp 471–479 [6] Hoang Minh Quang, Vu Duc Thi, and Nguyen Ngoc San “Some algorithms related to consistent decision table” In: Journal of Computer Science and Cybernetics 33.2 (2017), pp 131–142 [7] Hoang Minh Quang, Vu Duc Thi, Kieu Thu Thuy, Dao Van Tuyet, and Phan Trung Kien “Khai phá thường xuyên sở liệu weblogs” In: Proceeding of the eighth National Symposium Fundamental and Applied Information Technology Research FAIR, Ha Noi, Vietnam, 2015, pp 327–355 MỞ ĐẦU TỔNG QUAN LUẬN ÁN VÀ LÝ DO CHỌN ĐỀ TÀI Khai phá liệu lớn xu hướng phát triển công nghệ mang tính cách mạng, ngày ứng dụng rộng rãi, đặc biệt nhiều tiềm phát triển tồn giới Khai phá liệu lớn ứng dụng để cải tiến công nghệ nhiều lĩnh vực quan trọng như: y tế, giao thông, tài chính, giáo dục, nhằm đem lại lợi ích việc hỗ trợ định, cắt giảm chi phí, tạo sản phẩm, dịch vụ Mặc dù việc khai phá liệu lớn đem lại giá trị to lớn ý nghĩa, nhiên, lĩnh vực địi hỏi cơng nghệ cao, đầu tư lớn, với nhiều thách thức Nguyên nhân xuất phát từ hai đặc trưng liệu lớn, là: tính lớn tính đa dạng, phức tạp Do độ lớn liệu, việc khai phá thường nhiều thời gian chi phí, độ phức tạp tính tốn khai phá liệu lớn thường độ phức tạp hàm mũ Hơn nữa, liệu lớn phức tạp, nên việc khai phá liệu cần trích xuất thơng tin cốt lõi để khai phá, thay xử lý tập hợp liệu lớn, có nhiều liệu dư thừa, khơng mang giá trị hữu ích Do vậy, vấn đề xử lý liệu lớn cải tiến tốc độ xử lý liệu tăng giá trị liệu khai phá Với ý nghĩa thực tiễn to lớn ngành khai phá liệu lớn, nhiều cơng trình khoa học tập trung nghiên cứu, phát triển thuật toán nhằm cải tiến việc xử lý liệu Một số hướng nghiên cứu nhà khoa học giới việc khai phá liệu sau: đánh mục truy vấn liệu, tìm kiếm theo từ khóa, so khớp đồ thị, mô tả đồ thị lớn, khai phá mẫu thường xuyên, phân cụm liệu, phân lớp liệu, khai phá liệu phát triển theo thời gian Trong luận án này, nghiên cứu sinh tập trung vào hai toán ngành xử lý liệu lớn là: tăng giá trị liệu tăng tốc độ xử lý liệu Kết luận án giúp nâng cao tính hiệu giảm chi phí việc khai phá liệu lớn Cụ thể, nghiên cứu sinh tập trung nghiên cứu, giải hai toán: (i) tốn liên quan đến rút gọn thuộc tính, rút gọn đối tượng, giảm liệu dư thừa, trích xuất liệu nhỏ, đặc trưng, xác hơn, nhằm xác định giá trị cốt lõi tập hợp liệu lớn phức tạp, (ii) hai toán tối ưu hóa tính tốn, cải thiện tốc độ chi phí tính tốn khai phá liệu có độ phức tạp tính tốn lớn độ phức tạp tính tốn hàm mũ hay độ phức tạp tính tốn thời gian không đa thức MỤC TIÊU - ĐỐI TƯỢNG - PHẠM VI NGHIÊN CỨU Mục tiêu nghiên cứu Đặt mục tiêu giải hai toán trên, nghiên cứu sinh nghiên cứu, phát triển số phương pháp khai phá liệu liệu có cấu trúc, tập trung vào liệu biểu diễn cấu trúc dạng bảng dạng đồ thị Đối với liệu dạng bảng, mục tiêu nghiên cứu toán giảm dư thừa liệu, rút gọn thuộc tính, rút gọn đối tượng để thu tập liệu nhỏ bảo tồn tính chất rút gọn thuộc tính, sinh định khai phá liệu lớn Đối với biểu diễn liệu dạng đồ thị, mục tiêu nghiên cứu tối ưu tính tốn tốn có độ phức tạp thời gian không đa thức xuống thời gian đa thức sử dụng số ràng buộc liệu để khám phá tri thức từ liệu thời gian chấp nhận toán liên quan đến khai phá tập liệu mà dạng biểu diễn đồ thị cịn gặp khó khăn dạng biểu diễn liệu khác có phương pháp thực Đối tượng nghiên cứu Trong luận án này, nghiên cứu sinh đặt trọng tâm khai phá liệu biểu diễn liệu có cấu trúc dạng bảng định quán biểu diễn đồ thị sở liệu đồ thị biểu diễn liệu cấu trúc hóa học, biểu diễn liệu sinh học, biểu diễn liệu mạng máy tính, mạng xã hội Trên tập liệu lựa chọn, nghiên cứu sinh phát triển số thuật toán phục vụ khai phá liệu lớn giảm dư thừa, rút gọn liệu tối ưu tính tốn độ phức tạp thời gian đa thức để đáp ứng thời gian khai phá liệu cho phép thuật tốn mà thơng thường cần giải độ phức tạp thời gian không đa thức Phạm vi nghiên cứu Luận án tập trung vào hai đối tượng với phạm vi như: (i) bảng định quán với tốn tìm rút gọn thuộc tính khơng heuristic, tìm rút gọn đối tượng sinh định, (ii) sở liệu giao tác đồ thị với toán khai phá đồ thị thường xuyên đóng phân loại đồ thị đa nhãn KẾT QUẢ - Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN Trong luận án, nghiên cứu sinh nghiên cứu cải tiến số phương pháp khai phá liệu biểu diễn liệu có cấu trúc dạng bảng dạng đồ thị Các kết đạt bao gồm: Nghiên cứu rút gọn thuộc tính bảng định quán Tìm rút gọn thuộc tính thời gian đa thức khơng sử dụng heuristic phương pháp tìm rút gọn thuộc tính khác Nghiên cứu rút gọn đối tượng bảng định quán Tìm rút gọn đối tượng thời gian đa thức mà bảo toàn trình tìm tất rút gọn thuộc tính Nghiên cứu định Cải tiến phương pháp sinh định thực nhanh trình sinh định thuật toán ID3 Nghiên cứu khai phá đồ thị thường xuyên đóng Chứng minh vấn đề đẳng cấu đồ thị giải thời gian đa thức khai phá đồ thị thường xun đóng thuật tốn khai phá đồ thị thường xuyên đóng khác chưa giải vấn đề đẳng cấu đồ thị thời gian đa thức Nghiên cứu phân loại đa nhãn cho đồ thị Xây dựng độ đo dàn giao khái niệm áp dụng cho phân loại đa nhãn đồ thị sử dụng lý thuyết Dempster-Shafer, cơng trình phân loại đa nhãn theo lý thuyết Dempster-Shafer khác phải xây dựng độ đo dựa biểu diễn véctơ mà đồ thị khơng có biểu diễn véctơ Các kết nghiên cứu nghiên cứu sinh có chứng minh tính đắn đầy đủ thể ý nghĩa khoa học luận án Ngoài ra, kết áp dụng cho vấn đề nghiên cứu lẫn thực tiễn, thuật toán nghiên cứu sinh đề xuất áp dụng cho liệu UCI dataset NCI dataset Balance scale, Kr-vskp, Breast cancer, Car, Tic-tac-toe, Molecula, HIV AIDS, Chemical compound, số kết thử nghiệm CẤU TRÚC LUẬN ÁN Cấu trúc luận án có chương sau: • Chương Kiến thức chuẩn bị: Chương trình bày số định nghĩa sở, định lý lý thuyết áp dụng vào phương pháp phát triển thuật toán luận án lý thuyết tập thô, lý thuyết sở liệu quan hệ, lý thuyết đồ thị, lý thuyết phân tích khái niệm thức, lý thuyết độ tin cậy, lý thuyết Dempster-Shafer • Chương Chương trình bày chi tiết số phương pháp nghiên cứu sinh đề xuất việc phát triển thuật toán khai phá liệu biểu diễn liệu có cấu trúc dạng bảng rút gọn đối tượng thời gian đa thức, rút gọn thuộc tính khơng heuristic thời gian đa thức sinh định với thời gian thực nhanh thuật toán ID3, đồng thời nghiên cứu sinh chứng minh tính đắn đầy đủ phương pháp • Chương Chương trình bày số phương pháp nghiên cứu sinh đề xuất khai phá liệu biểu diễn liệu cấu trúc dạng đồ thị toán khai phá đồ thị thường xuyên đóng phân loại đồ thị đa nhãn theo lý thuyết DempsterShafer Trong tốn khai phá đồ thị thường xun đóng, nghiên cứu sinh đề xuất phương pháp xác định đẳng cấu đồ thị thời gian đa thức toán phân loại đa nhãn đồ thị, nghiên cứu sinh đề xuất độ đo khoảng cách dàn giao khái niệm phục vụ cho trình phân loại, đồng thời nghiên cứu sinh chứng minh tính đắn đầy đủ phương pháp 1.1 KIẾN THỨC CHUẨN BỊ Lý thuyết sở liệu quan hệ Phần trình bày số định nghĩa sở liệu quan hệ Kết hợp với định nghĩa lý thuyết tập thô, định nghĩa tập nhau, hệ cực đại, khóa, phản khóa góp phần thực nhiệm vụ rút gọn thuộc tính rút gọn đối tượng bảng định quán 1.2 Lý thuyết tập thơ Phần trình bày số khái niệm lý thuyết tập thô bảng thông tin, bảng định, bảng định quán, quan hệ bất khả phân biệt, phân hoạch, lớp tương đương, rút gọn, ma trận phân biệt, tập lõi Các định nghĩa áp dụng tốn tìm rút gọn thuộc tính thời gian đa thức, tìm rút gọn đối tượng thời gian đa thức xây dựng định từ bảng định quán thu gọn hai chiều ngang dọc dựa rút gọn thuộc tính rút gọn đối tượng 1.3 Lý thuyết đồ thị Phần này, nghiên cứu sinh trình bày số định nghĩa đồ thị phục vụ cho thuật toán khai phá đồ thị thường xuyên đóng giải tốn đẳng cấu đồ thị thời gian đa thức với ràng buộc sử dụng máy truy cập ngẫu nhiên, tính có thứ tự tập nhãn đỉnh cạnh 1.4 Tập có thứ tự dàn giao (lattices) Tập có thứ tự dàn giao khái niệm quan trọng việc xác định mối liên quan hai phần tử tập hợp phần tử Các khái niệm tảng xây dựng dàn giao khái niệm 7 1.5 Phân tích khái niệm thức (FCA) Phần trình bày số định nghĩa ngữ cảnh thức, khái niệm thức, mối quan hệ cha - khái niệm thức dàn giao khái niệm Từ khái niệm này, nghiên cứu sinh đề xuất xây dựng độ đo tương tự hai đồ thị dàn giao khái niệm phục vụ giải toán phân loại đa nhãn đồ thị 1.6 Biến đổi đồng biến đổi Mobius Biến đổi đồng biến đổi Mobius nghiên cứu sinh sử dụng việc xây dựng hàm hàm cấp phát khối, hàm niềm tin theo lý thuyết độ tin cậy Dempster-Shafer từ mối quan hệ dàn giao khái niệm đồ thị để phục vụ toán phân loại đa nhãn đồ thị sử dụng lý thuyết hàm niềm tin Dempster-Shafer 1.7 Lý thuyết Dempster-Shafer Phần trình bày số khái niệm lý thuyết DempsterShafer Áp dụng luật Dempster việc kết hợp hàm cấp phát khối hàm niềm tin thông qua tập láng giềng đồ thị theo độ đo dàn giao khái niệm để xác định tập nhãn cho đồ thị giải toán phân loại đa nhãn cho đồ thị sử dụng lý thuyết Dempster-Shafer KHAI PHÁ DỮ LIỆU DẠNG BẢNG Nội dung chương dựa cơng trình số [0], [0], [0] danh mục cơng trình cơng bố nghiên cứu sinh 8 2.1 Rút gọn thuộc tính khơng heuristic Tìm rút gọn từ bảng định mục tiêu xử lý thơng tin Nhiều nghiên cứu tập trung vào rút gọn thuộc tính tức làm giảm số cột bảng định Thật khơng may tìm tất rút gọn thuộc tính bảng định vấn đề có độ phức tạp hàm mũ Nghiên cứu sinh đề xuất phương pháp tìm rút gọn thuộc tính thời gian đa thức khơng theo phương pháp heuristic phương pháp khác Thuật toán AnAttributeReduct nghiên cứu sinh đề xuất tìm rút gọn thuộc tính chứng minh tính đắn thực thời gian đa thức Algorithm 1: AnAttributeReduct(DS) Đầu vào: DS “ pU, C Y tdu, V, f q Đầu : D P REDpCq Er Ð EqualitySetpDSq; Md Ð M aximalEqualitySystempDS, Er q; C “ tc1 , , cn u, H “ C; foreach i “ 0; i ă n; i ` ` if EB P Md : H ´ ci`1 Ď B then H “ H ´ ci`1 ; end end trả D “ Hpnq (Hpnq H vòng lặp kết thúc với i “ n “ |C|); Định lý 2.1 Hpnq P REDpCq Độ phức tạp tính tốn thời gian thuật tốn AnAttributeReduct(DS) khơng lớn Op|C| ˆ |U |4 q Có thể thấy thay đổi thứ tự phần tử tập C bước 3, nhận rút gọn thuộc tính khác từ bảng định quán DS 2.2 Rút gọn đối tượng bảng định quán Dựa lý thuyết tập thô lý thuyết sở liệu quan hệ nghiên cứu sinh đề xuất phương pháp rút gọn đối tượng bảng định quán mà bảo tồn vấn đề tìm tập tất tập rút gọn thuộc tính bảng định quán Bổ đề 2.2 Cho bảng định quán DS “ pU, C Y tdu, V, f q với C “ tc1 , c2 , , cn u, U “ tu1 , u2 , , um u Xem DS quan hệ r “ tu1 , u2 , , um u tập thuộc tính R “ C Y tdu Đặt Er “ tEij : ď i ă j ď mu với Eij “ ta P R : apui q “ apuj qu Đặt Md “ tA P Er : d R A, EB P Er : d R B, A Ă Bu Thì Md “ pKdr q´1 với Kdr la họ thuộc tính tối tiểu thuộc tính tdu quan hệ r Định nghĩa 2.1 Một rút gọn đối tượng bảng định quán DS “ pU, C Y tdu, V, f q bảng định quán DS “ pU , C Y tdu, V, f q, với REDpCq “ REDU pCq và: 1) U Ď U , 2) REDU pCq “ REDU pCq, 3) REDU pCq ‰ REDU ´tuu pCq, @u P U Định lý 2.3 DS “ pU “ T pmq, C Y tdu, V, f q thuật toán AnObjectReduct thỏa mãn ba điều kiện 1), 2) 3) theo định nghĩa 2.1 Rõ ràng số bước tính tốn Er theo định nghĩa hệ |U |2 Số bước tính tốn Md |Er |2 |Er | ď 10 Algorithm 2: AnObjectReduct(DS) Đầu vào: DS “ pU, C Y tdu, V, f q Đầu : DS “ pU , C Y tdu, V, f q Er Ð EqualitySetpDSq; MdU Ð M aximalEqualitySystempDS, Er q; T “ U “ tu1 , , um u; foreach i “ 0; i ă |U |; i ` ` T ´u if Md i`1 “ MdU then T “ T ´ ui`1 ; end end trả DS “ pU “ T pmq, C Y tdu, V, f q (T pmq T sau vòng lặp kết thúc với i “ m “ |U |); |U |p|U | ´ 1q Do vậy, độ phức tạp thời gian tồi thuật tốn AnObjectReduct(DS) khơng lớn Op|U |5 q Có thể dễ dàng thấy thay đổi trật tự phần tử tập vũ trụ U , tìm rút gọn đối tượng khác 2.3 Xây dựng định từ bảng rút gọn Vấn đề xây dựng tất định từ bảng định từ bảng định DS vấn đề NP-đầy đủ có |C|! xếp thuộc tính để tạo định Các cơng trình xây dựng định heuristic dựa số độ đo chẳng hạn ID3 với Entropy Gain Nghiên cứu sinh đề xuất thuật toán sinh định theo độ đo hàm chứa quan hệ bất khả phân biệt Định lý 2.4 Thủ tục RecursiveN odepDSq đắn 11 Procedure RecursiveNode(DS) 10 11 N ode Ð H; if pp|U | ““ 1q||p|C Y tdu| ““ 0qq then N ode Ð U pdq (nút lá); else bestAttribute Ð ř max p@pe P C Y tduq pIN Dpeq Ď IN Dpdqqq; remainAttributes Ð pC Y tdu ´ bestAttributeq; N ode Ð bestAttribute; N ode.childs Ð tRecursiveN odepDS qu; pDS “ pU “ U : V aluepbestAttribute “ vq, pC Y tduq ´ bestAttribute, V, f qq, p@v P V aluepbestAttributeqq; end trả N ode; Định lý 2.5 Thuật toán IRDT pDSq đắn Thực nghiệm kết đánh giá thuật tốn rút gọn thuộc tính (bảng 1) rút gọn đối tượng (bảng 2) nghiên cứu sinh đề xuất chương khai phá liệu dạng bảng Các kết thực nghiệm thực nhanh với ngơn ngữ lập trình Nodejs, Javascript với số tập liệu dạng txt từ kho liệu UCI Thực nghiệm tốc độ tính tốn thuật toán IRDT nhanh vượt trội so với thuật tốn ID3 (bảng 3) Có thể dễ dàng nhận thấy vấn đề đếm số lượng phần tử tập quan hệ bất khả phân biệt phép tính tốn số ngun nên rõ ràng nhanh tính Entropy tính Information Gain vốn cơng thức tính tốn số thực 12 Algorithm 3: IRDT(DS) Đầu vào: DS “ pU, C Y tdu, V, f q Đầu : DecisionT reepDSq Root Ð RecursiveN odepDS “ pU, C Y tdu, V, f qq; trả Root; Bảng 1: Bảng thực rút gọn thuộc tính Tập liệu Thuộc tính gốc Thuộc tính rút gọn Thời gian(s) Examples Breast cancer Balance Car Evaluation 0.006 0.161 0.248 0.673 KHAI PHÁ DỮ LIỆU ĐỒ THỊ Nội dung chương dựa cơng trình số [0], [0], [0], [0] danh mục cơng trình cơng bố nghiên cứu sinh 3.1 Khai phá đồ thị thường xuyên đóng Nghiên cứu sinh đề xuất phương pháp khai phá mẫu đồ thị thường xuyên với việc kiểm tra đẳng cấu đồ thị thời gian đa thức với ràng buộc gán nhãn thứ tự nhãn đỉnh cạnh tất đồ thị cở sở liệu đồ thị Thuật toán nghiên cứu sinh đề xuất cho việc khai phá đồ thị thường xuyên đóng dựa chiến lược nhãn chuẩn hóa, mơ hình máy truy cập ngẫu nhiên (RAM) mơ hình von Neumann cách tiếp cận 13 Bảng 2: Bảng thực rút gọn đối tượng Tập liệu Đối tượng gốc Đối tượng rút gọn Thời gian(s) Examples Breast cancer Balance Car Evaluation 14 286 625 1728 6 0.005 0.158 0.171 0.771 Bảng 3: Bảng so sánh tốc độ thực IDRT ID3 (millisecond) Datasets (Atts/Objs) ID3 (ms) IRDT (ms) Examples (4/14) Breast cancer (9/286) Car Evaluation (6/1728) 53 64 13 30 Apriori với tính đóng nhằm giảm bớt số lượng ứng viên đồ thị thường xuyên sinh Trong thuật toán mới, toán đồ thị đẳng cấu giải thời gian đa thức so với giải thời gian khơng đa thức thuật tốn có Thêm vào nghiên cứu sinh tính đắn độ phức tạp thuật tốn đề xuất Nhãn chuẩn hóa Trong cơng trình nghiên cứu Huan, Yan 2003 việc sử dụng biểu diễn cho đồ thị làm giảm thời gian thực khai phá đồ thị thường xuyên Sinh tập ứng viên Trong thuật toán mới, PSI-CFSM, xác định tất F S2i , với 14 i đồ thị đóng thường xuyên từ tập CSk´1 , xây dựng tập đồ thị i ứng viên Ck với độ phức tạp thời gian đa thức Kiểm tra đồ thị đẳng cấu Thuật toán PSI-CFSM cải tiến bước kiểm tra đẳng cấu đồ thị cách sử dụng kiểm tra đẳng cấu đồ thị theo tìm kiếm nhị phân mơ hình máy truy cập ngẫu nhiên Trong lý thuyết độ phức tạp tính tốn, phức tạp thời gian tìm kiếm nhị phân Oplognq n số lượng ứng viên đồ thị Giả sử lực lượng đồ thị ứng viên 2n số bước phép kiểm tra đẳng cấu đồ thị cách tìm kiếm nhị phân mơ hình máy truy cập ngẫu nhiên log2 2n “ n độ phức tạp thời gian Opnq Procedure TestIsomorphism(g P Ckj , Cki ) Đầu vào: g P Ckj , Cki Đầu : true _ f alse b Ð BinarySearch(tcodepCAM pg P Cki qqu, codepCAM pgqq, 0, |Cki |); if b ą then trả true; else trả false; end Bổ đề 3.1 Độ phức tạp tính tốn TestIsomorphism Oplog2 |Cki |q Bổ đề 3.2 Thủ tục T estIsomorphismpg P Ckj , Cki q đắn Thuật toán PSI-CFSM Trong thuật toán PSI-CFSM, bước xây dựng mảng xếp thứ tự theo trật tự mã CAM đồ thị 15 với đỉnh (chỉ có cạnh) 2-subgraph đồ thị Gi sở liệu đồ thị GD Mảng xếp thứ tự ký hiệu C2i , C2 “ tC2i u Với phần tử u C2i , so sánh codeCAM puq với codeCAM pvq, v P tC2j “ C2 ´ C2i u Nếu codepCAM puqq “ codepCAM pvqq tăng độ hỗ trợ u lên Nếu supu ě σ đặt u vào F S2 , F S2i F S2 (F S2D ) tập đồ thị thường xuyên 2-subgraphs sở liệu đồ thị GD F S2i tập đồ thị thường xuyên 2-subgraphs đồ thị Gi P GD Xây dựng vòng lặp với k ě để tính Cki , F Sk , F Ski , CSk , CSki dựa thuật toán PSI-CFSM Định lý 3.3 Thuật toán PSI-CFSM đắn 3.2 Phân loại đa nhãn cho đồ thị Denoeux 2012 đề xuất phương pháp đề giảm độ phức tạp tính tốn thao tác kết hợp hàm khối, hàm niềm tin xác định tập phù hợp khung phân biệt kết hợp với cấu trúc dàn giao Xây dựng dàn giao khái niệm Xây dựng dàn giao cho đồ thị gi P GD sử dụng bảng ngữ cảnh thức theo định nghĩa ngữ cảnh thức cách xây dựng tập tất đồ thị thường xuyên đóng CS sở liệu đồ thị GD coi tập CS tập thuộc tính cịn sở liệu đồ thị tập đối tượng Mối quan hệ tập đối tượng tập thuộc tính thể qua việc đồ thị Gi P GD có chứa đồ thị thường xun đóng gj P CS đồ thị Gi đồ thị thường xuyên đóng gj có mối quan hệ với Từ bảng ngữ cảnh thức, tìm tất khái niệm thức, xây dựng dàn giao khái niệm IcebergLattice 16 Algorithm 4: PSI-CFSM(GD, σ = min_sup) Đầu vào: Cơ sở liệu đồ thị GD, σ = min_sup Đầu : CS2 , CS3 , , CSk , tập đồ thị thường xuyên đóng theo mức Xây dựng mảng có thứ tự theo code(CAM) C2i ; foreach u P C2i TestIsomorphism(u, C2j ) tìm supu ě σ để đặt u vào F S2i , F S2D , CS2i CS2 ; 12 end k Ð 3; i , @F S2i ) is not null while Combine(@CSk´1 Xây dựng mảng có thứ tự theo code(CAM) Cki ; foreach u P Cki TestIsomorphism(u, Ckj ) tìm supu ě σ để đặt u vào CSki CSk ; i supv “ supu xóa v khỏi Kiểm tra v P CSk´1 CSk´1 ; end k Ð k ` 1; 13 end 10 11 Dựa định nghĩa dàn giao, dàn giao khái niệm Iceberglattice CL ln có phần tử cận nhỏ cận lớn cho cặp phần tử dàn giao khái niệm Từ dàn giao khái niệm, định nghĩa độ đo dựa khoảng cách tính theo số lượng cạnh tính từ phần từ nhỏ cận lubpx, yq đến đỉnh x, y P CL dàn giao khái niệm gọi dpx, yq Định nghĩa 3.1 Đường hai đỉnh x, y dàn giao khái niệm CL tổng đường ngắn từ lubpx, yq đến x từ lubpx, yq 17 đến y Bổ đề 3.4 Đường hai đỉnh x, y theo định nghĩa 3.1 đường ngắn Định nghĩa 3.2 Cho CL dàn giao khái niệm, độ đo tương tự hai đồ thị gi , gj P GD đường hai đỉnh khái niệm thức chứa gi , gj dpgi , gj q “ |shortest_pathpcpgi q, cpgj qq| với cpgi q, cpgj q khái niệm thức đồ thị gi , gj ngữ cảnh thức sở liệu đồ thị GD Định lý 3.5 dpgi , gj q thỏa mãn tính chất độ đo tương tự theo khoảng cách Thuật toán phân loại đa nhãn đồ thị Thuật toán phân loại đa nhãn cho đồ thị xây dựng theo phương pháp k-láng giềng gần để xác định tập nhãn cho đồ thị gn P GD chưa có nhãn với đồ thị Gi P GD gán nhãn Li Ď L Tương ứng với đồ thị gi P kN N pgn q hàm niềm tin với khoảng nhãn rAi , Bi s xác định theo dàn giao khái niệm CL với Ai tập nhãn gi Bi tập nhãn lubpgi , gn q Độ đo tương tự d xi phần tử tập k láng giềng gần có tập nhãn nằm khoảng rAi , Bi s (poset hữu hạn cục bộ) mục chứng mơ tả hàm khối sau: mi prAi , Bi sq “ αi , (1) mi prHΓ , Γsq “ ´ αi (2) với αi độ đo tương tự dựa công thức (3.2) theo tỉ lệ tổng khoảng cách tất đồ thị gk tới gn 18 Algorithm 5: DSMLGC(DS) Đầu vào: GD, L, gx Đầu : A Ď L tập nhãn gx Xây dựng dàn giao khái niệm IcebergLattice cho GD gx ; Xác định k-láng giềng gx IcebergLattice tập kN N pgx q; Áp dụng luật Dempster-Shafer tìm tập nhãn cho gx từ kN N pgx q; Denoeux đề xuất luật để xác định tập nhãn cho đối tượng x Cho ˆ Y tập nhãn dự đoán gán cho x Để định nhãn θ P Γ gán cho x hay không, hai số lượng tính cấp độ hàm niềm tin belprtθu, Γsq, Yˆ tập nhãn chứa θ, cấp độ hàm ¯ mà không chứa θ Tập nhãn dự đoán gán niềm tin belprH, tθusq Yˆ xác định sau: ¯ Yˆ “ tθ P Γ | belprtθu, Γsq ě belprH, tθusqu (3) Thực nghiệm chứng tỏ phương pháp khai phá đồ thị thường xuyên đóng PSI-CFSM nghiên cứu sinh đề xuất tối ưu mặt thời gian tính tốn gSpan nhờ vấn đề xác định đẳng cấu đồ thị thời gian đa thức (bảng 4) Sử dụng liệu Chemical Compound kèm với thuật toán gSpan liệu nghiên cứu sinh tự sinh phần ví dụ, với việc đặt ngưỡng độ hỗ trợ tối thiểu khác để so sánh thời gian thực thuật toán PSI-CFSM gSpan Kết cho bảng sau: 19 Bảng 4: Khai phá đồ thị thường xuyên (đơn vị thời gian: giây) Ngưỡng (xuất hiện) Thuật toán Dữ liệu Dữ liệu 50 gSpan 0.07s 1120s PSI-CFSM 0.027s 66.2s gSpan 0.0s 3.26s PSI-CFSM 0.006s 2.986s 10 gSpan 0.0s 1.74s 10 PSI-CFSM 0.006s 1.42s KẾT LUẬN Dữ liệu lớn dẫn đến nhu cầu rút gọn liệu để giảm không gian lưu trữ tối ưu thời gian tính tốn Các cơng trình nghiên cứu tập trung vào tìm rút gọn thuộc tính theo lý thuyết tập thơ Pawlak bảng định Tìm tất rút gọn thuộc tính có độ phức tạp thời gian hàm mũ Opm ˚ 2n q với m số lượng đối tượng n số lượng thuộc tính bảng định quán Luận án phát phương pháp tìm rút gọn đối tượng m1 ă m thời gian đa thức mà vấn đề tìm tất rút gọn đối tượng bảo tồn Theo đó, độ phức tạp tính tốn tìm tất rút gọn thuộc tính cịn Opm1 ˚ 2n q giảm không gian lưu trữ liệu đặc biệt liệu lớn Ngoài ra, để giảm độ phức tạp tính tốn hàm mũ vấn đề sinh luật định, sinh định nghiên cứu cơng bố tìm rút gọn thuộc tính heuristic thời gian đa thức Thêm vào luận án thành cơng tìm rút gọn thuộc tính thời gian đa thức khơng heuristic phương pháp cải tiến sinh định có tốc độ thực nhanh thuật toán sinh định ID3 bảng định quán Trong luận án, đề xuất 20 nghiên cứu sinh chứng minh đắn đầy đủ với thực nghiệm chứng tỏ thuật toán sinh định nghiên cứu sinh nhanh thuật toán ID3 Dữ liệu lớn liệu thu thập từ nhiều miền, nhiều lĩnh vực có đa dạng cấu trúc biểu diễn khác Các thuật toán khai phá liệu khai phá liệu tập liệu thống kiểu dạng biểu diễn Các cấu trúc liệu khác biểu diễn liệu dạng đồ thị để thống kiểu dạng cho mục đích khai phá liệu Tuy nhiên, khai phá liệu đồ thị có độ phức tạp thời gian khơng đa thức chí độ phức tạp hàm mũ Trong luận án này, nghiên cứu sinh tập trung vào khai phá liệu đồ thị thường xuyên phân loại đa nhãn đồ thị Đối với toán khai phá đồ thị thường xuyên, vấn đề cộm xác định đẳng cấu đồ thị thơng thường có độ phức tạp không đa thức đầy đủ Luận án giải khai phá đồ thị thường xuyên đóng thuật tốn PSI-CFSM vấn đề xác định đẳng cấu đồ thị thời gian đa thức cách áp dụng số điều kiện ràng buộc nhãn chuẩn hóa, máy truy cập ngẫu nhiên Đối với tốn phân loại đa nhãn, mơ hình phân loại đa nhãn áp dụng lý thuyết Dempster Shafer tăng độ xác phân loại giảm thời gian tính tốn khơng áp dụng cho biểu diễn liệu đồ thị đồ thị thiếu biểu diễn dạng véctơ Luận án thực xây dựng dàn giao khái niệm dựa tập đồ thị thường xuyên đóng tập liệu đồ thị để từ xác định độ đo khoảng cách đồ thị dựa vào độ đo khoảng cách để phân loại đa nhãn cho đồ thị theo lý thuyết Dempster Shafer Trong luận án, đề xuất nghiên cứu sinh xác định đẳng cấu đồ thị xác định độ đo khoảng cách dàn giao khái niệm chứng minh tính đắn đầy đủ với thực nghiệm chứng tỏ thuật toán PSI-CFSM tối ưu thời gian so với thuật toán gSpan khai phá đồ thị thường xuyên ... PHẠM VI NGHIÊN CỨU Mục tiêu nghiên cứu Đặt mục tiêu giải hai toán trên, nghiên cứu sinh nghiên cứu, phát triển số phương pháp khai phá liệu liệu có cấu trúc, tập trung vào liệu biểu diễn cấu trúc. .. phân lớp liệu, khai phá liệu phát triển theo thời gian Trong luận án này, nghiên cứu sinh tập trung vào hai toán ngành xử lý liệu lớn là: tăng giá trị liệu tăng tốc độ xử lý liệu Kết luận án giúp... Dempster-Shafer • Chương Chương trình bày chi tiết số phương pháp nghiên cứu sinh đề xuất việc phát triển thuật toán khai phá liệu biểu diễn liệu có cấu trúc dạng bảng rút gọn đối tượng thời gian đa

Ngày đăng: 09/06/2021, 09:55

Từ khóa liên quan

Mục lục

  • KIẾN THỨC CHUẨN BỊ

    • Lý thuyết cơ sở dữ liệu quan hệ

    • Lý thuyết tập thô

    • Lý thuyết đồ thị

    • Tập có thứ tự và dàn giao (lattices)

    • Phân tích khái niệm chính thức (FCA)

    • Biến đổi và đồng biến đổi Mobius

    • Lý thuyết Dempster-Shafer

    • KHAI PHÁ DỮ LIỆU DẠNG BẢNG

      • Rút gọn thuộc tính không heuristic

      • Rút gọn đối tượng bảng quyết định nhất quán

      • Xây dựng cây quyết định từ bảng rút gọn

      • KHAI PHÁ DỮ LIỆU ĐỒ THỊ

        • Khai phá đồ thị con thường xuyên đóng

        • Phân loại đa nhãn cho đồ thị

Tài liệu cùng người dùng

Tài liệu liên quan