Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
1,47 MB
Nội dung
i MỤC LỤC DANH MỤC CÁC HÌNH ẢNH iii DANH MỤC BẢNG BIỂU v DANH MỤC CÁC TỪ VIẾT TẮT vi MỞ ĐẦU CHƯƠNG 1.1 KHAIPHÁDỮLIỆU VÀ CẤU TRÚC CÂYDỮLIỆUKhaipháliệu 1.1.1 Tại lại cần khaipháliệu 1.1.2 Khaipháliệu gì? 1.1.3 Các chức khaipháliệu 1.1.4 Các công cụ khaipháliệu 1.1.5 Các kỹ thuật khaipháliệu 1.1.6 Ứng dụng khaipháliệu 13 1.2 Cấu trúc liệu 13 1.2.1 Các loại 13 1.2.2 Các cách biểu diễn cấu trúc liệu 18 1.3 Dạng chuẩn liệu 19 1.3.1 Dạng chuẩn tắc theo chiều rộng (BFCF) 19 1.3.2 Dạng tắc theo chiều sâu DFCF 24 1.3.3 Cây liệt kê 29 1.4 Kết luận chương 33 CHƯƠNG 2.1 PHÁTHIỆNCÁCCÂYCONPHỔBIẾN 34 Khaipháphổbiến 34 2.1.1 Câyphổbiến 34 2.1.2 Bài toán khaipháphổbiến 35 ii 2.2 Thuật toán khaipháphổbiến sở liệuliệu 36 2.2.1 Thuật toán khaipháphổbiến DTMiner 36 2.2.2 Thuật toán khaipháphổbiến đóng cực đại 39 2.2.3 Thứ tự tính toán - Heuristic 48 2.2.4 Thuật toán khaipháphổbiến đóng cực đại CMT_Miner(D, minsup) 50 2.2.5 Thuật toán khaiphá conphổ biến đóng cực đạiNCMT_Miner(D, minsup) 52 2.3 Kết luận chương 55 CHƯƠNG 3.1 CHƯƠNG TRÌNH THỬ NGHIỆM 56 Ứng dụng phát cấu trúc chức protein tin sinh học 56 3.1.1 Phân tích trình tự 57 3.1.2 Dò tìm đột biến SNP 57 3.1.3 Phân tích chức gene 57 3.1.4 Nhận diện protein 58 3.1.5 Dự đoán cấu trúc protein 58 3.2 Chương trình thử nghiệm 59 3.2.1 Môi trường thử nghiệm 59 3.2.2 Kết thực nghiệm 59 3.2.3 So sánh kết thực nghiệm 67 3.3 Kết luận chương 68 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 iii DANH MỤC CÁC HÌNH ẢNH Hình 1-1 Các bước Khaipháliệu & KDD [6] Hình 1-2 Luồng thông tin sử dụng theo cách kết hợp[1] Hình 1-3 Phân cụm [6] 10 Hình 1-4 Cây định [6] 12 Hình 1-5 Tám có thứ tự nhận từ thứ tự 15 Hình 1-6 Cây tìm kiếm nhị phân với tập khóa số nguyên 16 Hình 1-7 Cây t’ dạng tắc DFCF 29 Hình 1-8 Cây liệt kê phổbiến 33 Hình 2-1 Chuẩn hóa đánh số giao tác 36 Hình 2-2 CSDL gồm giao tác 41 Hình 2-3 (a) Đồthị định hướng phi chu trình liệt kê DAG, (b) Cây liệt kê 42 Hình 2-4 Cây t t rên a), b), c), d) lớp phủ Bt 43 Hình 2-5 a) Cây trước tỉa b) Cây sau tỉa 44 Hình 2-6 a) Đường phải nhất, b) Lớp phủ trái/phải 45 Hình 2-7 Vị trí đỉnh thêm vào phổbiến t 46 Hình 3-1 Cây thứ tự T1, T2,T3 59 Hình 3-2 Chính tắc hóa T1 60 Hình 3-3 Chính tắc hóa T2 60 Hình 3-4 Chính tắc hóa T3 60 Hình 3-5 Tập chuỗi mã hóa tắc T1 61 Hình 3-6 Tập chuỗi mã hóa tắc T2 61 Hình 3-7 Tập chuỗi mã hóa tắc T3 61 Hình 3-8 Tập phổbiến đóng cực đại tập CSDL T1 62 Hình 3-9 Tập phổbiến đóng cực đại tập CSDL T1, T2 62 iv Hình 3-10 Tập phổbiến đóng cực đại tập CSDL T1, T2, T3 63 Hình 3-11 Chính tắc hóa T1 63 Hình 3-12 Chính tắc hóa T2 64 Hình 3-13 Chính tắc hóa T3 64 Hình 3-14 Tập chuỗi mã hóa tắc T1 64 Hình 3-15 Tập chuỗi mã hóa tắc T2 65 Hình 3-16 Tập chuỗi mã hóa tắc T3 65 Hình 3-17 Tập phổbiến đóng cực đại tập CSDL T1 65 Hình 3-18 Tập phổbiến đóng cực đại tập CSDL T1, T2 66 Hình 3-19 Tập phổbiến đóng cực đại tập CSDL T1, T2, T3 66 Hình 3-20 So sánh số lượng phổbiến đóng cực đại thuật toán 67 v DANH MỤC BẢNG BIỂU Bảng 3.1 Cấu hình phần cứng sử dụng thực nghiệm 59 Bảng 3.2 Công cụ phần mềm sử dụng thực nghiệm 59 vi DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Depth-first search DFS Tìm kiếm theo chiều sâu Breadth-first search BFS Tìm kiếm theo chiều rộng Breadth-Frist String Encoding BFSE Mã chuỗi theo chiều rộng Breadth-First Canonical String BFCS Chuỗi chuẩn theo chiều rộng Breadth-First Canonical Form BFCF Dạng chuẩn theo chiều rộng Depth-First String Encoding DFSE Mã chuỗi theo chiều sâu Depth-First Canonical Form DFCF Dạng chuẩn theo chiều sâu Directed Acyclic Graph DAG Đồthị định hướng phichu trình Partially Ordered set POSET Tập thứ tự phận Frequent Subgraphs Mining FSM Khaipháđồthịphổbiến Inductive Logic Programming ILP Chương trình Logic qui nạp eXtensible Markup Language XML Ngôn ngữ đánh dấu Mở rộng MỞ ĐẦU Đặt vấn đề Cùng với phát triển xã hội, người tạo thiết bị xử lý liệu thông minh đáp ứng nhu cầu họ Thế hệ máy tính xuất vào thập kỉ đầu kỉ 20, cỗ máy với kích thước khổng lồ có gian phòng lớn tiêu thụ nhiều điện Tuy nhiên nhu cầu xử lý liệu ngày lớn, người sáng tạo cải tiến hệ máy tính trở nên gọn nhẹ với máy tính xách tay nặng vài kilogam tiêu thụ điện đáp ứng hầu hết yêu cầu người việc xử lí khối liệu lớn phức tạp Đồng hành với phát triển thông tin công nghệ, khaipháliệu đời mở hướng để giải yêu cầu xử lý khối liệu khổng lồ Hướng ứng dụng vào nhiều lĩnh vực, ví dụ như: tin sinh học, điều trị y học, phân tích liệu hỗ trợ định, tài thị trường chứng khoán, bảo hiểm, nhân dạng… Đặc biệt, nghiên cứu tin sinh học ta thấy công nghệ thông tin công cụ quan trọng góp phần hỗ trợ công tác nghiên cứu phát triển ngành công nghệ sinh học nói chung sinh học nói riêng Điển hình ứng dụng phát cấu trúc chức protein tin sinh Bên cạnh ta thấy rằng, khaipháliệuđồthị kĩ thuật dùng để phát tri thức đặc biệt thích hợp với liệu có cấu trúc sử dụng đồthị để mô tả Đồthị sử dụng rộng rãi việc biểu diễn liệu mối quan hệ chúng Trong tất đồ thị, lớp quen thuộc với nhiều người, cây, ứng dụng nhiều lĩnh vực khác nhau, lĩnh vực CSDL: tài liệu XML sử dụng cấu trúc để phần tử-phần tử mối quan hệ thuộc tính - giá trị Trong khaiphá truy cập Web: truy cập sử dụng để biểu diễn mẫu truy cập khách hàng khác Trong phân tích tiến hóa phân tử: tiến hóa sử dụng để mô tả lịch sử tiến hóa loài; mạng máy tính, sử dụng để xác định định tuyến gói tin Trong tin sinh học: phổbiến sử dụng để dự đoán mối quan hệ tương tác protein, dự đoán cấu trúc bậc phân tử protein, dò tìm đột biến cấu trúc protein v.v … Từ ứng dụng nêu trên, ta thấy ứng dụng thực tế thường gắn nhãn vào đỉnh, nhãn cạnh không cần thiết phải – điều phản ánh thực tế Và việc xác định cấu trúc phổbiến tập liệu hỗ trợ để hiểu giúp nghiên cứu sâu, chi tiết liệu Chính vậy, để thực khaipháliệu cây, toán phát thường xuyên giải phương pháp liệt kê vét cạn Số liệt kê sinh thường lớn, tốn lưu trữ thời gian xử lý Bởi vậy, học viên tiếp cận vấn đề theo hướng quan tâm đến phổ biến, mức cần lưu lại phổbiến thỏa mãn điều kiện đặt để phát triển tiếp mức Bài toán khaipháphổbiến tìm tất liên thông phổbiến sở liệu Điều cốt lõi thuật toán khai thác phổbiến là: - Xác định đẳng cấu: có phải khác hay không? - Xây dựng lược đồ liệt kê hiệu tất phổbiến Với lý nên học viên chọn đề tài "Khai pháliệuđồthị(câyliệu),phátphổbiến " Đối tượng phạm vi nghiên cứu Trong phạm vi luận văn, học viên tập trung nghiên cứu phổbiến đóng cực đại, thuộc tính mối quan hệ chúng Trước tiên, để làm tiền đề cho nghiên cứu, học viên tìm hiểu cấu trúc liệu, dạng tắc theo chiều sâu DFCF, chiều rộng BFCF dạng chuẩn hóa theo chiều sâu DFSE chiểu rồng BFSE Sau đó, trình bày thuật toán khaiphá tất phổbiến đóng cực đại kho liệu gán nhãn thứ tự, sử dụng cấu trúc liệt kê DAG, lớp phủ kỹ thuật cắt tỉa Học viên sâu nghiên cứu thuật toán CMT_Miner xác định phổbiến đóng cực đại, số lượng thường xuyên tăng theo hàm mũ kích cỡ con, vậy, khaiphá tất thường xuyên không khả thiliệu cỡ lớn Thuật toán CMT_Miner hiệu việc phát thường xuyên cực đại đóng CSDL gắn nhãn Thuật toán tìm thường xuyên cực đại đóng theo cách duyệt liệt kê để xác định tất thường xuyên Có số kỹ thuật sử dụng để tỉa nhánh liệt kê mà thường xuyên cực đại đóng, phương pháp Heuristic áp dụng để tổ chức tính toán xác định thường xuyên hiệu Thông qua kết thực nghiệm tập liệu thực tế cho thấy thuật toán hiệu việc giảm thiểu không gian tìm kiếm nhanh chóng phát thường xuyên cực đại đóng Bên cạnh đó, học viêncũng đề cập đến thuật toán NCMT_Miner nhằm mục đích kiểm nghiệm, so sánh, đánh giá lại kết thuật toán CMT_Miner Ngoài ra, học viên tìm hiểu lĩnh vực tin sinh học, khả ứng dụng khaipháphổbiến toán lĩnh vực Hướng nghiên cứu + Tìm hiểu khaiphá liệu, liệu dạng Nghiên cứu dạng biểu diễn chuẩn tắc liệu dạng Nghiên cứu ứng dụng phát cấu trúc chức protein tin sinh + Thuật toán phátphổbiến Ứng dụng cài đặt thực nghiệm thuật toán Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: Nghiên cứu lý thuyết khaipháliệu Lý thuyết đồ thị, cấu trúc liệu dạng Thuật toán để phátphổbiến đóng cực đại Phương pháp nghiên cứu thực nghiệm: Sử dụng ngôn ngữ lập trình để cài đặt chương trình thực nghiệm Phương pháp trao đổi khoa học: Trao đổi nội dung, hướng phát triển đề tài với giáo viên hướng dẫn để đề xuất giải vấn đề mà luận văn đặt Ý nghĩa khoa học đề tài + Đề hướng biểu diễn chuẩn tắc liệu dạng + Đề xuất thuật toán phátphổbiến đóng cực đại + Kết nghiên cứu giúp xác định phổbiến đóng cực đại mà không cần phải phát triển hoàn chỉnh 57 đóng cực đại, từ so sánh với ngân hàng liệu để nhận diện, dò tìm, xác định cấu trúc cần quan tâm Một số toán tin sinh học thực tế 3.1.1 Phân tích trình tự Kể từ gene Phage Φ-X174 xác định trình tự (1977) nay, trình tự DNA nhiều loài sinh vật lưu trữ ngân hàng sở liệu gene Những liệu phân tích để tìm gene cấu trúc (gene mã hoá cho protein đó), tìm quy luật trình tự tương đồng protein) Việc so sánh gene loài hay loài khác cho thấy tương đồng chức protein, hay mối quan hệ phát sinh chủng loài loài (thể phát sinh chủng loài) Với tăng trưởng khổng lồ liệu loại này, việc phân tích trình tự DNA cách thủ công trở nên thực 3.1.2 Dò tìm đột biến SNP Rất nhiều nghiên cứu xác định trình tự nhằm tìm đột biến điểm xảy gene khác ung thư Tập sơ khởi liệu tạo đòi hỏi hệ thống tự động đọc liệu kiểu chuỗi này, so sánh trình tự kết với trình tự biết genome người, bao gồm điểm đa hình tế bào dòng tinh biết 3.1.3 Phân tích chức gene Nhà sinh học phân tử đánh giá mức độ biểu gene cách xác định lượng mRNA tạo từ gene thông qua kỹ thuật microarray, EST, SAGE, MPSS, hay khối phổ (định lượng protein) Tất kĩ thuật tạo liệu chứa thông tin nhiễu làm việc tính toán, phân tích trở nên phức tạp Yêu cầu thực tế cho đời lĩnh vực sinh học tính toán phát triển công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu nghiên cứu biểu gene đa lượng Các nghiên cứu thường dùng để xác định gene liên quan đến bệnh lý định, người ta có 58 thể so sánh liệu microarray từ tế bào bị ung thư với tế bào bình thường để xác định protein tăng cường hay giảm thiểu ung thư 3.1.4 Nhận diện protein Protein microarray hệ thống khối phổ cao cung cấp hình ảnh tổng thể protein có mẫu sinh h Các ứng dụng tin sinh học có liên quan nhiều đến việc lý giải liệu thu từ hệ thống Đối với protein microarray, nhà tin sinh học cần chuyển kiểm tra liệu mRNA gắn array Trong đó, vấn đề tin sinh học liên quan đến việc so trùng liệu khối phổ với sở liệu trình tự protein 3.1.5 Dự đoán cấu trúc protein Dự đoán cấu trúc ứng dụng quan trọng tin sinh học Có thể dễ dàng xác định trình tự axit amin hay gọi cấu trúc bậc protein từ trình tự gene mã hóa cho Nhưng, protein có chức vốn có cuộn gấp thành hình dạng xác (nếu điều xảy ta có cấu trúc bậc hai, cấu trúc bậc ba cấu trúc bậc bốn) Tuy nhiên, vô khó khăn dự đoán cấu trúc gấp nếp từ trình tự axit amin Một số phương pháp dự đoán cấu trúc máy tính phát triển Một ý tưởng quan trọng nghiên cứu tin sinh học quan điểm tương đồng Trong nhánh genomic tin sinh học, tính tương đồng sử dụng để dự đoán cấu trúc gene: biết trình tự chức gene A trình tự tương đồng với trình tự gene B chưa biết chức kết luận A B có chức Trong nhánh cấu trúc tin sinh học, tính tương đồng dùng để xác định hợp phần quan trọng cấu trúc protein tương tác với protein khác Với kỹ thuật mô tính tương đồng, thông tin dùng để dự đoán cấu trúc protein biết cấu trúc protein khác tương đồng với Hiện cách dự đoán cấu trúc protein đáng tin cậy 59 3.2 Chương trình thử nghiệm 3.2.1 Môi trường thử nghiệm Cấu hình phần cứng Bảng 3.1 Cấu hình phần cứng sử dụng thực nghiệm Thành phần Chỉ số CPU Pentium IV 3.06 GHz RAM GB OS WindowsXP Service Pack Bộ nhớ 80GB Công cụ phần mềm sử dụng Bảng 3.2 Công cụ phần mềm sử dụng thực nghiệm STT Tên phần mềm Visual studio 2013 Học Nguồn viên https://www.visualstudio.com/ /downloadvisual-studio-v 3.2.2 Kết thực nghiệm 3.2.2.1 Thuật toán CMT_Miner Học viên tiến hành thực nghiệm thuật toán CMT _Miner CSDL gồm thứ tự T1, T2,T3 Độ hỗ trợ minsup=2 Hình 3-1Cây thứ tự T1, T2,T3 60 Bước 1: Chuẩn hóa theo dạng tắc DFCF Hình 3-2 Chính tắc hóa T1 Hình 3-3 Chính tắc hóa T2 Hình 3-4 Chính tắc hóa T3 61 Bước 2: Lấy chuỗi mã tắc hóa theo thuật toán DFSE Hình 3-5 Tập chuỗi mã hóa tắc T1 Hình 3-6 Tập chuỗi mã hóa tắc T2 Hình 3-7 Tập chuỗi mã hóa tắc T3 Bước 3: Xây dựng liệt kê phổbiến đóng cực đại sử dụng thuật toán CMT_Miner xác định phổbiến đóng cực đại tương ứng với CSDL 62 Hình 3-8 Tập phổbiến đóng cực đại tập CSDL T1 Hình 3-9 Tập phổbiến đóng cực đại tập CSDL T1, T2 63 Hình 3-10 Tập phổbiến đóng cực đại tập CSDL T1, T2, T3 Sau chạy tập CSDL với T1, T2,T3 ta thu phổbiến đóng cực đại xuất lần, phổbiến đóng cực đại xuất lần phổbiến đóng cực đại xuất lần 3.2.2.2 Thuật toán NCMT_Miner Để tiện đánh giá kết quả, thuật toán này, học viên sử dụng thứ tự T1, T2, T3 Hình 3-1 Bước 1: Chuẩn hóa theo dạng tắc BFCF Hình 3-11 Chính tắc hóa T1 64 Hình 3-12 Chính tắc hóa T2 Hình 3-13 Chính tắc hóa T3 Bước 2: Lấy chuỗi mã tắc hóa theo thuật toán BFSE Hình 3-14 Tập chuỗi mã hóa tắc T1 65 Hình 3-15 Tập chuỗi mã hóa tắc T2 Hình 3-16 Tập chuỗi mã hóa tắc T3 Bước 3: Xây dựng liệt kê phổbiến sử dụng thuật toán CMT_Miner xác định phổbiến đóng cực đại tương ứng với CSDL Hình 3-17 Tập phổbiến đóng cực đại tập CSDL T1 66 Hình 3-18 Tập phổbiến đóng cực đại tập CSDL T1, T2 Hình 3-19 Tập phổbiến đóng cực đại tập CSDL T1, T2, T3 Sau chạy tập CSDL với T1, T2,T3 ta thu phổbiến đóng cực đại xuất lần, xuất lần 67 3.2.3 So sánh kết thực nghiệm Để đánh giá khách quan củng cố độ tin cậy, học viên tiến hành thử nghiệm liệu mẫu gồm 25 thứ tự Đồthị so sánh kết số lượng phổbiến đóng cực đại phát qua 25 thứ tự 120 Số phổbiến đóng cực đại 100 80 60 40 20 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Câyliệu NCMT_MINER CMT_MINER Hình 3-20 So sánh số lượng phổbiến đóng cực đại thuật toán Vậy từ kết chạy thử liệu học viên nhận thấysố lượng phổbiến đóng cực đại xác định theo thuật toán NCMT_Miner cải thiện so với thuật toán CMT_Miner 68 3.3 Kết luận chương Chương học viên đưa kiến thức tổng quan tin sinh học cấu trúc protein, khả ứng dụng khaipháliệu toán Trong chương này, học viên tiến hành cài đặt hai thuật toán CMT_Miner NCMT_Miner, đồng thời chạy thử nghiệm mội liệu để đánh giá kết Thuật toán NCMT_Miner theo cách tiếp cận học viên thể ưu điểm không gian tìm kiếm phát nhanh chóng phổbiếnkhaipháliệuđồthị thuật toán CMT_Miner Học viên tiếp tục tiến hành thử nghiệm liệu số lượng liệu lớn để có kết đánh giá khách quan 69 KẾT LUẬN Luận văn tập trung nghiên cứu khaiphá liệu, phátphổbiến CSDL liệu gắn nhãn Học viên trình bày thuật toán CMT_Miner khaiphá hiệu phổbiến đóng cực đại sử dụng tắc theo chiều sâu DFCF mà không cần phát triển liệt kê hoàn chỉnh Học viên đề cập đến thuật toán NCMT_Miner, sử dụng dạng tắc theo chiều rộng BFCS Đồng thời so sánh, đánh giá kết hai thuật toán Những kết mà luận văn đạt - Về lý thuyết: luận văn tập trung tìm hiểu kỹ thuật khaipháliệuđồ thị, dạng tắc, kỹ thuật phátphổbiến đóng cực đại Ngoài ra, nghiên cứu khả ứng dụng thuật toán khaipháliệu tin sinh học - Về thực tiễn: Luận văn cài đặt thuật toán CMT_Miner, thuật toán NCMT_Miner, đồng thời so sánh kết nhận hai thuật toán Với mà luận văn thực hiện, hướng phát triển sau luận văn: - Mở rộng kho liệu, làm việc với liệu lớn liệu thực tế, từ kết đưa phong phú có tính thuyết phục cao - Tiến hành so sánh kết thuật toán CMT_Miner, thuật toán NCMT_Miner với thuật toán tương đương khác, bên cạnh sử dụng công cụ hỗ trợ khác như: giải thuật di truyền, logic mờ, mạng noron để tối ưu hóa kết luận - Tiến hành cài đặt tiếp tục nghiên cứu nhiều kỹ thuật khaipháliệu nữa, đặc biệt triển khai giải toán cụ thể thực tế 70 TÀI LIỆU THAM KHẢO A Tiếng Việt Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013) Giáo trình Khaiphá liệu, NXB ĐHQGHN Đỗ Phúc (2005), Giáo trình khaiphá liệu, Nxb Đại học Quốc gia thành phố Hồ Chí Minh Nguyễn Nhật Quang (2010), Bài giảng Khaiphá liệu, Đại học Bách khoa Hà Nội Nguyễn Ngọc Trung (2009), Bài giảng môn Lý thuyết đồthị Trường ĐHSP TP Hồ Chí Minh Nguyễn Hữu Hải, Đoàn Văn Ban (2014), Bài báo khoa học Khaipháphổbiến đóng cực đại liệu, “Một số v/đ chọn lọc CNTT&TT” lần thứ 18 Trường ĐH Tây nguyên, ĐăkLak Giáo trình Khaipháliệu http://www.coltech.vnu.edu.vn/~thuyhq/Student_Thesis/K44_Do_Thi_Dieu_ Ngoc_Thesis.pdf Nguyễn Văn Cách (2005), Tin - Sinh học,Nxb Khoa học Kỹ thuật B Tiếng Anh T.Asai, K Abe, S Kawasoe, H Arimura, H Satamoto, and S Arikawa (2002), “Efficient Substructure Discovery from Large Semi- Structured Data,” Proc Second SIAM Int’l Conf Data Mining T Asai, H Arimura, T Uno, and S Nakano (2003), “Discovering Frequent Substructures in Large Unordered Trees,” Proc Sixth Int’l Conf Discovery Science 10 Y Chi, Y Yang, and R.R Muntz (2004), “HybridTreeMiner: An Efficient Algorithm for Mining Frequent Rooted Trees and Free Trees Using Canonical Forms,” Proc 16th Int’l Conf Scientific and Statistical Database Management (SSDBM ’04) 71 11 Y Chi, Y Yang, Y Xia, and R.R Muntz (2004), “CMTreeMiner: Mining Both Closed and Maximal Frequent Subtrees,” Proc Eighth Pacific Asia Conf Knowledge Discovery and Data Mining (PAKDD ’04) 12 J Cui, J Kim, D Maggiorini, K Boussetta, and M Gerla (2002), “Aggregated Multicast–A Comparative Study,” Proc IFIP Net-working Conf 2002 13 J Han, J Pei, and Y Yin, “Mining Frequent Patterns without Candidate Generation (2003),” Proc Int’l Conf Management of Data (ACM SIGMOD ’00) 14 J Huan, W Wang, and J Prins (2003), “Efficient Mining of Frequent Subgraph in the Presence of Isomorphism,” Proc Int’l Conf Data Mining (ICDM ’03) 15 T Kudo (2003), “FREQT: An Implementation of FREQT,” http://chasen.org/~taku/software/freqt/ 16 F Luccio, A.M Enriquez, P.O Rieumont, and L Pagli (2004), “Bottom-Up Subtree Isomorphism for Unordered Labeled Trees,” Techni-cal Report TR-0413, Universita` di Pisa 17 S Nijssen and J.N Kok (2003), “Efficient Discovery of Frequent Unordered Trees,” Proc Int’l Workshop Mining Graphs, Trees, and Sequences 18 U Ru¨ckert and S Kramer (2004), “Frequent Free Tree Discovery in Graph Data,” Special Track on Data Mining, Proc ACM Symp Applied Computing (SAC ’04) 19 Yun Chi, Yirong Yang, Richard R Muntz (2005), Canonical forms for labelled trees and their applications in frequent subtree mining, Knowledge and Information Systems (2005) pp 203–234 [...]...5 CHƯƠNG 1 KHAIPHÁDỮLIỆU VÀ CẤU TRÚC CÂYDỮLIỆU Nội dung chương sẽ giới thiệu khái niệm về khaiphádữ liệu, tiến trình khaiphádữ liệu, các kĩ thuật khaiphádữ liệu, các phương pháp khaiphádữliệu thông dụng, những thách thức gặp phải trong quá trình khaiphádữliệu và giới thiệu một số công cụ hỗ trợ trong khaiphádữliệu 1.1 Khaiphádữliệu 1.1.1 Tại sao lại cần khaiphá d liệu Theo [1]... toán khaiphápháthiệncâyconphổbiến là tìm tất cả các mẫu câyconphổbiến trong các CSDL cho trước Trong khaiphácâyconphổ biến, thường sử dụng một tính chất khá hiển nhiên, nhưng quan trọng: Bất kỳ câycon nào của câyphổbiến cũng là câyphổbiến và cây trên (cha) của cây không phổbiến là không phổbiến Tính chất này được chứng minh trực tiếp từ định nghĩa của câycon và độ hỗ trợ của cây con. .. vực tài chính và thịtrường chứng khoán vì nócó tính dựbáo cao 1.1.4 Các công cụ khai phádữliệuKhaiphádữliệu không phải là tất cả về các công cụ hay phần mềm cơ sở dữliệu đang sử dụng Có thể thực hiện khai phádữliệu bằng các hệ thống cơ sở dữliệu bình thường và các công cụ đơn giản, bao gồm việc tạo và viết phần mềm riêng hoặc sử dụng các gói phần mềm thương mại Khaiphádữliệu phức tạp được... xử lý dữliệu Trong bài toán khai phádữ liệu, chúng ta thường chỉ cần quan tâm đến những câyconphổbiến Như đã phân tích ở trên, khi một cây đã không phổbiếnthìcáccây cha (được bổ sung thêm đỉnh mới) cũng sẽ không phổ biến, nên có thể loại chúng ra khỏi quá trình liệt kê Do vậy, ở mỗi mức chúng ta chỉ cần lưu lại những câyconphổbiến (có độ hỗ trợ minsup) để phát triển tiếp cáccâycon ở... 3 Trích chọn dữliệu (data selection): trích chọn dữliệu từnhững kho dữliệu và sau đó chuyển đổi vềdạng thích hợp cho quá trình khai thác tri thức 4 Chuyển đổi dữ liệu: Cácdữliệu được chuyển đổi sang các dạng phù hợp cho quá trình xửlý 5 Khai phádữliệu (khai phádữ liệu) : Là một trong các bước quan trọng nhất, trong đó sửdụng những phương pháp thông minh đểchắt lọc ra những mẫu dữliệu 6 Ước lượng... Hình 1- 7Cây t’ ở dạng chính tắc DFCF 1.3.3 Cây liệt kê Cây liệt kê (Enumeration tree) được sử dụng để khai phá, pháthiệncâyconphổ biến, đó là cây được xây dựng trên cơ sở liệt kê tất cả cáccâyconphổbiến của một kho cáccâydữliệu [9] Giả sử các đỉnh (nút) lá ở mức dưới cùng (Lower Leaf) của cây t là ngọn và ký hiệu LLeaf(t) là tập các đỉnh ngọn Trong số các đỉnh ngọn, chúng ta gọi ngọn bên phải... hoàn toàn mới, gồm các hệ thống lưu trữ và xử lý dữliệu kết hợp 1.1.5 Các kỹ thuật khaiphádữliệu Một số kỹ thuật cốt lõi, được sử dụng trong khaiphádữ liệu, mô tả kiểu hoạt động khaiphá và hoạt động phục hồi dữliệu [6] 1.1.5. 1Khai phá luật kết hợp Khaiphá luật kết hợp (mối quan hệ) là kỹ thuật khaiphádữliệu được biết đến nhiều hơn vì tính quen thuộc và đơn giản Ở đây, thực hiện một sự tương... giản rằng khaiphádữliệu nhưlà một công nghệtri thứcgiúp khai thác những thông tin hữu ích từnhững kho d liệu được tích trữtrong suốt quá trình hoạt động của một công ty, tổchức nào đó 1.1.2 Khaiphá d liệu là gì? Thuật ng khaiphádữliệu ám chỉviệc tìm kiếm một tập hợp nhỏcó giá trịtừmột sốlượng lớn cácdữliệu thô Có nhiều thuật ng hiện được dùng cũng có nghĩa tương tựvớiKhai phádữliệu (Data... [11] của cây có thứ tự được định nghĩa như sau Định nghĩa 1. 1Khai phádữliệu là một tập hợp các kỹthuật được sửdụng đểtựđộng khai thác và tìm ra các mối quan hệlẫn nhau của dữliệu trong một tập hợp d liệu khổng lồvà phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữliệuđó Mã chuỗi theo chiều rộng BFSE của cây có thứ tự là chuỗi các nhãn trên các đỉnh bắt đầu từ gốc và lần lượt theo các mức,... Mining) nh Khaiphá tri thức (Knowledge Mining), Chắt lọc tri thức (knowledge extraction), Phân tích d liệu/ mẫu (data/patern analysis), Khảo cổ dữliệu (data archaeoloogy), Nạo vét dữliệu (datadredging), [6] Định nghĩa 1. 1Khai phádữliệu là một tập hợp các kỹthuật được sửdụng đểtựđộng khai thác và tìm ra các mối quan hệlẫn nhau của dữliệu trong một tập hợp d liệu 6 khổng lồvà phức tạp, đồng thời ... CÂY DỮ LIỆU Nội dung chương giới thiệu khái niệm khai phá liệu, tiến trình khai phá liệu, kĩ thuật khai phá liệu, phương pháp khai phá liệu thông dụng, thách thức gặp phải trình khai phá liệu. .. mẫu (cây liệu) t gọi phổ biến (thường xuyên) độ hỗ trợ lớn độ hỗ trợ cực tiểu minsup xác định trước Bài toán khai phá phát phổ biến tìm tất mẫu phổ biến CSDL cho trước Trong khai phá phổ biến, ... đến phổ biến, mức cần lưu lại phổ biến thỏa mãn điều kiện đặt để phát triển tiếp mức Bài toán khai phá phổ biến tìm tất liên thông phổ biến sở liệu Điều cốt lõi thuật toán khai thác phổ biến