1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu đồ thị (cây dữ liệu), phát hiện các cây con phổ biến

77 434 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 1,47 MB

Nội dung

i MỤC LỤC DANH MỤC CÁC HÌNH ẢNH iii DANH MỤC BẢNG BIỂU v DANH MỤC CÁC TỪ VIẾT TẮT vi MỞ ĐẦU CHƯƠNG 1.1 KHAI PHÁ DỮ LIỆU VÀ CẤU TRÚC CÂY DỮ LIỆU Khai phá liệu 1.1.1 Tại lại cần khai phá liệu 1.1.2 Khai phá liệu gì? 1.1.3 Các chức khai phá liệu 1.1.4 Các công cụ khai phá liệu 1.1.5 Các kỹ thuật khai phá liệu 1.1.6 Ứng dụng khai phá liệu 13 1.2 Cấu trúc liệu 13 1.2.1 Các loại 13 1.2.2 Các cách biểu diễn cấu trúc liệu 18 1.3 Dạng chuẩn liệu 19 1.3.1 Dạng chuẩn tắc theo chiều rộng (BFCF) 19 1.3.2 Dạng tắc theo chiều sâu DFCF 24 1.3.3 Cây liệt kê 29 1.4 Kết luận chương 33 CHƯƠNG 2.1 PHÁT HIỆN CÁC CÂY CON PHỔ BIẾN 34 Khai phá phổ biến 34 2.1.1 Cây phổ biến 34 2.1.2 Bài toán khai phá phổ biến 35 ii 2.2 Thuật toán khai phá phổ biến sở liệu liệu 36 2.2.1 Thuật toán khai phá phổ biến DTMiner 36 2.2.2 Thuật toán khai phá phổ biến đóng cực đại 39 2.2.3 Thứ tự tính toán - Heuristic 48 2.2.4 Thuật toán khai phá phổ biến đóng cực đại CMT_Miner(D, minsup) 50 2.2.5 Thuật toán khai phá conphổ biến đóng cực đạiNCMT_Miner(D, minsup) 52 2.3 Kết luận chương 55 CHƯƠNG 3.1 CHƯƠNG TRÌNH THỬ NGHIỆM 56 Ứng dụng phát cấu trúc chức protein tin sinh học 56 3.1.1 Phân tích trình tự 57 3.1.2 tìm đột biến SNP 57 3.1.3 Phân tích chức gene 57 3.1.4 Nhận diện protein 58 3.1.5 Dự đoán cấu trúc protein 58 3.2 Chương trình thử nghiệm 59 3.2.1 Môi trường thử nghiệm 59 3.2.2 Kết thực nghiệm 59 3.2.3 So sánh kết thực nghiệm 67 3.3 Kết luận chương 68 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 iii DANH MỤC CÁC HÌNH ẢNH Hình 1-1 Các bước Khai phá liệu & KDD [6] Hình 1-2 Luồng thông tin sử dụng theo cách kết hợp[1] Hình 1-3 Phân cụm [6] 10 Hình 1-4 Cây định [6] 12 Hình 1-5 Tám có thứ tự nhận từ thứ tự 15 Hình 1-6 Cây tìm kiếm nhị phân với tập khóa số nguyên 16 Hình 1-7 Cây t’ dạng tắc DFCF 29 Hình 1-8 Cây liệt kê phổ biến 33 Hình 2-1 Chuẩn hóa đánh số giao tác 36 Hình 2-2 CSDL gồm giao tác 41 Hình 2-3 (a) Đồ thị định hướng phi chu trình liệt kê DAG, (b) Cây liệt kê 42 Hình 2-4 Cây t t rên a), b), c), d) lớp phủ Bt 43 Hình 2-5 a) Cây trước tỉa b) Cây sau tỉa 44 Hình 2-6 a) Đường phải nhất, b) Lớp phủ trái/phải 45 Hình 2-7 Vị trí đỉnh thêm vào phổ biến t 46 Hình 3-1 Cây thứ tự T1, T2,T3 59 Hình 3-2 Chính tắc hóa T1 60 Hình 3-3 Chính tắc hóa T2 60 Hình 3-4 Chính tắc hóa T3 60 Hình 3-5 Tập chuỗi mã hóa tắc T1 61 Hình 3-6 Tập chuỗi mã hóa tắc T2 61 Hình 3-7 Tập chuỗi mã hóa tắc T3 61 Hình 3-8 Tập phổ biến đóng cực đại tập CSDL T1 62 Hình 3-9 Tập phổ biến đóng cực đại tập CSDL T1, T2 62 iv Hình 3-10 Tập phổ biến đóng cực đại tập CSDL T1, T2, T3 63 Hình 3-11 Chính tắc hóa T1 63 Hình 3-12 Chính tắc hóa T2 64 Hình 3-13 Chính tắc hóa T3 64 Hình 3-14 Tập chuỗi mã hóa tắc T1 64 Hình 3-15 Tập chuỗi mã hóa tắc T2 65 Hình 3-16 Tập chuỗi mã hóa tắc T3 65 Hình 3-17 Tập phổ biến đóng cực đại tập CSDL T1 65 Hình 3-18 Tập phổ biến đóng cực đại tập CSDL T1, T2 66 Hình 3-19 Tập phổ biến đóng cực đại tập CSDL T1, T2, T3 66 Hình 3-20 So sánh số lượng phổ biến đóng cực đại thuật toán 67 v DANH MỤC BẢNG BIỂU Bảng 3.1 Cấu hình phần cứng sử dụng thực nghiệm 59 Bảng 3.2 Công cụ phần mềm sử dụng thực nghiệm 59 vi DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Depth-first search DFS Tìm kiếm theo chiều sâu Breadth-first search BFS Tìm kiếm theo chiều rộng Breadth-Frist String Encoding BFSE Mã chuỗi theo chiều rộng Breadth-First Canonical String BFCS Chuỗi chuẩn theo chiều rộng Breadth-First Canonical Form BFCF Dạng chuẩn theo chiều rộng Depth-First String Encoding DFSE Mã chuỗi theo chiều sâu Depth-First Canonical Form DFCF Dạng chuẩn theo chiều sâu Directed Acyclic Graph DAG Đồ thị định hướng phichu trình Partially Ordered set POSET Tập thứ tự phận Frequent Subgraphs Mining FSM Khai phá đồ thị phổ biến Inductive Logic Programming ILP Chương trình Logic qui nạp eXtensible Markup Language XML Ngôn ngữ đánh dấu Mở rộng MỞ ĐẦU Đặt vấn đề Cùng với phát triển xã hội, người tạo thiết bị xử lý liệu thông minh đáp ứng nhu cầu họ Thế hệ máy tính xuất vào thập kỉ đầu kỉ 20, cỗ máy với kích thước khổng lồ có gian phòng lớn tiêu thụ nhiều điện Tuy nhiên nhu cầu xử lý liệu ngày lớn, người sáng tạo cải tiến hệ máy tính trở nên gọn nhẹ với máy tính xách tay nặng vài kilogam tiêu thụ điện đáp ứng hầu hết yêu cầu người việc xử lí khối liệu lớn phức tạp Đồng hành với phát triển thông tin công nghệ, khai phá liệu đời mở hướng để giải yêu cầu xử lý khối liệu khổng lồ Hướng ứng dụng vào nhiều lĩnh vực, ví dụ như: tin sinh học, điều trị y học, phân tích liệu hỗ trợ định, tài thị trường chứng khoán, bảo hiểm, nhân dạng… Đặc biệt, nghiên cứu tin sinh học ta thấy công nghệ thông tin công cụ quan trọng góp phần hỗ trợ công tác nghiên cứu phát triển ngành công nghệ sinh học nói chung sinh học nói riêng Điển hình ứng dụng phát cấu trúc chức protein tin sinh Bên cạnh ta thấy rằng, khai phá liệu đồ thị kĩ thuật dùng để phát tri thức đặc biệt thích hợp với liệu có cấu trúc sử dụng đồ thị để mô tả Đồ thị sử dụng rộng rãi việc biểu diễn liệu mối quan hệ chúng Trong tất đồ thị, lớp quen thuộc với nhiều người, cây, ứng dụng nhiều lĩnh vực khác nhau, lĩnh vực CSDL: tài liệu XML sử dụng cấu trúc để phần tử-phần tử mối quan hệ thuộc tính - giá trị Trong khai phá truy cập Web: truy cập sử dụng để biểu diễn mẫu truy cập khách hàng khác Trong phân tích tiến hóa phân tử: tiến hóa sử dụng để mô tả lịch sử tiến hóa loài; mạng máy tính, sử dụng để xác định định tuyến gói tin Trong tin sinh học: phổ biến sử dụng để dự đoán mối quan hệ tương tác protein, dự đoán cấu trúc bậc phân tử protein, tìm đột biến cấu trúc protein v.v … Từ ứng dụng nêu trên, ta thấy ứng dụng thực tế thường gắn nhãn vào đỉnh, nhãn cạnh không cần thiết phải – điều phản ánh thực tế Và việc xác định cấu trúc phổ biến tập liệu hỗ trợ để hiểu giúp nghiên cứu sâu, chi tiết liệu Chính vậy, để thực khai phá liệu cây, toán phát thường xuyên giải phương pháp liệt kê vét cạn Số liệt kê sinh thường lớn, tốn lưu trữ thời gian xử lý Bởi vậy, học viên tiếp cận vấn đề theo hướng quan tâm đến phổ biến, mức cần lưu lại phổ biến thỏa mãn điều kiện đặt để phát triển tiếp mức Bài toán khai phá phổ biến tìm tất liên thông phổ biến sở liệu Điều cốt lõi thuật toán khai thác phổ biến là: - Xác định đẳng cấu: có phải khác hay không? - Xây dựng lược đồ liệt kê hiệu tất phổ biến Với lý nên học viên chọn đề tài "Khai phá liệu đồ thị (cây liệu), phát phổ biến " Đối tượng phạm vi nghiên cứu Trong phạm vi luận văn, học viên tập trung nghiên cứu phổ biến đóng cực đại, thuộc tính mối quan hệ chúng Trước tiên, để làm tiền đề cho nghiên cứu, học viên tìm hiểu cấu trúc liệu, dạng tắc theo chiều sâu DFCF, chiều rộng BFCF dạng chuẩn hóa theo chiều sâu DFSE chiểu rồng BFSE Sau đó, trình bày thuật toán khai phá tất phổ biến đóng cực đại kho liệu gán nhãn thứ tự, sử dụng cấu trúc liệt kê DAG, lớp phủ kỹ thuật cắt tỉa Học viên sâu nghiên cứu thuật toán CMT_Miner xác định phổ biến đóng cực đại, số lượng thường xuyên tăng theo hàm mũ kích cỡ con, vậy, khai phá tất thường xuyên không khả thi liệu cỡ lớn Thuật toán CMT_Miner hiệu việc phát thường xuyên cực đại đóng CSDL gắn nhãn Thuật toán tìm thường xuyên cực đại đóng theo cách duyệt liệt kê để xác định tất thường xuyên Có số kỹ thuật sử dụng để tỉa nhánh liệt kê mà thường xuyên cực đại đóng, phương pháp Heuristic áp dụng để tổ chức tính toán xác định thường xuyên hiệu Thông qua kết thực nghiệm tập liệu thực tế cho thấy thuật toán hiệu việc giảm thiểu không gian tìm kiếm nhanh chóng phát thường xuyên cực đại đóng Bên cạnh đó, học viêncũng đề cập đến thuật toán NCMT_Miner nhằm mục đích kiểm nghiệm, so sánh, đánh giá lại kết thuật toán CMT_Miner Ngoài ra, học viên tìm hiểu lĩnh vực tin sinh học, khả ứng dụng khai phá phổ biến toán lĩnh vực Hướng nghiên cứu + Tìm hiểu khai phá liệu, liệu dạng Nghiên cứu dạng biểu diễn chuẩn tắc liệu dạng Nghiên cứu ứng dụng phát cấu trúc chức protein tin sinh + Thuật toán phát phổ biến Ứng dụng cài đặt thực nghiệm thuật toán Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: Nghiên cứu lý thuyết khai phá liệu Lý thuyết đồ thị, cấu trúc liệu dạng Thuật toán để phát phổ biến đóng cực đại Phương pháp nghiên cứu thực nghiệm: Sử dụng ngôn ngữ lập trình để cài đặt chương trình thực nghiệm Phương pháp trao đổi khoa học: Trao đổi nội dung, hướng phát triển đề tài với giáo viên hướng dẫn để đề xuất giải vấn đề mà luận văn đặt Ý nghĩa khoa học đề tài + Đề hướng biểu diễn chuẩn tắc liệu dạng + Đề xuất thuật toán phát phổ biến đóng cực đại + Kết nghiên cứu giúp xác định phổ biến đóng cực đại mà không cần phải phát triển hoàn chỉnh 57 đóng cực đại, từ so sánh với ngân hàng liệu để nhận diện, tìm, xác định cấu trúc cần quan tâm Một số toán tin sinh học thực tế 3.1.1 Phân tích trình tự Kể từ gene Phage Φ-X174 xác định trình tự (1977) nay, trình tự DNA nhiều loài sinh vật lưu trữ ngân hàng sở liệu gene Những liệu phân tích để tìm gene cấu trúc (gene mã hoá cho protein đó), tìm quy luật trình tự tương đồng protein) Việc so sánh gene loài hay loài khác cho thấy tương đồng chức protein, hay mối quan hệ phát sinh chủng loài loài (thể phát sinh chủng loài) Với tăng trưởng khổng lồ liệu loại này, việc phân tích trình tự DNA cách thủ công trở nên thực 3.1.2 tìm đột biến SNP Rất nhiều nghiên cứu xác định trình tự nhằm tìm đột biến điểm xảy gene khác ung thư Tập sơ khởi liệu tạo đòi hỏi hệ thống tự động đọc liệu kiểu chuỗi này, so sánh trình tự kết với trình tự biết genome người, bao gồm điểm đa hình tế bào dòng tinh biết 3.1.3 Phân tích chức gene Nhà sinh học phân tử đánh giá mức độ biểu gene cách xác định lượng mRNA tạo từ gene thông qua kỹ thuật microarray, EST, SAGE, MPSS, hay khối phổ (định lượng protein) Tất kĩ thuật tạo liệu chứa thông tin nhiễu làm việc tính toán, phân tích trở nên phức tạp Yêu cầu thực tế cho đời lĩnh vực sinh học tính toán phát triển công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu nghiên cứu biểu gene đa lượng Các nghiên cứu thường dùng để xác định gene liên quan đến bệnh lý định, người ta có 58 thể so sánh liệu microarray từ tế bào bị ung thư với tế bào bình thường để xác định protein tăng cường hay giảm thiểu ung thư 3.1.4 Nhận diện protein Protein microarray hệ thống khối phổ cao cung cấp hình ảnh tổng thể protein có mẫu sinh h Các ứng dụng tin sinh học có liên quan nhiều đến việc lý giải liệu thu từ hệ thống Đối với protein microarray, nhà tin sinh học cần chuyển kiểm tra liệu mRNA gắn array Trong đó, vấn đề tin sinh học liên quan đến việc so trùng liệu khối phổ với sở liệu trình tự protein 3.1.5 Dự đoán cấu trúc protein Dự đoán cấu trúc ứng dụng quan trọng tin sinh học Có thể dễ dàng xác định trình tự axit amin hay gọi cấu trúc bậc protein từ trình tự gene mã hóa cho Nhưng, protein có chức vốn có cuộn gấp thành hình dạng xác (nếu điều xảy ta có cấu trúc bậc hai, cấu trúc bậc ba cấu trúc bậc bốn) Tuy nhiên, vô khó khăn dự đoán cấu trúc gấp nếp từ trình tự axit amin Một số phương pháp dự đoán cấu trúc máy tính phát triển Một ý tưởng quan trọng nghiên cứu tin sinh học quan điểm tương đồng Trong nhánh genomic tin sinh học, tính tương đồng sử dụng để dự đoán cấu trúc gene: biết trình tự chức gene A trình tự tương đồng với trình tự gene B chưa biết chức kết luận A B có chức Trong nhánh cấu trúc tin sinh học, tính tương đồng dùng để xác định hợp phần quan trọng cấu trúc protein tương tác với protein khác Với kỹ thuật mô tính tương đồng, thông tin dùng để dự đoán cấu trúc protein biết cấu trúc protein khác tương đồng với Hiện cách dự đoán cấu trúc protein đáng tin cậy 59 3.2 Chương trình thử nghiệm 3.2.1 Môi trường thử nghiệm Cấu hình phần cứng Bảng 3.1 Cấu hình phần cứng sử dụng thực nghiệm Thành phần Chỉ số CPU Pentium IV 3.06 GHz RAM GB OS WindowsXP Service Pack Bộ nhớ 80GB Công cụ phần mềm sử dụng Bảng 3.2 Công cụ phần mềm sử dụng thực nghiệm STT Tên phần mềm Visual studio 2013 Học Nguồn viên https://www.visualstudio.com/ /downloadvisual-studio-v 3.2.2 Kết thực nghiệm 3.2.2.1 Thuật toán CMT_Miner Học viên tiến hành thực nghiệm thuật toán CMT _Miner CSDL gồm thứ tự T1, T2,T3 Độ hỗ trợ minsup=2 Hình 3-1Cây thứ tự T1, T2,T3 60 Bước 1: Chuẩn hóa theo dạng tắc DFCF Hình 3-2 Chính tắc hóa T1 Hình 3-3 Chính tắc hóa T2 Hình 3-4 Chính tắc hóa T3 61 Bước 2: Lấy chuỗi mã tắc hóa theo thuật toán DFSE Hình 3-5 Tập chuỗi mã hóa tắc T1 Hình 3-6 Tập chuỗi mã hóa tắc T2 Hình 3-7 Tập chuỗi mã hóa tắc T3 Bước 3: Xây dựng liệt kê phổ biến đóng cực đại sử dụng thuật toán CMT_Miner xác định phổ biến đóng cực đại tương ứng với CSDL 62 Hình 3-8 Tập phổ biến đóng cực đại tập CSDL T1 Hình 3-9 Tập phổ biến đóng cực đại tập CSDL T1, T2 63 Hình 3-10 Tập phổ biến đóng cực đại tập CSDL T1, T2, T3 Sau chạy tập CSDL với T1, T2,T3 ta thu phổ biến đóng cực đại xuất lần, phổ biến đóng cực đại xuất lần phổ biến đóng cực đại xuất lần 3.2.2.2 Thuật toán NCMT_Miner Để tiện đánh giá kết quả, thuật toán này, học viên sử dụng thứ tự T1, T2, T3 Hình 3-1 Bước 1: Chuẩn hóa theo dạng tắc BFCF Hình 3-11 Chính tắc hóa T1 64 Hình 3-12 Chính tắc hóa T2 Hình 3-13 Chính tắc hóa T3 Bước 2: Lấy chuỗi mã tắc hóa theo thuật toán BFSE Hình 3-14 Tập chuỗi mã hóa tắc T1 65 Hình 3-15 Tập chuỗi mã hóa tắc T2 Hình 3-16 Tập chuỗi mã hóa tắc T3 Bước 3: Xây dựng liệt kê phổ biến sử dụng thuật toán CMT_Miner xác định phổ biến đóng cực đại tương ứng với CSDL Hình 3-17 Tập phổ biến đóng cực đại tập CSDL T1 66 Hình 3-18 Tập phổ biến đóng cực đại tập CSDL T1, T2 Hình 3-19 Tập phổ biến đóng cực đại tập CSDL T1, T2, T3 Sau chạy tập CSDL với T1, T2,T3 ta thu phổ biến đóng cực đại xuất lần, xuất lần 67 3.2.3 So sánh kết thực nghiệm Để đánh giá khách quan củng cố độ tin cậy, học viên tiến hành thử nghiệm liệu mẫu gồm 25 thứ tự Đồ thị so sánh kết số lượng phổ biến đóng cực đại phát qua 25 thứ tự 120 Số phổ biến đóng cực đại 100 80 60 40 20 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Cây liệu NCMT_MINER CMT_MINER Hình 3-20 So sánh số lượng phổ biến đóng cực đại thuật toán Vậy từ kết chạy thử liệu học viên nhận thấysố lượng phổ biến đóng cực đại xác định theo thuật toán NCMT_Miner cải thiện so với thuật toán CMT_Miner 68 3.3 Kết luận chương Chương học viên đưa kiến thức tổng quan tin sinh học cấu trúc protein, khả ứng dụng khai phá liệu toán Trong chương này, học viên tiến hành cài đặt hai thuật toán CMT_Miner NCMT_Miner, đồng thời chạy thử nghiệm mội liệu để đánh giá kết Thuật toán NCMT_Miner theo cách tiếp cận học viên thể ưu điểm không gian tìm kiếm phát nhanh chóng phổ biến khai phá liệu đồ thị thuật toán CMT_Miner Học viên tiếp tục tiến hành thử nghiệm liệu số lượng liệu lớn để có kết đánh giá khách quan 69 KẾT LUẬN Luận văn tập trung nghiên cứu khai phá liệu, phát phổ biến CSDL liệu gắn nhãn Học viên trình bày thuật toán CMT_Miner khai phá hiệu phổ biến đóng cực đại sử dụng tắc theo chiều sâu DFCF mà không cần phát triển liệt kê hoàn chỉnh Học viên đề cập đến thuật toán NCMT_Miner, sử dụng dạng tắc theo chiều rộng BFCS Đồng thời so sánh, đánh giá kết hai thuật toán Những kết mà luận văn đạt - Về lý thuyết: luận văn tập trung tìm hiểu kỹ thuật khai phá liệu đồ thị, dạng tắc, kỹ thuật phát phổ biến đóng cực đại Ngoài ra, nghiên cứu khả ứng dụng thuật toán khai phá liệu tin sinh học - Về thực tiễn: Luận văn cài đặt thuật toán CMT_Miner, thuật toán NCMT_Miner, đồng thời so sánh kết nhận hai thuật toán Với mà luận văn thực hiện, hướng phát triển sau luận văn: - Mở rộng kho liệu, làm việc với liệu lớn liệu thực tế, từ kết đưa phong phú có tính thuyết phục cao - Tiến hành so sánh kết thuật toán CMT_Miner, thuật toán NCMT_Miner với thuật toán tương đương khác, bên cạnh sử dụng công cụ hỗ trợ khác như: giải thuật di truyền, logic mờ, mạng noron để tối ưu hóa kết luận - Tiến hành cài đặt tiếp tục nghiên cứu nhiều kỹ thuật khai phá liệu nữa, đặc biệt triển khai giải toán cụ thể thực tế 70 TÀI LIỆU THAM KHẢO A Tiếng Việt Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013) Giáo trình Khai phá liệu, NXB ĐHQGHN Đỗ Phúc (2005), Giáo trình khai phá liệu, Nxb Đại học Quốc gia thành phố Hồ Chí Minh Nguyễn Nhật Quang (2010), Bài giảng Khai phá liệu, Đại học Bách khoa Hà Nội Nguyễn Ngọc Trung (2009), Bài giảng môn Lý thuyết đồ thị Trường ĐHSP TP Hồ Chí Minh Nguyễn Hữu Hải, Đoàn Văn Ban (2014), Bài báo khoa học Khai phá phổ biến đóng cực đại liệu, “Một số v/đ chọn lọc CNTT&TT” lần thứ 18 Trường ĐH Tây nguyên, ĐăkLak Giáo trình Khai phá liệu http://www.coltech.vnu.edu.vn/~thuyhq/Student_Thesis/K44_Do_Thi_Dieu_ Ngoc_Thesis.pdf Nguyễn Văn Cách (2005), Tin - Sinh học,Nxb Khoa học Kỹ thuật B Tiếng Anh T.Asai, K Abe, S Kawasoe, H Arimura, H Satamoto, and S Arikawa (2002), “Efficient Substructure Discovery from Large Semi- Structured Data,” Proc Second SIAM Int’l Conf Data Mining T Asai, H Arimura, T Uno, and S Nakano (2003), “Discovering Frequent Substructures in Large Unordered Trees,” Proc Sixth Int’l Conf Discovery Science 10 Y Chi, Y Yang, and R.R Muntz (2004), “HybridTreeMiner: An Efficient Algorithm for Mining Frequent Rooted Trees and Free Trees Using Canonical Forms,” Proc 16th Int’l Conf Scientific and Statistical Database Management (SSDBM ’04) 71 11 Y Chi, Y Yang, Y Xia, and R.R Muntz (2004), “CMTreeMiner: Mining Both Closed and Maximal Frequent Subtrees,” Proc Eighth Pacific Asia Conf Knowledge Discovery and Data Mining (PAKDD ’04) 12 J Cui, J Kim, D Maggiorini, K Boussetta, and M Gerla (2002), “Aggregated Multicast–A Comparative Study,” Proc IFIP Net-working Conf 2002 13 J Han, J Pei, and Y Yin, “Mining Frequent Patterns without Candidate Generation (2003),” Proc Int’l Conf Management of Data (ACM SIGMOD ’00) 14 J Huan, W Wang, and J Prins (2003), “Efficient Mining of Frequent Subgraph in the Presence of Isomorphism,” Proc Int’l Conf Data Mining (ICDM ’03) 15 T Kudo (2003), “FREQT: An Implementation of FREQT,” http://chasen.org/~taku/software/freqt/ 16 F Luccio, A.M Enriquez, P.O Rieumont, and L Pagli (2004), “Bottom-Up Subtree Isomorphism for Unordered Labeled Trees,” Techni-cal Report TR-0413, Universita` di Pisa 17 S Nijssen and J.N Kok (2003), “Efficient Discovery of Frequent Unordered Trees,” Proc Int’l Workshop Mining Graphs, Trees, and Sequences 18 U Ru¨ckert and S Kramer (2004), “Frequent Free Tree Discovery in Graph Data,” Special Track on Data Mining, Proc ACM Symp Applied Computing (SAC ’04) 19 Yun Chi, Yirong Yang, Richard R Muntz (2005), Canonical forms for labelled trees and their applications in frequent subtree mining, Knowledge and Information Systems (2005) pp 203–234 [...]...5 CHƯƠNG 1 KHAI PHÁ DỮ LIỆU VÀ CẤU TRÚC CÂY DỮ LIỆU Nội dung chương sẽ giới thiệu khái niệm về khai phá dữ liệu, tiến trình khai phá dữ liệu, các kĩ thuật khai phá dữ liệu, các phương pháp khai phá dữ liệu thông dụng, những thách thức gặp phải trong quá trình khai phá dữ liệu và giới thiệu một số công cụ hỗ trợ trong khai phá dữ liệu 1.1 Khai phá dữ liệu 1.1.1 Tại sao lại cần khai phá d liệu Theo [1]... toán khai phá phát hiện cây con phổ biến là tìm tất cả các mẫu cây con phổ biến trong các CSDL cho trước Trong khai phá cây con phổ biến, thường sử dụng một tính chất khá hiển nhiên, nhưng quan trọng: Bất kỳ cây con nào của cây phổ biến cũng là cây phổ biến cây trên (cha) của cây không phổ biến là không phổ biến Tính chất này được chứng minh trực tiếp từ định nghĩa của cây con độ hỗ trợ của cây con. .. vực tài chính và thịtrường chứng khoán vì nócó tính dựbáo cao 1.1.4 Các công cụ khai phá dữ liệu Khai phá dữ liệu không phải là tất cả về các công cụ hay phần mềm cơ sở dữ liệu đang sử dụng Có thể thực hiện khai phá dữ liệu bằng các hệ thống cơ sở dữ liệu bình thường và các công cụ đơn giản, bao gồm việc tạo và viết phần mềm riêng hoặc sử dụng các gói phần mềm thương mại Khai phá dữ liệu phức tạp được... xử lý dữ liệu Trong bài toán khai phá dữ liệu, chúng ta thường chỉ cần quan tâm đến những cây con phổ biến Như đã phân tích ở trên, khi một cây đã không phổ biến thì các cây cha (được bổ sung thêm đỉnh mới) cũng sẽ không phổ biến, nên có thể loại chúng ra khỏi quá trình liệt kê Do vậy, ở mỗi mức chúng ta chỉ cần lưu lại những cây con phổ biến (có độ hỗ trợ  minsup) để phát triển tiếp các cây con ở... 3 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từnhững kho dữ liệu và sau đó chuyển đổi vềdạng thích hợp cho quá trình khai thác tri thức 4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xửlý 5 Khai phá dữ liệu (khai phá dữ liệu) : Là một trong các bước quan trọng nhất, trong đó sửdụng những phương pháp thông minh đểchắt lọc ra những mẫu dữ liệu 6 Ước lượng... Hình 1- 7Cây t’ ở dạng chính tắc DFCF 1.3.3 Cây liệt kê Cây liệt kê (Enumeration tree) được sử dụng để khai phá, phát hiện cây con phổ biến, đó cây được xây dựng trên cơ sở liệt kê tất cả các cây con phổ biến của một kho các cây dữ liệu [9] Giả sử các đỉnh (nút) lá ở mức dưới cùng (Lower Leaf) của cây t là ngọn và ký hiệu LLeaf(t) là tập các đỉnh ngọn Trong số các đỉnh ngọn, chúng ta gọi ngọn bên phải... hoàn toàn mới, gồm các hệ thống lưu trữ và xử lý dữ liệu kết hợp 1.1.5 Các kỹ thuật khai phá dữ liệu Một số kỹ thuật cốt lõi, được sử dụng trong khai phá dữ liệu, mô tả kiểu hoạt động khai phá và hoạt động phục hồi dữ liệu [6] 1.1.5. 1Khai phá luật kết hợp Khai phá luật kết hợp (mối quan hệ) là kỹ thuật khai phá dữ liệu được biết đến nhiều hơn vì tính quen thuộc và đơn giản Ở đây, thực hiện một sự tương... giản rằng khai phá dữ liệu nhưlà một công nghệtri thứcgiúp khai thác những thông tin hữu ích từnhững kho d liệu được tích trữtrong suốt quá trình hoạt động của một công ty, tổchức nào đó 1.1.2 Khai phá d liệu là gì? Thuật ng khai phá dữ liệu ám chỉviệc tìm kiếm một tập hợp nhỏcó giá trịtừmột sốlượng lớn các dữ liệu thô Có nhiều thuật ng hiện được dùng cũng có nghĩa tương tựvớiKhai phá dữ liệu (Data... [11] của cây có thứ tự được định nghĩa như sau Định nghĩa 1. 1Khai phá dữ liệu là một tập hợp các kỹthuật được sửdụng đểtựđộng khai thác và tìm ra các mối quan hệlẫn nhau của dữ liệu trong một tập hợp d liệu khổng lồvà phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó Mã chuỗi theo chiều rộng BFSE của cây có thứ tự là chuỗi các nhãn trên các đỉnh bắt đầu từ gốc và lần lượt theo các mức,... Mining) nh Khai phá tri thức (Knowledge Mining), Chắt lọc tri thức (knowledge extraction), Phân tích d liệu/ mẫu (data/patern analysis), Khảo cổ dữ liệu (data archaeoloogy), Nạo vét dữ liệu (datadredging), [6] Định nghĩa 1. 1Khai phá dữ liệu là một tập hợp các kỹthuật được sửdụng đểtựđộng khai thác và tìm ra các mối quan hệlẫn nhau của dữ liệu trong một tập hợp d liệu 6 khổng lồvà phức tạp, đồng thời ... CÂY DỮ LIỆU Nội dung chương giới thiệu khái niệm khai phá liệu, tiến trình khai phá liệu, kĩ thuật khai phá liệu, phương pháp khai phá liệu thông dụng, thách thức gặp phải trình khai phá liệu. .. mẫu (cây liệu) t gọi phổ biến (thường xuyên) độ hỗ trợ lớn độ hỗ trợ cực tiểu minsup xác định trước Bài toán khai phá phát phổ biến tìm tất mẫu phổ biến CSDL cho trước Trong khai phá phổ biến, ... đến phổ biến, mức cần lưu lại phổ biến thỏa mãn điều kiện đặt để phát triển tiếp mức Bài toán khai phá phổ biến tìm tất liên thông phổ biến sở liệu Điều cốt lõi thuật toán khai thác phổ biến

Ngày đăng: 09/12/2016, 17:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w