Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 93 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
93
Dung lượng
2,02 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ NGÀNH CƠNG NGHỆ THƠNG TIN TĨM TẮT DỮ LIỆU DỰA TRÊN LÝ THUYẾT TẬP MỜ BÙI MINH CƯỜNG HÀ NỘI 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ NGÀNH CƠNG NGHỆ THƠNG TIN TĨM TẮT DỮ LIỆU DỰA TRÊN LÝ THUYẾT TẬP MỜ BÙI MINH CƯỜNG NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN LONG HÀ NỘI 2009 LỜI CẢM ƠN Em xin chân thành cảm ơn TS Nguyễn Văn Long, cán giảng dạy khoa Công nghệ thông tin trường Đại Học Giao Thông Vận Tải Thầy giúp đỡ em nhiều suốt thời gian làm luận văn tốt nghiệp, thời gian hồn thành báo cáo Khơng vậy, bảo thầy cịn vơ hợp lý đắn việc giúp em định hướng luận văn, tìm kiếm tài liệu nghiên cứu, tạo điều kiện thuận lợi cho em cài đặt chương trình hồn thành tốt báo cáo Em xin bày tỏ lòng biết ơn đến thầy, cô, anh, chị công tác Bộ môn Hệ thống thông tin Khoa Công nghệ thông tin Trường Đại học Bách Khoa Hà Nội giúp đỡ tạo điều kiện cho em hoàn thành luận văn tốt nghiệp Hà nội, tháng 10 năm 2009 Sinh viên Bùi Minh Cường Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 MỤC LỤC TRANG PHỤ BÌA Error! Bookmark not defined LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH LỜI NÓI ĐẦU CHƯƠNG - TỔNG QUAN VỀ TÓM TẮT NGỮ NGHĨA DỮ LIỆU ĐỐI VỚI CƠ SỞ DỮ LIỆU QUAN HỆ 1.1 Cơ sở liệu quan hệ tốn tóm tắt liệu 1.2 Bài tốn tóm tắt liệu - vai trò, ý nghĩa 10 1.3 Các hướng nghiên cứu liên quan tới tóm tắt ngữ nghĩa liệu 11 1.4 Kết chương 15 CHƯƠNG - CƠ SỞ LÝ THUYẾT LIÊN QUAN 16 2.1 Lý thuyết tập mờ 16 2.1.1 Khái niệm 16 2.1.2 Các ký hiệu sử dụng 17 2.1.3 Ứng dụng lý thuyết mờ vào việc biểu diễn liệu 18 2.2 Thành phần tri thức – Phân cấp khái niệm 20 2.2.1 Định nghĩa phân cấp khái niệm 20 2.2.2 Vai trò phân cấp khái niệm tóm tắt liệu 22 2.3 Kết chương 23 CHƯƠNG - MỘT SỐ PHƯƠNG PHÁP TÓM TẮT DỮ LIỆU SỬ DỤNG LÝ THUYẾT TẬP MỜ 24 3.1 Phương pháp quy nạp hướng tính 24 3.1.1 Khái niệm 24 3.1.2 Phương pháp quy nạp hướng thuộc tính thơng thường 25 3.1.3.Phương pháp quy nạp hướng thuộc tính sử dụng phân cấp khái niệm mờ 28 Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 3.2 Phương pháp sản sinh hệ thống phân cấp tóm tắt liệu 30 3.2.1 Khái niệm 30 3.2.2 Các bước thực 31 3.3 Một số đánh giá nhận xét 31 3.3.1 Truy vấn sở liệu 31 3.3.2 Mối quan hệ hai phương pháp 33 3.3.3 Vấn đề làm mịn tri thức 35 3.3.3.1.Các yếu tố ảnh hưởng chất lượng tri thức 35 3.3.3.2 Các tiêu chuẩn việc đánh giá chất lượng phân cấp 36 3.3.3.3 Hướng giải để lựa chọn tri thức ứng với thuộc tính 37 3.4 Kết chương 38 CHƯƠNG - PHƯƠNG PHÁP SẢN SINH PHÂN CẤP TÓM TẮT 40 4.1 Kiến trúc mơ hình tóm tắt liệu 40 4.1.1 Đơn giản hóa mơ hình tóm tắt liệu 40 4.1.2 Phân tích sơ lược hoạt động mơ hình 41 4.2 4.2.1 Các bước trình tóm tắt liệu 44 Bước dịch 44 4.2.1.1 Thành phần BT 45 4.2.1.2 Phát sinh ứng cử viên 46 4.2.2 Sản sinh phân cấp tóm tắt 49 4.2.2.1 Biểu diễn hình thức tóm tắt 49 4.2.2.2 Các đặc thù mơ hình phân cấp 52 4.2.2.3 Một tổ chức tri thức 53 4.2.3 Việc hình thành khái niệm mơ hình tóm tắt liệu 55 4.2.3.1 Giải thuật hình thành phân cấp tóm tắt -SAINTETIQ 55 4.2.3.2 Phân tích giải thuật 56 4.2.4 Các toán tử học 57 4.2.4.1 Kết nạp 58 Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 4.2.4.2 Khởi tạo 58 4.2.4.3 Hợp 59 4.2.4.4 Tách 60 4.2.5 Tính tốn chất lượng phân nhóm 60 4.2.5.1 Độ đặc thù phân nhóm tóm tắt 61 4.2.5.2 Độ tương phản phân nhóm tóm tắt 62 4.2.5.3 Độ hữu dụng tóm tắt 63 4.3 Kết chương 66 CHƯƠNG - CÀI ĐẶT VÀ THỬ NGHIỆM 67 5.1 5.1.1 Cài đặt chương trình 67 Các yêu cầu đặt 67 5.1.1.1 Yêu cầu kiến trúc hệ thống 67 5.1.1.2 u cầu tốc độ tính tốn 68 5.1.2 Mơ hình hóa hệ thống 68 5.1.2.1 Module dịch 74 5.1.2.2 Module xây dựng phân cấp tóm tắt 74 5.1.2.3 Module kết nối sở liệu 76 5.1.2.4 Module xây dựng tri thức 77 5.2 5.2.1 Kết đạt số đánh giá 79 Phân tích kết thử nghiệm 81 5.2.1.1 Về thông tin 81 5.2.1.2 Về kích thước 81 5.2.2 Đánh giá độ phức tạp 82 CHƯƠNG - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 86 6.1 Làm mịn tri thức 87 6.2 Kết hợp bước dịch với phương pháp tóm tắt hướng thuộc tính 87 6.3 Truy vấn phân cấp tóm tắt 87 TÀI LIỆU THAM KHẢO 92 Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 DANH MỤC CÁC THUẬT NGỮ • Data Summarization: Tóm tắt liệu • Information processing: Xử lý thơng tin • Linguistic Summarization: Tóm tắt thuộc ngơn ngữ • Hierarchical Conceptual Clustering: Phân cụm khái niệm phân cấp • Scalability Problem: Bài tốn tăng trưởng • Background Knowledge: Tri thức • Translation Step: Bước dịch • Generalization Step: Bước khái qt hóa • Fuzzy Matching: Đối sánh mờ • Candidate Tuples: Các ứng cử viên • Summary Extent: Thể tóm tắt • Summary Intent: Nội dung tóm tắt • Summary Hierarchy: Phân cấp tóm tắt • Knowledge Organization: Tổ chức tri thức • Summary Partition: Phân hoạch tóm tắt • Typicality: Độ đặc thù • Contrast: Độ tương phản • Summary Utility: Độ hữu dụng tóm tắt • AIO: Quy nạp hướn thuộc tính Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 DANH MỤC CÁC BẢNG Bảng 1.1 Các hướng nghiên cứu tóm tắt liệu 11 Bảng 2.1 Bảng liệu gốc 18 Bảng 3.1 Cơ sở liệu đầu vào 26 Bảng 3.1 Kết truy vấn thông thường 26 Bảng 3.2 Kết sau tóm tắt với Age 27 Bảng 3.3 Kết sau tóm tắt với Income 27 Bảng 3.4 Kết sau tóm tắt 27 Bảng 3.5 Dữ liệu gốc ban đầu 34 Bảng 3.6 Các ứng cử sau bước dịch 34 Bảng 4.1 Các tập mờ loại gán nhãn thuộc tính phi số 46 Bảng 4.2 Q trình dịch liệu gốc 46 Bảng 4.3 Kết thu bước dịch 48 Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 DANH MỤC CÁC HÌNH Hình 2.1 Hàm thuộc lý thuyết tập mờ 17 Hình 2.2 Định nghĩa giá trị mờ cho thuộc tính số 20 Hình 2.3 Ví dụ phân cấp khái niệm cho thuộc tính Address 21 Hình 3.1 Phân cấp khái niệm cho Age, Income 27 Hình 3.2 Mơ hình xây dựng tóm tắt liệu 30 Hình 4.1 Kiến trúc đơn giản mơ hình tóm tắt .40 Hình 4.2 Các module mơ hình tóm tắt liệu 42 Hình 4.3 Hình dung hoạt động module tóm tắt 43 Hình 4.4 Biến ngơn ngữ định nghĩa cho thuộc tính số .45 Hình 4.5 Cây phân cấp tóm tắt 53 Hình 4.6 Toán tử hợp 59 Hình 4.7 Tốn tử tách 60 Hình 5.1 Lớp BackgroundKnowledge 69 Hình 5.2 Lớp FuzzyAttribute .70 Hình 5.3 Lớp BackgroundKnowledgeManager 71 Hình 5.4 Lớp FuzzyTuple 71 Hình 5.5 Lớp FuzzyProperty .72 Hình 5.6 Lớp SummarizationNode 73 Hình 5.7 CaculateSummarizationInfo 73 Hình 5.8 Xây dựng kết nối đến CSDL 77 Hình 5.9 Giao diện thêm phân cấp khái niệm .78 Hình 5.10 Giao diện xây dựng phân cấp khái niệm cho thuộc tính số 78 Hình 5.11 Giao diện xây dựng phân cấp khái niệm cho thuộc tính phi số 79 Hình 5.12 Các ứng cử .79 Hình 5.13 Tiến trình xây dựng phân cấp .80 Hình 5.14 Cây phân cấp tóm tắt 80 Hình 5.15 Một phân cấp tóm tắt 82 Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 LỜI NĨI ĐẦU Có thể nói khối lượng thơng tin khổng lồ tích trữ ngày sở liệu chưa khai thác cách hiệu cơng cụ chuẩn để minh họa, để truy vấn để phân tích chúng trở nên khơng có hiệu đối mặt với tốn tăng trưởng kích thước hệ thống Do vậy, nhiều lĩnh vực nghiên cứu mới, ví dụ khai phá liệu, lưu trữ liệu, khai phá tri thức thu hút quan tâm cộng đồng sở liệu Cùng lúc này, mơ hình tóm tắt sở liệu thừa nhận đề tài lĩnh vực nghiên cứu sở liệu mở rộng Tài liệu trình bày tổng quan bái tốn tóm tắt ngữ nghĩa liệu hướng nghiên cứu lĩnh vực Tiếp theo giới thiệu sở lý thuyết, phương pháp tóm tắt liệu sử dụng hướng tiếp cận dựa lý thuyết tập mờ, kèm theo đánh giá, nhận xét quan hệ phương pháp Tài liệu bao gồm chương sau: • Chương 1: Tổng quan tóm tắt ngữ nghĩa liệu sở liệu quan hệ • Chương 2: Cơ sở lý thuyết liên quan • Chương 3: Một số phương pháp tóm tắt liệu sử dụng lý thuyết tập • Chương 4: Phương pháp sản sinh phân cấp tóm tắt • Chương 5: Cài đặt thử nghiệm mờ Do hạn hẹp mặt thời gian với lý khách quan chủ quan khác nên chắn luận văn khơng thể tránh khỏi thiếu sót Chính vậy, em mong nhận ý kiến bảo đóng góp thầy bạn bè Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 77 Hình 5.8 Xây dựng kết nối đến CSDL 5.1.2.4 Module xây dựng tri thức Module cung cấp giao diện thống cho phép thêm phân cấy khái niệm, định nghĩa sửa đổi nút phân cấp khái niệm Giao diện cịn cung cấp tính ánh xạ phân cấp khái niệm ứng tới cột liệu gốc xác định thuộc tính khóa cho liệu gốc Bên cạnh đó, phân cấp khái niệm ứng với thuộc tính số hiển thị cách trực quan thông qua biểu đồ mô tả phân vùng khái niệm dựa vào số liệu A, B, Alpha, Beta Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 78 Hình 5.9 Giao diện thêm phân cấp khái niệm Hình 5.10 Giao diện xây dựng phân cấp khái niệm cho thuộc tính số Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 79 Hình 5.11 Giao diện xây dựng phân cấp khái niệm cho thuộc tính phi số 5.2 Kết đạt số đánh giá Chương trình cài đặt ngơn ngữ lập trình C#.NET Mơi trường chạy chương trình tốt WindowsXP, Windows Server 2003, Windows Vista Windows hoạt động với hệ quản trị SQL Server 2000 trở lên Mã nguồn chương trình dễ dàng sửa đổi dùng lại Khi bắt đầu chạy chương trình, người sử dụng yêu cầu kết nối đến CSDL thích hợp: Hình 5.12 Các ứng cử Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 80 Danh sách ứng cử hiển thị tab “Dữ liệu xử lý” Đến người sử dụng bắt đầu tiến hành bước dịch: Hình 5.13 Tiến trình xây dựng phân cấp Trong trình xây dựng phân cấp tóm tắt, chương trình hiển thị ProgessBar giúp người dùng thấy rõ tổng số ứng cử phải xử lý, thức tự xử lý Để tránh tình trạng giao diện bị treo cứng, thuật tốn thực tiến trình khác, xử lý xong, giao diện lại cập nhật Hình 5.14 Cây phân cấp tóm tắt Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 81 Cây phân cấp tóm tắt hiển thị đầy đủ thông tin đến cho ngưởi sử dụng bao gồm Card, Weight, ParentId, liệu gốc tương ứng 5.2.1 Phân tích kết thử nghiệm 5.2.1.1 Về thông tin Yếu tố cung cấp thông tin mạnh phân cấp tóm tắt Cụ thể với phân cấp tóm tắt thu được, ta có biểu diễn đầy đủ giàu ngữ nghĩa nội dung bảng liệu gốc Tính đầy đủ thể việc tất liệu gốc phản ánh thơng qua hay nhiều nút tóm tắt Ở nút đó, liệu gốc lại thể quan hệ với liệu khác có liên quan nội dung mức độ chi tiết khác nhau, tận tóm tắt nút lá, tóm tắt miêu tả nội dung ứng cử Mà ứng cử, luận văn trình bày ánh xạ liệu gốc tương ứng với tri thức Tính đầy đủ thơng tin cịn thể tính bảo toàn giá trị độ thỏa mãn, độ ủng hộ nhãn ngữ nghĩa Tính giàu ngữ nghĩa liệu tóm tắt thể chỗ thuộc tính liệu gốc nhãn ngữ nghĩa người dùng cung cấp, liệu dù đến từ nguồn nào, thực trở thành liệu người dùng, có nội dung mặt ngữ nghĩa người dùng định 5.2.1.2 Về kích thước Có thể coi yếu tố kích thước nhược điểm phân cấp tóm tắt mà kết thu tất liệu mà luận văn chạy thử, bao gồm nới lỏng tăng cường tính mờ tri thức hay liệu nền, cung cấp số lượng lớn ứng cử dĩ nhiên số nút phân cấp tóm tắt lớn miêu tả đầy đủ mức độ chi tiết tóm tắt liệu Như trình bày phần trước luận văn, số ứng cử giảm xuống nhờ vào tri thức mức cao Điều đạt thơng qua việc áp dụng phương Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 82 pháp tóm tắt hướng thuộc tính vào bước dịch thuật tốn xây dựng phân cấp tóm tắt 5.2.2 Đánh giá độ phức tạp Dưới số nhận xét chi tiết có q trình kiểm thử, hầu hết cho thấy hạn chế độ phức tạp thời gian q trình sản sinh tóm tắt: Số lượng liệu cần tóm tắt lớn, thời gian cần cho việc sản sinh phân cấp tóm tắt cao Điều thấy rõ mà phân cấp tóm tắt, q trình sản sinh động, sát nhập thêm nhiều ứng cử kích thước phân cấp tóm tắt tăng nhanh Số lượng nút tóm tắt mà ứng cử phải duyệt ngày lớn Tại nút, giải thuật lại phải thực nhiều phép tính tốn đề chọn lựa đường Có thể nói việc tiêu tốn nhiều thời gian bù đắp tất yếu việc chạy heuristic nhằm tối ưu hóa phân cấp tóm tắt Các liệu có nhiều với tính mờ cao so với tri thức làm phát sinh số lượng ứng cử lớn, số ứng cử nhiều đương nhiên làm tăng thời gian sản sinh phân cấp tóm tắt Bảng liệu gốc có nhiều thuộc tính, thời gian xử lý, sản sinh phân cấp tóm tắt lớn Hình 5.15 Một phân cấp tóm tắt Để đánh giá độ phức tạp thuật toán ta xem xét ví dụ cụ thể sau: Giả sử ta có phân cấp tóm tắt hình vẽ: Nút gốc z, gồm có nút z1, z2 z3 Nút z1 có nút z11 z12 Nút z2 có nút z21, z22 z23 Nút z3 khơng có nút Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 83 Giả sử ta cần tích hợp ứng ct phân cấp tóm tắt Thuật toán SaintEtiq thực qua bước sau: Do z nút kết thúc nên phần code khối lệnh else thực hiện: ct tích hợp vào z thơng qua toán tử học incorporate Tiếp theo thuật toán tiến hành duyệt qua tất nút trực tiếp z tính kết Q việc tích hợp ct vào nút nút z for all nút Tính kết phân nhóm Q việc đặt ct vào end for Việc tính kết phân nhóm Q thực sau: Nút z có nút trực tiếp z1 z2 z3, tiến hành duyệt qua nút này: • Giả sử z1 nút xem xét, đặt ct vào z1 ta z1’, tính Q cho nút z1’, z2, z3 • Đặt ct vào z2 ta z2’, tính Q cho nút z1, z2’, z3 • Đặt ct vào z3 ta z3’, tính Q cho nút z1, z2, z3’ Ta xem xét độ phức tạp việc tính Q cho nút z1’, z2, z3 Q SU(P) Xin nhắc lại cơng thức độ hữu dụng tóm tắt: Với P={z1’, z2, z3} Để tính Q ta cần tính Với Như Mà cần phải tính p(p-1)/2 lần p=3 tính lần Tính Q cho {z1, z2’, z3} {z1, z2, z3’} hoàn toàn tương tự, tính tới lần Trong thực tế số nút nút z lên tới số vài chục Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 84 số lượng ứng cử lớn Nếu z có 40 nút số lần phải tính bao nhiêu? Xét trường hợp bất kỳ, giả sử ta cần tính Q cho tóm tắt {z1, z2 …zi’ …z40} gọi 40*(40-1)/2=1560 lần 1560*40=62400!!! Do có 40 lần phải tính Q nên tổng số lần phải tính Và luận văn cho phép tính gọi nhiều lần nhất, gây nên việc tính tốn bị chậm số ứng cử tăng lên Sau tính Qi tương ứng với việc tích hợp ct vào zchild_i, ta cần thực tiếp sau: Đặt nút có kết cao Đặt nút có kết cao thứ nhì kết việc đặt t vào nút Đặt kết việc hợp Đặt thành nút Đặt kết việc tách thành Qnew tính sau: Tiếp tục ví dụ Gọi znew nút tạo đặt ct vào nút Cần tính SU(P) cho P={z1, z2, z3, znew} Qmerge tính sau: Giả sử z1 zbest, z2 zsecond Việc hợp z1 z2 tạo nên z1_2’ (các nút z1 z2 gán vào z1_2’) Cần tính SU(P) cho P={z1_2’, z3} Qsplit tính sau: Giả sử z1 zbest, việc tách z1 làm cho z11, z12, z13 gắn trực tiếp vào z Cần tính SU(P) cho P={z11, z12, z13, z2, z3} Sau tính hết Q, tiến hành việc so sánh thực lời gọi giải thuật SAINTETIQ cách đệ quy với nút tương ứng chọn Như số Q tính nhiều lần giải thuật này, đặc biệt hàm tính Trong thử nghiệm thực tế sử dụng biến đếm counter, với số lượng 100 ứng cử (là tương đối nhỏ) hàm tính Tóm tắt liệu dựa lý thuyết tập gọi tới 200.000 lần Nếu số Bùi Minh Cường- CNTT79 85 lượng ứng cử tăng lên số lượng nút số nút nút tăng lên dẫn tới số lần gọi tăng nhanh Số lần gọi lên tới số hàng triệu lần cách dễ dàng, việc tối ưu hóa hàm nói riêng hàm tính Q nói chung q trình cài đặt giải thuật cần đặt biệt ý Luận văn ý thức điều trình cài đặt ý đến kỹ thuật lập trình nâng cao sử dụng đệm để tăng tốc độ tính tốn Qua ví dụ trên, ta thấy độ phức tạp tính tốn phụ thuộc lớn vào số nút đặc biệt trung bình nút Số nút trung bình nút nhỏ việc tính tốn nhanh Với số lượng ghi liệu ban đầu, số nút phân cấp tóm tắt phụ thuộc nhiều vào chất liệu Trong trình thực thuật toán SAINTETIQ, ứng ct tích hợp vào nút có sẵn thay đặt vào nút số lượng nút sinh phân cấp tóm tắt giảm Điều có liệu ban đầu tương đối gần theo khía cạnh chúng phản ánh số tính chất chung tương đối gần nhóm lại vào nút Khi liệu ban đầu rời rạc số lượng nút nhiều lên tốc độ tính tốn mà chậm Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 86 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Tóm tắt liệu phương pháp giúp người sử dụng khai thác cách hiệu sở liệu có Trong hướng tiếp cận tốn tóm tắt liệu, luận văn quan tâm tới hướng tiếp cận dựa lý thuyết tập mờ Đây hướng tiếp cận không nhằm mục tiêu giải toán tăng trưởng sở liệu, tức tóm tắt thu gọn liệu mà cịn phải thực tạo điều kiện thuận lợi cho mục tiêu khai thác nguồn liệu thu gọn có Qua chương trước, luận văn tiến hành tổng kết số cơng trình nghiên cứu có hướng nghiên cứu Trên sở phân tích nghiên cứu trước đó, ưu điểm nhược điểm mối quan hệ phương pháp, luận văn trình bày giải pháp hướng tới kết hợp phương pháp Luận văn sâu vào nghiên cứu tiến hành cài đặt giải thuật cho phương pháp sản sinh phân cấp tóm tắt Việc cài đặt thành công giải thuật áp dụng cho trường hợp tổng quát tiền đề cho hướng phát triển truy vấn phân cấp tóm tắt, áp dụng phương pháp tóm tắt hướng thuộc tính cho bước dịch… Việc cài đặt thuật toán xây dựng chương trình tiến hành cách cẩn thận nhằm tối ưu hóa tốc độ thuật tốn học tăng cường, hệ thống với kiến trúc phân lớp giúp cho việc nâng cấp mở rộng tiến hành cách dễ dàng Hai bước giải thuật tuân thủ tách làm hai module hệ thống Các kỹ thuật lập trình nâng cao LINQ, caching khai thác nhằm đem lại hiệu suất cao cho giải thuật Bên cạnh luận văn tiến hành đánh giá độ phức tạp tính tốn giải thuật cách tương đối chi tiết Mặc dù cẩn thận việc tối ưu hóa cài đặt giải thuật, nhiên thuật toán tỏ chậm chưa sẵn sàng với sở liệu lớn với hàng trăm ngàn ghi Do việc tiếp tục tối ưu hóa giải thuật nhằm cải thiện tốc độ hướng đề tài Bên cạnh luận văn xin đề xuất hướng phát triển sau: Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 87 6.1 Làm mịn tri thức Một đặc điểm mơ hình việc sử dụng mạnh mẽ tri thức tiến trình tóm tắt Nó hỗ trợ đồng thời bước dịch miêu tả sở liệu sang từ vựng người dùng định nghĩa bước khái quát hóa nhằm cung cấp nội dung tóm tắt tổng hợp Bộ tri thức người sử dụng cung cấp ảnh hưởng trực tiếp tới độ tốt phân cấp tóm tắt Vấn đề đánh giá làm mịn tri thức đề cập tới chưa cài đặt 6.2 Kết hợp bước dịch với phương pháp tóm tắt hướng thuộc tính Từ liệu gốc ban đầu, qua bước dịch, sinh nhiều ứng cử Trong trình kết nạp ứng cử vào phân cấp tóm tắt, số ứng cử nhiều, thời gian cần thiết để kết nạp vào phân cấp lớn Như vậy, số lượng ứng giảm xuống tốc độ việc kết nạp ứng cử vào phân cấp tóm tắt tăng lên Ngồi có tương tự bước dịch phương pháp sản sinh phân cấp với phương pháp tóm tắt hướng thuộc tính Luận văn đề xuất việc kết hợp hai phương pháp nhằm tăng tốc độ xây dựng phân cấp tóm tắt Tuy nhiên q trình kết hợp, cần lưu ý tri thức mức cao phân cấp khái niệm sử dụng, mức độ trừu tượng ứng cử tăng lên, mức độ chi tiết giảm xuống Mức độ chi tiết nút z phân cấp tóm tắt giảm theo 6.3 Truy vấn phân cấp tóm tắt Như nói mục tiêu thiết thực hướng tiếp cận tóm tắt liệu dựa lý thuyết tập mờ nhằm xây dựng mơ hình liệu thu gọn, có mức trừu tượng cao, thơng minh theo nghĩa giúp tìm kiếm liệu cách nhanh chóng Xây dựng triển khai hệ thống sản sinh phân cấp tóm tắt liệu tự động tảng sở để thực việc truy vấn liệu tương lai mơ hình phân Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 88 cấp tóm tắt, thay việc truy vấn hệ thống sở liệu quan hệ thông thường Truy vấn phân cấp tóm tắt liệu có lợi vô quan trọng mà xuyên suốt báo cáo này, luận văn khơng ngừng nhấn mạnh, việc giải toán tăng trưởng hàng ngày kích thước hệ sở liệu quan hệ thông thường Đặc biệt truy vấn phân cấp tóm tắt cịn giải tốn thực truy vấn linh hoạt, mục tiêu không quan trọng cộng đồng sở liệu Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 89 TÀI LIỆU THAM KHẢO [1] P Bosc, L LiXetard, O Pivert, Extended functional dependencies as a basis for linguistic summaries, in: J.M Zytkow, M Quafafou (Eds.), Proc 2nd European Symp on Principles ofData Mining and Knowledge Discovery (PKDD’98), Lecture Notes in Artificial Intelligence, vol 1510, Springer, Berlin, 23–26 September 1998, pp 255–263 [2] P Bosc, O Pivert, L Ughetto, On data summaries based on gradual rules, in: Proc Internat Conf on Computational Intelligence, 6th Dortmund Fuzzy Days (DFD’99), Lecture Notes in Computer Science, vol 1625, Springer, Dortmund, Germany, 25–28 May 1999, pp 512–521 [3] B Bouchon-Meunier, M Rifqi, S Bothorel, Towards general measures of comparison of objects, Fuzzy Sets and Systems 84 (2) (1996) 143–153 [4] G Raschia*, N Mouaddib, Fuzzy Sets and Systems — SAINTETIQ: a fuzzy set-based approach to database summarization — Institue de Recherche en Informatique de Nantes, 2002 [5] C Carter, H Hamilton, Ecient attribute-oriented algorithms for knowledge discovery from large databases, IEEE Trans Knowledge Data Eng 10 (2) (1998) 193–208 [6] J.C.Cubero, J.M Medina, O Pons, M.-A Vila, Data summarization in relational databases through fuzzy dependencies, Inform Sci 121 (3–4) (1999) 233–270 [7] C Decaestecker, Apprentissage et outils statistiques en classification conceptuelle incrXementale, Rev Intell Artif (1) (1993) 33–71 [8] D Dubois, H Prade, Fuzzy sets in data summaries — outline of a new approach, in: Proc 8th Internat Conf on Information Processing and Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 90 Management of Uncertainty in Knowledge-Based Systems (IPMU’2000), vol 2, Madrid, 3–7 July 2000, pp 1035–1040 [9] E.A Feigenbaum, The simulation of verbal learning behavior, in: E.A Feigenbaum, J Feldman (Eds.), Computers and Thought, McGraw-Hill, New York, 1963, pp 297–309 [10] D Fisher, Iterative optimization and simplification of hierarchical clusterings, Artif Intell Res (1996) 147–179 [11] D.H Fisher, Knowledge acquisition via incremental conceptual clustering, Mach Learning (1987) 139–172 [12] J Han, Y Fu, W Wang, J Chiang, W Gong, K Koperski, D Li, Y Lu, A Rajan, N Stefanovic, B Xia, O.R Zaiane, DBMiner: a system for mining knowledge in large relational databases, in: E Simoudis, J.W Han, U Fayyad (Eds.), Proc 2nd Internat Conf on Knowledge Discovery and Data Mining (KDD’96), AAAI Press, Portland, OR, 1996, p 250–255 [13] J Kacprzyk, Fuzzy logic for linguistic summarization of databases, in: Proc 8th Internat Conf on Fuzzy Systems (FUZZ-IEEE’99), vol 1, Seoul, Korea, 22–25 August 1999, pp 813–818 [14] G Klir, B Yuan, Fuzzy Sets and Fuzzy Logic: Theory and Applications, Prentice-Hall, Upper Saddle River, NJ, 1995 [15] D.H Lee, M.H Kim, Database summarization using fuzzy ISA hierarchies, IEEE Trans Systems Man Cybernet.-Part B: Cybernetics 27 (1997) 68–78 [16] F Petry, Fuzzy Databases — Principles and Applications, Kluwer Academic Publishers, Dordrecht, 1996 [17] G Raschia, N Mouaddib, Fuzzy set-based representation of domain knowledge and concepts for database summarization, in: Proc 8th Internat Conf on Information Processing and Management of Uncertainty in Knowledge-Based Systems (IPMU’2000), vol 2, Madrid, 3–7 July 2000, pp 1139–1146 Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 91 [18] D Rasmussen, R Yager, Fuzzy query language for hypothesis evaluation, in: T Andreasen, H Christiansen, H.L Larsen (Eds.), Flexible Query Answering Systems, Kluwer Academic Publishers, Dordrecht, 1997, pp 23–43 [19] E.H Ruspini, A new approach to clustering, Inform and Control 15 (1) (1969) 22–32 [20] R.R Yager, A new approach to the summarization of data, Inform Sci 28 (1) (1982) 69–86 [21] L Zadeh, Concept of a linguistic variable and its application to approximate reasoning — I, Inform Systems (1975) 199–249 [22] L.A Zadeh, Fuzzy sets, Inform and Control (1965) 338–353 Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 ... tập trung vào trình bày sở lý thuyết liên quan tới tốn tóm tắt liệu nói chung đặc biệt mơ hình tóm tắt liệu dựa lý thuyết tập mờ nói riêng Cơ sở lý thuyết bao gồm lý thuyết tập mờ Zadeh, lý thuyết. .. vực tóm tắt liệu Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 24 CHƯƠNG MỘT SỐ PHƯƠNG PHÁP TÓM TẮT DỮ LIỆU SỬ DỤNG LÝ THUYẾT TẬP MỜ Tóm tắt: Chương luận văn đề cập tới số phương pháp tóm. .. bè Tóm tắt liệu dựa lý thuyết tập Bùi Minh Cường- CNTT79 CHƯƠNG TỔNG QUAN VỀ TÓM TẮT NGỮ NGHĨA DỮ LIỆU ĐỐI VỚI CƠ SỞ DỮ LIỆU QUAN HỆ Tóm tắt: Chương luận văn đề cập cách tổng quan tóm tắt sở liệu