Trong phạm vi của đề tài luận văn, em xin được trình bày về một số vấn đề sau: - Tìm hiểu chung về khai phá dữ liệu và một số kỹ thuật khai phá dữ liệu- Tìm hiểu chung về khai phá văn bả
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI *** NGUYỄN THỊ MINH ĐỨC LÀM MỊN KẾT QUẢ TÌM KIẾM VĂN BẢN SỬ DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN LUẬN VĂN THẠC SĨ NGÀNH : XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG MÃ SỐ: ./ ./ Người hướng dẫn khoa học: PGS Nguyễn Thị Kim Anh Hà Nội 2009 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205161481000000 LỜI CẢM ƠN Em xin chân thành cảm ơn PGS Nguyễn Thị Kim Anh, Trưởng Bộ môn Các hệ thống thông tin, Viện CNTT-TT, Trường Đại học Bách Khoa Hà Nội Em nhận hướng dẫn tận tình, góp ý cụ thể PGS trình nghiên cứu viết luận văn Em xin gửi lời cám ơn chân thành đến thầy cô giáo giảng dạy lớp CH XLTT&TT 2007 cung cấp cho em kiến thức bổ ích, hỗ trợ em việc làm luận văn, việc tiếp tục nghiên cứu sau Em xin chân thành cảm ơn Ban giám đốc Dự án Hỗ trợ phát triển đào tạo đại học sau đại học CNTT-TT, Viện đào tạo Sau đại học tạo điều kiện cho phép em tham gia lớp cao học XLTT-TT khóa 20072009 Em xin gửi lời cám ơn đến bạn đồng nghiệp anh chị học viên lớp cao học XLTT-TT 2007 hỗ trợ, động viên để em hoàn thành luận văn Cuối cùng, em xin bày tỏ lòng biết ơn đến gia đình, bạn bè, người ln động viên giúp đỡ em q trình học tập cơng tác Hà nội, ngày 26 tháng 11 năm 2009 Học viên Nguyễn Thị Minh Đức LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu thân Các nghiên cứu luận văn dựa tổng hợp lý thuyết hiểu biết thực tế, không chép Tác giả Nguyễn Thị Minh Đức MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC BẢNG, SƠ ĐỒ, HÌNH VẼ MỞ ĐẦU Chương I Tổng quan khai phá liệu kỹ thuật dùng khai phá liệu 1.1 Tổng quan khai phá liệu………………………………… 1.2 Khai phá liệu sử dụng định……………………….6 1.2.1 Khái niệm khai phá liệu sử dụng định .6 1.2.2 Điểm mạnh định 1.2.3 Điểm yếu định 1.3 Khai phá liệu sử dụng luật kết hợp…………………………10 1.3.1 Khái niệm khai phá liệu sử dụng luật kết hợp 10 1.3.2 Điểm mạnh phương pháp phân tích luật kết hợp: 11 1.3.3 Điểm yếu phương pháp phân tích luật kết hợp 12 1.4 Khai phá liệu sử dụng gom cụm……………………………14 1.4.1 Khái niệm khai phá liệu sử dụng gom cụm .14 1.4.2 Điểm mạnh dị tìm gom cụm tự động 15 1.4.3 Điểm yếu phương pháp dị tìm tự động gom cụm 16 1.5 Khai phá liệu sử dụng mạng neural……………………… 16 1.5.1 Khái niệm khai phá liệu sử dụng mạng neural 16 1.5.2 Điểm mạnh mạng neural 17 1.5.3 Điểm yếu phương pháp mạng neural .18 Chương II Cơ sở liệu (CSDL) văn khai phá CSDL văn bản………………………………………………………………………21 2.1 Vấn đề biểu diễn văn trích chọn thơng tin văn 21 2.1.1 Vấn đề biểu diễn văn .21 2.1.2 Trích chọn thơng tin .23 2.2 Khai phá CSDL văn 26 2.2.2 Khai phá văn khai phá liệu 31 2.2.3 Các toán khai phá văn ứng dụng 33 2.2.3 Kỹ thuật phân tích khái niệm hình thức (FCA) ứng dụng 38 2.3 Kết chương……………………………………………………….53 Chương III Làm mịn kết tìm kiếm văn sử dụng FCA .54 3.1 Tổng quan tìm kiếm thơng tin……………………………… 54 3.2 Làm mịn kết tìm kiếm sử dụng FCA……………………….57 3.2.1 Vấn đề làm mịn kết tìm kiếm hướng tiếp cận .57 3.2.2 Cách tiếp cận biến đổi câu truy vấn, có sử dụng phân tích khái niệm hình thức giàn khái niệm 58 3.3 Kết luận hướng nghiên cứu tiếp theo…………………………62 3.3.1 Cách tiếp cận biến đổi câu truy vấn dựa ngữ cảnh người dùng 62 3.3.2 Đánh giá, kết luận hướng nghiên cứu .64 TÀI LIỆU THAM KHẢO 66 DANH MỤC TỪ VIẾT TẮT CSDL: Cơ sở liệu DM: Data Mining – Khai phá liệu SQL: Structured Query Language - Ngơn ngữ truy vấn có cấu trúc IR: Information Retrieval – Tìm kiếm thơng tin NLP: Natural Language Processing – Xử lý ngôn ngữ tự nhiên IE: Information Extraction – Trích chọn thơng tin FCA: Formal Concept Analysis – Phân tích khái niệm hình thức DANH MỤC BẢNG, SƠ ĐỒ, HÌNH VẼ Hình 1.1: Sơ đồ mơ tả q trình khai phá liệu (trang 5) Hình 1.2 Phân loại kỹ thuật khai phá văn ( trang 6) Hình 1.3: Mẫu kết với phương pháp định (trang 6) Hình 1.4 Sơ đồ biểu diễn kết gom cụm liệu ( trang14) Hình 2.1: Ví dụ biểu diễn văn (trang 21) Hình 2.2: Sơ đồ khái niệm trích chọn thơng tin (trang 23) Hình 2.3 Sơ đồ quy trình khai phá văn (trang 27) Hình 2.4: Các tốn khai phá văn cách tiếp cận (trang 32) Hình 2.5 :Ví dụ phân loại văn (trang 34) Hình 2.6 : Khái niệm phân cụm văn (trang 36) Hình 2.7 Hiển thị dendogram phân cấp tích tụ (trang 39) Bảng 2.1: Bảng ngữ cảnh ví dụ (trang 43) Hình 2.8: Giàn khái niệm xây dựng cho bảng ngữ cảnh ví dụ (trang 43) Hình 2.9: Biểu diễn rút gọn khái niệm cho giàn khái niệm hình 2.8 (trang 44) Hình 2.10: Lưu đồ thuật toán cho giải thuật Bayes sơ khai (trang 46) Hình 3.1 Sơ đồ mơ tả hệ thống tìm kiếm thơng tin (trang 55) Hình 3.2: Ví dụ hiển thị gợi ý làm mịn câu truy vấn hệ thống REFINER (trang 62) MỞ ĐẦU Xã hội đại xã hội thông tin xử lý thông tin, với phát triển mạng Internet, nguồn thông tin vô đa dạng, phong phú nhiều số lượng Tuy nhiên, để sử dụng hiệu nguồn thông tin, cần phải có phương pháp, thuật tốn, quy trình, đến phần mềm, công cụ để khai phá liệu nói chung khai phá văn nói riêng Nghiên cứu khai phá liệu, khai phá văn ngày phát triển, đem lại tiềm to lớn cho người Đặc biệt, khai phá văn Internet ý, nguồn thông tin chia sẻ cực lớn Cũng khối lượng thơng tin chia sẻ lớn mà việc tìm kiếm thơng tin gặp số trở ngại Trong phạm vi đề tài luận văn, em xin trình bày số vấn đề sau: - Tìm hiểu chung khai phá liệu số kỹ thuật khai phá liệu - Tìm hiểu chung khai phá văn toán khai phá văn bản, giới thiệu kỹ thuật phân tích khái niệm hình thức, ứng dụng khai phá văn - Vấn đề tìm kiếm thơng tin, làm mịn kết tìm kiếm văn bản, hướng nghiên cứu đề xuất Với hiểu biết thân, thời gian nghiên cứu, nội dung luận văn dừng lại nghiên cứu lý thuyết thuật tốn Chính vậy, em mong nhận góp ý hướng dẫn thêm thầy cô bạn, để việc nghiên cứu thực triệt để mang tính ứng dụng cụ thể Chương I Tổng quan khai phá liệu kỹ thuật dùng khai phá liệu 1.1 Tổng quan khai phá liệu Khai phá liệu (Data mining-DM) khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để phát mẫu, quy luật tập liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm Phát tri thức sở liệu (Knowledge Discovery in Database – KDD) để toàn trình phát tri thức có ích từ tập liệu lớn Trong đó, khai phá liệu bước đặc biệt tồn q trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu từ sở liệu Các giải thuật khai phá liệu thường mô tả chương trình hoạt động trực tiếp file liệu Với phương pháp học máy thống kê trước đây, thường bước giải thuật nạp toàn file liệu vào nhớ Khi chuyển sang ứng dụng công nghiệp liên quan đến việc khai phá kho liệu lớn, mơ hình khơng thể đáp ứng Khơng khơng thể nạp hết liệu vào nhớ mà cịn khó chiết xuất liệu file đơn giản để phân tích Q trình xử lý khai phá liệu bắt đầu cách xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Bước thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu Về lý thuyết đơn giản thực thực trình khó khăn, gặp phải nhiều vướng mắc như: liệu phải nhiều (nếu chiết xuất vào tệp), quản lý tệp liệu, phải lặp lặp lại nhiều lần toàn q trình (nếu mơ hình liệu thay đổi),… Sẽ cồng kềnh với giải thuật khai phá liệu phải truy cập vào toàn nội dung sở liệu làm việc Vả lại, điều không cần thiết Có nhiều giải thuật khai phá liệu thực dựa thống kê tóm tắt đơn giản sở liệu, mà tồn thơng tin sở liệu dư thừa mục đích việc khai phá liệu Bước chọn thuật toán khai phá liệu thích hợp thực việc khai phá liệu để tìm mẫu (pattern) có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa (thường biểu diễn dạng luật phân loại, định, phát luật kết hợp, biểu thức hồi quy,…) Thống kê Xác định Xác định liệu Thu thập tiền xử lý DL Giải thuật Data Mining Dữ liệu trực tiếp Hình 1.1 Sơ đồ mơ tả q trình khai phá liệu Các kĩ thuật khai phá liệu chia thành hai nhóm chính, nhóm dự báo, nhóm mơ tả Trong nhóm dự báo gồm số kỹ thuật phân loại, hồi quy, phân tích loạt thời gian, định, mạng neural Nhóm có tên gọi kỹ thuật có khả dự báo tính chất tập liệu sau hệ thống huấn luyện với tập liệu mẫu Nhóm thứ hai nhóm mơ tả, gồm có kỹ thuật sau: Gom cụm, Tổng kết, Phát luật kết hợp, Phát trình tự Nhóm có tên mơ tả sau thực kỹ thuật tập Luật