Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 125 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
125
Dung lượng
3,81 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HỒNG ĐỨC ĐƠNG TĨM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội, 2008 Tai ngay!!! Tai ngay!!! BanBan co the co the xoa dong xoa chu dong nay!!! chu 17062860455891000000 nay!!! 17061131386501000000 dd5b13f0-ab10-4f42-8c0f-9c4742e0a5e5 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HỒNG ĐỨC ĐƠNG TĨM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ THANH HƯƠNG Hà Nội, 2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” L ỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn chân thành sâu sắc tới cô giáo TS Lê Thanh Hương tận tình hướng dẫn giúp đỡ trình làm đồ án Em chân thành cảm ơn thầy khoa Cơng Nghệ Thơng Tin, tồn thể thầy cô khoa cung cấp kiến thức quý báu cho em năm học vừa qua Xin chân thành cảm ơn thành viên nhóm xử lý ngôn ngữ tự nhiên khoa Công Nghệ Thơng Tin đưa góp ý, nhận xét giải pháp kết đề tài Mặc dù em cố gắng hoàn thành luận văn phạm vi khả cho phép chắn khơng khơng thể tránh thiếu sót Em kính mong nhận thông cảm bảo tận tình thầy bạn Học viên: Hồng Đức Đơng Lớp: Cao học Hà Nội 11/2008 Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” L Ờ I NÓI Đ Ầ U Trong năm gần đây, phát triển vượt bậc công nghệ thông tin làm tăng đáng kể số lượng giao dịch mạng Internet đặc biệt thư viện điện tử, tờ báo điện tử…Theo thống kê từ Broder năm 2003 cho thấy số lượng văn tăng gấp đôi sau đến 12 tháng Với thông tin lớn để khai thác thông tin hiệu câu hỏi lớn giành cho nhà làm tin học Chúng ta có hàng loại tờ báo tiếng nước www.vnexpress.net, www.vietnamnet.vn, www.dantri.com, Chúng ta T 51U T 51U có cỗ máy tìm kiếm thông minh Google, Yahoo,…Song vấn đề đặt đọc hết tất thơng tin báo cỗ máy đem tìm kiếm đem Để giải vấn đề đó, người viết luận văn xin đề xuất giải pháp “Tóm tắt văn tiếng Việt theo chủ đề” Mục đích đề tài trích rút nội dung văn tiếng Việt lại, hiển thị cho người đọc từ người sử dụng xem xét nội dung có cần đọc khơng? Nếu có người sử dụng tiến hành đọc chi tiết văn gốc, không người sử dụng dừng lại, không cần phải đọc Hướng tiếp cận người viết luận văn hướng đến lĩnh vực nội dung văn cần tóm tắt Các lĩnh vực cấu trúc nội dung tờ báo điện tử, thư viện điện tử,… Người viết luận văn sử dụng thành đạt xử lý văn tiếng Việt toán phân tách từ, toán phân nhóm, phân lớp văn bản, tốn tóm tắt văn Nội dung luận văn gồm có chương đó: Chương Trình bày nhiệm vụ đồ án, sở lý thuyết lĩnh vực khai phá liệu văn xử lý ngơn ngữ tự nhiên Đó lý thuyết chung khai phá liệu văn bản, mối liên quan xử lý ngôn ngữ tự nhiên với khai phá liệu văn Đặc biệt người viết luận văn có sâu phân tích đặc điểm ngơn ngữ tiếng Việt Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Chương Trình bầy thành tựu đạt tốn liên quan tới phân nhóm văn Chương Trình bầy mơ hình, giải pháp cho tốn phân lớp văn Chương Trình bầy vấn đề nghiên cứu, phân lớp văn tiếng Việt, giới thiệu tốn tóm tắt văn tiêng Việt theo chủ đề Từ đưa tốn phân lớp văn bản, tìm chủ đề văn phục vụ cho tốn tóm tắt văn tiếng Việt theo chủ đề mà người viết luận văn đề xuất Chương Trình bầy giải pháp tiếp cận phân lớp văn tìm chủ đề Chương Trình bầy tổng quan thiết kế hệ thống tóm tắt văn tiếng Việt theo chủ đề Và sâu vào nhiệm vụ phân lớp văn tìm chủ đề luận văn Chương Kết kiểm thử Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH M Ụ C T Ừ VIẾT TẮ T STT Từ viết tắt KDD TFxIDF IR Giải nghĩa Knowledge Discovery in Databases Phát tri thức sở liệu Term Frequency times Inverse Document Frequency Hệ thu thập thông tin Information Retrieval Natural Language Processing NLP Xử lý ngôn ngữ tự nhiên NLG Natural Language Generating Sinh ngôn ngữ tự nhiên Support Vector Machine SVM Mơ hình máy vector hỗ trợ Context Free Grammar CFG CSDL POS Văn phạm phi ngữ cảnh Cơ sở liệu Part of Speech Từ loại 10 RST Rhetorical Structure Theory Lý thuyết cấu trúc tu từ 11 HMM Hidden Markov Model Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” STT Từ viết tắt Giải nghĩa Mơ hình Markov ẩn 12 LRMM Left Right Maximum Matching Tách từ dài từ trái qua phải Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC HÌNH VẼ Hình 1.1 Tiến trình khai phá liệu phát tri thức (KDD) 18 Hình 1.2 Chức dẫn đường văn VNExpress 25 Hình 1.3 Ví dụ biểu diễn văn dựa khái niệm mờ 30 Hình 2.1 Ví dụ mô tả giải thuật k-means 35 Hình 2.2 Mơ tả giải thuật phân nhóm dựa lưới 36 Hình 3.1 Một ví dụ định cho phân lớp LÚA 50 Hình 3.2 Một ví dụ tìm kiếm lời giải định phân lớp chủ đề “LÚA” 51 Hình 3.3 Đồ thị phân bố đại lượng Entropy 53 Hình 3.5 Minh họa việc khoanh vùng k văn gần với k = 56 Hình 3.6 Minh họa cách tính precision recall 58 Hình 4.1 Tập mẫu chủ đề 62 Hình 4.2 Tính chủ đề cấu đào tạo trường Đại học Bách Khoa Hà Nội 63 Hình 4-3 Cây chủ đề báo điện tử www.vnexpress.net 64 Hình 5.1 Mơ hình tiếp cận theo phương pháp học khơng giám sát 71 Hình 5.2 Thuật tốn tách term tiếng Việt 74 Hình 5.3 Phân nhóm lớp văn mẫu với thuật tốn FIHC 78 Hình 6.1 Các chức hệ thống tóm tắt 82 Hình 6.2 Sơ đồ hệ thống tóm tắt 83 Hình 6.3 Chức phân lớp văn theo hướng tiếp cận học không giám sát 86 Hình 6.4 Mơ hình vector hóa văn 88 Hình 6.5 Chức phân nhóm lớp văn mẫu 90 Hình 6.7 Chức Quản lý tập văn mẫu 92 Hình 6.8 Chức quản lý Từ điển/StopWord 93 Hình 7.3 Tốc độ tách thuật ngữ 97 Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC BẢNG Bảng 1.1 Ví dụ văn biểu diễn theo từ khóa số lần xuất 26 Bảng 1.2 Ví dụ biểu diễn vector thưa 29 Bảng 2.1 Dữ liệu đầu vào để xây dựng FP 39 Bảng 3.1 Các mẫu huấn luyện dùng cho định class LÚA 50 Bảng 7.1 Thông tin mô tả số thông số tập liệu huấn luyện 96 Bảng 7.2 Kết phân lớp 80 văn tập mẫu VnExpress 99 Bảng 7.3 Kết phân lớp văn tập mẫu VietNamNet 101 Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” M ỤC LỤ C LỜI CẢM ƠN LỜI NÓI ĐẦU DANH MỤC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG MỤC LỤC PHẦN I CƠ SỞ LÝ THUYẾT 13 CHƯƠNG TỔNG QUAN VỀ XỬ LÝ VĂN BẢN 14 1.1 Nhiệm vụ đồ án 15 1.2 Khai phá liệu phát tri thức liệu 16 1.2.1 Dữ liệu, Thông tin Tri thức 16 1.2.2 Khai phá liệu phát tri thức 16 1.3 Text Mining-Góc nhìn nhận quan trọng Data Mining 19 1.4 Các khái niệm xử lý văn 20 1.4.1.Từ khóa, Thuật ngữ Khái niệm 20 1.4.2 Từ dừng (Stop Words) 21 1.4.3 Trọng số thuật ngữ 21 Hồng Đức Đơng - Cao học CNTT 2006-2008 - ĐHBKHN