LUẬN VĂN: ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN pptx

53 911 0
LUẬN VĂN: ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2008 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS TS Hà Quang Thụy Cán bộ đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải HÀ NỘI - 2008 3 Lời cảm ơn Tôi xin gửi lời cảm ơn biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Đặng Thanh Hải đã chỉ bảo hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu Khoa học quá trình thực hiện khoá luận này. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập nghiên cứu tại trường Đại họ c Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong nhóm nghiên cứu “Khai phá dữ liệu khám phá tri thức” đã giúp đỡ, ủng hộ động viên tôi trong quá trình nghiên cứu làm khoá luận. Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ, Nghiên cứu sinh Nguyễn Cẩm Tú Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận. Cuối cùng, tôi muốn gửi lờ i cảm ơn biết ơn vô hạn tới bố, mẹ, anh trai, tất cả bạn những người thân yêu của tôi. Xin chân thành cảm ơn! Sinh viên Hoàng Minh Hiền 4 Tóm tắt nội dung Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao. Tóm tắt văn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hội nghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghị Coling/ACL (Computational Linguistics/Association for Computational Linguistics), của các trung tâm nghiên cứu như IBM, Microsoft… Khóa luận với đề tài “Độ tương đồng ngữ nghĩa giữa hai câu ứng dụng trong bài toán tóm tắt văn bản” tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ tương đồng câu các phương pháp để tính toán độ tương đồng câu. Từ đó, trên cơ sở về một số kết quả nghiên cứu đã có về độ đo tương đồng câu v ề Hidden Topic, khóa luận đề xuất một mô hình tóm tắt văn bản đơn có sử dụng Hidden Topic để tính toán độ tương đồng ngữ nghĩa giữa hai câu. 5 Mục lục Tóm tắt nội dung 4 Mục lục 5 Danh sách bảng 7 Danh sách hình vẽ 8 Bảng ký hiệu từ viết tắt 9 Mở đầu 10 Chương 1. Tổng quan về tóm tắt văn bản độ tương đồng câu 12 1.1. Đặt vấn đề 12 1.2. Nền tảng kiến thức 13 1.2.1. Data Mining 13 1.2.2. Text Mining 13 1.2.3. Web Mining 14 1.3. Tóm tắt văn bản 15 1.4. Độ tương đồng giữa hai câu 16 Chương 2. Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản 18 2.1. Bài toán tóm tắt văn bản 18 2.1.1. Định nghĩa tóm tắt 18 2.1.2. Phân loại tóm tắt văn bản 19 2.1.3. Tóm tắt văn bản đơn 21 2.2. Các phương pháp tóm tắt văn bản đơn 21 2.2.1. Phương pháp Word frequencies 22 2.2.2. Phương pháp của Edmundson 23 2.2.3. Tóm tắt văn bản tự động sử dụng trích chọn câu hai bước 26 6 Chương 3. Độ tương đồng câu phương pháp tính độ tương đồng câu 32 3.1. Độ tương đồng 32 3.2. Độ tương đồng câu 32 3.3. Phương pháp để đo độ tương đồng câu 33 3.3.1. Phương pháp tính độ tương đồng câu sử dụng WordNet corpus 33 3.3.2. Phương pháp tính độ tương đồng câu sử dụng Hidden Topic 39 Chương 4. Đề xuất mô hình tóm tắt kết quả thực nghiệm 46 4.1. Đề xuất mô hình tóm tắt 46 4.2. Thiết kế mô hình thử nghiệm 47 4.3. Kết quả thực nghiệm 47 Kết luận hướng phát triển của khóa luận 50 Tài liệu tham khảo 51 7 Danh sách bảng Bảng 1. Các kết quả so sánh các độ đo 37 Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic] 48 Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic] 49 8 Danh sách hình vẽ Hình 1. Mô hình chung của một hệ thống tóm tắt văn bản 15 Hình 2. Giá trị trung bình của các phương pháp 26 Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước 27 Hình 4. So sánh giữa phương pháp Two-step các phương pháp khác (Title) 31 Hình 5. So sánh giữa phương pháp Two-step các phương pháp khác ( không sử dụng Title) 31 Hình 6. Lược đồ tính toán độ tương đồng câu 34 Hình 7. Hệ thống cây phân cấp ngữ nghĩa 36 Hình 8. Mô hình biểu diễn của LDA (Các khối vuông biểu diễn quá trình lặp) 40 Hình 9. Mô hình sinh cho LDA 41 Hình 10. Quá trình khởi tạo lấy mẫu lần đầu 42 Hình 11. Quá trình khởi tạo lấy mẫu lại 43 Hình 12. Quá trình đọc các tham số đầu ra 44 Hình 13. Nội dung một văn bản đơn tiếng Việt 47 9 Danh sách các từ viết tắt WAP : Wireless Application Protocol PDA : Personal digital assistant SMS : Short Message Service LDA : Latent Dirichlet Allocation IR : Information Retrieval TF : Term Frequency IDF : Inverted document frequency 10 Mở đầu Dữ liệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó khiến người dùng trở nên bối rối do không đủ thời gian đọc tất cả văn bản. Tóm tắt văn bản tự động hiện đang là một bài toán được sự quan tâm nghiên cứu của nhiều nhà khoa học. Tóm tắt văn bản có thể được ứng dụng để tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động. Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm. Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Những ứng dụng đa dạng phong phú của tóm tắt văn bản khẳng định sự cần thiế t của việc xây dựng một hệ thống tóm tắt văn bản tự động hiệu quả. Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương pháp giải quyết bài toán tóm tắt văn bản một cách hiệu quả. Để tiếp cận mục tiêu này, khóa luận giới thiệu kết quả nghiên cứu của báo cáo [4]: phương pháp tính độ tương đồng câu sử dụng WordNet corpus; Đồng thờ i, khóa luận nghiên cứu, đề xuất phương pháp tính toán độ tương đồng câu sử dụng mô hình topic ẩn. Ưu điểm của phương pháp này là làm tăng tính ngữ nghĩa trong tính toán độ tương đồng câu mà không cần dùng tới một mạng ngữ nghĩa hay một corpus nào khác. Nội dung của khóa luận được chia thành các chương như sau: Chương 1. Tổng quan về bài toán tóm tắt văn bản độ tương đồng câu: Đề cập tới nhu cầu của ứng dụng tóm tắt văn bản, các nền tảng kiến thức của bài toán tóm tắt. Phần này cũng giới thiệu những nội dungbản nhất của bài toán tóm tắt văn bản độ tương đồng ngữ nghĩa giữa hai câu. Chương 2. Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản: Trình bày cụ thể về bài toán tóm tắt văn bản bao g ồm định nghĩa tóm tắt, phân loại tóm tắt, cách đánh giá một văn bản tóm tắt một số phương pháp tóm tắt văn bản. Chương 3. Độ đo tương đồng câu phương pháp tính độ tương đồng câu. Chương này giới thiệu về độ tương đồng, độ tương đồng câu hai phương pháp khác nhau để tính độ tương đồng câu: Phương pháp tính độ tương đồng câu sử dụng WordNet corpus [...]... điểm) Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để tính độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector Phân loại độ đo tương đồng, ở đây có thể liệt kê ra một số độ đo như độ đo tương đồng giữa các từ, độ đo tương đồng giữa các văn bản, độ đo tương đồng giữa nhiều ảnh, độ đo tương đồng giữa các ontology, … 3.2 Độ tương đồng câu Xét ví dụ gồm hai câu “Tôi... Tính độ tương đồng ngữ nghĩa cho hai câu Khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa si cho mỗi câu Sử dụng vector ngữ nghĩa của hai câu để tính độ tương đồng về ngữ nghĩa cho hai câu đó Bước 4: Tính độ tương đồng thứ tự từ Dựa tập từ chung ta xác định vector thứ tự từ cho mỗi câu Bước 5: Tính độ tương đồng cho toàn bộ câu Kết hợp giữa vector ngữ nghĩa vector thứ tự của hai câu. .. USA 16 tính toán độ tương đồng giữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [9][16] 17 Chương 2 Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản 2.1 Bài toán tóm tắt văn bản 2.1.1 Định nghĩa tóm tắt Tóm tắt văn bản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một văn bản mà không mất... tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào Ở đây, khóa luận phân loại tóm tắt như dựa vào input, output, mục đích tóm tắt [9] Nếu dựa vào input ta có tóm tắt đa văn bản, đơn văn bản; tóm tắt miền cụ thể tóm tắt miền tổng quát; tóm tắt một kiểu văn bản cụ thể Dựa vào mục đích thì tóm tắt được chia thành tóm tắt generic, query-based; tóm tắt indicative information; hay tóm tắt background... 20 2.1.3 Tóm tắt văn bản đơn Đối tượng thực nghiệm của khóa luận là các văn bản đơn Tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó Tóm tắt văn bản đơn là bước đệm cho việc xử lý, tóm tắt đa văn bản các bài toán tóm tắt phức tạp hơn Văn bản đơn có thể... đặc trưng văn bản quy định - Định dạng văn bản: tóm tắt văn bản free-form, tóm tắt văn bảncấu trúc Với văn bảncấu trúc, tóm tắt văn bản thường sử dụng một mô hình học đã xây dựng từ trước - Kích thước nguồn: tóm tắt đa văn bản, tóm tắt văn bản đơn Một vài hệ thống sẽ tạo ra một bản tóm tắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử dụng nhiều nguồn tài liệu Những hệ thống... trong văn bản Tuy nhiên, với tóm tắt một văn bản đơn không sử dụng truy vấn, quá trình tóm tắt sẽ xét sự tương đồng giữa các thành phần của văn bản với nhau Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của văn bản để có thể trích rút, đưa vào tóm tắt 2.2 Các phương pháp tóm tắt văn bản đơn Những năm 50-70, tóm tắt văn bản chủ yếu dựa vào các kỹ thuật thống kê để tóm. .. engine Tóm tắt văn bản được ứng dụng ngày một rộng rãi Tóm tắt văn bản có thể ứng dụng trong tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Hiện nay, tóm tắt văn bản được sự quan tâm đặc biệt trong. .. ra được độ tương đồng cho hai câu 34 3.3.1.2 Tính độ tương tự từ dựa trên WordNet Vì một đoạn văn bản gồm nhiều câu mỗi câu có thể xem như một chuỗi các từ mang thông tin cần thiết nên từ được xem như là đơn vị thấp nhất về mặt ngữ nghĩa khi xét cho một văn bản Vậy, muốn tính độ tương tự câu yêu cầu bắt buộc phải dựa vào độ tương tự của từ có trong câu Độ tương tự giữa các từ có ý nghĩa trong các... nhau về ngữ nghĩa của hai câu càng lớn Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa giữa hai câu Trên thực tế, khó có thể lấy một giá trị có chính xác cao bởi vì ngữ nghĩa chỉ được hiểu đầy đủ trong một ngữ cảnh cụ thể 32 3.3 Phương pháp để đo độ tương đồng câu Như đã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê phương . bản nhất của bài toán tóm tắt văn bản và độ tương đồng ngữ nghĩa giữa hai câu. Chương 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản: . Khóa luận với đề tài Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài toán tóm tắt văn bản tập trung nghiên cứu vào các phương pháp tóm tắt văn

Ngày đăng: 14/03/2014, 17:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan