Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
657,47 KB
Nội dung
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Minh Hiền
ĐỘ TƯƠNGĐỒNGNGỮNGHĨAGIỮAHAICÂUVÀ
ỨNG DỤNGTRONGTÓMTẮTVĂNBẢN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2008
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Minh Hiền
ĐỘTƯƠNGĐỒNGNGỮNGHĨAGIỮAHAICÂUVÀ
ỨNG DỤNGTRONGTÓMTẮTVĂN BẢN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải
HÀ NỘI - 2008
3
Lời cảm ơn
Tôi xin gửi lời cảm ơn và biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Thạc sỹ Đặng Thanh Hải đã chỉ bảo và hướng dẫn tận tình cho tôi trong
suốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học
tập và nghiên cứu tại trường Đại họ
c Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong nhóm nghiên
cứu “Khai phá dữ liệu và khám phá tri thức” đã giúp đỡ, ủng hộ vàđộng viên tôi trong
quá trình nghiên cứu và làm khoá luận. Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ,
Nghiên cứu sinh Nguyễn Cẩm Tú và Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôi
rất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận.
Cuối cùng, tôi muốn gửi lờ
i cảm ơn và biết ơn vô hạn tới bố, mẹ, anh trai, tất cả bạn
bè và những người thân yêu của tôi.
Xin chân thành cảm ơn!
Sinh viên
Hoàng Minh Hiền
4
Tóm tắt nội dung
Hiện nay, tómtắtvănbản là một bài toán có tính ứngdụng thực tiễn cao. Tómtắt
văn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hội
nghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghị
Coling/ACL
(Computational Linguistics/Association for Computational Linguistics), của
các trung tâm nghiên cứu như IBM, Microsoft…
Khóa luận với đề tài “Độ tươngđồngngữnghĩagiữahaicâuvàứngdụngtrong bài
toán tómtắtvăn bản” tập trung nghiên cứu vào các phương pháp tómtắtvăn bản; độ
tương đồngcâuvà các phương pháp để tính toán độtươngđồng câu. Từ đó, trên cơ sở về
một số kết quả nghiên cứu đã có về độđotươngđồngcâuvà v
ề Hidden Topic, khóa luận
đề xuất một mô hình tómtắtvănbản đơn có sử dụng Hidden Topic để tính toán độtương
đồng ngữnghĩagiữahai câu.
5
Mục lục
Tóm tắt nội dung 4
Mục lục 5
Danh sách bảng 7
Danh sách hình vẽ 8
Bảng ký hiệu và từ viết tắt 9
Mở đầu 10
Chương 1. Tổng quan về tómtắtvănbảnvàđộtươngđồngcâu 12
1.1. Đặt vấn đề 12
1.2. Nền tảng kiến thức 13
1.2.1. Data Mining 13
1.2.2. Text Mining 13
1.2.3. Web Mining 14
1.3. Tómtắtvănbản 15
1.4. Độtươngđồnggiữahaicâu 16
Chương 2. Bài toán tómtắtvănbảnvà một số phương pháp tómtắtvănbản 18
2.1. Bài toán tómtắtvănbản 18
2.1.1. Định nghĩatómtắt 18
2.1.2. Phân loại tómtắtvănbản 19
2.1.3. Tómtắtvănbản đơn 21
2.2. Các phương pháp tómtắtvănbản đơn 21
2.2.1. Phương pháp Word frequencies 22
2.2.2. Phương pháp của Edmundson 23
2.2.3. Tómtắtvănbản tự động sử dụng trích chọn câuhai bước 26
6
Chương 3. Độtươngđồngcâuvà phương pháp tính độtươngđồngcâu 32
3.1. Độtươngđồng 32
3.2. Độtươngđồngcâu 32
3.3. Phương pháp để đođộtươngđồngcâu 33
3.3.1. Phương pháp tính độtươngđồngcâu sử dụng WordNet corpus 33
3.3.2. Phương pháp tính độtươngđồngcâu sử dụng Hidden Topic 39
Chương 4. Đề xuất mô hình tómtắtvà kết quả thực nghiệm 46
4.1. Đề xuất mô hình tómtắt 46
4.2. Thiết kế mô hình thử nghiệm 47
4.3. Kết quả thực nghiệm 47
Kết luậnvà hướng phát triển của khóa luận 50
Tài liệu tham khảo 51
7
Danh sách bảng
Bảng 1. Các kết quả so sánh các độđo 37
Bảng 2. Trọng số của từng câutrongvănbản [không dùng Hidden Topic] 48
Bảng 3. Trọng số của từng câutrongvănbản [dùng Hidden Topic] 49
8
Danh sách hình vẽ
Hình 1. Mô hình chung của một hệ thống tómtắtvănbản 15
Hình 2. Giá trị trung bình của các phương pháp 26
Hình 3. Hệ thống tómtắt sử dụng phương pháp trích chọn câuhai bước 27
Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (Title) 31
Hình 5. So sánh giữa phương pháp Two-step và các phương pháp khác ( không sử dụng
Title) 31
Hình 6. Lược đồ tính toán độtươngđồngcâu 34
Hình 7. Hệ thống cây phân cấp ngữnghĩa 36
Hình 8. Mô hình biểu diễn của LDA (Các khối vuông biểu diễn quá trình lặp) 40
Hình 9. Mô hình sinh cho LDA 41
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu 42
Hình 11. Quá trình khởi tạo lấy mẫu lại 43
Hình 12. Quá trình đọc các tham số đầu ra 44
Hình 13. Nội dung một vănbản đơn tiếng Việt 47
9
Danh sách các từ viết tắt
WAP : Wireless Application Protocol
PDA : Personal digital assistant
SMS : Short Message Service
LDA :
Latent Dirichlet Allocation
IR : Information Retrieval
TF : Term Frequency
IDF : Inverted document frequency
10
Mở đầu
Dữ liệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó
khiến người dùng trở nên bối rối do không đủ thời gian đọc tất cả văn bản. Tómtắtvăn
bản tự động hiện đang là một bài toán được sự quan tâm nghiên cứu của nhiều nhà khoa
học.
Tóm tắtvănbản có thể được ứngdụng để tómtắt các bản tin với định dạng WAP
hoặc SMS cho các thiết bị PDA, điện thoại di động. Trong máy tìm kiếm, ứngdụngtóm
tắt vănbản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm. Người dùng dựa vào đó để
chọn nhưng kết quả phù hợp với mong muốn của mình Những ứngdụng đa dạng và
phong phú của tómtắtvănbản khẳng định sự cần thiế
t của việc xây dựng một hệ thống
tóm tắtvănbản tự động hiệu quả.
Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương
pháp giải quyết bài toán tómtắtvănbản một cách hiệu quả. Để tiếp cận mục tiêu này,
khóa luận giới thiệu kết quả nghiên cứu của báo cáo [4]: phương pháp tính độtươngđồng
câu sử dụng WordNet corpus; Đồng thờ
i, khóa luận nghiên cứu, đề xuất phương pháp tính
toán độtươngđồngcâu sử dụng mô hình topic ẩn. Ưu điểm của phương pháp này là làm
tăng tính ngữnghĩatrong tính toán độtươngđồngcâu mà không cần dùng tới một mạng
ngữ nghĩa hay một corpus nào khác.
Nội dung của khóa luận được chia thành các chương như sau:
Chương 1. Tổng quan về bài toán tómtắtvănbảnvàđộtươngđồng câu: Đề cập tới
nhu cầu của ứngdụngtómtắtvăn bản, các nền tảng kiến thức của bài toán tóm tắt. Phần
này cũng giới thiệu những nội dung cơ bản nhất của bài toán tómtắtvănbảnvàđộtương
đồng ngữnghĩagiữahai câu.
Chương 2. Bài toán tómtắtvănbảnvà một số phương pháp tómtắtvăn bản: Trình
bày cụ thể về bài toán tómtắtvănbản bao g
ồm định nghĩatóm tắt, phân loại tóm tắt, cách
đánh giá một vănbảntómtắtvà một số phương pháp tómtắtvăn bản.
Chương 3. Độđotươngđồngcâuvà phương pháp tính độtươngđồng câu. Chương
này giới thiệu về độtương đồng, độtươngđồngcâuvàhai phương pháp khác nhau để
tính độtươngđồng câu: Phương pháp tính độtươngđồngcâu sử dụng WordNet corpus
[...]... điểm) Ví dụ, trong mô hình không gian vector, ta sử dụngđộđo cosine để tính độtươngđồnggiữahaivăn bản, mỗi vănbản được biểu diễn bởi một vector Phân loại độđotương đồng, ở đây có thể liệt kê ra một số độđo như độđotươngđồnggiữa các từ, độđotươngđồnggiữa các văn bản, độđotươngđồnggiữa nhiều ảnh, độđotươngđồnggiữa các ontology, … 3.2 Độtươngđồngcâu Xét ví dụ gồm haicâu “Tôi... Tính độ tương đồngngữnghĩa cho haicâu Khi tính được độtương tự từ, ta đưa ra được vector ngữ nghĩa si cho mỗi câu Sử dụng vector ngữ nghĩa của haicâu để tính độtươngđồng về ngữ nghĩa cho haicâuđó Bước 4: Tính độtươngđồng thứ tự từ Dựa tập từ chung ta xác định vector thứ tự từ cho mỗi câu Bước 5: Tính độtươngđồng cho toàn bộ câu Kết hợp giữa vector ngữnghĩavà vector thứ tự của hai câu. .. USA 16 tính toán độtươngđồnggiữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê và phương pháp dựa trên quan hệ ngữnghĩagiữa tập các từ tronghaicâuđó [9][16] 17 Chương 2 Bài toán tómtắtvănbảnvà một số phương pháp tómtắtvănbản 2.1 Bài toán tómtắtvănbản 2.1.1 Định nghĩatómtắtTómtắtvănbản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một vănbản mà không mất... tính tương đối, phụ thuộc vào việc tómtắt trên cơ sở nào Ở đây, khóa luận phân loại tómtắt như dựa vào input, output, mục đích tómtắt [9] Nếu dựa vào input ta có tómtắt đa văn bản, đơn văn bản; tómtắt miền cụ thể vàtómtắt miền tổng quát; tómtắt một kiểu vănbản cụ thể Dựa vào mục đích thì tómtắt được chia thành tómtắt generic, query-based; tómtắt indicative và information; hay tómtắt background... 20 2.1.3 Tómtắtvănbản đơn Đối tượng thực nghiệm của khóa luận là các vănbản đơn Tómtắtvănbản đơn cũng giống như các bài toán tómtắt khác, là một quá trình tómtắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của vănbản đầu vào đóTómtắtvănbản đơn là bước đệm cho việc xử lý, tómtắt đa vănbảnvà các bài toán tómtắt phức tạp hơn Vănbản đơn có thể... đặc trưng vănbản quy định - Định dạng văn bản: tómtắtvănbản free-form, tómtắtvănbản có cấu trúc Với vănbản có cấu trúc, tómtắtvănbản thường sử dụng một mô hình học đã xây dựng từ trước - Kích thước nguồn: tómtắt đa văn bản, tómtắtvănbản đơn Một vài hệ thống sẽ tạo ra một bảntómtắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử dụng nhiều nguồn tài liệu Những hệ thống... trongvănbản Tuy nhiên, với tómtắt một vănbản đơn không sử dụng truy vấn, quá trình tómtắt sẽ xét sự tươngđồnggiữa các thành phần của vănbản với nhau Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của vănbản để có thể trích rút, đưa vào tómtắt 2.2 Các phương pháp tómtắtvănbản đơn Những năm 50-70, tómtắtvănbản chủ yếu dựa vào các kỹ thuật thống kê để tóm. .. engine Tómtắtvănbản được ứngdụng ngày một rộng rãi Tómtắtvănbản có thể ứngdụngtrongtómtắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di độngTrong máy tìm kiếm, ứngdụngtómtắtvănbản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Hiện nay, tómtắtvănbản được sự quan tâm đặc biệt trong. .. ra được độtươngđồng cho haicâu 34 3.3.1.2 Tính độtương tự từ dựa trên WordNet Vì một đoạn vănbản gồm nhiều câuvà mỗi câu có thể xem như một chuỗi các từ mang thông tin cần thiết nên từ được xem như là đơn vị thấp nhất về mặt ngữnghĩa khi xét cho một vănbản Vậy, muốn tính độtương tự câu yêu cầu bắt buộc phải dựa vào độtương tự của từ có trongcâuĐộtương tự giữa các từ có ý nghĩatrong các... nhau về ngữnghĩa của haicâu càng lớn Độ tương đồngngữnghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữnghĩagiữahaicâu Trên thực tế, khó có thể lấy một giá trị có chính xác cao bởi vì ngữnghĩa chỉ được hiểu đầy đủ trong một ngữ cảnh cụ thể 32 3.3 Phương pháp để đođộtươngđồngcâu Như đã giới thiệu, hiện nay có hai phương pháp điển hình để đođộtươngđồngcâu là phương pháp thống kê và phương . bản nhất của bài toán tóm tắt văn bản và độ tương
đồng ngữ nghĩa giữa hai câu.
Chương 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản: .
Khóa luận với đề tài Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài
toán tóm tắt văn bản tập trung nghiên cứu vào các phương pháp tóm tắt văn