1. Trang chủ
  2. » Luận Văn - Báo Cáo

ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN

53 1,8K 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 657,47 KB

Nội dung

Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao.

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hoàng Minh Hiền

ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ

ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2008

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hoàng Minh Hiền

ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ

ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải

HÀ NỘI - 2008

Trang 3

Lời cảm ơn

Tôi xin gửi lời cảm ơn và biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sỹ Đặng Thanh Hải đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này

Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu tại trường Đại học Công Nghệ

Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong nhóm nghiên cứu “Khai phá dữ liệu và khám phá tri thức” đã giúp đỡ, ủng hộ và động viên tôi trong quá trình nghiên cứu và làm khoá luận Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ, Nghiên cứu sinh Nguyễn Cẩm Tú và Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận

Cuối cùng, tôi muốn gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, anh trai, tất cả bạn

bè và những người thân yêu của tôi

Xin chân thành cảm ơn!

Sinh viên

Trang 4

Tóm tắt nội dung

Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao Tóm tắt văn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hội nghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghị Coling/ACL (Computational Linguistics/Association for Computational Linguistics), của các trung tâm nghiên cứu như IBM, Microsoft…

Khóa luận với đề tài “Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài

toán tóm tắt văn bản” tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ

tương đồng câu và các phương pháp để tính toán độ tương đồng câu Từ đó, trên cơ sở về một số kết quả nghiên cứu đã có về độ đo tương đồng câu và về Hidden Topic, khóa luận

đề xuất một mô hình tóm tắt văn bản đơn có sử dụng Hidden Topic để tính toán độ tương đồng ngữ nghĩa giữa hai câu

Trang 5

Mục lục

Tóm tắt nội dung 4

Mục lục 5

Danh sách bảng 7

Danh sách hình vẽ 8

Bảng ký hiệu và từ viết tắt 9

Mở đầu 10

Chương 1 Tổng quan về tóm tắt văn bản và độ tương đồng câu 12

1.1 Đặt vấn đề 12

1.2 Nền tảng kiến thức 13

1.2.1 Data Mining 13

1.2.2 Text Mining 13

1.2.3 Web Mining 14

1.3 Tóm tắt văn bản 15

1.4 Độ tương đồng giữa hai câu 16

Chương 2 Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản 18

2.1 Bài toán tóm tắt văn bản 18

2.1.1 Định nghĩa tóm tắt 18

2.1.2 Phân loại tóm tắt văn bản 19

2.1.3 Tóm tắt văn bản đơn 21

2.2 Các phương pháp tóm tắt văn bản đơn 21

2.2.1 Phương pháp Word frequencies 22

2.2.2 Phương pháp của Edmundson 23

2.2.3 Tóm tắt văn bản tự động sử dụng trích chọn câu hai bước 26

Trang 6

Chương 3 Độ tương đồng câu và phương pháp tính độ tương đồng câu 32

3.1 Độ tương đồng 32

3.2 Độ tương đồng câu 32

3.3 Phương pháp để đo độ tương đồng câu 33

3.3.1 Phương pháp tính độ tương đồng câu sử dụng WordNet corpus 33

3.3.2 Phương pháp tính độ tương đồng câu sử dụng Hidden Topic 39

Chương 4 Đề xuất mô hình tóm tắt và kết quả thực nghiệm 46

4.1 Đề xuất mô hình tóm tắt 46

4.2 Thiết kế mô hình thử nghiệm 47

4.3 Kết quả thực nghiệm 47

Kết luận và hướng phát triển của khóa luận 50

Tài liệu tham khảo 51

Trang 7

Danh sách bảng

Bảng 1 Các kết quả so sánh các độ đo 37 Bảng 2 Trọng số của từng câu trong văn bản [không dùng Hidden Topic] 48 Bảng 3 Trọng số của từng câu trong văn bản [dùng Hidden Topic] 49

Trang 8

Danh sách hình vẽ

Hình 1 Mô hình chung của một hệ thống tóm tắt văn bản 15

Hình 2 Giá trị trung bình của các phương pháp 26

Hình 3 Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước 27

Hình 4 So sánh giữa phương pháp Two-step và các phương pháp khác (Title) 31

Hình 5 So sánh giữa phương pháp Two-step và các phương pháp khác ( không sử dụng Title) 31

Hình 6 Lược đồ tính toán độ tương đồng câu 34

Hình 7 Hệ thống cây phân cấp ngữ nghĩa 36

Hình 8 Mô hình biểu diễn của LDA (Các khối vuông biểu diễn quá trình lặp) 40

Hình 9 Mô hình sinh cho LDA 41

Hình 10 Quá trình khởi tạo lấy mẫu lần đầu 42

Hình 11 Quá trình khởi tạo lấy mẫu lại 43

Hình 12 Quá trình đọc các tham số đầu ra 44

Hình 13 Nội dung một văn bản đơn tiếng Việt 47

Trang 9

Danh sách các từ viết tắt

WAP : Wireless Application Protocol PDA : Personal digital assistant

SMS : Short Message Service

LDA : Latent Dirichlet Allocation

IR : Information Retrieval

IDF : Inverted document frequency

Trang 10

Mở đầu

Dữ liệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó khiến người dùng trở nên bối rối do không đủ thời gian đọc tất cả văn bản Tóm tắt văn bản tự động hiện đang là một bài toán được sự quan tâm nghiên cứu của nhiều nhà khoa học

Tóm tắt văn bản có thể được ứng dụng để tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Những ứng dụng đa dạng và phong phú của tóm tắt văn bản khẳng định sự cần thiết của việc xây dựng một hệ thống tóm tắt văn bản tự động hiệu quả

Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương pháp giải quyết bài toán tóm tắt văn bản một cách hiệu quả Để tiếp cận mục tiêu này, khóa luận giới thiệu kết quả nghiên cứu của báo cáo [4]: phương pháp tính độ tương đồng câu sử dụng WordNet corpus; Đồng thời, khóa luận nghiên cứu, đề xuất phương pháp tính toán độ tương đồng câu sử dụng mô hình topic ẩn Ưu điểm của phương pháp này là làm tăng tính ngữ nghĩa trong tính toán độ tương đồng câu mà không cần dùng tới một mạng ngữ nghĩa hay một corpus nào khác

Nội dung của khóa luận được chia thành các chương như sau:

Chương 1 Tổng quan về bài toán tóm tắt văn bản và độ tương đồng câu: Đề cập tới

nhu cầu của ứng dụng tóm tắt văn bản, các nền tảng kiến thức của bài toán tóm tắt Phần này cũng giới thiệu những nội dung cơ bản nhất của bài toán tóm tắt văn bản và độ tương đồng ngữ nghĩa giữa hai câu

Chương 2 Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản: Trình

bày cụ thể về bài toán tóm tắt văn bản bao gồm định nghĩa tóm tắt, phân loại tóm tắt, cách đánh giá một văn bản tóm tắt và một số phương pháp tóm tắt văn bản

Chương 3 Độ đo tương đồng câu và phương pháp tính độ tương đồng câu Chương

này giới thiệu về độ tương đồng, độ tương đồng câu và hai phương pháp khác nhau để tính độ tương đồng câu: Phương pháp tính độ tương đồng câu sử dụng WordNet corpus

Trang 11

đã được trình bày trong báo cáo nghiên cứu khoa học [4] và phương pháp tính độ tương đồng câu sử dụng Hidden Topic

Chương 4 Đề xuất và thực nghiệm: Trình bày những đề xuất của mô hình tóm tắt

văn bản sử dụng Hidden Topic và những kết quả đánh giá thử nghiệm của mô hình mà luận áp dụng cho bài toán tóm tắt văn bản

Chương 5 Kết luận và hướng phát triển khóa luận: tóm lược lại những điểm chính

của khóa luận, chỉ ra những điểm cần khắc phục, đồng thời đưa ra hướng nghiên cứu trong thời gian tới

Trang 12

Chương 1 Tổng quan về tóm tắt văn bản và

độ tương đồng câu

1.1 Đặt vấn đề

Tóm tắt văn bản thuộc lĩnh vực xử lý văn bản (text processing) và cũng là một bài toán tiêu biểu của xử lý ngôn ngữ tự nhiên Xử lý văn bản cũng như text mining, Web mining đều dựa trên các kỹ thuật của xử lý ngôn ngữ tự nhiên, mà quan trọng là việc hiểu

và dùng tri thức về ngôn ngữ ở các mức độ khác nhau [14] Đối tượng xử lý của bài toán tóm tắt văn bản có thể là một văn bản hay nhiều văn bản

Do sự phát triển của Internet, thông tin được sinh ra liên tục mỗi ngày, khối lượng

dữ liệu trên Web rất lớn, do đó vấn đề trùng lặp thông tin thường xuyên xảy ra Giải pháp cho vấn đề này đó là tóm tắt văn bản tự động Việc tóm tắt sẽ giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả indexing cho search engine Tóm tắt văn bản được ứng dụng ngày một rộng rãi Tóm tắt văn bản có thể ứng dụng trong tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại

di động Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình

Hiện nay, tóm tắt văn bản được sự quan tâm đặc biệt trong các hội nghị quốc tế như hội nghị DUC (Document Understanding Conference), hoặc các trung tâm nghiên cứu của Microsoft, IBM

Chính những ứng dụng rộng rãi và nhu cầu thực tiễn trên là động lực để khóa luận tập trung nghiên cứu về bài toán tóm tắt văn bản, các phương pháp tóm tắt văn bản Khóa luận cũng đã đề đề xuất phương pháp tính độ tương đồng ngữ nghĩa giữa hai câu để giải quyết bài toán này

Trang 13

1.2 Nền tảng kiến thức

1.2.1 Data Mining

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 1980 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Nó là một bước trong quá trình tìm kiếm tri thức

Những công cụ data mining có thể phát hiện những xu hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý Với ưu điểm trên, Data mining đã chứng tỏ được tính hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông v.v

Mục đích của khai phá dữ liệu là các tri thức chiết xuất sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên cứu khoa học Do đó, có thể coi mục đích chính của khai phá dữ liệu sẽ là mô tả (description) và dự đoán (prediction) Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở dữ liệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến đáng quan tâm Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con người có thể hiểu được Để đạt được hai mục đích này, nhiệm vụ chính của khai phá

dữ liệu bao gồm: phân lớp, phân cụm, tóm tắt, … Từ đó, có thể thấy rõ ràng rằng tóm tắt cũng là một phần quan trọng của data mining

1.2.2 Text Mining

Trong [5], tóm tắt văn bản cũng là một trong những bài toán chủ yếu của lĩnh vực Text Mining Thực tế hiện nay, một phần quan trọng của các thông tin sẵn có được lưu trữ trong cơ sở dữ liệu văn bản (hoặc cơ sở dữ liệu tài liệu) gồm tập hợp rất lớn các tài liệu từ nhiều nguồn khác nhau, như các bài báo mới, các bài báo nghiên cứu, sách, thư viện điện

tử, các thông điệp thư điện tử hay các trang Web Các cơ sở dữ liệu văn bản phát triển nhanh do sự tăng lên của lượng thông tin điện tử có sẵn, như các xuất bản điện tử, các loại khác của tài liệu điện tử, thư điện tử, và World Wide Web (có thể xem như một lượng cơ

sở dữ liệu văn bản lớn, liên kết và động)

Trang 14

Hầu hết các thông tin trong chính phủ, công nghiệp, thương mại và các viện nghiên cứu đều được lưu trữ ở dạng điện tử, theo kiểu cơ sở dữ liệu văn bản Số lượng tài liệu điện tử này phát triển với tốc độ chóng mặt gây cho con người những khó khăn trong việc tiếp nhận nội dung chính của chúng

Các kỹ thuật tìm kiếm thông tin truyền thống trở nên không tương xứng với lượng

dữ liệu văn bản ngày càng lớn Người dùng không biết bên trong tài liệu chứa gì, thật khó

để đưa ra câu truy vấn hiệu quả cho việc phân tích và trích rút các thông tin có ích từ dữ liệu Người sử dụng cần các công cụ so sánh các tài liệu khác nhau, xếp hạng độ quan trọng và độ liên quan của các tài liệu, hoặc tìm các mẫu và các xu hướng qua nhiều tài liệu Do đó, việc tính độ tương đồng trong văn bản, độ tương đồng giữa các văn bản, tóm tắt văn bản trở nên ngày càng phổ biến và là nội dung cần thiết trong khai phá text

1.2.3 Web Mining

Web cũng chứa một lượng thông tin hyperlink, thông tin truy cập Web và các thông tin có ích, cung cấp nguồn tài nguyên dồi dào cho data mining Kích thước của Web lên đến hàng trăm Terabytes và vẫn đang phát triển rất nhanh Web được xem như một thư viện điện tử khổng lồ Tuy nhiên, số lượng tài liệu khổng lồ trong thư viện này lại không được sắp xếp theo bất cứ thứ tự cụ thể nào, không có chỉ mục, tiêu đề, tác giả, bìa trang, bảng nội dung, Đây chính là khó khăn để tìm kiếm thông tin mong muốn trong thư viện

Không chỉ có Web phát triển nhanh, mà thông tin của nó cũng luôn được cập nhật Các tin tức, thông tin thị trường chứng khoán, thời tiết, thể thao, shopping, quảng cáo, và một số các trang Web khác cũng được cập nhật thường xuyên trên Web Thông tin liên kết và các bản ghi truy cập cũng được cập nhật liên tục

Trong [12], 99% các thông tin trên mạng là không có ích đối với 99% người dùng Web Thực tế, mỗi người dùng thường chỉ quan tâm một phần rất nhỏ của Web, phần còn lại, họ không mấy quan tâm Làm thế nào để những phần của Web mà người dùng quan tâm được tìm thấy? Làm thế nào có thể tìm ra những trang Web chất lượng cao trong một topic cụ thể? Những thách thức này là động lực thúc đẩy các nghiên cứu về Web mining cũng như hệ thống tóm tắt văn bản tự động

Trang 15

Mặt khác, các phương pháp thống kê dễ hiểu và thực hiện, tuy nhiên nó bỏ qua nội dung ngữ nghĩa của các từ và các thành phần tiềm năng của chúng trong các cụm từ multi-word (multi-word phrases) Do đó, nhìn chung thì các phương pháp thống kê chỉ ra kết quả chính xác thấp [13]

Mô hình chung của một hệ tóm tắt văn bản dựa trên cách tiếp cận của Mani&Maybury gồm có ba bước: Analysis, Transformation, Synthesis [18]

Hình 1 Mô hình chung của một hệ thống tóm tắt văn bản

Trang 16

Analysis

Bước này sẽ phân tích văn bản đầu vào để đưa ra những mô tả bao gồm các thông tin dùng để tìm kiếm, đánh giá các đơn vị ngữ liệu quan trọng cũng như các tham số đầu vào cho việc tóm tắt Thông qua bước này, các câu quan trọng, đặc trưng, chứa các ý chính của văn bản sẽ được trích chọn

Transformation

Bước biến đổi sẽ biến đổi từng câu quan trọng thu được từ bước phân tích trước để giản lược các câu này Dựa trên các dấu hiệu có thể rút gọn, về cấu trúc ngữ pháp hoặc ngữ nghĩa, mỗi câu sẽ được giảm kích thước mà vẫn giữ được phần lớn ý mà nó hàm chứa trước khi rút gọn

Synthesis

Từ các câu quan trọng được được chọn ra ở bước phân tích, được rút ngắn ở bước biến đổi, bước synthesis sẽ liên kết chúng lại thành đoạn theo một thứ tự nào đó hoặc theo cấu kết ngữ pháp rồi hiển thị phù hợp với yêu cầu người dùng [1]

1.4 Độ tương đồng giữa hai câu

Độ tương đồng ngữ nghĩa giữa các câu đóng một vai trò ngày càng quan trọng trong nghiên cứu Text mining, Web mining và xử lý ngôn ngữ tự nhiên Nó cũng được sử dụng như là một tiêu chuẩn của trích chọn thông tin để tìm ra những tri thức ẩn trong cơ sở dữ liệu hay trên các kho dữ liệu trực tuyến Một ứng dụng thực tế là khi tìm kiếm ảnh từ một trang Web, nếu xác định hợp lý sự tương đồng ngữ nghĩa giữa câu truy vấn với các đoạn text ngắn bao quanh ảnh thì hệ thống tìm kiếm sẽ đưa ra kết quả đáp ứng tốt hơn yêu cầu người dùng Vấn đề tính toán độ tương đồng giữa các câu trong văn bản với nhau hoặc với câu chủ đề của văn bản/nhóm văn bản nhận được sự quan tâm đặc biệt trong các hội nghị khoa học quốc tế, đặc biệt trong các hội nghị thường niên về hiểu văn bản (Document Understanding Workshop - DUC)1 Việc xây dựng một độ đo chuẩn xác để thể hiện được mối quan hệ tương đồng về ngữ nghĩa giữa các câu sẽ làm cho các ứng dụng trở nên “thông minh” hơn, đặc biệt trên Web [22][23] Tồn tại một số phương pháp

1 Các hội thảo khoa học DUC diễn ra hàng năm từ năm 2001 đến nay, mà hai năm gần đây có DUC 2006, June 8-9, 2006, New York Marriott, New York USA và DUC 2007, April 26-27, 2007, Rochester, New

York USA

Trang 17

tính toán độ tương đồng giữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê và phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [9][16]

Trang 18

Chương 2 Bài toán tóm tắt văn bản và một

số phương pháp tóm tắt văn bản

2.1 Bài toán tóm tắt văn bản

2.1.1 Định nghĩa tóm tắt

Tóm tắt văn bản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một văn bản

mà không mất đi nội dung chính của văn bản [18].Bài toán tóm tắt văn bản có đầu vào là văn bản nguồn và một tham số được gọi là tỷ lệ trích xuất Tỷ lệ trích xuất của văn bản thường bằng độ dài của bản tóm tắt chia cho độ dài của văn bản nguồn Output của bài toán là văn bản tóm tắt

Trước đây, các dạng tóm tắt văn bản đều do con người xử lý, nghĩa là do người đọc rồi rút ra ý chính, sắp xếp các ý theo một thứ tự hợp lý sau đó dùng lời văn của người tóm tắt để trình bày lại một cách ngắn gọn nội dung chính của văn bản Do con người tóm tắt nên văn bản luôn đảm bảo được tính mạch lạc của của nó Tuy nhiên, cũng vì thế mà văn bản tóm tắt không tránh khỏi mang dấu ấn chủ quan của người xử lý

Nhìn chung, các bài toán tóm tắt văn bản cần đảm bảo các yêu cầu như cần phản ánh trung thành nội dung của văn bản được tóm tắt; có tính bao quát toàn độ nội dung chính của văn bản; đảm bảo tỷ lệ trích xuất văn bản; tính mạch lạc, tính chặt chẽ của văn bản, Tóm tắt văn bản liên quan tới việc “xử lý” ngôn ngữ Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công Nghệ Thông Tin Khó

là nằm ở chỗ làm sao cho máy hiểu được ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản Mấu chốt ở đây là bản chất phức tạp của ngôn ngữ con người, đặc biệt là sự đa nghĩa và nhập nhằng nghĩa của ngôn ngữ Thêm nữa, có một khác biệt sâu sắc nữa là con người ngầm hiểu và

dùng quá nhiều common sense (lẽ thường) trong khi rất khó làm cho máy hiểu những điều

này [2]

Trang 19

2.1.2 Phân loại tóm tắt văn bản

Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ mang tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào Ở đây, khóa luận phân loại tóm tắt như dựa vào input, output, mục đích tóm tắt [9] Nếu dựa vào input ta có tóm tắt đa văn bản, đơn văn bản; tóm tắt miền cụ thể và tóm tắt miền tổng quát; tóm tắt một kiểu văn bản cụ thể Dựa vào mục đích thì tóm tắt được chia thành tóm tắt generic, query-based; tóm tắt indicative và information; hay tóm tắt background Dựa vào output thì chia ra thành hai kiểu là extract và abstract

• Tóm tắt trên cơ sở input sẽ trả lời cho câu hỏi “Cái gì sẽ được tóm tắt” Các chia này sẽ cho ta nhiều cách phân loại con khác nhau Cụ thể như:

- Kiểu văn bản (bài báo, bản tin, thư, báo cáo …) Với cách phân loại này, tóm tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa học do những đặc trưng văn bản quy định

- Định dạng văn bản: tóm tắt văn bản free-form, tóm tắt văn bản có cấu trúc Với văn bản có cấu trúc, tóm tắt văn bản thường sử dụng một mô hình học đã xây dựng từ trước

- Kích thước nguồn: tóm tắt đa văn bản, tóm tắt văn bản đơn Một vài hệ thống sẽ tạo ra một bản tóm tắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử dụng nhiều nguồn tài liệu Những hệ thống này được biết như các hệ thống multi-document summarization Tóm tắt nhiều nguồn văn bản dựa trên việc nối nhiều văn bản với nhau

- Miền cụ thể (y tế) hay tổng quát

• Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm tắt là

gì, tóm tắt phục vụ đối tượng nào

- Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia khác cách tóm tắt cho các đối tượng đọc thông thường

- Tóm tắt sử dụng trong IR sẽ khác với tóm tắt phục vụ cho việc sắp xếp

Trang 20

- Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt Indicative và tóm tắt Informative Tóm tắt Indicative chỉ ra loại của thông tin, ví dụ như là “alert” Còn tóm tắt Informative chỉ ra nội dung của thông tin

- Tóm tắt Query-based hay tóm tắt General Tóm tắt general mục đích chính là tìm

ra một đoạn tóm tắt cho toàn bộ văn bản mà nội dung của đoạn văn bản sẽ bao quát toàn

bộ nội dung của văn bản đó Tóm tắt query-based sẽ tóm tắt dựa trên một truy vấn người dùng, tìm ra một đoạn trong văn bản phù hợp với truy vấn đó

• Tóm tắt trên cơ sở output cũng có nhiều cách phân loại

- Phân loại phụ thuộc vào ngôn ngữ lựa chọn cho tóm tắt (như tóm tắt tiếng Anh, tóm tắt tiếng Việt )

- Phân loại phụ thuộc vào định dạng của kết quả tóm tắt như table, paragraph, key words

- Hay cách phân loại phổ biến là tóm tắt Extract và tóm tắt Abstract

Extract lập danh sách các đoạn của văn bản Extract là một tóm tắt bao gồm toàn bộ các phần quan trọng được trích ra từ văn bản nguồn

Abstract là nhóm lại nội dung một cách mạch lạc, súc tích Abstract là một tóm tắt ngắn gọn được viết lại từ văn bản nguồn dựa trên các ý chính đã trích rút

Extraction dễ hơn Abstraction, abstraction cần hiểu và viết lại Ví dụ minh họa cho

sự khác nhau giữa Extract và Abstract như sau: [18]

Trang 21

2.1.3 Tóm tắt văn bản đơn

Đối tượng thực nghiệm của khóa luận là các văn bản đơn Tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó Tóm tắt văn bản đơn là bước đệm cho việc xử lý, tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn

Văn bản đơn có thể là một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định (ví dụ : doc, txt)… Những phương pháp tóm tắt văn bản ra đời đầu tiên đều là các phương pháp tóm tắt cho văn bản đơn Chẳng hạn như với input là một trang Web, có thể tóm tắt sử dụng thêm câu truy vấn để đưa ra nội dung của bản tóm tắt Cách làm này

có ưu điểm là văn bản kết quả sẽ cho nội dung gần với mong muốn của người sử dụng hơn Quá trình tóm tắt cụ thể sẽ xét mối liên hệ, sự tương đồng giữa các thành phần trong văn bản với câu truy vấn để tìm ra các phần quan trọng trong văn bản Tuy nhiên, với tóm tắt một văn bản đơn không sử dụng truy vấn, quá trình tóm tắt sẽ xét sự tương đồng giữa các thành phần của văn bản với nhau Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của văn bản để có thể trích rút, đưa vào tóm tắt

2.2 Các phương pháp tóm tắt văn bản đơn

Những năm 50-70, tóm tắt văn bản chủ yếu dựa vào các kỹ thuật thống kê để tóm tắt các văn bản khoa học

Những năm 80, người ta sử dụng trí tuệ nhân tạo để tóm tắt các văn bản ngắn, các bản tin, các bài tường thuật Đến những năm 90, các hệ thống lai (hybrid system) được sử dụng trong tóm tắt bản tin và một vài văn bản khoa học Trong thực tế, một hệ thống tóm tắt có thể tổ hợp và sử dụng nhiều phương pháp Các phương pháp này được gọi là phương pháp lai, ví dụ một phương pháp một phương pháp có thể là tổ hợp của các kỹ thuật thống kê [9]

Từ năm 2000 đến nay, tóm tắt tập trung vào các lĩnh vực như tóm tắt đa văn bản (các tin tức, trang Web, email, văn bản luật, y tế, …), sinh Headline; tóm tắt hỗ trợ các

thiết bị cầm tay; tóm tắt đa phương tiện

Chiến lược tóm tắt văn bản phổ biến nhất vẫn là trích rút các phần quan trọng (các câu) trong văn bản rồi sắp xếp chúng theo thứ tự trong văn bản Bên cạnh đó, tóm tắt văn

Trang 22

bản cũng bao gồm cả việc đơn giản hóa câu bằng cách thu ngắn câu lại, xóa đi các phần không quan trọng trong câu để làm cho văn bản ngắn gọn hơn Người ta thường sử dụng các thông tin có trong văn bản để trích rút các phần quan trọng (các câu) trong văn bản Cách tiếp cận truyền thống này chủ yếu dựa trên các phương pháp heuristic Những thông tin trong văn bản có thể là tần số từ trong văn bản, đầu đề của văn bản, vị trí câu, cụm từ gợi ý, … Trích rút các phần quan trọng trong văn bản là kỹ thuật phổ biến được sử dụng trong tóm tắt văn bản Trên thế giới cũng đã có nhiều công trình nghiên cứu về tóm tắt văn bản sử dụng các kỹ thuật này

2.2.1 Phương pháp Word frequencies

Hans Peter Luhn (1958) được coi là “cha đẻ của lĩnh vực Information Retrieval” và

là tác giả của bài báo “The Automatic Creation of Literature Abstracts – 1958” [15] Phương pháp của Luhn xuất phát từ một ý tưởng tóm tắt các tài liệu văn học chuyên ngành Phương pháp dựa trên cơ sở giả thiết rằng: tần số của từ xuất hiện trong bài báo là một độ đo hữu ích về nghĩa của từ; vị trí tương đối của các từ có nghĩa trong phạm vi một câu cũng là độ đo hữu ích về nghĩa của từ Tuy nhiên, cơ sở của phương pháp còn bị hạn chế do khả năng của máy tính không thể biểu diễn được được các thông tin ngữ nghĩa Luhn sử dụng tần số từ cho tóm tắt bởi các từ quan trọng thường được lặp đi lặp lại nhiều lần trong văn bản Thêm vào đó, thuật toán lại đơn giản, tốn ít thời gian xử lý nên chí phí rẻ Một chú ý của phương pháp là các dạng khác nhau của cùng một từ được tính như cùng một từ Thêm vào đó, việc tính toán tần số của từ sẽ dẫn đến việc, các từ có tần

số quá thấp hoặc quá cao (như “the”, “and”, ) Những từ này đều là các từ không quan trọng Giải pháp đặt ra ở đây là với các từ có tần số thấp, có thể dễ dàng loại bỏ bằng cách thiết lập một ngưỡng tần số nhỏ nhất Với những từ phổ biến (có tần số cao), loại bỏ bằng cách thiết lập một ngưỡng tần số lớn nhất, so sánh các từ tần số cao với một danh sách từ phổ biến Đây cũng chính là việc loại bỏ các từ dừng ( như “the”, “a”, “for”, “is” … )

Để tính tần số của từ quan trọng, Luhn tính phấn phối của mỗi từ trong tài liệu (tf)

và phân phối của từ ở trong corpus (idf – inverted document frequency)

NUMDOC: số tài liệu trong corpus

Trang 23

NUMDOC(term): số tài liệu mà có term xuất hiện

Nếu tf(term)*idf(term) vượt một ngưỡng xác định, các cụm từ khóa được tìm thấy

và được gán trọng số Các câu với tổng trọng số cụm cao nhất được chọn

2.2.2 Phương pháp của Edmundson

Phương pháp tóm tắt của Edmundson [11] dựa vào kỹ thuật trích rút các phần quan trọng văn bản sử dụng tổng hợp bốn thông tin gồm: các cụm từ gợi ý, từ khóa, title và vị trí của câu Đây chính là cơ sở của phương pháp

Cụm từ gợi ý (cue) trong văn bản

Có các cụm từ gợi ý có thể hoàn toàn liên quan hoặc không liên quan tới các câu quan trọng Ví dụ với các cụm từ ‘In this paper, ‘In conclusion’, ‘our work’,… thường theo sau chúng chính là phần quan trọng trong văn bản Hoặc như cụm từ ‘for example’

thường chỉ ra phần không quan trọng của văn bản

Tiêu đề (title) của văn bản

Giả thuyết của cách trích rút này là “tiêu đề của văn bản thường chỉ ra nội dung của văn bản đó” Vì thế các từ trong tiêu đề giúp tìm ra nội dung có liên quan [11] Edmundson là người đầu tiên chỉ ra các từ trong title và heading thường xuất hiện nhiều trong các câu quan trọng hơn các câu không quan trọng

Các câu tiêu đề và đề mục (title và heading) được xem như là các tóm tắt ngắn gọn của văn bản Các câu có chứa nội dung các từ trong đầu đề và tiêu đề là những câu quan trọng trong văn bản Một câu chỉ có thể có một title và có thể không có title Việc xác định title hiện tại dựa vào nhận xét: Title là câu duy nhất của đoạn đầu tiên Nghĩa là ta xét đoạn đầu tiên của văn bản, nếu đây chỉ có một câu thì câu này là title, ngược lại, ta coi văn bản không có title Cách xác định này phụ thuộc định dạng của văn bản đầu vào Các

từ trong title còn được dùng để đánh giá các câu khác trong văn bản, câu nào sát nghĩa với title, câu đó sẽ đựoc gán trọng số cao hơn so với các câu khác [1]

Vị trí (location) của câu

Phương pháp đơn giản là dựa trên giả thiết rằng các câu xuất hiện ở đầu văn bản thường quan trọng hơn các câu xuất hiện ở giữa hoặc cuối văn bản Cách đơn giản nhất để xây dựng một tóm tắt là luôn chọn câu đầu tiên trong văn bản hoặc chọn k câu đầu tiên

Trang 24

trong văn bản, khi mà có thêm yêu cầu tham số tỷ lệ tóm tắt Mặc dù hiệu suất của phương pháp này phụ thuộc vào kiểu văn bản và tỉ lệ tóm tắt, phương pháp vẫn có khả năng nhận dạng khoảng 33% các câu quan trọng trong văn bản [9]

Ngoài ra, các văn bản có xu hướng có cấu trúc phụ thuộc vào kiểu của chúng Ví dụ như theo quy tắc báo chí, văn bản thường chia làm ba phần: Phần giới thiệu, phần chính, phần tóm lược lại Trong văn bản kiểu này:

- Các câu thuộc đề tài thường có xu hướng xuất hiện ở vị trí bắt đầu của các đoạn

- Các câu quan trọng có xu hướng xuất hiện ở cuối của văn bản

Từ ví dụ trên, phương pháp trích rút phần quan trọng trong văn bản sử dụng thông

tin vị trí câu đòi hòi: Các câu quan trọng được đặt ở các vị trí “phụ thuộc vào kiểu văn bản”; những vị trí này có thể đuợc tìm thấy tự động thông qua việc huấn luyện [19]

Tần số từ trong văn bản

Các câu quan trọng chứa nội dung các từ xuất hiện thường xuyên trong văn bản Các

từ xuất hiện thường xuyên trong văn bản có xu hướng chỉ ra chủ đề của văn bản Mức độ quan trọng của từ được tính toán trên cơ sở tần số của chúng (tf-term frequency) Một mục từ xuất hiện trong văn bản nhiều hơn một ngưỡng nào đó thì được cọi là từ quan trọng Mức độ quan trọng của các câu được tính toán dựa trên cơ sở tầm quan trọng của các từ mà câu đó chứa [15]

Từ những cơ sở trên, Edmundson tính trọng số của một câu là một tổ hợp tuyến tính của các trọng số nhận được từ bốn phương pháp trích rút các phần quan trọng:

Các câu có trọng số cao nhất sẽ được đưa vào tóm tắt Trong phương trình trên:

• Các tham số được điều chỉnh phù hợp bằng cách sử dụng tập huấn luyện

• Trọng số Cue của câu: Σ (Trọng số Cue của mỗi từ trong câu)

- So sánh mỗi từ trong câu với từ điển Cue

- Gán tất cả các từ có lợi với trọng số b>0, các từ nhiễu với trọng số s<0, các từ Null với n=0

) (

) (

) ( ) ( )

Trang 25

• Trọng số Key của câu: Σ (Trọng số Key của mỗi từ trong câu)

Trọng số Key của mỗi từ xác định dựa theo phương pháp của Luhn[15], tính tần số của các từ

• Trọng số Title của câu: Σ (Trọng số Title của mỗi từ trong câu)

Để xác định trọng số Title của mỗi từ trong câu:

- Tạo một bảng Title bao gồm tất cả các từ non-Null trong title, subtitle và heading của tài liệu

- Các từ được cho một trọng số title dương nếu chúng xuất hiện trong bảng Title này

- Các từ Title được cho trọng số lớn hơn các từ Heading

• Trọng số Location của câu:

- Các câu của đoạn đầu tiên được đánh dấu trọng số O1

- Các câu của đoạn cuối cùng đựoc đánh dấu trọng số O2

- Câu đầu tiên trong một đoạn được đánh dấu trọng số O3

- Câu cuối cùng của đoạn được dánh dấu trọng số O4

Trang 26

Hình 2 Giá trị trung bình của các phương pháp [11]

2.2.3 Tóm tắt văn bản tự động sử dụng trích chọn câu hai bước

Hệ thống tóm tắt trong [13] dựa trên cơ sở các phương pháp thống kê và thực hiện trích chọn câu theo hai bước Vì nó tổ hợp các phương pháp thống kê và làm giảm dữ liệu nhiễu thông qua hai bước để có thể thu được hiệu suất cao

Mục tiêu của tóm tắt văn bản là lấy thông tin, trích rút nội dung và biểu diễn những nội dung quan trọng nhất cho người sử dụng theo một form nào đó Phương pháp có chi phí thấp và kiến trúc hệ thống vững chắc (robust) bởi vì nó không yêu cầu bất cứ nguồn ngôn ngữ nào cả Hai bước tóm tắt cụ thể như sau:

- Bước đầu tiên, tạo ra các câu giả bi-gram bằng cách tổ hợp hai câu kề nhau (adjacent) để giải quyết vấn đề rời rạc đặc trưng (feature sparseness); vấn đề này xuất hiện nếu tóm tắt văn bản trích chọn đặc trưng chỉ từ một câu Sau đó, ước lượng trọng số quan trọng của các câu giả bi-gram bằng phương pháp tổ hợp Title và Location Có thể nhận được nhiều câu giả có ích hơn thông qua việc xóa đi các câu giả bi-gram không có giá trị (xóa dữ liệu nhiễu)

- Ở bước thứ hai, chia các câu giả bi-gram thành mỗi câu đơn gốc và biểu diễn trích chọn các câu quan trọng bằng phương pháp Aggregation Similarity Bởi vì phương pháp Aggregation Similarity (độ tương đồng kết hợp) ước lượng các phần quan trọng nhất của câu bằng việc tính toán độ tương đồng của tất cả các câu khác trong một tài liệu, phương pháp Aggregation Similarity hiệu quả hơn sau khi xóa bỏ đi các câu nhiễu Vì thế hệ

Ngày đăng: 06/04/2013, 18:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006). Kết hợp các phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của công nghệ thông tin, 2006, 413-421 Sách, tạp chí
Tiêu đề: Một số vấn đề chọn lọc của công nghệ thông tin
Tác giả: Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu
Năm: 2006
[2] Lương Chi Mai, Hồ Tú Bảo (2006). Về xử lý tiếng Việt trong công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt", Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2006 Sách, tạp chí
Tiêu đề: Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt
Tác giả: Lương Chi Mai, Hồ Tú Bảo
Năm: 2006
[3] Đỗ Phúc, Hồ Anh Thư (2005). Rút trích và tóm tắt nội dung trang web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22 Sách, tạp chí
Tiêu đề: Phát triển khoa học - công nghệ
Tác giả: Đỗ Phúc, Hồ Anh Thư
Năm: 2005
[7] Le Nguyen Minh (2004). Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD thesis in School of Information Science Japan Advanced Institute of Science and Technology, September 2004 Sách, tạp chí
Tiêu đề: PhD thesis in School of Information Science Japan Advanced Institute of Science and Technology
Tác giả: Le Nguyen Minh
Năm: 2004
[8] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-Thuy Ha (2006). Vietnamese Word Segmentation with CRFs and SVMs: An Investigation. The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222 Sách, tạp chí
Tiêu đề: The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20)
Tác giả: Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-Thuy Ha
Năm: 2006
[9] Blake,C., Kampov,J., Orphanides,A., West,D., &amp; Lown,C. (2007). UNC-CH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, Document Understanding Conference 2007 (DUC 2007), Rochester, NY, April 26-27, 2007 Sách, tạp chí
Tiêu đề: Document Understanding Conference 2007 (DUC 2007)
Tác giả: Blake,C., Kampov,J., Orphanides,A., West,D., &amp; Lown,C
Năm: 2007
[12] Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques, 2nd ed. The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, March 2006. ISBN 1-55860-901-6 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques, 2nd ed
[16] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A. Crockett (2006). Sentence Similarity Based on Semantic Nets and Corpus Statistics. IEEE Trans.Knowl. Data Eng. 18(8): 1138-1150 Sách, tạp chí
Tiêu đề: IEEE Trans. "Knowl. Data Eng
Tác giả: Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A. Crockett
Năm: 2006
[17] A. A. Mohamed, S. Rajasekaran, (2006). Query-Based Summarization Based on Document Graphs, Document Understanding Workshop, June 8-9, 2006 (DUC2006),New York Marriott, Brooklyn, New York USA Sách, tạp chí
Tiêu đề: Document Understanding Workshop, June 8-9, 2006 (DUC2006)
Tác giả: A. A. Mohamed, S. Rajasekaran
Năm: 2006
[18] Inderjeet Mani and Mark T. Maybury (eds). Advances in Automatic Text Summarization. MIT Press, 1999. ISBN 0-262-13359-8. 442 pp Sách, tạp chí
Tiêu đề: Advances in Automatic Text Summarization
[19] Manabu Okumura. Text Summarization. Asian Applied Natural Language Processing for Linguistics Diversity and Language Resource Development (ADD2), Thailand Science Park, 2007 Sách, tạp chí
Tiêu đề: Asian Applied Natural Language Processing for Linguistics Diversity and Language Resource Development (ADD2)
[20] Siddharth Patwardhan (2003). Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic Relatedness. MSc. Thesis, University of Minnesota, Duluth, MN Sách, tạp chí
Tiêu đề: MSc. Thesis
Tác giả: Siddharth Patwardhan
Năm: 2003
[21] P. Senellart and V. D. Blondel (2008). Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M. W. Berry and M.Castellanos, editors): 25–44. Springer-Verlag, January 2008 Sách, tạp chí
Tiêu đề: Survey of Text Mining II: Clustering, Classification and Retrieval (
Tác giả: P. Senellart and V. D. Blondel
Năm: 2008
[22] Pierre Senellart (2007). Understanding the Hidden Web, PhD thesis in Computer science, Université Paris-Sud, Orsay, France, December 2007 Sách, tạp chí
Tiêu đề: PhD thesis in Computer science, Université Paris-Sud
Tác giả: Pierre Senellart
Năm: 2007
[23] Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey (2006). Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94- 98.Các công cụ sử dụng Sách, tạp chí
Tiêu đề: Conference on Software, Knowledge, Information Management and Applications
Tác giả: Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey
Năm: 2006
[10] Dan Cohen. Automatic Text Summarization. Seminar in Natural Language Programming and Computational Linguistics . http://www.cs.tau.ac.il/~nachumd/NLP/ Link
[24] Phan Xuân Hiếu. JGibbsLDA. http://gibbslda.sourceforge.net/, School of Information Sciences Tohoku University.[25] Nguyễn Cẩm Tú, Phan Xuân Hiếu. JvnSegmenter.http://jvnsegmenter.sourceforge.net, Đại học Công nghệ - Đại học Quốc gia Hà Nội Link
[4] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy. Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt (gui Hoi nghi Hue).Tiếng Anh Khác
[5] Dang Thanh Hai, Nguyen Thu Trang, Ha Quang Thuy. The Graph of Concepts based Text Summarization, College of Technology, Vietnam National University, Hanoi Khác
[6] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh. Learning to Classify Short and Sparse Text &amp; Web with Hidden Topics from Large-scale Data Collections, 17th International World Wide Web Conference, 2008 Khác

HÌNH ẢNH LIÊN QUAN

Mô hình chung của một hệ tóm tắt văn bản dựa trên cách tiếp cận của Mani&amp;Maybury gồm có ba bước: Analysis, Transformation, Synthesis - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
h ình chung của một hệ tóm tắt văn bản dựa trên cách tiếp cận của Mani&amp;Maybury gồm có ba bước: Analysis, Transformation, Synthesis (Trang 15)
Hình 1. Mô hình chung của một hệ thống tóm tắt văn bản - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 1. Mô hình chung của một hệ thống tóm tắt văn bản (Trang 15)
Hình 2. Giá trị trung bình của các phương pháp [11] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 2. Giá trị trung bình của các phương pháp [11] (Trang 26)
Hình 2. Giá trị trung bình của các phương pháp [11] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 2. Giá trị trung bình của các phương pháp [11] (Trang 26)
Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13] (Trang 27)
Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13] (Trang 27)
Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp sử dụng Title) [13]  - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp sử dụng Title) [13] (Trang 31)
Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (trường  hợp sử dụng Title) [13] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp sử dụng Title) [13] (Trang 31)
Như đã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê và phương pháp xử lý ngôn ngữ tự nhiên. - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
h ư đã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê và phương pháp xử lý ngôn ngữ tự nhiên (Trang 33)
Hình 7. Hệ thống cây phân cấp ngữ nghĩa[16] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 7. Hệ thống cây phân cấp ngữ nghĩa[16] (Trang 36)
Hình 7. Hệ thống cây phân cấp ngữ nghĩa[16] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 7. Hệ thống cây phân cấp ngữ nghĩa[16] (Trang 36)
Bảng 1. Các kết quả so sánh các độ đo - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Bảng 1. Các kết quả so sánh các độ đo (Trang 37)
Bảng 1. Các kết quả so sánh các độ đo - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Bảng 1. Các kết quả so sánh các độ đo (Trang 37)
Hình 8. Mô hình biểu diễn của LDA [6] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 8. Mô hình biểu diễn của LDA [6] (Trang 40)
Hình 8. Mô hình biểu diễn của LDA [6] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 8. Mô hình biểu diễn của LDA [6] (Trang 40)
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu (Trang 42)
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu (Trang 42)
Hình 11. Quá trình khởi tạo lấy mẫu lại - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 11. Quá trình khởi tạo lấy mẫu lại (Trang 43)
Hình 11. Quá trình khởi tạo lấy mẫu lại - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 11. Quá trình khởi tạo lấy mẫu lại (Trang 43)
Hình 12. Quá trình đọc các tham số đầu ra - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 12. Quá trình đọc các tham số đầu ra (Trang 44)
Hình 12. Quá trình đọc các tham số đầu ra - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Hình 12. Quá trình đọc các tham số đầu ra (Trang 44)
Trường hợp không sử dụng Hidden Topic, trọng số của từng câu như bảng sau: - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
r ường hợp không sử dụng Hidden Topic, trọng số của từng câu như bảng sau: (Trang 48)
Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic] (Trang 48)
Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic] - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ  ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic] (Trang 49)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w