1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt trích xuất đơn văn bản theo phương pháp đồ thị

14 616 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 155,16 KB

Nội dung

Các phương pháp cổ điển thường tập trung vào các đặc trưng hình thái để tính điểm cho các câu và trích xuất các câu quan trọng để đưa vào tóm tắt..  Lặp cho đến khi tóm tắt tự động đạt

Trang 1

BÁO CÁO THỰC TẬP TỐT NGHIỆP

Đề tài: Tóm tắt trích xuất đơn văn bản theo phương pháp đồ thị

Sinh viên thực hiện : Nguyễn Đình Hưởng MSSV : 20081338

Lớp : HTTT – K53 Trường : ĐH Bách Khoa Hà Nội Giảng viên hướng dẫn : PGS.TS.Lê Thanh Hương

Hà nội, tháng 2 năm 2013

Trang 2

Mục lục

Trang 3

I. Giới thiệu bài toán

Hiện nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông và đặc biệt là internet- Mạng thông tin toàn cầu thì một lượng thông tin khổng lồ đang bùng nổ trên toàn thế giới Thông qua mạng thông tin này những thông tin quý giá đang đợi chúng ta khám phá Nhưng vấn đề được đặt ra là trong kho thông tin khổng lồ đó chúng ta tìm kiếm như thế nào để có được những thông tin cần thiết một cách nhanh chóng và dễ dàng Chính bởi vậy lĩnh vực khai phá dữ liệu đã ra đời nhắm đáp ứng nhu cầu đó của con người

Trong khai phá dữ liệu thì lĩnh vực khai phá văn bản được quan tâm hơn cả bởi hầu hết dữ liệu đều tồn tại ở dạng văn bản Trong khai phá văn bản thì còn có một lĩnh vự nhỏ hơn cũng đang được quan tâm trong thời gian gần đây đó là tóm tắt văn bản

Chính bởi lý do trên mà em quyết định chọn đề tài tìm hiểu về lĩnh vực tóm tắt văn bản cụ thể là tóm tắt đơn văn bản trong đợt thực tập tốt nghiệp này

Tóm tắt đơn văn bản là một quá trình tóm tắt với đầu vào là một văn bản đơn, đầu ra là một đoạn tóm tắt ngắn gòn nội dung chính của văn bản đầu vào đó Tóm tắt văn bản đơn là bước đệm cho việc xử lý tóm tắt đa văn bản và các bài toán phức tạp hơn

Bài toán ứng dụng cho đối tượng đơn văn bản Văn bản đơn ở đây có thể là một trang Web, một bài báo hoặc một tài liệu với định dạng xác định ví dụ: doc, txt

Trang 4

Mặc dù có 2 loại tóm tắt là tóm tắt trích xuất và tóm tắt tóm lược, tuy nhiên để thực hiện tóm tắt tóm lược cần có một lượng tri thức đầy đủ về lĩnh vực cần tóm tắt ĐIều này hiện nay còn hạn chế nhiều, do đó các hướng tiếp cận đa số tập trung vào dạng tóm tứt trích rút câu

Sau đây là một số hướng tiếp cận cho bài toán tóm tắt đơn văn bản:

1. Phương pháp thống kê

Hầu hết các nghiên cứu đầu tiên cho tóm tắt đơn văn bản đều tập trung trên những văn bản kỹ thuật ( các bài báo khoa học) Các phương pháp

cổ điển thường tập trung vào các đặc trưng hình thái để tính điểm cho các câu và trích xuất các câu quan trọng để đưa vào tóm tắt

Ý tưởng của hướng tiếp cận này:

 Thu thập dữ liệu

 Tạo các bản tóm tắt thủ công

 Thiết kế các công thức toán hay logic để tính điểm cho các câu

 Lặp cho đến khi tóm tắt tự động đạt được tính tương đương với tóm tắt thủ công:

o Tính điểm cho từng câu để tạo ra bản tóm tắt cho từng văn bản trong ngữ liệu dựa vào các đặc trưng về hình thái

o So sánh tóm tắt được tạo tự động với tóm tắt được tạo thủ công

o Cải thiện lại phương thức tính điểm cho câu

Các nghiên cứu đại diện cho phương pháp này:

Luhn(1958)

o Sử dụng các đặc trưng như: word frequency, stop words, word distance

o Dùng phương pháp so khớp từng kí tự để giải quyết stemming

Baxendale(1958)

o Sử dụng các đặc trưng như: sentence position

o Thử nghiệm 200 đoạn câu, 85% các câu đầu là câu chính và 7% các câu cuối và câu chính

Trang 5

o Phương pháp khá chính xác nhưng quá chủ quan và ngay ngô Phương pháp này được sử dụng khá nhiều vào các hệ thống học máy sau này

o Điển hình nhất trong phương pháp cổ điển

o Sử dụng các đặc trưng như: word frequency, stop words, position, cue words, title

o Sử dụng phương pháp kết nối tuyến tính để kết hợp các điểm đặc trưng lại với nhau: Si = w1*Ci + w2*Ki + w3*Ti + w4*Li

o Thử nghiệm với 400 văn bản kỹ thuật và kết quả đạt 44%

2. Phương pháp thống kê trên TF.IDF

Phương pháp này còn gọi là mô hình túi từ ( bag-of-words), sử dụng

mô hình trọng số TF.IDF (term frequency và inverse sentence frequency) Ở

mô hình này, giá trị IDF được tính trên câu Trong đó, TF là số lần xuất hiện của term trong 1 câu Và DF là số câu có chứa term

Cùng với phương pháp tính độ đo TF.IDF và phương pháp biểu diễn văn bản bằng vector không gian sử dụng Vector Space Model(saton 1975)

Tuy nhiên, phương pháp dùng độ đo TF.IDF không được dùng độc lập, mà thường được kết hợp với các phương pháp khác như học máy, đồ thị,… để đạt được hiệu quả cao hơn

3. Phương pháp học máy

Năm 1990, với sự phát triển của nhiều kỹ thuật học máy trong xử lý ngôn ngữ, một số nhà nghiên cứu đã ứng dụng các kỹ thuật này vào trong tóm tắt văn bản tự động Một số nghiên cứu điển hình của phương pháp nà là: Navie – Bayes, Decision Tree, Hidden Makov Model, Log – Linear, Neural Network, SVM

Framework chung cho hệ thống tóm tắt văn bản bằng phương pháp học máy

Trang 6

3.1. Phương pháp Navie-Bayes

Các hướng tiếp cận theo phương pháp này giả định rằng các đặc trưng của văn bản độc lập nhau Sử dụng bộ phân lớp Navie – Bayes để xác định câu nào thuộc về tóm tắt và ngược lại:

Cho s là các câu cần xác định F1… Fk là các đặc trưng đã được chọn

và giả định các thuộc tính độc lập với nhau Xác suất của câu s thuộc về tóm tắt được tính như sau:

Sau khi tính xác suất các câu, n câu có xác suất cao nhất sẽ được trích rút

Các nghiên cứu đại diện cho phương pháp này:

Kupiec(1995)

o Các đặc trưng sử dụng: word frequency, location, cue word, title & leading, sentence length, uppercase words

o Ngữ liệu: 188 cặp văn bản khoa học và tóm tắt Tổng số câu:

568 câu.Số câu khớp trực tiếp với tóm tắt 451 (79%)

Aone(1999)

o Kết hợp thêm nhiều đặc trưng phong phú hơn: tf.idf( single word, two-noun word, named-entities), discourse(cohension) (sử dụng Wordnet và kỹ thuật xử lý ngôn ngữ tự nhiên để phân tích sự tham chiếu đối với các thực thể)

o Ngữ liệu: sử dụng ngữ liệu của TREC

o Hệ thống: DimSum

3.1.1 Phương pháp OOP( Optimal Position Policy)

Lin và Hovy (1997) đã nghiên cứu tính quan trọng của đặc trưng cị trí câu(sentence position) và cho rằng các câu trong văn bản tuân theo một cấu trúc diễn ngôn ( diễn giải) có thể dự đoán được Và do cấu trúc tỏng các loại văn bản khác nhau, nên đặc trưng về vị trí câu không thể định nghĩa đơn giản như trong phương pháp Navie – Bayes

Lin và Hovy đã đề ra phương pháp Optimal Position Policy cho một thể loại văn bản( văn bản tin tức của Zif-Davis về máy tính và phần cứng) Phương pháp thực hiện:

Trang 7

 Với mỗi văn bản, tính năng suất của mỗi vị trí câu với các từ khóa chủ đề

 Xếp hạng các vị trí câu với năng suất trung bình bằng thủ tục OPP

 Lấy ra n vị trí câu trong bảng xếp hạng làm tóm tắt

3.2. Phương pháp Decision Tree

Lin và Hovy (1999) đại diện của phương pháp này giả định rằng, các đặc trưng không độc lập nhau Tác giả đã kiểm tra nhiều đặc trưng và ảnh hưởng của chúng lên quá trình trích xuất Hệ thống tóm tắt của Lin là loại tóm tắt hướng về truy vân (Query - based)

Các đặc trưng: position (OPP), numeric data, proper name, pronoun & adjective, weekday hoặc month Cùng với 2 đặc trưng mới: query

signature( số từ truy vấn có trong câu) và IR signature( những từ nổi bật, quan trọng ~ tf*idf)

Hệ thống Summarist của Lin và Hovy sử dụng thuật toán C4.5 để huấn luyện cây quyết định Hệ thống sử dụng tập ngữ liệu của TIPSTER-SUMMAC

3.3. Phương pháp Hidden Makov Model

Những hướng tiếp cận trước đều không dựa trên những đặc trưng và không tuần tự Conroy và O’leary (2001) đã đưa ra hướng tiếp cận dựa trên mô hình HMM với ý tưởng cơ bản là sử dụng một chuỗi tuần tự các câu Tác giả đưa ra khái niệm về sự phụ thuộc cục bộ (local

dependencies) giữa các câu và sử dụng mô hình HMM để xác định sự phụ thuộc này

Các đặc trưng sử dụng: position, number of term, likelihood of sentence

Mô hình HMM bao gồm 2s + 1 trạng thái, trong đó s là số trạng thái tóm tắt (câu thuộc tóm tắt) và s + 1 là câu không thuộc tóm tắt

Ví dụ về mô hình Hidden Makov Model

Mô hình HMM xây dựng ma trận chuyển vị trí M, coi các đặc trưng là

đa biến và tính xác suất của các câu qua từng trạng thái

Trang 8

Sử dụng tập ngữ liệu của TREC và được đánh giá với 2 hệ thống khác

là DimSum và QR, kết quả đều cho độ đo Precision cao hơn

3.4. Phương pháp Log – Linear

Osborne (2002) đại diện cho mô hình này cũng xoi các đặc trưng à không độc lập với nhau và sử dụng mô hình Log-Linear khắc phục giả định này

Các đặc trưng sử dụng: word pair, sentence length, sentence position

và discourse features (nằm trong introduction hay conclusion)

Mô hình huấn luyện của Log-Linear được thực hiện như sau:

Trong đó, c là nhãn muốn gán cho câu s, fi là đặc trưng thứ i và λi là trọng số kết nối các đặc trưng Nhãn c có 2 khả năng: thuộc tóm tắt hoặc không thuộc tóm tắt

Giai đoạn phân lớp câu mới được thực hiện như sau:

Kết quả được đo bằng độ đo f2 = 2pr/(p+r) Tác giả đã đánh giá với hướng tiếp cận Bayes và kết quả luôn cho độ đo f2 cao hơn

3.5. Phương pháp mạng Neural và đặc trưng của hãng thứ ba

DUC 2002 đã đưa ra một baseline rất mạnh cho tóm tắt đơn văn bản bằng phương pháp trích xuất n câu đầu tiên của các báo cáo tin tức và dường như kết thúc hướng nghiên cứu này

Nhưng Svore (2007) đã đưa ra một hướng tiếp cận mới sử dụng mạng Neural để huấn luyện, kết quả cho thấy đã vượt qua baseline của DUC 2002

Các đặc trưng sử dụng: position, n-gram frequency Ngoài ra, còn sử dụng thêm nhật ký truy vấn của bộ máy tìm kiếm Miccrosoft và Wordnet Tác gải cho rằng, những câu có chứa từ khóa trong các câu truy vấn thì

có kết quả tốt hơn và tìm từ khóa đó trên Wordnet

Mô hình được huấn luyện từ các đặc trưng và các nhãn trong các bài báo Sau đó được xếp hạng bằng hệ thống RankNet Ngữ liệu đuộc lấy từ

Trang 9

CNN.com và được đánh giá bằng độ đo ROUGE-1 và ROUGE-2 (ahai

độ đo phổ biến hiện tại cho tóm tắt văn bản)

4. Phương pháp phân tích ngôn ngữ tự nhiên

Phương pháp tiếp theo sử dụng các kỹ thuật phân tích ngôn ngữ tự nhiên phức tạp Không phải tất cả các phương pháp phân tích ngôn ngữ tự nhiên đều sử dụng học máy, đôi khi phương pháp chỉ sử dụng một số các heuristic để tạo trích rút

Hầu hết các phương pháp này đều dựa trên cấu trúc diễn ngôn (discourse structure) hay cấu trúc diễn đạt ( thể hiện) của văn bản, như: cấu trúc các section của văn bản, liên kết ngữ pháp ( trùng lặp, tĩnh lược, liên hợp), liên kết từ vựng ( đồng nghĩa Bao hàm, lặp lại), cấu trúc tu từ

Các nghiên cứu địa diện cho phương pháp này:

Ono (1994)

o Xây dựng một thủ tục để trích rút các cấu trúc tu từ (rhetorical structure) từ các văn bản tiếng Nhật và xây dựng một cây nhị phân để thể hiện

o Các bước để trích rút cấu trúc: phân tích câu, trích rút một quan hệ tu từ, phân đoạn, tạo ứng viên và đánh giá độ ưu tiên

o Sau khi xây dựng cây sẽ thực hiện tỉa nhánh để giảm bớt câu

và tạo tóm tắt

o Kết quả đạt được 51% các câu chính được xác định và 74% các câu quan trọng nhất được xác định

Barzilay và Elhadad(1997)

o Hai tác giả cũng đã sử dụng một lượng đán g kể những phân tích ngôn ngữ trong tóm tắt văn bản dựa trên chuỗi từ vựng (lexical chain) Chuỗi từ vựng là chuỗi các từ liên quan trong văn bản

o Các bước thực hiên: phân tích đoạn văn bản, xác định các chuỗi từ vựng và sử dụng các từ vựng tốt nhất để xác định câu được chèn vào tóm tắt

o Để tìm các chuỗi từ vựng tác giả sử dụng Wordnet Các từ

có liên quan với nhau sẽ được đưa vào chuỗi Sự liên quan

Trang 10

được tính bằng khoảng cách trong Wordnet Chuỗi sẽ được tính điển dựa vào chiều dài và sự đồng nhất của nó

o Kết quả đạt được tốt hơn hệ thống tóm tắt của Microssoft với độ Precision là 61 và recall 67 (Microsoft là 33 và 27)

o Hạn chế: Không thể kiểm được chiều dài và mức độ chi tiết của tóm tắt do số chuỗi còn ít Tóm tắt thiếu sự kết dính và chưa chi tiết so chọn cả câu

Marcu (1998)

o Sử dụng các heuristic dựa trên cấu trúc diễn đạt với các đặc trưng truyền thống Lý thuyết về cấu trúc diễn đạt được tác giả thể hiện thông qua lý thuyết cấu trúc tu từ(Rhetorical Structure Theory) Lý thuyết cho rằng hai khoảng văn bản không trùng lặp có mối quan hệ trung tâm (nucleus) và vệ tinh (satellite) Trong đó, trung tâm quan trọng hơn vệ tinh

và độc lập hoàn toàn trong cấu trúc tu từ Cấu trúc trọng tâm

và vệ tinh được biểu diễn thành cây nhị phân

o Để tính điểm cho các cấu trúc tác giả sử dụng nhiều độ đo khác nhau như: clustering- based metric, marker- based metric, rhetorical clustering -based technique, shape- based metric, title- based metric, position-based metric,

connectedness-based metric và sử dụng phương pháp kết hợp tuyến tính Lấy ra n câu chứa cấu trúc có điểm cao nhất

o Hệ thống đạt được hiệu quả độ đo F 75.42% cao hơn 3.5%

so với baseline bằng phương pháp lấy n câu đầu Ngữ liệu được sử dụng là từ TREC

Trang 11

V. Đề xuất hướng tiếp cận

1. Phương pháp đồ thị

Hướng tiếp cận bài toán em muốn nghiên cứu là tót tắt trích xuất câu theo phương pháp xếp hạng dựa trên đồ thị từ đó em hình thành lên đề tài

có tên : “Tóm tắt trích xuất đơn văn bản theo phương pháp đồ thị”

Trong bài toán này em thực hiện việc tóm tắt đơn văn bản bằng cách trích xuất câu theo giải thuật xếp hạng dựa trên đồ thị Nó là sự kết hợp giữa giải thuật PageRank của Google (Brin và Page, 1998) và đồ thị trọng số biểu diễn cho văn bản đầu vào

Chúng ta xây dựng một đồ thị trọng số vô hướng biểu diễn cho văn bản đầu vào, với mỗi đỉnh của đồ thị tương ứng với một câu của văn bản đầu vào, mỗi cạnh là liên kết giữa các cặp đỉnh trong đồ thị tương ứng với các cặp câu trong văn bản

Công việc ta cần thực hiện là tính toán được số điểm hay xếp hạng của các đỉnh trong đồ thị tương ứng với các câu trong văn bản Từ đó chúng ta sẽ chọn ra top các câu có điểm cao nhất là những câu quan trọng trong văn bản đầu vào để đưa vào tóm tắt

Các công việc cần thực hiện:

Chúng ta cần tính toán trọng số của các cạnh tương ứng với liên kết giữa các cặp câu trong văn bản đầu vào dựa trên độ tương đồng giữa các cặp câu đó

Độ tương đồng được tính toán dựa trên hai tham số chính là : TF: Term frequency

IDF: Inverse document frequency

Băng việc sử dụng mô hình không gian vector cho việc biểu diễn các câu như các vector xác định, thay vì tính toán TF*IDF ta sẽ thay thế chúng bằng TF*ISF

TF*ISF được tính toán cho mỗi câu Trong đó, sj biểu diễn câu thứ j

và ki biểu diễn chỉ số thuật ngữ thứ i

tfi, j = isfi = log Trong đó,

tfi,j là ‘term frequency’ của term thứ i trong câu thứ j

Trang 12

N là tổng số các câu trong văn bản đầu vào (bao gồm cả title).

ni là số câu chứa ki

Từ đó, ta tính trọng số tương ứng của một term thứ i trong câu thứ j như sau:

Wi,j = tfi,j * isfi

Trọng số cạnh giữa 2 đỉnh tương ứng độ tương đồng giữa 2 câu Sm và

Sn được tính theo công thức cosine như sau:

W(sm, sn) = Với giải thuật xếp hạng trang nguyên gốc kết hợp với tác động của các link vào và ra ta có công thức tính xếp hạng của một đỉnh trong đồ thị:

PR(Vi) = (1 - d) + d *

Trong đó, d là tham số nằm trong khoảng (0;1) Công thức trên được chuyển đổi thành công thức cho khái niệm trọng

số cạnh trong đồ thị như sau:

PRW(Vi) = (1 - d) + d *

Trong đó,

PR W (Vi) là xếp hạng của đỉnh Vi

In(Vi) là tất cả các đỉnh đi tới đỉnh Vi

Out(Vi) là tập các đỉnh mà đỉnh Vi đi tới

Do đồ thị xây dựng là đồ thị trọng số vô hướng nên ta giả thuyết rằng bán bậc ra và bán bậc vào của một đỉnh trong đồ thị là bằng nhau.Ngoài

ra, các nguyên tắt sau được đưa ra trong cấu trúc đồ thị:

• Thứ tự giữa các câu không quan trọng mà quan trọng là nội dung của chúng

• Độ tương đồng của một câu với chính nó là bằng 0

o i< N: W(si, si) = 0 Các câu được sắp xếp theo xếp hạng các node tương ứng ‘n’ câu tốt nhất sẽ được chọn dựa vào mức độ giảm thiểu số từ/ câu trong tóm tắt

2. Cụ thể hóa bài toán

Trên đây là giới thiệu về đề xuất hướng tiếp cận của em về bài toán Sau đây, em xin trình bày các bước tổng quát trong cách giải quyết bài toán trên

Ngày đăng: 30/12/2015, 20:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w