Các thách thức của quá trình rút trích văn bản kho- 123docz.net

Theo [25] văn phong trong các văn bản khoa học phải theo các quy định sau : - Chính xác và sáng sủa

- Sử dụng những con sốđểđịnh lượng, tránh nêu những từ mang tính định tính

- Dùng những từ ngữ khách quan, không mang tính cá nhân

- Sử dụng thì quá khứ, chỉ dùng hiện tại cho những thứ đã trở thành chân lý trong cộng đồng

- Ý của các đoạn văn phải theo trình tự dẫn giải từ trên xuống

Tuy văn bản khoa học có văn phong quy định, cấu trúc rõ ràng, nhất là với thể

loại bài báo khoa học, nhưng cách viết, cách bố trí hay đặt đề mục của mỗi người là khác nhau, thông thường bố cục bài báo phụ thuộc vào mạch ý tưởng của chính tác giả. Còn thể loại toàn văn báo cáo thì lại càng phong phú trong cách viết, đa số là các báo cáo của sinh viên, những người chưa có nhiều kinh nghiệm trong viết một văn bản khoa học khiến cho sự phức tạp trong cấu trúc của văn bản càng trở nên phức tạp. Từ đó gây nhiều khó khăn trong việc xác định các thành phần quan trọng trong văn bản rút trích.

2.4.2. Lỗi văn phạm

Bên cạnh sựđa dạng trong cách viết, lỗi văn phạm do người viết tạo nên cũng gây nhiều trở ngại trong nhiều giai đoạn của quy trình xử lý. Việc sử dụng các dấu câu không đúng mục đích, những lỗi phát sinh chính tả do vô ý như thêm các khoảng trắng, đánh sai từ làm hệ thống rút trích không nhận diện được cũng ảnh hưởng nhiều

đến kết quả rút trích. Chính vì thế muốn kết quả rút trích có độ chính xác cao đòi hỏi phần nào mức độ đúng đắn trong cách hành văn cũng như văn phạm của tài liệu xử lý.

Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt

3.1. Các phương pháp rút trích

Như chúng ta đã đề cập ở mô hình rút trích ý chính trong chương 1 (Hình 1.2) , trong giai đoạn phân tích, văn bản đầu vào được phân tích để xác định các đơn vị ngữ

liệu quan trọng đồng thời tiếp nhận các thông số đầu vào của hệ thống tóm tắt. Các thông sốđầu vào được tiếp nhận ngay từđây để hệ thống thông qua chúng sẽ áp dụng các phương pháp phù hợp. Còn việc phân tích xác định các đơn vị ngữ liệu quan trọng là công việc của các phương pháp trong giai đoạn phân tích. Trong đó, văn bản cần tóm tắt sẽ được tách ra thành các đoạn, các câu, và những đoạn hay câu quan trọng nhất sẽđược chọn ra thông qua một số tiêu chí bài toán.

Các phương pháp áp dụng trong giai đoạn phân tích được chia thành hai loại : Phương pháp thống kê và Phương pháp mạng ngữ nghĩa.

- Phương pháp thống kê là các phương pháp sử dụng các số liệu thống kê về độ

quan trọng của các từ, ngữ, câu hay đoạn. Qua đây, hệ thống có thể sẽ giảm

được số lượng các đối tượng phải xem xét và trích rút chính xác các đơn vị ngữ

liệu cần lấy. Các thống kê có thể nhận được từ các nghiên cứu về ngôn ngữ học hay thông qua phương pháp học máy từ các tập mẫu có sẵn. Từ đó, các thống kê này được dùng cho các tính toán hiện thời trên văn bản đầu vào.

- Phương pháp mạng ngữ nghĩa là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư

tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn. Việc

đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương pháp xác định độ liên quan truyền thống.

3.1.1. Các phương pháp thống kê (Statistical Methods)

Tiếp cận thống kê đã chứng tỏ được tiềm năng khi áp dụng vào nhiều vấn

đề trong xử lý ngôn ngữ tự nhiên, như dịch máy, tìm kiếm văn bản, và trích chọn thông tin. Khá nhiều phương pháp thống kê đã được áp dụng cho tóm tắt văn bản [2;14;15;17;23]. Theo cách tiếp cận này bài toán tóm tắt văn bản được coi như bài

toán phân lớp. Cụ thể hơn, một văn bản được phân thành 2 lớp, lớp quan trọng và lớp không quan trọng. Phương pháp sử dụng học máy thống kê được áp dụng để xây dựng các luật cho việc phân lớp. Các phương pháp học máy đã được áp dụng thành công cho việc phân lớp văn bản bao gồm mạng Bayes, mô hình cực đại hóa entropy (Maximum entropy model), Mô hình Markov ẩn (Hidden Markov model), SVMs v.v…Trong số đó thì SVMs là phương pháp học máy hiệu quả có tính tổng quát cao và đã được áp dụng thành công với các ngôn ngữ thông dụng như Anh, Pháp, Nhật v.v [18]

Các phương pháp thống kê là những phương pháp đầu tiên được sử dụng để cài

đặt một hệ thống tóm tắt văn bản. Các số liệu thống kê thường được thu thập thông qua việc học trên các tập mẫu khác nhau. Năm 1958, Luhn đã chọn ra các câu quan trọng từ văn bản thông qua phương pháp thống kê tần suất của từ. Năm 1969, Edminson đưa ra bốn phương pháp mới hơn, trong đó có một phương pháp khá giống với Luhn, để xây dựng nên một hệ tóm tắt văn bản. Edminson cũng đã kiểm thử kết quả của từng phương pháp cũng như các phương pháp áp dụng đồng thời với nhau. Sau đây là một số tư tuởng chính của các phương pháp thống kê :

3.1.1.1. Phương pháp vị trí (Position-Based)

Phương pháp vị trí bao gồm các phương pháp xác định độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trong văn bản. Các thống kê này tất nhiên phụ

thuộc vào thể loại văn bản…

Phương pháp này dựa trên quan niệm cho rằng các câu xuất hiện ở đầu văn bản thường quan trọng hơn những câu xuất hiện ở giữa hay ở cuối cùng của văn bản. Với phương pháp tóm tắt đơn giản này, để tạo ra một văn bản tóm tắt, chúng ta chọn ra những câu đầu tiên trong văn bản tùy theo kích thước hay độ dài mong muốn của văn bản tóm tắt. Mặc dầu hiệu năng của phương pháp này thay đổi rất nhiều tùy theo loại của văn bản cần tóm tắt (tin tức, khoa học, v.v…), tuy nhiên nó luôn luôn chứng tỏ được vào khoảng 33% câu quan trọng trong văn bản thường nằm ở các vị trí quy định.

• Chủđề - Tiêu đề ( Title-based )

quan trọng trong văn bản hơn là những câu không quan trọng, nói cách khác câu có chứa tiêu đề thường là những câu quan trọng. Do đó sử dụng tiêu đề được xem như

là một phương pháp để xác định các câu quan trọng đối với một văn bản cho trước. • Đầu - cuối đoạn ( First - Last Sentence )

Xác suất câu đầu đoạn hay câu cuối đoạn chứa ý chính của cả đoạn là rất lớn,

đặc biệt là câu đầu đoạn. Ngoài ra, các đoạn đầu và cuối trong văn bản cũng quan trọng hơn các đoạn giữa.

• Minh họa - Chú thích ( Comments )

Trong các câu chú thích, câu minh họa cho ảnh hay đồ thị thường chứa các thông tin quan trọng. Tuy nhiên, các câu này thường chỉ được dùng để đánh giá độ

quan trọng của các câu khác liên quan, chứ không được chọn làm đầu vào cho pha tiếp.

3.1.1.2. Phương pháp cụm từ gợi ý (Cue phrases-Based)

Các cụm từ gợi ý có đặc điểm thống kê rất tốt. Sau các cụm từ này thường là các câu hay từ có độ quan trọng là xác định. Người ta chia thành hai loại cụm từ gợi ý, một loại mang lại độ quan trọng cho thành phần đi sau, được gọi là cụm từ nhấn mạnh ý, một loại giúp ta loại bỏ, không xét đến những thành phần đi sau vì nó không có nhiều giá trị trong việc trích rút, được gọi là cụm từ dư thừa. Trong văn bản chúng ta có thể sử dụng các cụm từ hay dùng để xác định xem câu có chứa từ đó là quan trọng hay không quan trọng. Phương pháp này thường dùng để loại bỏ các câu chứa cụm từ dư thừa và xét lấy các câu có cụm từ nhấn mạnh.

• Cụm từ nhấn mạnh (Emphasizer phrase )

Cụm từ nhấn mạnh gồm các cụm từ như “nói chung là…”, “đặc biệt là…”, "cuối cùng thì…”, “trong bài viết này tôi muốn chỉ ra…”, “bài báo này trình bày…”, “nội dung gồm…”,..v..v...

• Cụm từ dư thừa ( Stigma phrases )

Một số cụm từ dư thừa : “hiếm khi mà…”, "bài này không nói đến…”, "Không thể nào…”, ..v..v... Những cụm từ này khi xuất hiện trong câu gợi ý câu chứa nó không mang thông tin quan trọng.

3.1.1.3. Phương pháp thống kê tần suất từ (Word frequency-Based)

Độ quan trọng của từ phụ thuộc vào số lần xuất hiện của từ đó trong các văn bản liên quan. Các kỹ thuật như TFxIDF hay Tập thuật ngữ thường xuyên (Frequent Item Set) dùng cho công việc xác định tần suất của từ. Chúng ta có thể sử dụng tần suất xuất hiện của từ để tính độ quan trọng của một câu bằng cách tổng hợp tất cả

các từ trong câu đó.

3.1.2 . Phương pháp mạng ngữ nghĩa

3.1.2.1. Phương pháp quan hệ lẫn nhau

Phương pháp này xác định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau thông qua các kỹ thuật thu thập thông tin ở mức văn bản. Các

đoạn (câu) trong văn bản nguồn được tính toán độ liên quan lẫn nhau giữa chúng. Có thể dùng các kỹ thuật xác định độ liên quan lẫn nhau như Cosine, TFxIDF hay N-gram Overlap. Sau đó chọn ra đoạn (câu) có độ liên quan lớn nhất.

3.1.2.2. Phương pháp liên kết từ vựng ( Lexical Chains )

Phương pháp liên kết từ vựng sử dụng các từđiển quan hệ từ vựng đế xây dựng các chuỗi từ liên kết với nhau vể mặt ngữ nghĩa. Ví dụ "antivirus" là một loại "phần mềm", cài đặt trên "máy tính", dùng để "diệt virus". Các từ " antivirus ", " phần mềm", " máy tính ", "diệt virus " có quan hệ ngữ nghĩa nào đó với nhau. Sau khi xây dựng

được các chuỗi từ này, đánh giá độ mạnh của chúng và có những trích chọn phù hợp. Các ứng dụng tóm tắt sử dụng phương pháp này đã được cài đặt bởi Regina Barzilay [24]. Tuy nhiên, có thể coi Morris và Hirst là những người đầu tiên đưa ra ý tưởng này vào năm 1991. Lexical Chains không những chỉ dùng trong tóm tắt văn bản mà còn

được coi là lý thuyết tổng quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên. Sau này Chin-Yew Lin and Eduard Hovy[2] đã phát triển thành một lý thuyết mới, rộng hơn, được gọi là Nhận dạng chủđề (Topic Identification).

3.1.2.3. Phương pháp Liên kết tham chiếu ( Word Coreferences )

Phương pháp liên kết tham chiếu còn được gọi là phương pháp trích chọn trùng lặp (Anaphora-based Method). Theo phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (ngữ) tham chiếu và từ (ngữ) được tham chiếu.

Ví dụ : "Steve Job là CEO của công ty Apple. Ông ấy vừa qua đời vào năm 2012."

Trong ví dụ trên, các cặp trùng lặp là "Steve Job"-"Ông ấy". Trong đó từ "Ông

ấy" là từ tham chiếu, tham chiếu đến từ "Steve Job" là từđược tham chiếu.

Sau khi phân tách các cụm trùng lặp, chúng ta tạo chuỗi các từ (ngữ) tham chiếu đến cùng một từđược tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của

đoạn, các câu chứa các từ trong chuỗi này có một độ ưu tiên nào đó khi xét trích chọn. Vấn đề này liên quan đến các bài toán Nhận biết các thực thể có tên, hợp giải tham chiếu - một lớp các bài toán khác của Xử lý ngôn ngữ tự nhiên.

3.1.2.4. Phương pháp quan hệ câu ( Discourse-Based )

Dựa trên các từ thể hiện mối quan hệ giữa các câu chúng ta cấu trúc hóa đoạn văn bản từ các đơn vị thành phần như ngữ, mệnh đề, câu... Sau đó đơn vịđược coi như

trung tâm sẽđược trích chọn.

Phương pháp này dựa trên nghiên cứu và đề xuất nổi tiếng của Mann và Thompson về Lý thuyết cấu trúc tu từ ( Rhetorical Structure Theory - RST). Đoạn văn

đang xét sẽđược cấu trúc hóa thành dạng cây từ các nút lá, gọi là Cây tu từ (Rhetorical Tree). Bằng cách biểu diễn các mối quan hệ giữa các câu về mặt ngữ nghĩa hay cú pháp như các mối quan hệ nền (Background), quan hệ dấu hiệu (Evidence), quan hệ

phát sinh (Elaboration) ,... chúng ta có thể xác định các nút hạt nhân và các nút vệ tinh. Từ đó chọn các nút hạt nhân để xây dựng nên cấp thấp hơn của Cây tu từ. Gốc của Cây tu từ sẽ là đơn vị quan trọng nhất.

Ví dụ, một cặp câu có quan hệ nguyên nhân, kết quả thì thường câu kết quả có

độ quan trọng cho tóm tắt hơn. Một cặp câu khác có quan hệ minh họa thì câu minh họa rõ ràng không nên đưa vào tóm tắt so với câu nền tảng của nó. Cứ thế, thông qua các mối quan hệ này, chúng ta sẽ sắp thứ tựđược các câu, các đoạn trong văn bản theo

độ quan trọng tóm tắt. Sau đó ta trích ra những câu ởđầu danh sách này theo số lượng mong muốn. Đây là những ý tưởng cơ bản của Daniel Marcu trong việc sử dụng RST vào các ứng dụng Tóm tắt và Sinh ngôn ngữ tự nhiên (Natural Language Generating).

3.1.3. Kết luận về các phương pháp trong giai đoạn phân tích

trọng của các đơn vị ngữ liệu theo các phương pháp trên đây và thực hiện việc trích chọn các đơn vị ngữ liệu nào có độ quan trọng lớn thành đầu vào cho giai đoạn sau. Thông thường độ quan trọng (trọng số) của các đơn vị ngữ liệu sẽ được xác định bởi một phương trình tuyến tính của các hệ số đánh giá độ quan trọng theo mỗi phương pháp. Trong đó các hệ số tuyến tính sẽ phụ thuộc vào tính chính xác của thuật toán khi áp dụng từng phương pháp và áp dụng đồng thời các phương pháp với nhau.

Việc xác định các hệ số tuyến tính có thể thực hiện bằng nhiều cách. Nhiều hệ

thống không xác định được chính xác, đã để các hệ số này bằng nhau hoặc bằng một số nào đó. Một số hệ thống khác thì cẩn trọng hơn, đưa ra những tỉ lệ tương đối sao cho đảm bảo được việc phối hợp các phương pháp là tốt hơn việc dùng phương pháp chính xác nhất. Ngoài ra một số hệ thống lại dựa vào các tham sốđưa vào để lựa chọn các phương pháp cần dùng. Ví dụ như một hệ rút trích mang chức năng chỉ định và không cần độ chính xác cao chỉ cài đặt các phương pháp thống kê là đạt yêu cầu. Tuy nhiên, có một phương pháp mang lại tính chính xác khá cao khi xác định các hệ sốđó là phương pháp học từ tập mẫu (Corpus-based)[14]. Thông qua tập mẫu có thể xác

định được các hệ số này khi cài đặt thuật toán và kiểm thử trên tập mẫu. Kết quả kiểm thửđược đưa trở lại để cải tiến các hệ số tuyến tính cho đến khi đạt kết quả chấp nhận, cách này chỉ áp dụng được khi có những tập mẫu chính xác.

Một khó khăn chung to lớn của hai loại phương pháp áp dụng cho tiếng Việt là các tài nguyên phục vụ cho các phương pháp này chưa có nhiều. Tài nguyên còn thiếu cho các phương pháp thống kê là các số liệu thống kê tiếng Việt về vị trí và từđiển các cụm từ gợi ý. Tài nguyên còn thiếu cho các phương pháp cấu trúc là các tập mẫu, các mạng ngữ nghĩa... Đã có một số nghiên cứu xây dựng tập mẫu hay các mạng ngữ

nghĩa dành cho tiếng Việt nhưng chưa thành công, chưa đầy đủ hoặc chưa công bố

chính thức.

3.1.4. Hướng tiếp cận của đề tài

Đề tài này áp dụng phương pháp thống kê có cải tiến kết hợp học máy, do thực hiện trên đối tượng là văn bản khoa học cụ thể nên đề tài sẽ tập trung khảo sát cấu trúc các loại tài liệu, đưa ra các số liệu thống kê về vị trí thành phần quan trọng xây dựng

Các thách thức của quá trình rút trích văn bản khoa học

Dấu hiệu đặc trưng nhận dạng câu

Bài toán tách từ tiếng việt