QUÁ TRÌNH TÓM TẮT VĂN BẢN

Một phần của tài liệu Xây dựng mô hình khai phá văn bản tiếng Việt (Trang 52)

Card[R(t,cj)] Điều phải chứng minh.

3.3.2. QUÁ TRÌNH TÓM TẮT VĂN BẢN

Sau khi đã xây dựng được tập thuật ngữ và trích rút được những đặc trưng trong tập văn bản học ta tiến hành tóm tắt văn bản chuyên ngành. Gọi văn bản cần tóm tắt là C. C bao gồm vector đặc trưng thể hiện độ phụ thuộc của thuật ngữ trong văn bản C

Trong đó ti với i =1,k là tập các thuật ngữ trong văn bản C. µC(ti) biểu thị mức độ phụ thuộc của thuật ngữ ti trong văn bản C. 3.3.2.1. Độ quan trọng của các thuật ngữ trong văn bản C:

Tập văn bản mẫu D={d1,,d2, ,..., .dn} Quá trình học Tập thuật ngữ T={t1,t2,...,tm } Input Xử lý

Mô hình huấn luyện tóm tắt

Độ phụ thuộc thuật ngữ trong tập văn bản V={ <t1, µD(t1) >,<t2, µD(t2) >,….,<tm, µD(tm) >}

Output

Khác với việc xác định độ quan trọng của thuật ngữ trong tập văn bản D. Xác định độ quan trọng của thuật ngữ ti trong văn bản C được tính bằng tổng số lần xuất hiện của thuật ngữ ti trên tổng số lần xuất hiện lớn nhất của một thuật ngữ nằm trong C.

Giá trị của µC(ti) không bao giờ vượt quá ngưỡng 0 và 1. µC(ti) Є [0,1] 3.3.2.2. Độ phụ thuộc của thuật ngữ trong câu

Ở phần 3.1 đã nhắc tới độ phụ thuộc của thuật ngữ trong văn bản, vậy để xác định được độ phụ thuộc của thuật ngữ trong câu. Việc đầu tiên là phải tách câu. Văn bản C lúc này được biểu diễn bởi tập các câu:

Để tiện hình dung, mỗi câu khi kết thúc được biểu thị bằng dấu chấm (.) hoặc dấu 3 chấm (…), đồng thời chữ cái đầu của từ đứng sau dấu (.) hoặc dấu (…) là chữ in hoa.Còn lại những câu ghép 2 vế , câu liên kết … cũng chỉ tính là 1 câu khi gặp 2 loại dấu kết thúc câu trên. Loại trừ những trường hợp đằng sau dấu chấm cũng viết hoa như Mr. John hoặc một số cách viết tắt khác.

Sau khi tách câu, dựa vào bảng tập hợp các từ dừng, từ tầm thường để loại bỏ những từ đó ra khỏi câu.

Lúc này câu đang ở trạng thái rút gọn cơ bản, để xác định độ phụ thuộc của thuật ngữ trong câu, phải xác định được tổng số thuật ngữ nằm trong câu. Ví dụ 1 câu sk có 2 thuật ngữ t1 và t3 với giá trị phụ thuộc tương ứng đã xác định được ở phần 3.1 là 0.8 và 0.2, nên tổng độ phụ thuộc của sk là = 0.8+0.2=1.

µC(ti) =

∑ ti Max {ti}

(8)

Tương tự như vậy, xác định được câu có tổng phụ thuộc của các thuật ngữ là lớn nhất. Độ quan trọng của thuật ngữ trong câu sk lúc này được tính bằng tổng phụ thuộc của thuật ngữ trong câu sk chia cho tổng phụ thuộc thuật ngữ của câu lớn nhất

Trong đó : µC(ti) là độ phụ thuộc của thuật ngữ ti trong văn bản C µs là độ quan trọng của các thuật ngữ trong câu

3.3.2.3. Độ quan trọng của câu

Độ quan trọng của câu được tính theo thuật toán của Teufel and Moens [12] dựa vào một số các đặc trưng : độ dài câu, nhóm từ, vị trí của câu, từ chủ đề, từ liên kết. Thuật toán của Edmundson [11] lại dựa vào một số các đặc trưng: key word, cue phrase, title word, location, hay như Kupiec et al [12] lại dựa vào một số các đặc trưng: sentence length, cue phrase, location, thematic word, uppercase word… Và một số các thuật toán khác.

Trong bài báo này, dựa vào một số các thuật toán trên cải tiến để đưa ra phương pháp tính độ quan trọng của câu dựa vào các đặc trưng sau: độ phụ thuộc của thuật ngữ trong tập văn bản D, độ phụ thuộc của tập từ tích cực, độ phụ thuộc thuật ngữ trong câu, chiều dài câu và vị trí của câu.

Gọi a1,a2,a3,a4,a5 là các hệ số quan trọng cho các đặc trưng độ phụ thuộc của thuật ngữ trong tập văn bản D, độ phụ thuộc của tập từ tích cực, độ phụ thuộc thuật ngữ trong câu, chiều dài câu, vị trí của câu. a1+a2+a3+a4 =1. Ở đây đặt a1=0.1,a2=0.2,a3=0.3, a4=0.1, a5= 0.3.

µs = ∑ µC(ti) t Є s max{∑ µC(ti) } t Є s (10)

Với những hệ số trên, xây dựng được công thức tính độ quan trọng của câu như sau:

Trong đó: Fi là độ quan trọng của câu thứ i

µD(ti) là độ phụ thuộc của thuật ngữ trong câu thứ i dựa vào tập văn bản D đã học.

µC(ti) là độ phụ thuộc của thuật ngữ của câu thứ i trong văn bản C length(s): chiều dài của câu trong văn bản C

position: vị trí của câu i trong văn bản C. NP: Tập từ negative-positive.

Position nhận 3 giá trị H ( heading), M ( midle), E( ending). Tương ứng với chúng là giá trị 1 và 0.5. Với những câu nằm vị trí giữa văn bản nhận giá trị 0.5, những câu nằm vị trí đầu và cuối nhận giá trị 1.

3.3.2.4. Sắp xếp các câu theo thứ tự độ quan trọng

Sau khi tính toán xong độ quan trọng của câu. Các câu được sắp xếp theo thứ tự giảm dần của độ quan trọng :

Với n là tổng số câu trong văn bản C. 3.3.2.5. Ghép các câu và tóm tắt theo tỉ lệ

Khi tóm tắt văn bản C theo tỉ lệ r (%), chiều dài của văn bản sau khi đã tóm tắt = chiều dài của văn bản gốc C * r.

Fi = ∑ µD(ti) max{∑ µD(ti)} a1 a2∑ NP ∑ µC(ti) max{∑ µC(ti)} a3 length(s) max{length(s)} a4 a5 position + + + + (11) F1 ≥ F2 ≥ …….≥ Fn (12)

Sau khi xác định được chiều dài của văn bản tóm tắt. Tiến hành trích rút những câu theo thứ tự độ quan trọng làm sao để tổng các câu trích rút có chiều dài tương đương với chiều dài của văn bản tóm tắt, sắp xếp lại chúng theo thứ tự của chúng trên văn bản gốc, cuối cùng khôi phục lại các từ dừng, từ tầm thường đã loại của các câu trong quá trình tóm tắt thành văn bản tóm tắt hoàn chỉnh .

Ví dụ tóm tắt văn bản C theo tỉ lệ 6%. Theo các bước trích rút được 3 câu theo thứ tự độ quan trọng là , s6, s12. Sắp xếp theo thứ tự của văn bản gốc là s6, s9, s12

rồi mới ghép 3 câu lại thành đoạn văn bản tóm tắt.

Giả sử text_summary là văn bản tóm tắt, p là vị trí của câu trong dãy sắp xếp , s[i] là câu ở vị trí thứ i trong văn bản C. Ta có thuật toán sau:

* Begin

Text_summary=””; p=1;

// Lựa chọn những câu để trích rút

Do While length (Text_summary ) + Length(s[ ip ]<= length(C) *r Begin Text_summary =Text_summary + s[ i p ] t[ip ]= true; p=p+1; End // Sắp xếp những câu theo thứ tự Text_summary=””

For i=1 to n do if t[i]=true then Text_summary=Text_summary+s[i] End

Kết Luận

Đối với việc phân loại và tóm tắt tin tức báo điện tử : chúng ta sẽ dựa trên hướng tiếp cận “tiếng” (character-based) trong trường hợp phải phân loại dữ liệu đa dạng ví dụ như các trang tin điện tử, bởi vì đối với trường hợp này thông tin cực kỳ phong phú về nội dung và ngôn ngữ, nên việc tạo ra một từ điển hoàn chỉnh và có khả năng cập nhật các thay diễn ra liên tục của ngôn ngữ là khó thực hiện được. Hệ thống xử lý cần phải có khả năng linh hoạt, tự động cập nhật những thay đổi hằng ngày, nên hướng tiếp cận không dựa trên từ điển hoặc tập dữ liệu là thích hợp. Hơn nữa, hệ thống phân loại tin tức cần có tốc độ xử lý chấp nhận được để có thể xử lý kịp thời các thông tin mới xuất bản hằng ngày. Do đó, với ưu điểm tốc độ thực thi chấp nhận được, hướng tiếp cận IGATEC là một lựa chọn hoàn toàn phù hợp.

Đối với phân loại và tóm tắt văn bản báo cáo tiếng Việt mức độ đa dạng không như các trang thông tin điện tử bởi vậy hướng tiếp cận của luận văn dựa trên từ điển (dictionary-based), bởi vì ưu điểm đơn giản, số lượng từ trong các văn bản báo cáo không nhiều, không mất công bổ sung các từ mới trong quá trình phân loại, tốc độ xử lý nhanh. Mặt khác sử dụng hướng này sẽ phân loại và tóm tắt văn bản báo cáo có độ chính xác cao hơn đồng thời ta có hoàn toàn có thể thực hiện thêm việc loại bỏ các từ không cần thiết cho việc phân loại như các từ dừng, hư từ, ... để tăng tốc độ và sự chính xác của bước tách từ.

Chương 4: Giao diện và thực nghiệm

4.1. Xây dựng chương trình phần mềm

Toàn bộ ứng dụng được cài đặt trên môi trường Microsoft Net Framework 2005. Thông qua việc sử dụng C#, cùng với sử dụng Microsoft Access làm hệ cơ sở dữ liệu..

4.1.1. Cơ sở dữ liệu

Được thiết kế trên Microsoft Access 2003 dễ dàng khi sử dụng trên các máy tính khác nhau.

4.1.1.1. Phân loại Bảng TanSuat

File Name Data Type Khoá

ID_ThuậtNgữ AutoNumber

ThuậtNgữ Text X

GiáoDục Text

KinhTế Text

TinHọc Text 4.1.1.2. Tóm tắt

Bảng GiaoDuc, KinhTe, TheThao, TinHoc.

File Name Data Type Khoá

ID_ThuậtNgữ AutoNumber

ThuậtNgữ Text X

Wd Number

Bảng: TừDừng

File Name Data Type Khoá

ID_TưDừng AutoNumber

TừDừng Text X

Bảng TừNP

File Name Data Type Khoá ID_TừNP AutoNumber

TừNP Text X GiaTrị Text

4.1.2. Bộ văn bản mẫu

Bộ dữ liệu mẫu phong phú và mang tính thực tiễn. Luận văn sử dụng nguồn tài liệu vô cùng phong phú từ trang web www.chungta.com, www.thanhnien.com.vn . Trang web được trình diễn theo các lĩnh vực cuộc sống, nên dựa trên đó ta có thể có được hàng trăm văn bản của một loại lĩnh vực nào đó. Luận văn sử dụng bộ dữ

liệu mẫu cho 4 loại lĩnh vực văn bản tiếng Việt, với khoảng 10 văn bản mẫu tương ứng với 4 loại lĩnh vực văn bản

4.1.3. Thuật ngữ chuyên ngành

Để đảm bảo tính chính xác cao trong việc xây dựng tập thuật ngữ chuyên ngành , chúng tôi sử dụng phương pháp thống kê từ những văn bản chuyên ngành và từ điển chuyên ngành, bởi các phương pháp sinh từ tự động chỉ mang lại kết quả tương đối. Một số kho dữ liệu như kho dữ liệu của mạng HowNet lại thống kê dựa vào các từ xuất hiện trên trang web và họ cập nhật thường xuyên kho dữ liệu đó. 4.1.4. Thiết kế chương trình

4.2. Cài đặt thực nghiệm 4.2.1. Phạm vi áp dụng

• Ứng dụng trong 4 lĩnh vực xác định là (Giáo dục, kinh tế, thể thao, tin học).

• Số lượng từ của văn bản thực nghiệm không quá >5000 từ nêu không sẽ ảnh hưởng tới tốc độ xử lý của chương trình.

• Văn bản thực nghiệm được tìm kiếm trên web www.chungta.com. • Xử lý văn bản ở dạng file *.txt.

4.2.2 Một số kết quả chạy chương trình 4.2.3. Khả năng mở rộng của chương trình

4.2.3.1. Những hạn chế

• Bộ luật phân loại và tóm tắt văn bản tiếng Việt chưa thực chuẩn xác . • Bộ văn bản mẫu chuyên ngành còn nhiều xơ xài chưa thực sự chuẩn hoá

• Ứng dụng chương trình chỉ xử tốt với những văn bản tiếng Việt có số lượng từ không quá >5000 từ, nếu vượt quá chương trình sẽ xử lý chậm tốn nhiều thời gian hơn.

4.2.3.2. Khả năng mở rộng của phần mềm

• Mở rộng không gian thuật ngữ chuyên ngành để nâng cao phạm vi áp dụng .

• Xử lý thêm nhiều loại văn bản tiếng Việt.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Qua quá trình nghiên cứu, phát triển và hoàn thành luận văn, chúng em đã hoàn thàn được các mục tiêu của đề tài:

• Nghiên cứu và hiểu rõ được lý thuyết mờ. • Xử lý văn bản dưới dạng font chữ Unicode.

• Sử dụng lý thuyết tập thô để tạo ra tập luật phân loại và tóm tắt văn bản phục vụ cho nhiệm vụ chính của đề tài đó là phân loại và tóm tắt văn bản tự động.

• Ứng dụng logic Mờ trong bài toán phân loại và tóm tắt văn bản tiếng Việt.

• Demo chương trình đã thành công, xử lý phân loại và tóm tắt văn bản có kết quả khả quan.

Hướng phát triển

• Phát triển việc phân loại và tóm tắt văn bản một cách thông minh hơn khi chú ý tới vấn đề ngữ nghĩa của thuật ngữ.

• Chúng em sẽ chú trọng tới hiệu suất xử lý của chương trình ứng dụng thông qua việc cải tiến và tối ưu các thuật toán sử dụng trong ứng dụng.

• Để tạo ra được một luật phân loại và tóm tắt hoàn hảo và tính chính xác cao hơn, chúng em sẽ tiến hành thu nhập nhiều hơn nữa các văn bản để có thể tạo ra được một bộ luật phân loại và tóm tắt phong phú và hiệu quả.

• Chương trình ứng dụng nâng cao khả năng xử lý văn bản với nhiều định dạng khác nhau như: (*.txt, *.rtf, *.doc, *.html...). • Chương trình sẽ mở rộng phạm vi ứng dụng, xử lý nhiều loại

Một phần của tài liệu Xây dựng mô hình khai phá văn bản tiếng Việt (Trang 52)

Tải bản đầy đủ (DOC)

(63 trang)
w