Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt
3.2. Mơ hình rút trích ý chính của văn bản khoa học
3.2.1.2. Giai đoạn tách và lọc câu
Việc tách đoạn và câu dựa trên các dấu ngắt đoạn và dấu ngắt câu. Như đã đề
cập trong mục 2.2.2. đối với việc tách câu trong đề tài này để bảo toàn ngữ nghĩa cho câu một cách đầy đủ nhất thì ta cần xây dựng module tách câu không phân biệt câu ghép hay câu đơn mà phân biệt qua các dấu hiệu nhận dạng đặc trưng câu thông qua
các dấu kết thúc câu. Bảng 3.1 Các ký hiệu kết thúc câu Ký hiệu Mô tả \n Ký hiệu xuống dịng, khơng có dấu chấm . &\n
Dấu chấm & Ký hiệu xuống dòng
? Dấu chấm hỏi
! Dấu chấm than
; Dấu chấm phẩy
: & \n
Dấu hai chấm và ký hiệu xuống dòng
. Dấu chấm
trong địa chỉ web, mail..., đã được thực hiện trong giai đoạn tiền xử lý nhằm mục đích phân tách câu sao cho chính xác - một vấn đề quan trọng trong bài toán này.
Chính vì sự đa dạng trong dùng dấu câu, nhất là dấu chấm (.) gây ra khó khăn trong việc nhận dạng câu để tách chính xác. Để đảm bảo sự tách câu chính xác, một
tập các ký hiệu ngoại lệ được xây dựng, tập ký hiệu này sẽ được đưa vào quá trình tiền xử lý văn bản, tạo ra một văn bản chỉ bao gồm các ký hiệu như trong bảng 3.1, còn các trường hợp ngoại lệ sẽ được thay thế băng một ký hiệu khác ngồi bảng 3.1. Kết thúc qua trình tách câu, trước khi đưa vô tập các câu cần xử lý sẽ được chuẩn hóa lại một
lần nữa như ngun gốc của nó trong văn bản. Ví dụ :
Học hàm, học vị : GS. , Ts. , ThS. ,…. Số thập phân : 3.14 , 14.44
Tên miền : www.domain.com , www. Domain.net, …
Địa chỉ email : nguyen@lhu.edu.vn
Mục lục : 1. , 2. , I. , II. ,…. Và các lỗi cú pháp người dùng.
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu
Ký hiệu Mô tả Ký hiệu Mô tả
\n & 0. Tiêu đề, mục lục \n & VII. Tiêu đề, mục lục \n & 1. Tiêu đề, mục lục \n & VIII. Tiêu đề, mục lục \n & 2. Tiêu đề, mục lục \n & IX. Tiêu đề, mục lục \n & 3. Tiêu đề, mục lục \n & X. Tiêu đề, mục lục \n & 4. Tiêu đề, mục lục Ks. Học vị, học hàm \n & 5. Tiêu đề, mục lục ThS. Học vị, học hàm \n & 6. Tiêu đề, mục lục Gs. Học vị, học hàm \n & 7. Tiêu đề, mục lục Cn. Học vị, học hàm \n & 8. Tiêu đề, mục lục Ts. Học vị, học hàm
\n & I. Tiêu đề, mục lục .com Tên miền
\n & II. Tiêu đề, mục lục .net Tên miền
\n & III. Tiêu đề, mục lục .edu Tên miền
\n & IV. Tiêu đề, mục lục .vn Tên miền
\n & V. Tiêu đề, mục lục .org Tên miền
\n & VI. Tiêu đề, mục lục .gov Tên miền
0. & [0…9] Số thập phân 5. & [0…9] Số thập phân 1. & [0…9] Số thập phân 6. & [0…9] Số thập phân 2. & [0…9] Số thập phân 7. & [0…9] Số thập phân 3. & [0…9] Số thập phân 8. & [0…9] Số thập phân
4. & [0…9] Số thập phân ……….. ………..
Bảng 3.2 liệt kê một số trường hợp ngoại lệ trong nhận dạng tách câu, tuy nhiên vẫn còn một số dấu hiệu do lỗi cú pháp của người viết văn bản. Bảng này vẫn chưa
đầy đủ nhưng cũng đã đáp ứng được việc tách câu với kết quả khá tốt.
• Phương pháp tách từ
Trong các giai đoạn chính của quy trình, cơng việc tách từ là một việc được
thực hiện nhiều lần. Việc tách các từ hay cụm từ là cơ sở để nhận dạng các đặc điểm
của câu. Từ đó có thể dùng cho các hành động như lọc câu dựa trên cụm từ, phân lớp câu hay tính điểm quan trọng của câu dựa trên tính điểm quan trọng của từng từ trong câu.
Trong khuôn khổ đề tài không đề cập sâu đến vấn đề này. Ở đây, đề tài sử
dụng phương pháp tách từ theo mơ hình n-gram kết hợp so khớp từ điển rút gọn để
tách ra các từ ghép có nghĩa.
Do hiện chưa có từ điển chuẩn dành cho xử lý ngôn ngữ nên đề tài quyết định chọn thống kê dựa trên một từ điển thông dụng. Dựa vào số liệu thống kê, ta thấy rằng có trên 67% các từ trong từ điển có độ dài là 2 tiếng, khoảng 30% là từ đơn hay từ
gồm 3-4 tiếng. Các từ dài hơn chỉ chiếm khoảng 3% trong từ điển, trong đó thường là các thành ngữ. Dưới đây là thống kê rút ra từ từ điển trực tuyến chưa 72994 từ và ngữ.
Bảng 3.3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com
Bài toán tách từ tiếng Việt là một bài toán phức tạp, chưa có một nghiên cứu nào cho ra kết quả chính xác cao. Do thời gian thực hiện đề tài có hạn nên đề tài đã
chọn mơ hình n-gram với n=2 để tách văn bản thành các từ 2 tiếng, sau đó để tránh dữ liệu rác phát sinh nhiều, đề tài kết hợp so khớp từ điển để chỉ chọn lấy các từ có nghĩa. Tuy nhiên nếu làm như vậy thì thời gian xử lý sẽ tăng lên rất nhiều lần.
Thử nghiệm tách từ trong văn bản 10 trang (~4800 từ một tiếng ) dùng n-gram kết hợp dò từ điển mất hết 40 phút thực hiện. Điều đó là khơng chấp nhận được theo mục đích của đề tài vì cịn phải xử lý qua nhiều giai đoạn khác. Chính vì thế đề tài cải tiến việc so khớp từ được tách với từ điển rút gọn. Từ điển rút gọn được tạo ra bằng cách dùng tiếng thứ nhất trong từ lấy ra từ điển các từ có tiếng đầu tiên là tiếng đó
.Thuật tốn tách từ mà đề tài sử dụng được mô tả như sau : Input : Document
Output : s = {w1, w2, w3, …, wi } với w là từ được tách Begin
// Xét từng câu
For i = 0 to Document.Sentences.count -1 // Dùng mơ hình n-gram (n=2) để tách từ // Đưa từ vào tmpList
// Xét từng từ For j =0 to tmpList.count -1 Độ dài của từ Tần số Tỉ lệ % 1 8933 12.2 2 48995 67.1 3 5727 7.9 4 7040 9.7 ≥ 5 2301 3.1 Tổng 72994 100
//Lấy tiếng đầu tiên của từ (fsWord)
//Truyền fsWord vào câu truy vấn CSDL lấy ra bảng từ điển rút gọn // So khớp từ đang xét với từ trong từ điển rút gọn
For k=0 to ShortDir.words.count-1 If tmpList.words(j)= ShortDir.words(k)
s.add(words(j)) Exit for
End
Sau cải tiến, thuật toán tách từ chỉ mất từ 15-20 giây cho việc xử lý văn bản 10 trang (~4800 từ một tiếng) . Vì từ việc phải so khớp từ với hơn 70.000 từ, lúc này chương trình chỉ phải so khớp với vài chục từ. Việc lấy từ điển rút gọn được thực hiện trực tiếp trong hệ quản trị cơ sở dữ liệu nên càng rút ngắn thời gian xử lý
Sau khi tách câu sẽ tiếp tục công đoạn lọc bỏ những câu quá ngắn (dựa trên số ký tự) hoặc những câu có tập các cụm từ dư thừa. Tập đó được xây dựng dựa trên việc khảo sát các bài báo khoa học và tồn văn để tìm ra những cụm từ dư thừa xác định
những câu không mang thông tin quan trọng như : hình … , bài này không đề cập, như sau, bảng … , chúng tôi không sử dụng, .v.v.
Thông qua việc tách từ hệ thống sẽ so sánh cụm từ được tách trong câu với tập các cụm từ dư thừa được xây dựng từ trước. Lúc này hệ thống không chỉ tách các từ 2 tiếng mà phụ thuộc vào số tiếng trong cụm từ dư thừa mà hệ thống sẽ tách phù hợp để có thể so sánh. Các câu chứa cụm từ nằm trong tập cụm từ dư thừa sẽ bị loại bỏ và không chuyển sang giai đoạn sau để xử lý tiếp tục.