Giải thuật giải quyết canh lề chéo (sử dụng trong- 123docz.net

Trên cơ sở nghiên cứu và vận dụng các nghiên cứu trước đây, phần này trình bày tóm tắt qui trình canh lề mới, kế thừa và cải tiến những công trình đã hiện thực. Quá trình canh lề bao gồm các giai đoạn:

 Tách từ (token).

 Phân đoạn từ: xác định từ ghép tiếng Việt và cụm từ tiếng Anh (dùng từ điển).

 Cắt lấy gốc từ tiếng Anh (stemming dùng giải thuật Porter).

 Phân đoạn câu (dùng mô hình trực tiếp).

 Canh lề theo chiều dài câu (dùng lập trình động).

 Phát hiện canh lề chéo.

 Tạo điểm tương ứng (dùng từ điển).

 Canh lề từ (dùng LSSA).

Để phát hiện phép canh lề chéo, chương trình tính toán độ tương tự của các cặp câu đã được canh lề. Độ tương tự được tính dựa trên số lượng các cặp từ giống nhau xuất hiện trong câu. Nếu kết quả chưa tốt, một tổ hợp canh lề mới đươc tạo ra từ các cặp câu có độ tương tự thấp, và các câu này được canh lề lại. Giới hạn của luận văn là phát hiện canh lề chéo giữa các câu trong cùng một đoạn. Việc mở rộng canh lề chéo cho toàn văn bản có thể thực hiện được nhưng độ phức tạp của giải thuật rất cao.

Các cặp từ giống nhau được xác định dùng vị từ so trùng. Hai từ giống nhau có thể là do có cùng nguồn gốc, là từ viết tắt, danh từ riêng,… hoặc có nghĩa giống nhau trong từ điển. Mức độ giống nhau của hai từ là cơ sở để giải quyết một số nhằng

khi tạo điểm tương ứng, cũng là cơ sở để tính độ tương tự giữa hai câu. Giải thuật LSSA sinh ra một tập hợp các điểm canh lề, phép canh lề này mịn hơn phép canh lề câu, gọi là canh lề từ. Ngoài ra, chương trình cũng phát hiện các cụm từ canh lề chéo trong câu.

Để phát huy điểm mạnh của các giải thuật có dựa vào xác suất thống kê, chương trình phân loại văn bản song ngữ theo lĩnh vực bằng tay. Sau kết quả canh lề, chương trình lưu lại tất cả các dữ liệu theo từng lĩnh vực (văn bản song ngữ, đoạn, câu, từ) để phục vụ cho thống kê sau này.

Ngoài ra, cũng nên xây dựng từ điển chuyên ngành (theo lĩnh vực), từ điển các từ cần loại bỏ (những từ thường hay xuất hiện trong văn bản và không có giá trị canh lề - stopwords theo từng lĩnh vực (phần này chưa thực hiện).

Trong các giải thuật trên một số giải thuật sử dụng các thông số chọn lựa dựa vào phương pháp thống kê xác suất. Ví dụ như: thống kê để xác định tỉ lệ chiều dài trung bình của tiếng Anh và tiếng Việt; xác suất canh lề của các phép canh lề 1-0, 1-1, 2-1, 2-2,…; thống kê số điểm trung bình được canh lề trong câu theo chiều dài,… Để thực hiện điều này, quá trình “trainning” diễn ra. Chương trình sử dụng số liệu thống kê mà các nghiên cứu trước đó đưa ra, để tính toán các thông số hệ thống và chạy giải thuật. Các thông số này có thể chưa phù hợp với canh lề Anh-Việt, tuy nhiên kết quả cũng chấp nhận được. Từ kết quả đầu ra của chương trình, áp dụng vào các công thức tính toán, chúng ta sẽ có được những thông số phù hợp. Các cách tính toán sẽ được giới thiệu trong phần tiếp theo (phần hiện thực).

Phần 5

Hiện thực

Phần trước đã trình bày chi tiết các giải thật sẽ sử dụng trong luận văn, cũng như một vài so sánh với các giải thuật khác để đưa đến quyết định chọn lựa phương pháp. Phần này trình bày chi tiết cách hiện thực các giải thuật trong chương trình.

Chương trình được xây dựng trên:

 Ngôn ngữ lập trình: Microsoft Visual C#.

Hình 5-21 Sơ đồ khối cho quá trình canh lề. Văn bản tiếng Việt (VB TV) Văn bản tiếng Anh (VB TA) Phân tích từ Cắt lấy gốc-Porter Xác định cụm từ Phân tích từ Xác định từ ghép tiếng Việt

Phân đoạn câu

văn bản TA Phân đoạn câuVăn bản TV

Canh lề theo chiều dài câu

Kiểm tra độ tương tự các cặp câu đã canh lề

Canh lề chéo.

Canh lề từ dùng LSS

Kho dữ liệu chứa các cặp câu canh lề Từ điển song ngữ Từ điển từ ghép TV Từ điển cụm từ TA Danh sách stopword Danh sách từ viết tắt Văn bản song ngữ  Văn bản đã canh lề  Bước 1 Bước 2

Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn):

Kết hợp các phương pháp:

Nghiên cứu của các tác giả trong nước: