Phương pháp so khớp cực đại

Một phần của tài liệu Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng (Trang 45)

Phương pháp so khớp cực đại (Maximum Matching) còn gọi là Left Right Maximum Matching. Nội dung thuật toán này dựa trên thuật toán đã được Chih- Hao Tsai [10] giới thiệu năm 1996.

* Tư tưởng của phương pháp so khớp cực đại là duyệt một câu từ trái qua phải và chọn từ có nhiều tiếng nhất có mặt trong từ điển tiếng Việt, rồi cứ thể tiếp tục cho từ kế tiếp cho đến hết câu.

* Đầu vào: Chuỗi ký tự

* Đầu ra: Chuỗi từ, cụm từ (Từ có chiều dài dài nhất)

2.2.3.1. Thuật toán so khớp cực đại dạng đơn giản

Giả sử chúng ta có một câu S={C1, C2, C3 ..., Cn}, với C1, C2, C3 ..., Cn là các tiếng được tách bởi khoảng trắng trong câu.

Chúng ta bắt đầu duyệt từ đầu chuỗi, xác định đâu là từ. Đầu tiên chúng ta sẽ kiểm tra xem C1 có phải là từ có trong từ điển không, sau đó kiểm tra tiếp C1C2 có trong từ điển hay không. Tiếp tục như vậy C1C2C3, …, C1C2C3…Cn, với n là số tiếng lớn nhất của một từ có thể có nghĩa (có trong từ điển tiếng Việt). Sau đó chúng ta chọn từ có nhiều tiếng nhất có mặt trong từ điển và đánh dấu từ đó. Sau đó tiếp tục quá trình trên với tất các các tiếng còn lại trong câu và trong toàn bộ văn bản.

Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn, khá đơn giản nhưng nó gặp phải rất nhiều nhập nhằng trong tiếng Việt.

Ví dụ: Cho câu “ Học sinh học sinh học”. Nó sẽ gặp phải lỗi khi tách từ câu sau: “học sinh | học sinh | học”, câu đúng phải là “học sinh| học| sinh học”.

2.2.3.2. Thuật toán so khớp cực đại dạng phức tạp

Thuật toán này thực hiện quy trình cũng giống như dạng đơn giản. Tuy nhiên, dạng này có thể tránh được một số nhập nhằng gặp phải trong dạng đơn giản. Đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giải quyết.

Đầu tiên chúng ta sẽ kiểm tra xem C1 có phải là từ có trong từ điển không, sau đó kiểm tra tiếp C1C2 có trong từ điển hay không. Giả sử khi duyệt câu, chúng ta có C1 và C1C2 đều là từ có trong từ điển thì thì thuật toán thực hiện chiến thực 3 từ tốt nhất được Chen & Liu đưa ra vào năm 1992 [5] như sau:

* Tiêu chuẩn 3 từ tốt nhất được Chen & Liu (1992) đưa ra như sau:

Độ dài trung bình của từ lớn nhất.

Ở cuối mỗi chuỗi thường gặp những bộ chỉ có một hoặc hai từ. Ví dụ, những bộ sau có cùng độ dài và cùng biến đổi của chiều dài từ.

C1|C2|C3 C1C2C3

Luật này cho phép lấy từ đầu tiên của bộ có trung bình độ dài từ lớn nhất. Trong ví dụ trên, ta sẽ lấy từ C1C2C3 từ bộ thứ hai. Giả thiết của luật này là ta gặp trường hợp từ nhiều tự nhiều hơn gặp từ một tự.

Ví dụ: Với chuỗi “cơ quan tài chính” sẽ được phân đoạn đúng thành “cơ quan | tài chính”, tránh được việc phân đoạn sai thành “cơ | quan tài | chính” vì cách phân đúng phải có độ dài trung bình lớn nhất.

Luật này chỉ có lợi khi thiếu một hoặc một vài vị trí trong bộ. Khi bộ là bộ ba thì luật này không được hiệu quả lắm. Bởi vì bộ ba từ có cùng tổng độ dài dĩ nhiên sẽ có cùng độ dài trung bình. Vì thế chúng ta cần một giải pháp khác.

Sự chênh lệch độ dài của 3 từ là ít nhất.

Độ biến đổi nhỏ nhất chiều dài từ. Ví dụ, hai bộ sau đây có cùng chiều dài:

C1C2| C3C4| C5C6 C1C2C3| C4| C5C6

Luật này cho phép lấy bộ đầu tiên với độ biến đổi chiều dài từ nhỏ nhất. Trong ví dụ trên, ta lấy từ C1C2 từ bộ đầu tiên. Giả thiết của luật này là những chiều dài từ đều bằng nhau.

Ví dụ: Với chuỗi “công nghiệp hóa chất phát triển” sẽ được tách đúng thành “công nghiệp | hóa chất | phát triển” thay vì tách sai thành “công nghiệp hóa | chất | phát triển”. Cả 2 cách phần đoạn này đều có độ dài trung bình bằng nhau, nhưng cách tách đúng có sự chênh lệch độ dài 3 từ ít hơn.

* Nhận xét:

Tuy hai tiêu chuẩn trên có thể hạn chế được một số nhập nhằng, nhưng không phải tất cả. Ví dụ với câu “ông già đi nhanh” thì cả 2 cách phân đoạn sau đều có cùng độ dài trung bình và độ chênh lệch giữa các từ: “ông | già đi | nhanh” và “ông già | đi | nhanh”, do đó thuật toán không thể chỉ ra cách phân đúng được.

Phương pháp so khớp cực đại là cách tách từ đơn giản, dễ hiểu và chạy nhanh. Hơn nữa chúng ta chỉ cần một tập từ điển đầy đủ là có thể tiến hành tách các văn bản. Tuy nhiên, phương pháp này không giải quyết được 2 vấn đề quan trọng của bài toán tách từ tiếng Việt là thuật toán gặp phải nhiều nhập nhằng; độ

chính xác của phương pháp phụ thuộc hoàn toàn vào tính đủ và tính chính xác của từ điển.

2.3. Tổng kết chương

Chương 2 đã trình bày khái quát về tách từ, lịch sử nghiên cứu tách từ tiếng Việt với các hướng tiếp cận dựa trên từ điển, tiếp cận dựa trên thống kê từ và các hiện tượng nhập nhằng trong tiếng Việt.

Ngoài ra, chương này còn tìm hiểu một số phương pháp tách từ tiếng Việt như: So khớp cực đại, mô hình Markov ẩn, chuyển dịch trạng thái hữu hạn có trọng số và mô hình chuỗi xác suất có điều kiện. Dựa trên các phân tích về ưu khuyết điểm của mỗi phương pháp tách từ tiếng Việt, chúng tôi chọn phương pháp so khớp cực đại cho mục tiêu ứng dụng phân loại văn bản tự động của mình.

Chương 3

HỆ HỖ TRỢ PHÂN LOẠI VÀ TÌM KIẾM VĂN BẢN 3.1. Thực trạng việc ứng dụng CNTT trong Văn phòng HĐND tỉnh

Văn phòng Hội đồng nhân dân tỉnh là cơ quan giúp việc của HĐND tỉnh, có trách nhiệm tham mưu và tổ chức phục vụ hoạt động của HĐND, Thường trực HĐND, Ban của HĐND và đại biểu HĐND tỉnh. Để đảm bảo cho công việc luôn được thông suốt, đáp ứng kịp thời trong công việc, tất cả các bộ phận trong Văn phòng đều được trang bị máy vi tính với nhiều chủng loại, nguồn gốc khác nhau và tương đối đồng bộ với tổng số 35 bộ.

Hiện nay, ứng dụng CNTT trong hoạt động quản lý ở Văn phòng được thể hiện qua việc sử dụng máy tính để soạn thảo văn bản, in ấn tài liệu, là phương tiện để lưu trữ tài liệu, tra cứu khi cần thiết; Bộ phận văn thư thường xử lý luồng thông tin đầu vào (công văn, giấy tờ...) qua sổ công văn đến và luồng thông tin đầu ra qua sổ công văn đi; Trong nội bộ cơ quan Văn phòng, các công văn được sao nhân ra nhiều bản để gửi tới các phòng, ban, bộ phận trong cơ quan; Các văn bản được lưu trữ ở một loạt tủ đựng hồ sơ với nhiều cặp đựng tài liệu trong các phòng, ban. Công việc này cần nhiều người đảm nhận, quản lý, sắp xếp và lưu trữ văn bản trong các ngăn tủ với đủ thể loại kẹp tài liệu. Trong quá trình thực hiện công việc này không tránh khỏi các văn bản dễ bị nhàu nát, khó khăn trong công việc lưu trữ và tìm kiếm văn bản khi cần. Những công việc này vẫn còn mang tính thủ công; Việc lưu trữ những văn bản tài liệu trong máy tính còn hạn chế. Tuy nhiên, hàng năm Thường trực, lãnh đạo các Ban và Văn phòng HĐND tỉnh ban hành một khối lượng văn bản rất lớn, đòi hỏi việc sắp xếp lưu trữ phải khoa học, hợp lí để tra cứu, tìm kiếm văn bản nhanh, chính xác. Thực trạng quản lý văn bản trong đơn vị tồn tại nhiều bất cập.

Do đó để phân loại, tìm kiếm văn bản trên các cơ sở khoa học là hết sức có ý nghĩa và cần thiết. Chính vì vậy, chúng tôi đã dựa vào một số kỹ thuật xử lý ngôn ngữ tiếng Việt đã được nghiên cứu để xây dựng hệ hỗ phân loại và tìm kiếm văn bản tự động.

3.2. Giới thiệu và đặt bài toán về tự động hóa phân loại và lưu trữ

3.2.1. Giới thiệu

Trong khuôn khổ luận văn này, việc phân loại và lưu trữ văn bản tự động là máy tính giúp đỡ con người trong những công việc có liên quan như phân loại, lưu trữ, tra cứu, tìm kiếm văn bản thay bằng phương pháp thủ công. Qua đó, tự động hóa vấn đề này ở Văn phòng HĐND tỉnh giúp CBCC cơ quan tiết kiệm thời gian làm việc, nâng cao hiệu quả công việc, đồng thời nó cũng giúp tiết kiệm chi phí. Hơn thế nữa, ứng dụng hệ thống lưu trữ tự động sẽ góp phần thuận lợi trong việc bảo quản, lưu trữ tài liệu, hồ sơ một cách khoa học, nhanh chóng.

3.2.2. Đặt bài toán

Cho văn bản tiếng Việt, sau khi xử lý chương trình sẽ tự động phân loại được văn bản đó thuộc loại văn bản nào, nơi nào ban hành, ngày ban hành, thuộc lĩnh vực nào. Sau đó tự động lưu văn bản vào cơ sở dữ liệu và lưu tệp văn bản lên máy chủ.

Người dùng có thể tìm kiếm văn bản theo một hoặc nhiều tiêu chí sau: Loại văn bản, nơi ban hành, khoảng thời gian ban hành, lĩnh vực và đặc biệt tìm theo các từ khóa mà người dùng nhớ có xuất hiện trong trích yếu.

3.2.3. Giải quyết bài toán

Hình 3.1. Mô hình tổng quát của quá trình xử lý

3.2.3.1. Mô tả quy trình tách từ tiếng Việt

Tách từ là vấn đề quan trọng nhất của chương trình, nó quyết định chương trình có thực hiện đúng và chính xác việc phân loại hay không là nhờ kết quả của việc tách từ đúng hay sai. Do đặc điểm tiếng Việt, trong đó đặc điểm tiếng Việt không thể tách từ bằng khoảng trắng và nhập nhằng trong tiếng Việt nên việc tách từ gặp nhiều khó khăn.

Mỗi phương pháp tách từ có ưu, nhược điểm riêng. Phương pháp so khớp cực đại là cách tách từ đơn giản, dễ hiểu và chạy nhanh. Hơn nữa chúng ta chỉ cần một tập từ điển đầy đủ là có thể tiến hành tách các văn bản. Do đó, trong

ĐẦU RA ĐẦU VÀO QUÁ TRÌNH XỬ LÝ Người dùng Tách từ Văn bản tiếng Việt Phân loại Văn bản đã được giải quyết

Lưu trữ

Tra cứu, tìm kiếm

luận văn này chúng tôi lựa chọn phương pháp so khớp cực đại để xây dựng ứng dụng của mình.

Hình 3.2. Quy trình tách từ

Đầu vào là một câu, một văn bản

Đầu ra là chuỗi từ, cụm từ đã được tách.

Chúng ta bắt đầu duyệt từ đầu chuỗi, xác định đâu là từ. Đầu tiên chúng ta sẽ kiểm tra xem từ đầu tiên có phải là từ có trong kho dữ liệu không, sau đó kiểm tra tiếp chữ kế tiếp có trong kho dữ liệu hay không, nếu chữ đầu tiên và chữ kế tiếp có trong kho dữ liệu thì chương trình sẽ đọc chữ tiếp theo, cứ như vậy cho đến khi đọc chữ tiếp theo mà dãy chữ đó không có trong kho dữ liệu thì sẽ dừng lại và lấy từ là dãy chữ đã đọc được, tức là chương trình sẽ duyệt một ngữ hoặc một câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và đánh dấu từ đó. Sau đó tiếp tục quá trình trên với tất các các từ kế tiếp cho đến hết câu.

Ví dụ 1:

V/v thành lập Đoàn giám sát tình hình triển khai thực hiện Nghị quyết của HĐND tỉnh về phát triển du lịch tỉnh Phú Yên

Tách từ: V/v | thành lập | Đoàn | giám sát | tình hình | triển khai | thực hiện | Nghị quyết | của | HĐND| tỉnh | về | phát triển | du lịch | tỉnh | Phú Yên

Văn bản

Tách từ

Kho dữ liệu

* Ví dụ 2: V/v bổ sung kinh phí để thay thế, sửa chữa nâng cấp hệ thống máy tính phục vụ bạn đọc của Thư viện tỉnh Phú Yên.

Tách từ: V/v | bổ sung | kinh phí | để | thay thế| sửa chữa | nâng cấp | hệ thống | máy tính | phục vụ | bạn đọc | của | Thư viện | tỉnh | Phú Yên.

3.2.3.2. Mô tả quy trình phân loại và lưu trữ văn bản

Hình 3.3. Quy trình phân loại và lưu trữ văn bản

* Ví dụ 1: Cho văn bản: Tệp văn bản: “QD HDND.doc”; Số: 15/QĐ-HĐND; Lưu Trang người dùng Lưu Số/Ký hiệu Trích yếu Nơi lưu trữ Trang xử lý Nhập bằng tay Cơ sở dữ liệu Loại văn bản Nơi ban hành Ngày ban hành Lĩnh vực Văn bản Tải lên Văn bản Tách từ Số/Ký hiệu Ngày ban hành Trích yếu Tra cứu Tìm kiếm

Ngày ban hành: Ngày 27 tháng 11 năm 2014;

Trích yếu: Thành lập Đoàn giám sát tình hình triển khai thực hiện Nghị quyết của HĐND tỉnh về phát triển du lịch tỉnh Phú Yên;

Chương trình ứng dụng kỹ thuật tách từ sẽ xử lý dữ liệu trên như sau:

Loại văn bản: QĐ-> Quyết định;

Cơ quan ban hành: HĐND -> Hội đồng nhân dân; Ngày ban hành: 27/11/2014;

Tách từ: Thành lập | Đoàn | giám sát | tình hình | triển khai | thực hiện | Nghị quyết | của | HĐND| tỉnh | về | phát triển | du lịch | tỉnh | Phú Yên;

Gợi ý cho người quản trị lĩnh vực của văn bản: du lịch -> du lịch;

Sau khi phân loại xong, người quản trị kiểm tra lại dữ liệu nếu đúng thì văn bản sẽ được lưu vào cơ sở dữ liệu, tệp văn bản sẽ được tải lên máy chủ.

* Ví dụ 2:Cho văn bản:

Tệp văn bản: “CV HDND.doc”; Số: 150/HĐND-KTNS;

Ngày ban hành: Ngày 20 tháng 01 năm 2015;

Trích yếu: Bổ sung kinh phí để thay thế, sửa chữa nâng cấp hệ thống máy tính phục vụ bạn đọc của Thư viện tỉnh Phú Yên.

Chương trình ứng dụng kỹ thuật tách từ sẽ xử lý dữ liệu trên như sau:

Loại văn bản: Công văn (không có ký hiệu loại văn bản); Cơ quan ban hành: HĐND -> Hội đồng nhân dân;

Ngày ban hành: 20/01/2015;

Tách từ: Bổ sung | kinh phí | để | thay thế| sửa chữa | nâng cấp | hệ thống |

máy tính | phục vụ | bạn đọc | của | Thư viện | tỉnh | Phú Yên. Gợi ý cho người quản trị lĩnh vực của văn bản:

- Máy tính -> CNTT; - Thư viện -> Giáo dục;

Sau khi phân loại xong, người quản trị kiểm tra lại dữ liệu nếu đúng thì văn bản sẽ được lưu vào cơ sở dữ liệu, tệp văn bản sẽ được tải lên máy chủ.

3.2.3.3. Mô tả quy trình tra cứu và tìm kiếm văn bản

Hình 3.4. Quy trình tra cứu và tìm kiếm văn bản

Ví dụ: Giả sử có 5 văn bản có trích yếu như sau:

Văn bản 1: Kết quả giám sát tình hình triển khai thực hiện các Chương trình mục tiêu Quốc gia về lĩnh vực văn hóa - xã hội trên địa bàn tỉnh Phú Yên, giai đoạn 2012-2014.

Văn bản 2: Quy định về xét tặng danh hiệu “Nhà giáo Nhân dân”, “Nhà

giáo Ưu tú”.

Văn bản 3: Thực hiện tự kiểm tra và gửi văn bản quy phạm pháp luật

thuộc lĩnh vực quản lý nhà nước của Bộ Y tế.

Văn bản 4: Về việc tăng cường công tác đảm bảo trật tự, an toàn giao

thông năm 2015. Từ, cụm từ tìm kiếm CSDL Chuỗi từ tìm kiếm Các VB cần tìm Tách từ Tra vào Cho ra

Văn bản 5: Kết quả giám sát về tình hình triển khai thực hiện Chương trình mục tiêu Quốc gia về nước sạch và vệ sinh môi trường nông thôn trên địa bàn tỉnh giai đoạn 2012 – 2014.

Với chuỗi từ tìm kiếm là: “giám sát thực hiện”;

Chương trình sẽ ứng dụng kỹ thuật tách từ để tách chuỗi từ trên thành các từ: “giám sát” và “thực hiện”;

Sau đó chương trình sẽ tìm kiếm và đưa ra các văn bản có xuất hiện các từ này trong trích yếu. Chương trình sắp xếp tự động theo thứ tự ưu tiên cho những văn bản gần với nội dung tìm kiếm nhất (xuất hiện các từ tìm kiếm nhiều lần

Một phần của tài liệu Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng (Trang 45)

Tải bản đầy đủ (PDF)

(67 trang)