Các cơng trình liên quan nhận dạng thực thể tiếng Việt

Một phần của tài liệu Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân (Trang 34 - 39)

Tƣơng tự nhƣ những bài tốn nhận dạng thực thể trong các tài liệu tiếng Anh, trong tiếng Việt, một số cơng trình nghiên cứu sử dụng các phƣơng pháp truyền thống hay phƣơng pháp học máy để giải quyết bài tốn nhận dạng thực thể.

Thao P.T.X. và cộng sự [22] đã đề cập tới việc khai thác các chiến lƣợc bỏ phiếu (voting) bằng cách tổ hợp các bộ máy huấn luyện sử dụng phƣơng pháp dựa trên từ (word-based). Nhĩm tác giả tổ hợp các máy huấn luyện sử dụng các thuật tốn phân lớp khác nhau (SVM, CRF, TBL, Nạve Bayes) và đƣa ra kết luận là nếu tổ hợp nhƣ vậy kết quả cao hơn khi sử dụng riêng rẽ mỗi thuật tốn. Cụ thể, hệ thống khi kết hợp các thuật tốn cho hiệu suất cao hơn với độ đo F1 = 89,12%.

Cũng liên quan tới bài tốn nhận dạng thực thể tiếng Việt, trong hội nghị SOICT 2013 - the Fourth Symposium on Information and Communication Technology, Lê Thanh Hƣơng cùng các cộng sự đã đề xuất sử dụng phƣơng pháp lan truyền nhãn trong việc xây dựng hệ thống nhận dạng thực thể từ văn bản tiếng Việt [20]. Với ƣu điểm của các phƣơng pháp học máy bán giám sát là tận dụng các nguồn dữ liệu chƣa đƣợc gắn nhãn lớn để hỗ trợ thơng tin cho mơ hình học, phƣơng pháp này đã đạt đƣợc

những kết quả khả quan trong nhận diện ba thực thể phổ biến là ngƣời, địa danh, tổ chức. Ý tƣởng chính của phƣơng pháp là áp dụng giải thuật lan truyền nhãn trên đồ thị từ vựng để phân lớp các cụm danh từ vào ba nhãn lớp liên quan đến ngƣời, địa danh, tổ chức. Bên cạnh đĩ, nhĩm tác giả cũng đƣa ra cách thức tính độ tƣơng đồng giữa các từ sử dụng cây ngữ nghĩa và ngữ cảnh xung quanh từ vựng. Giá trị của độ tƣơng đồng sẽ là trọng số của cạnh nối giữa hai từ vựng trên đồ thị.

Một nghiên cứu tiêu biểu khác cĩ liên quan đến bài tốn nhận dạng thực thể ở Việt Nam là nghiên cứu xây dựng bộ cơng cụ VN-KIM IE [9][18] của nhĩm nghiên cứu do PGS.TS. Cao Hồng Trụ đứng đầu, thuộc trƣờng Đại học Bách khoa TP. Hồ Chí Minh. Chức năng của VN-KIM IE là nhận dạng và gắn nhãn lớp tự động cho các thực thể cĩ tên trên các trang Web tiếng Việt và nối kết nĩ với cơ sở tri thức tƣơng ứng. Thơng tin về lớp của các thực thể sẽ đƣợc nhúng vào các trang Web đề cập đến chúng, làm cơ sở cho việc truy hồi tài liệu theo ngữ nghĩa hơn là từ khố. Hệ thống đƣợc xây dựng gồm ba thành phần chính:

Ontology: Định nghĩa các lớp thực thể, bao gồm sự phân loại của các khái niệm thực thể và quan hệ giữa chúng.

Các danh hiệu thực thể: Phân biệt các thực thể với nhau và đƣợc liên kết với các mơ tả ngữ nghĩa của chúng.

Cơ sở tri thức: Mơ tả các thơng tin cụ thể về các thực thể.

Quá trình nhận dạng thơng tin của VN-KIM IE bao gồm các bƣớc chính2:  Chuyển các trang Web về một dạng và với một mã tiếng Việt chung: Hiện tại cĩ

nhiều bảng mã tiếng Việt khác nhau và chƣa cĩ một qui định thống nhất cho việc sử dụng chúng. Ngay cả trong một trang Web, các đoạn văn bản khác nhau nhiều khi đƣợc soạn với những bảng mã khác nhau. Vì vậy, trƣớc khi cĩ thể xử lý thơng tin trong một trang Web, cần phải xác định tự động các bảng mã mà nĩ sử dụng, và chuyển trang Web về một mã tiếng Việt chung. VN-KIM IE hiện cĩ thể nhận dạng các bảng mã tiếng Việt thơng dụng nhất là UTF-8, VNI và TCVN.

Nhận dạng khối văn bản mang tin tức chính trên các trang báo: Trong một trang báo điện tử, ngồi các khối văn bản mang tin tức chính, cịn cĩ các khối khác nhƣ thực đơn, hình ảnh quảng cáo, …. Một phƣơng pháp đã đƣợc nghiên

2 http://www.cse.hcmut.edu.vn/~tru/VN-KIM/products/vnkim-ie.htm

cứu và hiện thực trong VN-KIM IE để xác định và nhận dạng tự động các khối tin tức này. Đây là các đoạn văn bản sẽ đƣợc chú giải ngữ nghĩa cho các thực thể cĩ tên xuất hiện trong đĩ.

Nhận dạng các từ và từ loại tương ứng của chúng trong văn bản: Việc nhận dạng một thực thể cĩ tên cần cĩ thơng tin về từ loại của các từ xuất hiện trong ngữ cảnh của thực thể đĩ. Trong mỗi mẫu nhận dạng các thực thể thuộc về một lớp cĩ qui định từ loại cho các từ xuất hiện xung quanh tên của các thực thể đĩ. Vì vậy, văn bản sẽ đi qua module phân đoạn từ và gán nhãn từ loại tiếng Việt trƣớc khi đƣợc nhận dạng thực thể và chú thích ngữ nghĩa.

Nhận dạng thực thể cĩ tên xuất hiện trong văn bản: Ở giai đoạn ban đầu, hệ thống nhận ra sơ bộ các thực thể nhờ vào tên riêng của chúng xuất hiện trong cơ sở tri thức của VN-KIM đã xây dựng. Tuy nhiên, việc nhận dạng thực thể đơn thuần dựa vào tên riêng cĩ thể sai, vì các thực thể khác nhau cĩ thể cĩ cùng tên.

Ví dụ: Sài Gịn vừa là tên của một thành phố, vừa là tên của một con sơng. Sử dụng trên GATE và văn phạm JAPE của nĩ, một tập các luật nhận dạng theo mẫu đã đƣợc xây dựng để xác định chính xác hơn lớp các thực thể. Các luật này dựa trên cơ sở tri thức cụ thể của VN-KIM và thơng tin từ loại do module gán nhãn từ loại tiếng Việt cung cấp. Quá trình nhận dạng diễn ra theo nhiều pha và luồng khác nhau để loại bỏ các trƣờng hợp nhập nhằng và nhận dạng sai đến mức tối đa cĩ thể. Sau khi đƣợc nhận dạng, lớp của mỗi thực thể và địa chỉ của nĩ trong cơ sở tri thức, nếu cĩ, sẽ đƣợc chú thích bên cạnh sự xuất hiện của thực thể trong văn bản.

Giải quyết sự nhập nhằng và đồng tham chiếu của thực thể cĩ tên: Sự nhập nhằng xảy ra khi một tên cĩ thể chỉ đến hai thực thể khác nhau. Ví dụ: tên đƣờng Trần Hƣng Đạo cĩ thể chỉ đến con đƣờng cùng tên ở TP. Hồ Chí Minh hoặc con đƣờng ở thủ đơ Hà Nội. Mặt khác, hai tên khác nhau cĩ thể chỉ đến cùng một thực thể, gọi là sự đồng tham chiếu. Ví dụ: TP. Hồ Chí Minh và TP. Sài Gịn là hai tên gọi khác nhau của một thành phố. Một số giải thuật đã đƣợc nghiên cứu và hiện thực trong VN-KIM IE để giải quyết hai vấn đề này, nhƣng tốc độ xử lý cịn cần phải đƣợc cải thiện.

Hiệu quả nhận dạng thực thể của VN-KIM IE đã đƣợc đánh giá bằng CBT (Corpus Benchmark Tool) của GATE3, dựa trên một kho ngữ liệu chứa các thực thể cĩ tên đƣợc chú thích mẫu bằng tay. Kho ngữ liệu này dùng để đánh giá, nĩ chứa một số các tài liệu vừa đủ lớn, bao gồm tin tức đƣợc lấy từ các báo điện tử phổ biến (Tuổi trẻ, Ngƣời lao động, Vnexpress, ...). Kết quả thử nghiệm cho thấy F-measure đạt đƣợc trên 80%.

Một cơng trình tiêu biểu nữa là của tác giả Đinh Đien cùng cộng sự [12], Đinh Đien xây dựng hệ thống gắn nhãn từ loại cho tiếng Việt dựa trên việc chuyển đổi và ánh xạ từ thơng tin từ loại từ tiếng Anh. Cụ thể, nhĩm đã xây dựng một tập ngữ liệu song ngữ Anh – Việt chứa khoảng 5 triệu từ. Sau đĩ thực hiện gắn nhãn cho các từ loại tiếng Anh dựa trên T L sau đĩ giĩng hàng hai ngơn ngữ Anh - Việt để chuyển thơng tin về nhãn từ loại từ tiếng Anh sang tiếng Việt với độ chính xác khoảng 87%. Cuối cùng, dữ liệu tiếng Việt với thơng tin từ loại mới thu đƣợc sẽ đƣợc hiệu chỉnh thủ cơng nhằm tăng độ chính xác để đƣa vào làm dữ liệu huấn luyện cho bộ gắn nhãn từ loại tiếng Việt. Lý do chính mà cơng trình sử dụng hƣớng tiếp cận này đĩ là việc gắn nhãn từ loại trong tiếng Anh đã rất phổ biến trong cộng đồng xử lý ngơn ngữ tự nhiên, các nghiên cứu gắn nhãn từ loại tiếng Anh thƣờng đạt độ chính xác cao (trên 97%) và tiếp nối những thành cơng đã đi trƣớc sử dụng các phƣơng pháp giĩng hàng từ (word alignment methods) giữa các cặp ngơn ngữ.

Ƣu điểm của phƣơng pháp này là tránh đƣợc việc gắn nhãn từ loại bằng tay nhờ tận dụng thơng tin từ loại ở một ngơn ngữ khác. Tuy vậy mức độ thành cơng của phƣơng pháp này cịn cần phải xem xét kỹ càng hơn. Cụ thể, nhĩm tác giả Phan Xuân Hiếu cùng các cộng sự đã nêu ra vài nhận định chủ quan về những khĩ khăn mà phƣơng pháp này gặp phải [27]:

 Sự khác biệt về cấu tạo từ, trật tự và chức năng ngữ pháp của từ trong câu làm cho việc giĩng hàng trở nên khĩ khăn.

 Lỗi tích lũy qua hai giai đoạn: (a) hàng giữa hai ngơn ngữ: lỗi tích lũy cả hai giai đoạn này sẽ ảnh hƣởng đáng kể tới độ chính xác cuối cùng.

Tập nhãn đƣợc chuyển đổi trực tiếp từ tiếng Anh sang tiếng Việt thiếu linh động và khĩ cĩ thể là một tập nhãn điển hình cho từ loại tiếng Việt: do tính chất ngơn ngữ khác nhau, việc chuyển đổi nhãn từ loại của tiếng Anh sang tiếng Việt cĩ phần áp đặt và sẽ khơng nhất quán hồn tồn với tập nhãn đƣợc xây dựng dựa trên tính chất ngơn ngữ của tiếng Việt.

3 http://gate.ac.uk/sale/tao/splitch10.html

CHƢƠNG 4. MƠ HÌNH NHẬN DẠNG THỰC THỂ TỪ HỒ SƠ NGHIỆP VỤ CƠNG AN NHÂN DÂN

4.1. Mơ hình nhận dạng thực thể tiếng Việt

Mục tiêu của luận văn nhằm nhận dạng ra các thực thể: người (Trần Văn A, Nguyễn Thế B, … ), vụ việc tham gia (đánh bạc, cá độ,…), thời gian (đêm ngày 01/01/1991, rạng sáng ngày 14/02/2008, …) và địa danh (Số nhà 14 đƣờng Hai Bà Trƣng, Hà Nội, … ) xuất hiện trong văn bản mơ tả vụ án tại hồ sơ nghiệp vụ Cơng an nhân dân đƣợc mơ tả qua hình vẽ:

Hình 4.1: Mơ hình nhận dạng thực thể tiếng Việt. Mơ hình gồm hai phần chính:

Tiền xử lý dữ liệu: Trong phần này này dữ liệu sẽ đƣợc tiến hành đƣa qua các thành phần tách câutách từ tiếng Việt.

Nhận dạng thực thể: Sau khi dữ liệu đƣợc đƣa qua các thành phần trong phần tiền xử lý dữ liệu sẽ đƣợc đƣa qua 3 thành phần nhận dạng thực thể là: nhận dạng bằng phương pháp học máy, nhận dạng bằng luậtnhận dạng bằng từ điển. Các thơng tin sẽ đƣợc nhận dạng qua các thành phần này là: người, địa danh, thời gian, vụ việc tham gia.

Các thành phần sẽ đảm nhiệm việc nhận dạng các loại thực thể khác nhau: Thành phần nhận dạng bằng phƣơng pháp học máy sẽ nhận dạng thực thể người, địa danh, thời gian; thành phần nhận dạng bằng luật sẽ nhận dạng các thực thể người, địa danh, thời gian bằng biểu thức chính quy (regular expression); thành phần nhận dạng bằng từ điển sẽ nhận dạng các thực thể địa danh, vụ việc tham gia.

Dữ liệu sau khi đƣợc nhận dạng sẽ đƣợc tổng hợp thành kết quả hồn chỉnh trong thành phần tổng hợp kết quả.

Một phần của tài liệu Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân (Trang 34 - 39)

Tải bản đầy đủ (PDF)

(58 trang)