Rút trích lớp của các thực thể có tên

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 194 - 198)

Nhận dạng mã tiếng Việt và khối văn bản tin

Hiện nay, các trang web ở Việt Nam dùng rất nhiều bảng mã khác nhau. Do đó, trước khi có thể rút trích thông tin trong một văn bản cần phải nhận ra bảng mã cụ thể đang được dùng cho văn bản đó. Chúng tôi đã phát triển một module chuyển mã tiếng Việt để nhận dạng và chuyển mã của một trang Web bất kỳ về dạng Unicode chuẩn, kết hợp phương pháp dựa trên thẻ META và so trùng mã ký tự. Hiện tại module này được tích hợp trong VN-KIM IE với các tính năng sau:

1. Hỗ trợ ba bảng mã tiếng Việt thông dụng nhất ở Việt Nam hiện nay là VNI, TCVN3, và TCVN6909.

2. Có khả năng nhận biết thông minh khi trang Web chứa nhiều mã tiếng Việt khác nhau, và chuyển mã xuôi và ngược.

3. Chuyển mã nhanh do các bảng mã được tích hợp vào bộ nhớ và xử lý theo cơ chế phân luồng.

Mặt khác, một trang Web chứa và hiển thị các khối thông tin khác nhau như các hình quảng cáo, thực đơn, liên kết, và đặc biệt là các văn bản tin tức. Con người có thể nhận biết dễ dàng các khối thông tin này, nhưng máy tính thì không. Trong vấn đề rút trích thông tin trong các trang Web mà đề tài giải quyết, khối thông tin quan tâm chủ yếu là các khối văn bản mang tin tức thời sự. Vì vậy, chúng tôi nghiên cứu và phát triển một module để phát hiện tự động và chuyển vị trí các khối văn bản tin tức này cho các module theo sau tham khảo và xử lý trong quá trình rút trích thông tin.

Việc khảo sát các công trình liên quan ở trên cho thấy chưa có một phương pháp nào hoàn toàn tự động rút trích tức thời các khối văn bản tin tức đang đọc. Vì vậy, chúng tôi đề xuất một phương pháp hoàn toàn tự động để thực hiện việc này cho một trang Web A qua ba bước sau:

1. Tự động tìm kiếm một nhóm các trang Web B có cùng khung mẫu với A.

2. Chuyển tất cả các trang Web sang cấu trúc cây.

3. Lần lượt so trùng cây của A với cây của mỗi trang trong nhóm trang Web B. Nếu có một cặp có cấu trúc đủ tương tự nhau, thì suy diễn ra khung mẫu chung của chúng.

Gán nhãn từ loại và nhận biết danh từ riêng

Thành phần nhận diện thực thể có tên của VN-KIM cần thông tin về từ loại (Parts-Of-Speech − POS) của các từ xuất hiện trong văn bản cần rút trích để so trùng mẫu.

Đặc biệt trong đó là các danh từ riêng (Proper Noun) vì chúng tạo nên các tên thực thể.

Trong đề tài này, chúng tôi sử dụng kiến trúc và môi trường của GATE để phân đoạn từ tiếng Việt theo luật. Tập hợp 48 từ loại tiếng Việt của Uỷ ban Khoa học Xã hội Việt Nam ([12]) được sử dụng cho việc gán nhãn từ loại. Về hướng tiếp cận, chúng tôi kết hợp phương pháp xác suất với phương pháp dựa trên luật.

Các luật được xây dựng theo văn phong, tức cách viết văn của mỗi người, mỗi thể loại văn bản, căn cứ vào cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ loại cho các từ. Việc dùng luật thường gặp trường hợp mập mờ vì một từ loại có thể đi cạnh các từ loại khác nhau. Vì vậy, phương pháp xác suất sẽ giúp phân giải và chọn lựa tổ hợp từ loại trội nhất theo kết quả đã thống kê. Cụ thể, VN-KIM kết hợp và sử dụng một bộ gán nhãn dựa trên luật và một bộ gán nhãn Trigram.

Trong đó bộ gán nhãn Trigram sử dụng kết hợp hai nguồn thông tin là: (1) một từ điển tiếng Việt khoảng 80.000 từ, trong đó mỗi từ có kèm theo danh sách các nhãn và tần suất xuất hiện tương ứng của chúng; và (2) một ma trận gồm các bộ ba nhãn từ loại có thể xuất hiện liền nhau trong văn bản với các tần số xuất hiện của chúng. Nguồn thông tin thứ hai này thu được dựa vào kho ngữ liệu mẫu với khoảng 79.000 từ đã gán nhãn. Các loại dấu câu và các ký hiệu khác trong văn bản được xử lý như các đơn vị từ vựng, với nhãn chính là dấu câu tương ứng. Còn ở trong bộ gán nhãn dựa trên luật, chúng tôi đã xây dựng được trên 270 luật để nhận diện 48 từ loại và các kiểu ngày tháng năm. Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác khoảng 80% nếu chỉ dùng phương pháp xác suất và đạt khoảng 90% nếu dùng phương pháp kết hợp.

Nhận biết lớp thực thể

Điểm phân biệt VN-KIM IE với các hệ thống khác là hệ thống này rút trích thông tin viết bằng tiếng Việt, với những đặc thù về ngôn ngữ. Dựa trên kiến trúc GATE, VN-KIM IE nhận ra lớp của các thực thể có tên và tham chiếu đến thực thể tương ứng trong cơ sở tri thức, nếu có. Theo hướng tiếp cận này, mã nguồn mở GATE được biến đổi để có thể sử dụng được các thông tin lưu trữ trong Ontology và cơ sở tri thức cụ thể mà đề tài xây dựng.

Việc làm này, theo kinh nghiệm của dự án KIM, là không đơn giản vì tất cả các lớp xử lý của hệ thống đều phải được lập trình lại, tuy nhiên vẫn ít tốn kém hơn nếu phải phát triển từ đầu tất cả các công cụ xử lý ngôn ngữ tự nhiên mà GATE đã có.

Hình 2.2 minh họa các thành phần xử lý tuần tự tài liệu của VN-KIM, cho đến khi các chú thích ngữ nghĩa của thực thể có tên mà tài liệu đề cập đến được sinh ra. Các bước tiền xử lý ngôn ngữ tự nhiên đã được trình bày ở trên. Hai bước chính còn lại là so trùng cụm từ và so trùng mẫu.

Hình 2.2 Sơ đồ các bước chú thích ngữ nghĩa trong VN-KIM

Ở bước so trùng cụm từ, các chuỗi Token được gán nhãn là tên riêng sau bước gán nhãn từ loại được so trùng với các tên khác nhau của các thực thể trong cơ sở tri thức, từ đó sinh ra các chú thích tạm thời cho các thực thể trong cơ sở tri thức xuất hiện trong tài liệu. Ví dụ, trong tài liệu đầu vào có chuỗi “Hà Nội” và trong cơ sở tri thức thì chuỗi này có thể là bí danh của ba thực thể khác nhau (thủ đô “Hà Nội”, di tích thành cổ “Hà Nội”, địa điểm du lịch “Hà Nội”). Như vậy có ba chú thích được sinh ra ứng với chuỗi này. Mỗi chú thích bao gồm lớp thực thể và địa chỉ liên kết với thực thể tương ứng trong cơ sở tri thức. Quá trình này sẽ đảm bảo cho hệ thống nhận diện được các thực thể trong cơ sở tri thức xuất hiện trong tài liệu.

Trong GATE, thành phần Gazetteer thực hiện việc so trùng chính xác một cụm từ với cơ sở tri thức có sẵn. Tuy nhiên, Gazetteer của GATE dùng cho tiếng Anh nên chưa hỗ trợ Ontology và thông tin lưu trữ trong cơ sở tri thức của VN-KIM. Ngoài ra, Gazetteer của GATE còn một số nhược điểm như phân biệt chữ hoa và chữ thường, còn hạn chế về

Nội dung tài liệu

Phân đoạn từ

Tách câu

So trùng cụm từ

So trùng mẫu Ontology

Cơ sở tri thức và Ngữ liệu

Chú thích ngữnghĩa

……

...

Gán nhãn từloại Nội dung tài liệu

kích thước từ điển, và cơ chế so trùng chưa nhanh. Do đó, thành phần này được xây dựng lại trong VN-KIM IE, được gọi là VN Hash Gazetteer.

Để tránh sự phân biệt chữ hoa và thường như trong GATE, và sự không nhất quán trong cách viết tắt các danh từ riêng và bỏ dấu thanh trong tiếng Việt, chúng tôi chuẩn hóa cụm từ trước khi đem so trùng. Trong bước chuẩn hóa này, tất cả các cách viết tên riêng trong dữ liệu đầu vào sẽ được đưa về một dạng chuẩn qui ước duy nhất, như đã thực hiện khi xây dựng cơ sở tri thức của VN-KIM. Thêm vào đó, chúng tôi sử dụng kỹ thuật băm các tên thực thể để tăng tốc độ so trùng, vì số lượng các thực thể có trong cơ sở tri thức rất lớn.

Tiếp theo, ở bước so trùng mẫu, tập luật viết dựa trên văn phạm JAPE của GATE được sử dụng hiệu chỉnh lại các thông tin nhận dạng bởi thành phần so trùng cụm từ và nhận dạng thêm các thực thể có tên không có trong cơ sở tri thức. Việc nhận dạng thêm này được thực hiện trên cơ sở các cách viết tên thực thể trong tiếng Việt. Ví dụ như chuỗi bắt đầu bằng một tiền tố công ty (như “công ty”, “xí nghiệp”, “hãng”), theo sau là một cụm từ chỉ loại hình công ty (như “liên doanh”, “TNHH”), cuối cùng là một chuỗi các từ viết hoa chữ cái đầu, thì chuỗi đó có thể là bí danh của một thực thể thuộc về lớp công ty.

Một ví dụ cho trường hợp này là chuỗi “Công ty TNHH Hòa Bình”.

Văn phạm so trùng mẫu đã chứng tỏ sự tương thích với xử lý ngôn ngữ tự nhiên và rút trích thông tin. Bộ xử lý văn phạm JAPE là một phần của kiến trúc GATE, cho phép đặc tả các luật so trùng trên những mẫu chú thích. Vì thế chúng ta có thể định ra các hành động và các chuyển đổi sẽ xảy ra nếu một luật so trùng với một cụm từ trong văn bản.

Chúng tôi đã điều chỉnh bộ xử lý JAPE nhằm điều khiển các thông tin liên quan đến Ontology và so trùng các mẫu chú thích.

GATE cung cấp một số luật văn phạm JAPE có sẵn trong thành phần có tên gọi ANNIE, giúp nhận ra và so trùng một số lớp cơ bản như con người, nơi chốn, tổ chức, ...

Tuy nhiên, tập luật này áp dụng cho các thực thể có tên tiếng Anh và dựa trên thành phần gán nhãn từ loại tiếng Anh sẵn có của GATE. Vì thế, chúng tôi đã đặc tả một tập luật mới hoàn toàn so với ANNIE để áp dụng cho các thực thể có tên tiếng Việt.

Trong tập luật này, mỗi luật được mô tả thông qua đặc tả lớp của các thực thể trong mẫu. Quá trình so trùng dùng nguyên tắc viết tên thực thể chính quy và không chính quy để xác định chú thích phù hợp có cùng lớp (hay thuộc lớp con) với lớp trong mẫu văn phạm. Nhờ vậy chúng ta có thể xác định một mẫu tham chiếu đến một lớp cha bên trên (ví

dụ lớp tổ chức) cho phép tất cả các lớp con bên dưới (tổ chức thương mại, tổ chức giáo dục đào tạo, tổ chức nhà nước và các lớp tổ chức khác) cũng so trùng được với luật văn phạm trên.

Tuy nhiên, việc xây dựng tập luật này cho tiếng Việt là không đơn giản vì vẫn chưa tồn tại một chuẩn trong việc viết các danh từ riêng tiếng Việt trên báo chí hiện nay. Bên cạnh đó, việc xác định lớp cho các thực thể có tên không chỉ đơn thuần dựa vào từ điển, vì có nhiều thực thể khác nhau có cùng tên. Ví dụ để xác định xem thực thể “Sài Gòn” mà tài liệu đề cập đến là một thành phố, một con sông hay một nhà máy bia, không chỉ cần phải xét ngữ cảnh nơi từ đó xuất hiện mà còn phải xét đến các nguyên tắc không chính quy trong việc viết tên riêng tiếng Việt. Chẳng hạn như đối với câu “Tôi làm việc ở Sài Gòn”

thì theo ý nghĩa chính quy của câu không nhất thiết thực thể “Sài Gòn” phải là thành phố mà cũng có thể là nhà máy bia.

Hiện tại, VN-KIM IE có gần 300 luật so trùng mẫu viết bằng văn phạm JAPE. Các luật này được phân thành từng nhóm chạy tuần tự, thực hiện các bước xử lý khác nhau, cho đến khi xác định được lớp của một thực thể và liên hệ nó với thông tin mô tả trong cơ sở tri thức nếu có. Hiệu quả của VN-KIM đã được đánh giá bởi Corpus Benchmark Tool của GATE và người sử dụng ở công ty du lịch VYC và báo Người lao động, cho thấy độ chính xác (Precision) và độ đầy đủ (Recall) vào khoảng 80%.

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 194 - 198)

Tải bản đầy đủ (PDF)

(208 trang)