Chức năng trích rút thơng tin

4.1. Xác định yêu cầu

Nhiệm vụ chính của đề tài là nghiên cứu hướng tiếp cận học quan hệ, cụ thể là dựa trên mơ hình RAPIER đã cĩ, cho bài tốn trích rút thơng tin tiếng Việt. Dựa trên các nghiên cứu lý thuyết và về mơ hình RAPIER đã đề xuất ở các chương trên, tác giả sẽ tiến hành cài đặt chương trình ứng dụng demo để thực nghiệm các nghiên cứu này với tiếng Việt. Trong phần dưới ta sẽ xem xét mơ hình trên khía cạnh nhìn nhận như một ứng dụng. Kết quả thực nghiệm của chương trình sẽ phản ánh hiệu quả của hướng tiếp cận và giải pháp thiết kế vnRAPIER đã đề xuất.

Nhưđã nêu ở các phần trước, do việc gán nhãn thực thể cĩ tên được thực hiện bằng tay nên chương trình thực nghiệm sẽ cĩ dạng đầu vào và đầu ra như sau:

Trong trường hợp huấn luyện:

Đầu vào:

- Khuơn mẫu định nghĩa thơng tin cần trích rút (như trong Hình 4.7).

- Tập văn bản kèm theo file chú thích đã được gán nhãn thực thể cĩ tên (Ví dụ về văn bản đầu vào như trong Hình 4.4, ví dụ về file chú thích như trong Hình 4.8).

Đầu ra: Tập luật trích rút học được (ví dụ mẫu trong Phụ lục 2).

Trong trường hợp trích rút kiểm thử:

Đầu vào:

- Khuơn mẫu định nghĩa thơng tin cần trích rút.

- File văn bản cần trích rút thơng tin đã được gán nhãn thực thể cĩ tên.

Đầu ra: Tập thơng tin trích rút được ứng với từng trường thơng tin trong khuơn mẫu.

4.2. Phân tích thiết kế hệ thống

4.2.1. Thiết kế tổng thể của hệ thống trích rút thơng tin tiếng Việt

Hình 4.1. Các chức năng hệ thống trích rút thơng tin vnRAPIER

• Chức năng Tiền xử lý văn bản: Thực hiện các thao tác xử lý tách từ và gán nhãn từ loại tiếng Việt cho tập ví dụ huấn luyện và văn bản cần trích rút thơng tin.

• Chức năng Học luật: Nhận đầu vào là các tập ví dụ huấn luyện đã được tiền xử lý (tách từ, gán nhãn từ loại) để học các luật cụ thể nhất sau đĩ khái quát hĩa tập luật.

• Chức năng trích rút: Nhận đầu vào là một văn bản hoặc một tập văn bản đầu vào cần trích rút thơng tin đã được tiền xử lý, áp dụng tập luật đã xây dựng được để so khớp và đưa ra thơng tin trích rút được đối với mỗi văn bản đầu vào.

Hệ thống trích rút

Tiền xử lý văn bản

Hình 4.2: Sơđồ hệ thống trích rút thơng tin vnRAPIER

Sơđồ hệ thống được trình bày như Hình 4.2. Khi cho hệ thống học, dữ liệu đầu vào là tập ví dụ huấn luyện và các tham số học, dữ liệu đầu ra là tập luật trích rút. Trong trường hợp học chủđộng (biểu thị bởi các đường đứt quãng ngắn), dựa vào bộ trích rút, bộ học cịn gửi lại phản hồi tới người dùng. Khi hệ thống thực hiện trích rút, dữ liệu đầu vào là văn bản cần trích rút, dữ liệu đầu ra là các thơng tin trích rút được từ văn bản đĩ.

Trong trường hợp tích hợp Bộ tựđộng nhận dạng thực thể cĩ tên thì Bộ này sẽđược đặt sau Bộ tách từ và gán nhãn từ loại và đứng trước Bộ gộp theo nhãn thực thể, thậm chí thay thế luơn hai bộ này vì trong tác vụ nhận dạng thực thể cĩ tên thường đã bao gồm hai tác vụ này. Tuy nhiên, trong trường hợp ởđây, việc gán nhãn thực thểđược thực hiện bằng tay ngay từđầu.

Tập luật

Bộ TRÍCH RÚT Văn bản cần trích rút

Giao diện Người - Máy

PHÍA HỆTHỐNG Tiền xử lý văn bản Bộ HỌC Từđiển ngữ nghĩa PHÍA NGƯỜI DÙNG Các tham số học Bộ Truy vấn ngữ nghĩa

Thơng tin trích rút được Phản hồi từ bộ học

(học chủđộng)

Khuơn mẫu thơng tin (Đã gán nhãn thực thể) Bộ GỘP THEO NHÃN THỰC THỂ Bộ TÁCH TỪ tiếng Việt Bộ GÁN NHÃN từ loại tiếng Việt (Đã gán nhãn thực thể) Tập ví dụ huấn luyện (tập mẫu)

Các mục sau đây sẽ trình bày chi tiết về từng chức năng cơ bản của hệ thống.

4.2.2. Chức năng tiền xử lý văn bản

Nhưđã đề cập ở các Chương trước, trong bước tiền xử lý văn bản, hệ thống sử dụng các cơng cụ xử lý văn bản tiếng Việt sẵn cĩ là cơng cụ tách từ và cơng cụ gán nhãn từ loại, trong đĩ khâu tách từ chỉ dùng xử lý với các khuơn mẫu (template) điền sẵn trong tập ví dụ huấn luyện. Với việc lựa chọn sử dụng cơng cụ vnTagger, cơng việc tiền xử lý được thực hiện chỉ đơn giản là gọi tới các thủ tục tương ứng của cơng cụ này với các tham số vềđầu vào, đầu ra và các tùy chọn cần thiết.

Ở cơng đoạn này, kết quả thu được từ cơng cụ này sẽ qua một bước tiểu xử lý để đồng nhất về dấu tiếng Việt, ví dụ, các vần “ịa” - “ồ”, “ủy” – “uỷ”, “tiến sỹ” – “tiến sĩ”…

Do cơng đoạn gán nhãn thực thể được thực hiện bằng tay nên cơng việc cịn lại chỉ là gộp tên thực thể theo giải thuật đã trình bày ở phần 3.2.1. Sơđồ như trong Hình 4.3 thể hiện khâu tiền xử lý văn bản cĩ bao gồm tác vụ nhận dạng thực thể cĩ tên.

Hình 4.3: Tiền xử lý văn bản đã gán nhãn thực thể cĩ tên

Ví dụ, ta cĩ một văn bản đầu vào đã được gán nhãn thực thể như sau:

Chào mừng bạn đến trang web của <name>Nguyễn Hiền </name> !

Tơi hiện là <position>trợ giảng </position> ở <organization>bộ mơn Tốn học và Khoa học máy tính </organization> của <organization>Đại học Wisconsin-Whitewater </organization>. Tơi đã tốt nghiệp từ

<organization>khoa Khoa học và cơng nghệ máy tính </organization> ở

<organization>Đại học Connecticut (UCONN) </organization>. Trước khi vào UCONN, đại học của Wisconsin- Milwaukee (UWM) là nơi tơi đã gọi điện về

nhà sau 3 năm.

Tơi quan tâm nghiên cứu về lĩnh vực <research>mơ hình hĩa người dùng đối với thu thập thơng tin, kiểu nhận thức của người dùng trong quá trình phân tích, kiểu nhận thức dựa vào đánh giá của việc tĩm tắt văn bản, lọc cộng tác </research>.

THƠNG TIN CÁ NHÂN CỦA TƠI:

<name>Nguyễn Hiền </name>

<organization>Bộ mơn Tốn học và Khoa học máy tính </organization> - <organization>Đại học Wisconsin-Whitewater </organization>

Địa chỉ: phịng 106 McGraw, 800 W. phố Main, Whitewater, WI 53190

Điện thoại cơ quan: <phone>262-472-5170</phone> Email: <email>nguyenh at uww dot edu </email>

Hình 4.4: File văn bản đầu vào đã được gán nhãn thực thể bằng tay

Văn bản cần xử lý (Đã gán nhãn thực thể)

Giao diện Người - Máy

PHÍA HỆTHỐNG Bộ GỘP THEO NHÃN THỰC THỂ PHÍA NGƯỜI DÙNG Văn bản sau xử lý Bộ GÁN NHÃN từ loại tiếng Việt Bộ TÁCH TỪ tiếng Việt

Sau khi đưa vào Bộ gán nhãn từ loại ta thu được văn bản như sau (nếu sử dụng tùy chọn đầu ra dạng plaintext):

/N Chào_mừng/V bạn/N đến/E trang_web/N của/E <name>/N Nguyễn_Hiền/Np </name>/V !/!

Tơi/P hiện/V là/V <position>/N trợ_giảng/V </position>/N ở/E <organization>/N bộ_mơn/N Tốn_học/N và/CC Khoa_học/N máy_tính/N </organization>/N của/E <organization>/N Đại_học/N Wisconsin- Whitewater/Np </organization>/N ./. Tơi/P đã/R tốt_nghiệp/V từ/E <organization>/N khoa/N Khoa_học/N và/CC cơng_nghệ/N máy_tính/N </organization>/N ở/E <organization>/N Đại_học/N Connecticut/Np (/V UCONN/Np )/V </organization>/Np ./. Trước/E khi/N vào/V UCONN/Np ,/,

đại_học/N của/E Wisconsin/Np -/- Milwaukee/Np (/V UWM/Np )/V là/V nơi/N

tơi/P đã/R gọi/V điện/N về/E nhà/N sau/A 3/M năm/N ./.

Tơi/P quan_tâm/V nghiên_cứu/V về/E lĩnh_vực/N <research>/N mơ_hình_hĩa/V người/N dùng/V đối_với/E thu_thập/V thơng_tin/N ,/, kiểu/N nhận_thức/V

của/E người/N dùng/V trong/E quá_trình/N phân_tích/V ,/, kiểu/N

nhận_thức/V dựa/V vào/E đánh_giá/N của/E việc/N tĩm_tắt/V văn_bản/N ,/, lọc/V cộng_tác/V </research>/N ./.

THƠNG_TIN_CÁ_NHÂN_CỦA_TƠI/Np :/:

<name>/N Nguyễn_Hiền/Np </name>/V

<organization>/N Bộ_mơn/N Tốn_học/N và/CC Khoa_học/N máy_tính/N

</organization>/M -/- <organization>/M Đại_học/N Wisconsin-Whitewater/Np </organization>/N

Địa_chỉ/N :/: phịng/N 106/M McGraw/Np ,/, 800/M W/Np ./. phố/N Main/Np

,/, Whitewater/Np ,/, WI/Np 53190/M

Điện_thoại/N cơ_quan/N :/: <phone>/V 262-472-5170/M </phone>/N Email/N :/: <email>/V nguyenh/N at/V uww/N dot/V edu/N </email>/V

Hình 4.5: File văn bản sau khi gán nhãn từ loại

Đưa văn bản này vào Bộ gộp theo nhãn thực thể ta sẽ thu được danh sách các mục từ là các cặp [từ/nhãn từ loại] và [tên thực thể/nhãn thực thể] như mơ tả trong phần 3.2.1 đểđưa vào xử lý.

4.2.3. Chức năng học luật

Hình 4.6: Sơđồ chức năng học luật trích rút

Học luật trích rút là chức năng chính của hệ thống, được mơ phỏng như Hình 4.6. Cũng như các hình ở trước, các đường đứt quãng ngắn để chỉ các luồng xử lý khi áp dụng phương pháp học chủđộng.

Dữ liệu:

• Dữ liệu đầu vào: tập văn bản mẫu đã được tạo chú thích và các tham số cho việc học

• Dữ liệu đầu ra: tập luật đã khái quát hĩa Chức năng học luật trích rút bao gồm:

• Bộ Học luật cụ thể nhất: thực hiện so khớp trên mỗi cặp ví dụ của tập ví dụ huấn luyện để xây dựng các luật trích rút. Bộ này cũng cĩ nhiệm vụ sinh các luật gần đúng như trình bày trong phần 3.2.2.

Bộ Truy vấn ngữ nghĩa Ti ề nx ử lý v ă nb ả n Tập ví dụ huấn luyện (tập mẫu)

Giao diện Người - Máy

PHÍA HỆTHỐNG Tập luật Bộhọc Từđiển ngữ nghĩa PHÍA NGƯỜI DÙNG Bộ Học luật cụ thể nhất Các tham số học Bộ Khái quát hĩa tập luật BộĐánh giá luật Phản hồi từ bộ học (học chủđộng) Bộ TRÍCH RÚT

• Bộ Khái quát hĩa tập luật: thực hiện khái quát hĩa tập luật từ tập luật kết quả từ lần học trước hoặc từ tập luật mới thu được từ bộ học luật cụ thể nhất. Trong tình huống học tăng cường, bộ này cĩ thể yêu cầu bộ Học luật cụ thể nhất học lại một số ví dụ khi phải loại bỏ một luật nào đĩ đã khái quát hĩa nhưng bao phủ quá nhiều ví dụ âm (phần 2.3.2).

• BộĐánh giá luật:thực hiện đánh giá luật theo một hệ thống tiêu chuẩn đánh giá thống nhất (trình bày trong phần 2.2.5). Kết quả đánh giá được cung cấp cho bộ khái quát hĩa để chấp nhận hay loại bỏ luật mới đang được khái quát.

• Tập luật: là cơ sở dữ liệu tồn bộ các luật trích rút thu được từ quá trình học, trong đĩ các luật gần đúng được tách riêng.

Biểu diễn của luật cĩ dạng giống như Prolog:

rule(TemplateName, SlotName, NumPosCovered, NumNegCovered, Pre-fillerPattern, FillerPattern, Post-fillerPattern)

trong đĩ NumPosCovered, NumNegCovered lưu số lượng ví dụ dương và âm được bao phủ.

Với luật gần đúng thì cĩ thêm mẫu HeaderPattern để so khớp theo tiêu đề của thơng tin trích rút.

rule(TemplateName, SlotName, NumPosCovered, NumNegCovered, HeaderPattern, Pre-fillerPattern, FillerPattern, Post-fillerPattern)

• Bộ Truy vấn ngữ nghĩa: thực hiện phép so sánh, tìm kiếm trên Từđiển ngữ nghĩa phục vụ cho bộ khái quát hĩa tập luật và bộ Trích rút.

• Từ điển ngữ nghĩa: cung cấp thơng tin về các lớp ngữ nghĩa và mối quan hệ giữa các lớp ngữ nghĩa theo yêu cầu của bộ Truy vấn ngữ nghĩa.

• Bộ Trích rút: trong trường hợp học chủ động theo cách tiếp cận lấy mẫu cĩ lựa chọn dựa trên độ khơng chắc chắn, bộ học cần tới bộ Trích rút để thử áp dụng tập luật hiện cĩ trên tập ví dụ mới để tìm ra ví dụ

khơng chắc chắn nhất. Từ đĩ đưa phản hồi lại cho người dùng để lựa chọn ví dụ này vào học.

Các bước thực hiện:

• Nhập khuơn mẫu thơng tin (template): thao tác này được thực hiện bằng tay bởi người dùng (qua giao diện chương trình hoặc nhập trực tiếp vào file XML), trong đĩ cĩ định nghĩa các trường thơng tin, mỗi trường cĩ chứa tham số về độ rộng cửa sổ lân cận như đã trình bày trong phần 3.2.3. Hình 4.7 là một ví dụ về khuơn mẫu thơng tin.

• Nhập tập huấn luyện: thao tác này được thực hiện bởi người dùng. Các văn bản ví dụ cùng với phần chú thích kèm theo được nhập vào dưới dạng tệp tin văn bản cĩ cùng tên, khác nhau ở phần mở rộng tệp tin. Phần chú thích chính là khuơn mẫu thơng tin được điền các giá trị đúng (đáp số) đối với văn bản mà nĩ đi kèm. Hình 4.8 là một ví dụ về file chú thích.

• Tiền xử lý văn bản: các văn bản ví dụ cùng với tệp tin chú thích kèm theo được đưa vào khâu tiền xử lý trước khi chuyển cho bộ học. Các văn bản ví dụđược gán nhãn từ loại cịn tệp chú thích kèm theo thì chỉ cần qua bước tách từ. Trong trường hợp thử nghiệm tích hợp nhận dạng thực thể cĩ tên thì khâu gán nhãn thực thể được thực hiện bằng tay trước khi đưa vào tách từ hoặc gán nhãn từ loại.

Sau cơng đoạn này các ví dụ huấn luyện được nạp vào bộ nhớ dưới các dạng danh sách liên kết. Đối với mỗi văn bản ví dụ, mỗi phần tử của danh sách là một cặp [từ/nhãn từ loại] hoặc [tên thực thể/nhãn thực thể]. Đối với mỗi phần chú thích, mỗi trường thơng tin sẽ là một danh sách thơng tin cần trích rút đúng, mỗi thơng tin đĩ biểu diễn dưới dạng một danh sách liên kết các từ hoặc tên thực thể. Hình 4.9 mơ phỏng cấu trúc của mỗi ví dụ huấn luyện.

<?xml version="1.0" encoding="utf-8"?> <Template Name="viet-sciences">

Hình 4.7: Ví dụ về khuơn mẫu thơng tin trích rút

viet-sciences

*tên: <name>Nguyễn Hiền </name>

*cơ-quan: <organization>Bộ mơn Tốn học và Khoa học máy tính </organization> - <organization>Đại học Wisconsin-Whitewater </organization>

*email: <email>nguyenh at uww dot edu </email> *số-phone: <phone>262-472-5170</phone>

*chức-vụ: <position>trợ giảng </position> *học-hàm-học-vị:

*các-lĩnh-vực-nghiên-cứu: [Tơi quan tâm nghiên cứu về lĩnh vực]

<research>mơ hình hĩa người dùng đối với thu thập thơng tin, kiểu nhận thức của người dùng trong quá trình phân tích, kiểu nhận thức dựa vào

đánh giá của việc tĩm tắt văn bản, lọc cộng tác </research>

Hình 4.8: Một ví dụ về file chú thích cho văn bản huấn luyện

Hình 4.9: Mỗi ví dụ huấn luyện gồm văn bản và phần chú thích Văn bản Phần chú thích … Word Tag EName ETag Word Tag Slot A Slot B …

Filler 1 Word EName Word …

Filler 2 Word Word EName …

• Học luật cụ thể nhất: dựa trên khuơn mẫu thơng tin, bộ Học luật cụ thể xây dựng các luật cụ thể nhất theo từng trường thơng tin. Mỗi luật cụ thểđược rút ra nhờ việc so khớp các filler của phần chú thích với văn bản mà nĩ đi kèm. Nếu thiết lập tùy chọn cho việc học là chỉ sinh luật với mẫu khớp đầu tiên thì với mỗi filler chỉ sinh nhiều nhất một luật, ngược lại số luật cho mỗi filler sẽ bằng số lần so khớp filler đĩ trên văn bản.

• Khái quát hĩa tập luật: Việc thực hiện khái quát hĩa tập luật được tiến hành riêng rẽ theo từng trường thơng tin sau khi nhận được tập luật cụ thể nhất được học hoặc tập luật được khái quát hĩa từ lần trước (khi học tăng cường). Các bước thực hiện là:

+ Chọn ngẫu nhiên hai luật (luật cơ sở) từ danh sách để xây dựng thành luật mới khái quát hơn.

+ Thực hiện khái quát hĩa mẫu filler của hai luật cơ sở. Với mỗi phần

Phân tách từ vựng (Word Segmentation)

Từ điển từ vựng (Lexicon)