Tĩm tắt chương hai

Một phần của tài liệu TRÍCH RÚT MỐI QUAN HỆ NGỮ NGHĨA VÀ ÁP DỤNG CHO HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG TIẾNG VIỆT (Trang 34 - 37)

Trong chương hai, khố luận đã giới thiệu chi tiết các phương pháp để tiến hành trích rút mối quan hệ ngữ nghĩa và đưa ra được phương pháp trích rút mối quan hệ ngữ nghĩa phù hợp với kho văn bản tiếng Việt là kết hợp phương pháp Snowball và phương pháp trích rút sử dụng máy tìm kiếm. Đồng thời, cũng giới thiệu một hệ thống sinh tự động tập thực thể cho nhiều ngơn ngữ trên thế giới và bước đầu cĩ những kết quả cho ngơn ngữ tiếng Việt. Trong chương tiếp theo, khố luận sẽ giới thiệu mơ hình trích rút mối quan hệ và các phương pháp liên quan. Sau đĩ, áp dụng việc trích rút mối quan hệ ngữ nghĩa vào bài tốn xây dựng hệ thống hỏi đáp tự động cho kho văn bản tiếng Việt.

26

Chương 3. Mơ hình h thng hi đáp tiếng Vit s dng trích rút quan h ng nghĩa.

3.1 Mơ hình trích rút mẫu quan hệ ngữ nghĩa

Qua quá trình khảo sát các phương pháp trích rút mẫu quan hệ ngữ nghĩa và dựa trên điều kiện thực tế về kĩ thuật xử lý ngơn ngữ, tài nguyên ngơn ngữ học cũng như các kĩ thuật học máy phục vụ cho quá trình xử lý ngơn ngữ tiếng Việt, khố luận đề xuất phương pháp là kết hợp giữa phương pháp Snowball [1] và phương pháp sử dụng máy tìm kiếm [25]. Dưới dây là mơ hình cho việc trích rút mẫu quan hệ ngữ nghĩa.

v Đầu vào: Tập dữ liệu seed mồi ban đầu, các seed gồm hai thành phần <thực thể 1,

thực thể 2>

v Đầu ra: Tập seed mới và mẫu mới được sinh ra và được lưu vào Cơ sở dữ liệu

v Phương pháp giải quyết và mơ hình:

Hình 5. Mơ hình trích rút mẫu quan hệ ngữ nghĩa

- Bước 1: Thu thập dữ liệu

o Nhằm tận dụng miền tri thức nền lớn từ các máy tìm kiếm như: Google, Yahoo, Altavisa,…. Ở bước này, ta sử dụng phương pháp rút trích mẫu quan hệ từ máy tìm kiếm [Mục 2.3].Với đầu vào là một tập seed ban đầu được xây dựng bằng

27

tay, thơng qua máy tìm kiếm ta tìm được một tập các trang web cĩ chứa đầy đủ hai thành phần của tập seed này.

- Bước 2: Tiền xử lý

o Loại bỏ thẻ HTML, lấy nội dung chính của từng trang web.

o Tách câu trên tập dữ liệu thu được và giữ lại những câu chứa cả hai thành phần của seed.

o Tách từ trong tiếng Việt. Loại bỏ từ dừng cho tập câu này

o Áp dụng phương pháp sinh tự động tập thực thể để mở rộng tập thực thể từ những thực thể ban đầu cho từng mối quan hệ đã được xác định trước các nhãn thực thể. Phương pháp này được trình bày ở phần tiếp theo.

- Bước 3: Gán nhãn tổng quát

o Dựa vào tập thực thể mở rộng, tiến hành tìm và xác định nhãn cho các thực thể cĩ chứa trong tập câu thu được ở bước trên.

o Sau khi các thực thể được gán nhãn, xác định các thành phần trái, thành phần phải, thành phần giữa cho các thực thể cĩ chứa trong tập seed dựa vào tập câu thu được.

o Biểu diễn các thành phần trái, thành phần phải và thành phần giữa dưới dạng các vector, ta thu được một tập các mẫu thơ.

- Bước 4: Phân cụm mẫu.

o Tiến hành so khớp các thành phần trái, thành phần phải và thành phần giữa cho các mẫu thơ để loại bỏ các mẫu thơ trùng.

o Dựa theo phương pháp Snowball, xác định các mẫu quan hệ được thực hiện bằng việc phân cụm mẫu thơ. Mỗi cụm đại diện bởi một mẫu và quá trình phân cụm mẫu được thực hiện như sau: Với những mẫu thơ mới được sinh ra, tiến hành tính độ tương đồng với các mẫu đại diện theo cơng thức sau:

28

Nếu độ tương đồng vượt qua một ngưỡng xác định, thì mẫu thơ đĩ sẽ thuộc vào nhĩm cĩ độ tương đồng với nĩ cao nhất. Ngược lại, mẫu đĩ sẽ là đại diện cho một nhĩm mới được sinh ra.

- Bước 5: Sinh seed mới

o Những mẫu tổng quát đã thu được sẽ làm đầu vào cho vào máy tìm kiếm để tìm ra tập các câu cĩ chứa các mẫu đĩ.

o Nhận dạng các thực thể cĩ chứa trong tập câu dựa vào tập các thực thể mở rộng.

o Kiếm tra độ tin cậy của các seed mới được sinh ra. Những seed vượt qua được giá trị ngưỡng thì giữ chúng lại.

- Sau đĩ quay lại bước 1, sử dụng tập seed mới thu được cùng với tập seed ban đầu đưa vào máy tìm kiếm để tiến hành sinh tập seed mới và tìm thêm tập mẫu quan hệ mới cho mối quan hệ đĩ. Vịng lặp sẽ được dừng khi số lượng seed mới hoặc mẫu mới khơng cịn được tiếp tục sinh ra.

Với tập seed và mẫu mới được sinh ra sau mỗi vịng lặp, việc đánh giá độ chính xác của chúng được sử dụng theo phương pháp Snowbal [Mục 2.2].

Cơng thức đánh giá mẫu mới được sinh ra như sau:

) . . ( . ) ( negative P postive P postive P P belief + =

Cơng thức đánh giá các seed mới được sinh ra trong vịng lặp tiếp theo:

∏ = − − = | | 0 )) ( 1 ( 1 ) ( p i P belief T conf

Một phần của tài liệu TRÍCH RÚT MỐI QUAN HỆ NGỮ NGHĨA VÀ ÁP DỤNG CHO HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG TIẾNG VIỆT (Trang 34 - 37)