Mô hình pha 2: mở rộng thực thể

Một phần của tài liệu phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt (Trang 44 - 48)

Dựa vào những cơ sở lý thuyết đã trình bày ở trên, mô hình cho pha 2, pha mở rộng thực thể được cho như ở hình 9.

36 Pha mở rộng thực thể gồm 4 pha con chính:

Pha 1: Pha tương tác với máy tìm kiếm 1 (Fetcher)

Pha 1 có nhiệm vụ thu thập các trang web với các tập thực thể mồi (seed) tương ứng.

 Đầu vào: tập gồm 2 đến 3 thực thể

 Đầu ra: các trang web tương ứng với tập seed đầu vào  Xử lý:

o Tạo câu truy vấn tới máy tìm kiếm: ví dụ với tập mồi {“mèo”, “gà”, “lợn”} ta sẽ thu được câu truy vấn “mèo” + “gà” + “lợn”. o Chọn m liên kết đầu tiên được trả về bởi máy tìm kiếm (m=100) o Thu thập các trang web tương ứng với các liên kết đã được chọn

Pha 2: Pha trích chọn các thực thể dựa vào phương pháp sử dụng luật wrapper (Extractor)

 Đầu vào: Các trang web thu thập được ở pha 1 và bộ thực thể mồi.  Đầu ra: Các thực thể “tiềm năng” có khả năng tương đương với các thực

thể trong tập thực thể mồi.  Xử lý: gồm 2 bước chính Hình 9. Mô hình pha 2 - Mở rộng thực thể Entities Choosing 4.Entities Choosing New Entities 3. Ranker Ranked Candidates Rank 1. Fetcher 2. Extractor Candidates

Seeds Seach Engine

Module 1 WebPages Wrapper Learner Wrappers Wrapper-based Candidates extractor

37

o Trích chọn ra các wrapper: Với đầu vào là các trang web đã download được và tập thực thể mồi. Áp dụng phương pháp trích chọn luật wrapper, sử dụng cách 2 để trích chọn các wrapper như đã nêu ở mục 3.3.1. Hệ thống sẽ tìm ra được các luật wrapper. o Trích chọn thực thể tiềm năng: Sau khi đã tìm được các luật

wrapper, sử dụng các kĩ thuật so khớp mẫu luật và xử lý xâu chuỗi, từ đó thu được các thực thể tiềm năng. Luật wrapper được sinh ra từ trang web nào sẽ được áp dụng vào chính trang web đó để trích chọn ra các thực thể tiềm năng.

Pha 3: Xếp hạng các thực thể tiềm năng (Ranker)

 Đầu vào: Các thực thể tiềm năng tìm được ở pha 2.

 Đầu ra: danh sách các thực thể tiềm năng đã được sắp xếp theo hạng của từng thực thể tiềm năng.

 Xử lý: Sử dụng các thuật toán xếp hạng đã được nêu ở mục 3.3.2, áp dụng đối với các thực thể tìm được để tính hạng cho từng thực thể. Thuật toán được sử dụng:

o Word Frequency: dựa vào số lần thực thể đó xuất hiện trong quá trình trích chọn.

o Wrapper length: Các thực thể nào được trích chọn bởi wrapper có độ dài lớn hơn thì được coi là có độ chính xác hơn là các thực thể được trích chọn bởi wrapper có độ dài nhỏ hơn.

Pha 4: Lựa chọn thực thể mới (Entities Choosing)

 Đầu vào: tập các thực thể tiềm năng đã được sắp xếp theo hạng của từng thực thể tiềm năng.

 Đầu ra: Tập thực thể mới tương đương các thực thể mồi  Xử lý:

o Với tập thực thể “tiềm năng” đã được sắp xếp theo hạng, lựa chọn k thực thể đầu tiên có hạng cao nhất.

o k được chọn qua quá trình thực nghiệm.

Qua pha mở rộng thực thể sẽ thu được một tập các thực thể tương đương với các thực thể đầu vào của pha này, các kết quả trả lời tìm được bởi pha hỏi đáp danh sách.

38

Cập nhật các thực thể mới tìm được vào danh sách câu trả lời ở pha 1, ta thu được danh sách câu trả lời đầy đủ hơn.

Tóm tắt chương 3: Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ thống hỏi đáp danh sách tiếng Việt gồm 2 pha chính là pha hỏi đáp danh sách và pha mở rộng thực thể, các cơ sở lý thuyết xây dựng mô hình và chi tiết hai pha chính trong mô hình. Phần tiếp theo trình bày về quá trình tiến hành thực nghiệm, kết quả và đánh giá kết quả mô hình.

39

Chương 4. Thực nghiệm và đánh giá

Dựa cơ sở lý thuyết và mô hình đề xuất ở chương 3, khóa luận xây dựng và tiến hành thực nghiệm hai pha trong mô hình nâng cao chất lượng kết quả trả lời trong hệ thống hỏi đáp danh sách tiếng Việt: pha 1 – pha hỏi đáp danh sách, pha 2 – pha mở rộng thực thể.

Cấu hình máy thực nghiệm:

o Chip: Intel(R) Celeron(R) M CPU 520 @ 1.60GHz o Ram: 1.00 GB

o Hệ điều hành: Microsoft Windows 7

Công cụ lập trình: Java Eclipse SDK 3.4.0

Công cụ phần mềm sử dụng:

o JvnTextpro – Tác giả Nguyễn Cẩm Tú. o GoogleCrawler – Tác giả Trần Mai Vũ.

Một phần của tài liệu phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt (Trang 44 - 48)

Tải bản đầy đủ (PDF)

(62 trang)