Mô hình giải quyết bài toán

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên máy ảnh số (Trang 32 - 34)

CHƢƠNG 2 HỆ THỐNG TRÍCH CHỌN THÔNG TIN

3.2. Mô hình giải quyết bài toán

Bài toán dựa trên bài toán của Brin về việc tìm ra cặp quan hệ (tên sách, tên tác giả) của cuốn sách, đặc biệt là kỹ thuật DIPRE [3]. Cứ sau mỗi vòng lặp lại sinh ra những cặp thực thể mới và mẫu (patterns) mới. Các vòng lặp tiếp theo sử dụng kết quả của vòng lặp trƣớc đó để thu đƣợc kết quả mới. Quá trình đó cứ tiếp tục quay vòng cho đến khi đạt đƣợc một yêu cầu đƣa ra. Cụ thể:

Bƣớc 1: Xuất phát từ các cặp quan hệ hạt giống <C, P> trong R‟, tìm tất cả các thể hiện là các câu chứa đồng thời tên nhà sản xuất P và tên máy ảnh C.

Bƣớc 2: Hệ thống sẽ phân tích ngữ cảnh xung quanh các câu tìm đƣợc ở bƣớc 1, trích chọn ra các mẫu.

Bƣớc 3: Từ tập các mẫu thu đƣợc, hệ thống sẽ đối chiếu với tập dữ liệu ban đầu để kiểm tra xem chúng có thể trích chọn ra đƣợc các hạt giống mới <C’, P’> nào không; nếu cặp <C’, P’> chƣa có trong tập quan hệ đích thì thêm cặp hạt giống mới này vào tập quan hệ đích R, coi đây là quan hệ hạt giống sử dụng cho các vòng lặp tiếp theo.

Bƣớc 4: Quay lại bƣớc 2 để tìm ra những hạt giống và mẫu mới cho tới khi số lƣợng tập quan hệ R gần nhƣ không thay đổi, hay số lƣợng các cặp quan hệ mới phát hiện ra thêm là rất ít.

Bài toán mà luận văn đề cập đến là trích chọn cặp quan hệ tên máy ảnh – nhà sản xuất, với mỗi loại máy ảnh sẽ có một hãng sản xuất ra nó. Do vậy cách biểu diễn nó trên tài liệu sẽ có một quy luật nào đó. Nhận thấy rằng, ngữ cảnh ở giữa cặp thực thể tên máy ảnh số và nhà sản xuất thƣờng ở một dạng nhất định, quy luật có thể lặp lại nhiều lần ở các tài liệu khác nhau. Ví dụ nhƣ: “Sony has announced the SLT A35, the latest addition to its innovative range of fixed-mirror DSLRs”, “Panasonic has announced the DMC-G3 Micro Four Thirds mirrorless interchangeable lens camera”. Cấu trúc “has announced the” có xu hƣớng xuất hiện nhiều lần trong các bài báo giới thiệu về các loại máy ảnh. Do đó mẫu này có khả năng dẫn đến các trích dẫn khác nhƣ: “Pentax has announced the Optio RS1500 compact camera with interchangeable, user designable covers” hay “Samsung has announced the ST93 compact camera”… Từ các cặp quan hệ mới này, ta có thể sử dụng để sinh ra các mẫu trích chọn mới.

Và có một đặc điểm thuận lợi nữa để giải quyết bài toán đã đề xuất là tên các loại máy ảnh thƣờng ở dạng kí tự in hoa, có thể bao gồm cả chữ và số; tập các hãng sản xuất máy ảnh là hữu hạn, ta có thể liệt kê một cách dễ dàng.

Trong bài toán trích chọn tên máy ảnh số:

 Bộ quan hệ: cặp <camera, producer>

 Một mẫu là bộ - 4: (order, tag1, middle, tag2); trong đó tag1tag2 là thực thể <producer> và <camera>. Order là thứ tự xuất hiện của tag1

tag2 trong câu. Middle là ngữ cảnh ở giữa giới hạn bởi tag1tag2.

 Một bộ quan hệ <camera, producer> sẽ đƣợc trích chọn vào bảng quan hệ đích nếu có một thể hiện trong văn bản phù hợp với một trong hai biểu thức:

camera middle producer

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên máy ảnh số (Trang 32 - 34)

Tải bản đầy đủ (PDF)

(64 trang)