Tĩm tắt chương 2

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt 04 (Trang 55 - 57)

Chương 1 : GIỚI THIỆU ĐỀ TÀI

3.5. Tĩm tắt chương 2

Trong chương này, luận văn trình bày tổng quan về bài tốn trích chọn thơng tin, một số phương pháp tiếp cận tới bài tốn trích chọn thơng tin. Trong ba phương pháp tiếp cận chính, và liên quan tới bài tốn nhận dạng thực thể, luận văn chỉ xin trình bày theo hai phương pháp là dựa trên luật (biểu thức chính quy) và một số mơ hình tuần tự. Trong các mơ hình tuần tự, thì mơ hình trường ngẫu nhiên cĩ điều kiện được lựa chọn để áp dụng vào bài tốn và đánh giá kiểm nghiệm với dữ liệu là các bản tin tiếng việt. CRF được áp dụng vào rất nhiều lĩnh vực, bao gồm xử lý văn bản, máy nhìn, và tin sinh học.Một trong những loại ứng dụng lớn nhất của CRF, cĩ hiệu suất rất tốt, trong việc phân loại cụm danh từ trong văn bản. Từ đĩ, CRF chuỗi tuyến tính được áp dụng cho rất nhiều loại văn bản của xử lý ngơn ngữ tự nhiên, bao gồm nhận dạng thực thể tên, induction đặc trưng cho bài tốn nhận dạng thực thể tên, nhận dạng tên protein trong sinh học, phân loại địa chỉ web trong các trang web, tìm vai trị ngữ nghĩa trong văn bản, nhận dạng nguồn ý kiến, phân loại từ trung quốc, phân tích từ vựng tiếng Nhật, và rất nhiều ứng dụng khác.

Trong tin sinh học, CRF được áp dụng vào sắp xếp cấu trúc của RNA, dự đốn cấu trúc protein. Semi-Markov CRF thêm một chút linh động trong việc lựa chọn các đặc trưng, cĩ thể cĩ ích cho một số nhiệm vụ trong trích chọn thơng tin và các tin sinh học đặc biệt.

CRF thường cũng được áp dụng cho một vài tác vụ trong xử lý ngơn ngữ tự nhiên.Một ứng dụng cĩ tính hứa hẹn là thực hiện nhiều nhiệm vụ gán nhãn cùng lúc.Ví dụ, CRF động ở mức 2 được dùng để gán nhãn từ loại và tách cụm danh từ thực hiện tốt hơn việc giải quyết từng nhiệm vụ một lúc.Một ứng dụng khác là phân loại nhiều nhãn, nghĩa là mỗi thực thể cĩ thể cĩ nhiều nhãn lớp. Thay vì việc học một bộ phân loại độc lập cho mỗi loại nhãn, Ghamrawi và McCallum giới thiệu một ứng dụng CRF cĩ thể học sự phụ thuộc giữa các nhãn, tạo ra việc phân loại cĩ hiệu suất tốt hơn. Một dạng khác của CRF, CRF bỏ chuỗi (skip-chain), là một CRF tổng quát thể hiện được các phụ thuộc cách nhau một khoảng dài trong trích chọn thơng tin.

Một cấu trúc đồ thị CRF thú vị được áp dụng cho vấn đề đồng tham chiếu danh từ riêng, là việc xác định danh từ nào được nhắc đến trong văn bản, ví dụ như Ngài tổng thống và ơng ấy, cùng nhắc tới một thực thể mà chúng ta đều ngầm hiểu. McCallum và Weller học được số liệu cĩ khoảng cách giữa việc nhắc tới nhờ sử dụng trường ngẫu nhiên cĩ điều kiện được kết nối đầy đủ trong đĩ phép nội suy tương ứng với phân chia đồ thị. Một mơ hình tương tự được áp dụng để phân loại các kí tự viết tay và biểu đồ. Trong một vài ứng dụng CRF, các chương trình hiệu quả vẫn tồn tại mặc dù việc mơ hình hĩa đồ thị thì rất khĩ để chỉ ra.Ví dụ, McCallum cùng đồng nghiệp đã học các tham số của mơ hình sửa chuỗi văn bản để rời rạc hĩa giữa các cặp chuỗi văn bản trùng khớp và khơng trùng nhau.

Trong máy nhìn, một số tác giả sử dụng CRF dạng lưới để gán nhãn và phân loại các bức ảnh.Ngồi ra, để nhận dạng đối tượng, Quattoni và đồng nghiệp sử dụng CRF dạng cây trong đĩ các biến ẩn được thiết kế để nhận dạng các phần đặc điểm của một đối tượng.

Trong chương tiếp theo, luận văn xin trình bày một ứng dụng của CRF chuỗi tuyến tính trong việc nhận dạng đối tượng thời tiết từ các văn bản tiếng Việt.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt 04 (Trang 55 - 57)