1. Trang chủ
  2. » Giáo án - Bài giảng

MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ

71 534 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 525,71 KB

Nội dung

MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ Đại học quốc gia thành phố hồ chí minh TrườNG đại học công nghệ thông tin GVHD: PGS-TS. Đỗ Văn Nhơn Học viên: Hồ Long Vân MSHV: CH1101056 TP. Hồ Chí Minh, 02/2015 1 MỞ ĐẦU  Sự tăng lên nhanh chóng số lượng báo điện tử dẫn tới việc truy xuất thông tin của người dùng trở nên phức tạp. các hệ thống tìm kiếm ra đời.  Các hệ thống tìm kiếm chủ yếu dựa trên từ khóa.  Một hướng tiếp cận mới trong việc tìm kiếm là dựa trên ngữ nghĩa.  Hướng tới xây dựng hệ hỗ trợ tìm kiếm tin bài theo ngữ nghĩa trên các báo điện tử. 2 NỘI DUNG I. TỔNG QUAN VỀ ĐỀ TÀI II. MỘT SỐ MÔ HÌNH III. CÁC VẤN ĐỀ, THUẬT GIẢI IV. ỨNG DỤNG, THỬ NGHIỆM V. KẾT LUẬN, HƯỚNG PHÁT TRIỂN 3 I. TỔNG QUAN VỀ ĐỀ TÀI 1. Thực trạng, nhu cầu xây dựng hệ hỗ trợ tìm kiếm thông tin 2. Thu thập thông tin 3. Tìm kiếm thông tin theo ngữ nghĩa 4. Phát hiện sự trùng lắp thông tin 5. Mục tiêu và giới hạn đề tài 4 I.1. THỰC TRẠNG, NHU CẦU XÂY DỰNG HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN - Sự phát triển nhanh chóng của báo điện tử thu hút một lượng lớn độc giả. - Hàng ngàn các trang báo điện tử ở Việt Nam ra đời, đem lại kho tin tức khổng lồ. khó khăn trong việc kiểm soát nội dung, kiểm tra tính đúng đắn của các trang báo. 5 I.2. THU THẬP THÔNG TIN - Một số hệ thống thu thập tin tức và tổng hợp tin như: HueCIT-NewsFinder, Báo Mới, Google News, News 360, Fark, Pulse, Feedly,… - Để xây dựng những hệ thống tổng hợp tin tức, việc cần làm trước tiên là thu thập được những trang tin. Có 2 phương pháp thu thập phổ biến là Crawler và RSS. 6 I.3. TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA - Các hệ thống tìm kiếm thông tin hiện nay phần lớn vẫn dựa trên từ khóa và mức độ phổ biến của tài liệu. - Hướng tiếp cận mới dựa trên tri thức hoặc xử lý ngữ nghĩa. - Tiếp cận dựa trên Ontology được xem là hiện đại và phù hợp cho việc thiết kế biểu diễn, xử lý nội dung tài liệu. - Một số mô hình biểu diễn cho tài liệu như mạng ngữ nghĩa, đồ thị khái niệm CGs, đồ thị hình sao, đồ thị tần số, đồ thị khoảng cách… 7 I.4. PHÁT HIỆN SỰ TRÙNG LẮP THÔNG TIN - Các bộ máy tìm kiếm ra đời hỗ trợ hiệu quả cho việc tìm kiếm thông tin. - Có rất nhiều kết quả trùng lắp. phát hiện sự trùng lắp thông tin hiệu quả là rất quan trọng, đặc biệt đối với những ứng dụng có dữ liệu lớn. 8 I.5. MỤC TIÊU, GIỚI HẠN ĐỀ TÀI - Đưa ra mô hình chung cho hệ thống tìm kiếm tin bài theo ngữ nghĩa trên báo điện tử. - Giải quyết các vấn đề:  Tìm hiểu các kỹ thuật giúp cho việc thu thập tin bài  Nghiên cứu mô hình Ontology mô tả tri thức lĩnh vực, tìm hiểu các phương pháp biểu diễn ngữ nghĩa liên quan đến nội dung tin bài  Nghiên cứu và đề xuất kỹ thuật rút trích các keyphrase một cách hiệu quả 9 I.5. MỤC TIÊU, GIỚI HẠN ĐỀ TÀI - Giải quyết các vấn đề:  Đưa ra các vấn đề và thuật toán cho việc tìm kiếm ngữ nghĩa.  Giải quyết bài toán tìm kiếm theo chủ đề.  Liệt kê các tin bài không trùng lắp cho bài toán điểm tin. - Xây dựng hệ hỗ trợ tìm kiếm tin bài trên các báo điện tử: hỗ trợ thu thập và quản lý tin bài; hỗ trợ tìm kiếm tin bài theo ngữ nghĩa, tìm kiếm theo từ khóa, và tìm kiếm theo chủ đề cần quan tâm; điểm tin hằng ngày. 10 [...]... MỘT SỐ MÔ HÌNH 1 Mô hình hệ thống tìm kiếm báo điện tử theo ngữ nghĩa 2 Mô hình biểu diễn tin bài 13 II.1 MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA Mô hình hệ thống các trang báo điện tử gồm 5 thành phần: (E, CK_ONTO, KE_Data, Topics, Rels) - E: tập các trang báo điện tử, cần thu thập và quản lý tin tức Mỗi trang báo điện tử có 7 thành phần như trong [17] đã giới thiệu, gồm: tập các thuộc... được phát biểu như sau: - Cho trước tập các đồ thị keyphase KG(N) các tin bài báo điện tử, mô hình tổng quát của hệ thống báo điện tử - Cho câu truy vấn q Tìm các tin bài báo điện tử có liên quan tới câu truy vấn q và xếp hạng các tin bài vừa tìm được 35 III.3 TÌM KIẾM CÁC TIN BÀI THEO NGỮ NGHĨA Quy trình tổng quát của bài toán tìm kiếm theo ngữ nghĩa Xây dựng đồ thị keyphrase cho Câu truy vấn câu truy... III.3 TÌM KIẾM CÁC TIN BÀI THEO NGỮ NGHĨA - Hệ thống tìm trong cơ sở dữ liệu những tin bài phù hợp với câu truy vấn - Câu truy vấn và tập tin bài sẽ được biểu diễn thành các đồ thị keyphrase, sau đó sử dụng một hàm so khớp để đánh giá độ tương quan về ngữ nghĩa giữa các đồ thị, trả về danh sách các tin bài có liên quan 34 III.3 TÌM KIẾM CÁC TIN BÀI THEO NGỮ NGHĨA Bài toán tìm kiếm theo ngữ nghĩa các tin. .. VỀ ĐỀ TÀI II MỘT SỐ MÔ HÌNH III CÁC VẤN ĐỀ, THUẬT GIẢI IV ỨNG DỤNG, THỬ NGHIỆM V KẾT LUẬN, HƯỚNG PHÁT TRIỂN 24 III CÁC VẤN ĐỀ VÀ THUẬT GIẢI 1 Thu thập tin bài 2 Rút trích keyphrase 3 Tìm kiếm theo ngữ nghĩa tin bài báo điện tử 4 Tìm kiếm tin bài theo chủ đề 5 Điểm tin 25 III.1 THU THẬP TIN BÀI Áp dụng kỹ thuật thu thập tin bài được đề xuất trong [17], quy trình thu thập tin bài của hệ thống bao gồm 2... cao… 18 II.1 MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA  CK_ONTO  Cấu trúc các keyphrase Cấu trúc của keyphrase đơn: 1 pK 2 pG p pK 3 pG pK Cấu trúc của keyphrase tổ hợp: 4 k1 k2 7 k1 r k2 5 k1 p k2 6 k1 c k2 8 k1 vp k2 Cấu trúc của keyphrase bổ nghĩa: 9 k a 10 k r a 19 II.1 MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA  CK_ONTO - k1, k2  K - pK  PhraseK PhraseK là tập các cụm từ... tính, trang chủ, tập các trang lĩnh vực, tập các tin bài, tập cấu trúc các trang lĩnh vực, tập cấu trúc các trang tin bài và các quan hệ nội tại 14 II.1 MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA - CK_ONTO: là một Ontology mô tả tri thức lĩnh vực - Trong [4] và [22] đã giới thiệu CK_ONTO, gồm 6 thành phần:       Tập hợp K các keyphrase mô tả tri thức lĩnh vực Tập hợp C các lớp keyphrase... cấu trúc thông tin của các trang báo điện tử - Thu thập tin bài từ các trang báo điện tử 26 III.1 THU THẬP TIN BÀI Thu thập tin tức là việc lặp quá trình thu thập với từng trang lĩnh vực của từng trang báo điện tử đã được định nghĩa Quá trình thu thập tin tức từ một trang lĩnh vực như sau: Chọn các URL cho các tin bài Thực hiện đánh giá tin bài hợp lệ chưa thu thập & bóc tách nội dung trang tin bài... GIỚI HẠN ĐỀ TÀI - Thu thập các trang báo điện tử chính thống như: báo “Tuổi Trẻ Online”, báo “VNEXPRESS”, báo “Dân Trí”… - Xây dựng thử nghiệm một hệ hỗ trợ tìm kiếm tin bài cho một lĩnh vực, cụ thể là lĩnh vực Lao động-Việc làm - Kho dữ liệu tin bài chứa các tin bài có nội dung là ngôn ngữ Tiếng Việt 11 NỘI DUNG I TỔNG QUAN VỀ ĐỀ TÀI II MỘT SỐ MÔ HÌNH III CÁC VẤN ĐỀ, THUẬT GIẢI IV ỨNG DỤNG, THỬ NGHIỆM... RKC quan hệ giữa keyphrase và lớp Tập hợp RCC quan hệ giữa các lớp Tập hợp RKK quan hệ giữa các keyphrase Một hàm gán nhãn label phân loại các keyphrase 15 II.1 MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA  CK_ONTO - Áp dụng cho lĩnh vực Lao động-Việc làm, thành phần keyphrase K đã được định nghĩa lại - Đưa ra cấu trúc thiết lập các keyphrase cũng như thứ tự kết hợp giữa chúng - Định nghĩa tốt... nhau và vị trí xuất hiện của chúng cũng khác nhau trong từng cấu trúc thiết lập mỗi keyphrase sẽ có 1 danh sách, gọi là danh sách thứ tự kết hợp các keyphrase 21 II.1 MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA - KE_Data: tập dữ liệu hỗ trợ rút trích keyphrase - Topics: tập dữ liệu lưu trữ các chủ đề quan tâm - Rels: quan hệ giữa tập E với các thành phần hệ thống 22 II.2 MÔ HÌNH BIỂU DIỄN TIN . tin. - Xây dựng hệ hỗ trợ tìm kiếm tin bài trên các báo điện tử: hỗ trợ thu thập và quản lý tin bài; hỗ trợ tìm kiếm tin bài theo ngữ nghĩa, tìm kiếm theo từ khóa, và tìm kiếm theo chủ đề cần. ra mô hình chung cho hệ thống tìm kiếm tin bài theo ngữ nghĩa trên báo điện tử. - Giải quyết các vấn đề:  Tìm hiểu các kỹ thuật giúp cho việc thu thập tin bài  Nghiên cứu mô hình Ontology mô. MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ Đại học quốc gia thành phố hồ chí minh TrườNG đại học công nghệ thông tin GVHD: PGS-TS.

Ngày đăng: 18/05/2015, 20:47

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w