Nghiên cứu kỹ thuật phân tích và trích rút thuộc tính tài liệu phục vụ cho các bài toán tìm kiếm

26 764 2
Nghiên cứu kỹ thuật phân tích và trích rút thuộc tính tài liệu phục vụ cho các bài toán tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGƠ VĂN KHOA NGHIÊN CỨU KỸ THUẬT PHÂN TÍCH VÀ TRÍCH RÚT THUỘC TÍNH TÀI LIỆU PHỤC VỤ CHO CÁC BÀI TỐN TÌM KIẾM Chun ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: TS HUỲNH CÔNG PHÁP Phản biện 1: PGS.TS VÕ TRUNG HÙNG Phản biện 2: PGS.TS TRƢƠNG CÔNG TUẤN Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 18 tháng năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm Thơng tin - Học liệu, Đại Học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trên môi trường Internet ngày nay, số lượng thông tin từ Web Site vơ lớn cịn gia tăng nhanh chóng theo ngày Với trạng đó, tìm kiếm thơng tin nhu cầu khơng thể thiếu cho người sử dụng Internet Ngày nay, loại thơng tin mà người sử dụng muốn tìm kiếm trở nên phong phú, khơng cịn đơn tìm kiếm nội dung văn trang Web Internet, thay vào cịn nhiều loại khác như: hình ảnh, tập tin âm thanh, tập tin video, tài liệu dạng tập tin soạn thảo trình soạn thảo … Tuy nhiên, máy tìm kiếm cơng cụ tìm kiếm hỗ trợ tốt cho người sử dụng để truy vấn thơng tin Với máy tìm kiếm phổ biến Google, Yahoo, nhận truy vấn từ người dùng, máy tìm kiếm thường trả danh sách lớn kết tìm kiếm Các kết tìm kiếm thường khơng xác, kết tìm kiếm thường theo danh sách từ khóa mà người dùng truy vấn Thêm vào đó, truy vấn “nhập nhằng”, có nhiều chủ đề liên quan người dùng khó khăn tốn nhiều thời gian xem xét tiêu đề đoạn tóm lược tài liệu để tìm kết mong muốn Ví dụ, người truy vấn muốn tìm địa danh Đà Nẵng kết trả viết có chứa từ khóa Đà Nẵng FPT Đà Nẵng hay báo Đà Nẵng điện tử, du lịch Đà Nẵng, khách sạn Đà Nẵng… Nguyên nhân cho kết tệp mục danh sách từ xây dựng với từ gắn vào từ khóa mà thơi Từ trạng để nâng cao tính xác cho kết tìm kiếm, chúng tơi đề xuất xây dựng tệp mục ngữ nghĩa tốt hơn, từ khóa gắn với từ có thuộc tính mơ tả từ đó, để phục vụ tốt cho tốn kiếm Do chúng tơi định chọn đề tài “Nghiên cứu kỹ thuật phân tích trích rút thuộc tính tài liệu phục vụ cho tốn tìm kiếm” Trong luận văn này, mong muốn sử dụng kĩ thuật nghiên cứu, sử dụng kĩ thuật phân tích trích rút thuộc tính tài liệu với số phương pháp xử lý ngôn ngữ tự nhiên để xây dựng tệp mục ngữ nghĩa để áp dụng vào máy tìm kiếm, tìm tập tất đối tượng thỏa mãn yêu cầu người dùng đặt Mục tiêu nhiệm vụ - Tìm hiểu kỹ thuật phân tích trích rút thuộc tính tài liệu - Xây dựng lại tệp mục ngữ nghĩa phục vụ tốt cho kết tìm kiếm - Để đạt mục đích trên, nhiệm vụ đề tài là: Tìm hiểu tìm kiếm khai phá liệu Ứng dụng phân tích trích rút thuộc tính tài liệu tốn tìm kiếm Biểu diễn kết tìm kiếm Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài gồm: - Các tài liệu văn - Hệ thống tìm kiếm - Tệp mục Phạm vi nghiên cứu sau: - Tài liệu HTML, file.Doc, file PDF - Tệp mục - Ngôn ngữ tiếng việt Phƣơng pháp nghiên cứu Phương pháp phân tích: Thu thập, phân tích liệu đánh giá độ liên quan bảng liệu Phương pháp thực nghiệm: Thực việc cài đặt, thử nghiệm phương pháp trích rút thuộc tính tài liệu Đánh giá kết đạt theo bảng đánh giá xây dựng Ý nghĩa khoa học thực tiễn đề tài Sau thực phương pháp nghiên cứu phương pháp trích rút thuộc tính, góp phần làm sở cho việc lập mục ngữ nghĩa Bố cục luận văn Nội dung luận văn chia thành ba chương với nội dung sau: Chƣơng Cơ sở lý thuyết Nội dung tìm hiểu lý thuyết liên quan đến vấn đề nghiên cứu - Giới thiệu xử lý ngôn ngữ tự nhiên - Khai phá liệu - Tổng quan hệ thống tìm kiếm thơng tin Chƣơng Các phƣơng pháp trích rút thơng tin Nội dung tìm hiểu phương pháp trích rút liên quan đến vấn đề nghiên cứu - Các phương pháp trích rút thông tin - Đánh giá nhận xét phương pháp Chƣơng Thử nghiệm đánh giá kết Trong chương chúng tơi xây dựng chương trình - Phát biểu tốn - Mơ hình tổng quan - Ngôn ngữ thực nghiệm kết dự kiến CHƢƠNG CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Giới thiệu Xử lý ngơn ngữ xử lý thơng tin đầu vào “dữ liệu ngôn ngữ”, tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người lưu trữ dạng điện tử Đặc điểm kiểu liệu khơng có cấu trúc nửa cấu trúc chúng lưu trữ khuôn dạng cố định bảng biểu Theo đánh giá cảu cơng ty Oracle, có đến 80% liệu khơng có cấu trúc lượng liệu lồi người có Với đời phổ biến Internet, sách báo điện tử, máy tính cá nhân, viễn thơng, thiết bị âm thanh,…Người người tạo liệu văn hay tiếng nói Vấn đề ta xử lý chúng, tức chuyển chúng từ dạng ta chưa hiểu thành dạng ta hiểu giải thích được, tức ta tìm thơng tin, tri thức hữu ích cho Xử lý ngơn ngữ tự nhiên ứng dụng thực tế để giải tốn như: nhận dạng chữ viết, tóm tắt văn bản, khai phá liệu phát tri thức 1.1.2 Khái niệm ngôn ngữ tự nhiên 1.1.3 Khái niệm xử lý ngôn ngữ tự nhiên 1.2 KHAI PHÁ DỮ LIỆU Khái niệm khai phá liệu (Data Mining) Khai phá liệu định nghĩa trình chắt lọc hay khám phá tri thức từ lượng lớn liệu Thuật ngữ Data Mining ám việc tìm tập nhỏ có giá trị từ lượng lớn liệu thơ Có phân biệt khái niệm "Khai phá liệu" với khái niệm "Phát tri thức" (Knowledge Discovery in Databases - KDD) mà theo đó, khai phá liệu bước trình KDD 1.3 TỔNG QUAN HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1.4 Giới thiệu tìm kiếm thơng tin Tìm kiếm thơng tin (Information Retrieval - IR) tìm kiếm tài nguyên tập lớn liệu phi cấu trúc lưu trữ máy tính nhằm thỏa mãn nhu cầu thông tin 1.1.5 Mục tiêu hệ thống tìm kiếm thơng tin 1.1.6 Cách thức hoạt động hệ thống tìm kiếm thơng tin Hình 1.1 minh họa cấu trúc, cách hoạt động hệ thống tìm kiếm thơng tin cổ điển Hình 1.1: Mơ hình hệ tìm kiếm thơng tin CHƢƠNG CÁC PHƢƠNG PHÁP TRÍCH RÚT THƠNG TIN 2.1 GIỚI THIỆU Như biết trích rút thơng tin lĩnh vực nghiên cứu chuyên sâu thuộc lĩnh vực xử lý ngơn ngữ tự nhiên Vì tốn phương pháp trích rút thơng tin có nguồn gốc, tương tự phương pháp kỹ thuật sử dụng xử lý ngôn ngữ tự nhiên Trong phần chúng tơi trình bày tóm tắt khảo sát tốn liên quan đến trích rút thơng tin từ văn (từ khóa, cụm từ khóa, thực thể có tên, quan hệ thực thể,…) phương pháp tiếp cận phương pháp trích rút mối quan hệ ngữ nghĩa Mục đích việc trích rút thơng tin để tìm thuộc tính thơng tin để xây dựng lại tệp mục tìm kiếm 2.2 CÁC PHƢƠNG PHÁP TRÍCH RÚT THƠNG TIN 2.2.1 Trích rút cụm từ khóa(Keyphrase Extraction) 2.2.2 Nhận diện thực thể có tên 2.2.3 Nhận diện mối quan hệ 2.2.4 Trích rút metadata 2.2.5 Khái quát trích rút mối quan hệ ngữ nghĩa 2.2.6 Các phƣơng pháp trích rút mẫu quan hệ ngữ nghĩa 2.3 ĐÁNH GIÁ NHẬN XÉT CÁC PHƢƠNG PHÁP CHƢƠNG XÂY DỰNG CHƢƠNG TRÌNH 3.1 PHÁT BIỂU BÀI TỐN Trong thời đại cơng nghệ thơng tin hiên nhu cần tìm kiếm thơng tin Internet vấn đề cần thiết người dùng, số lượng thông tin từ Website vô lớn cịn gia tăng nhanh chóng theo ngày Với trạng đó, tìm kiếm thơng tin nhu cầu thiếu cho người sử dụng Internet Ngày nay, loại thông tin mà người sử dụng muốn tìm kiếm trở nên phong phú, khơng cịn đơn tìm kiếm nội dung văn trang Web Internet Các máy tìm kiếm cơng cụ tìm kiếm hỗ trợ tốt cho người sử dụng Với máy tìm kiếm phổ biến Google, Yahoo, nhận truy vấn từ người dùng, máy tìm kiếm thường trả danh sách lớn kết tìm kiếm Các kết tìm kiếm thường khơng xác, đối tượng cần tìm kiếm khơng đưa lên trang Từ vấn đề người tìm kiếm muốn có cơng cụ tìm kiếm phải thỏa mãn hai tiêu chí: xác nhanh chóng Đây “thách thức” tất nhà phát triển muốn phát triển hệ thống tìm kiếm ngày Bởi vì, lượng thơng tin Internet vơ lớn, khơng có máy chủ chứa tồn tất thơng tin nó, nên nhà phát triển phải chia lượng thông tin thành nhiều phần để lưu trử máy chủ đặt nơi khác Ngồi ra, lượng thơng tin lớn vậy, nên việc tìm kiếm địi hỏi thời gian lơn chúng khơng có tệp mục tốt Để đáp ứng hai tiêu chí đó, tốn giải mà chúng tơi đưa trích 10 Trong mơ hình tổng quan này, đầu vào liệu tệp mục thông thường tài liệu Internet sau đưa vào tiến trình trích rút thuộc tính tài liệu, ta xây dựng tệp mục ngữ nghĩa 3.2.2 Xây dựng tệp mục ngữ nghĩa 3.2.3 Nhận xét tệp mục thông thƣờng Trong phương pháp xây dựng tệp mục tệp mục thơng thường chia từ khóa theo từ có dạng sau: Với từ khóa gắn vào URL1, URL2, URL3… URL liên kết với từ khóa Ví dụ: Với từ khóa Đà Nẵng tệp mục thơng thường có dạng: KEY URL Đà Nẵng URL1,URL2,URL3 Đà URL1,URL2,URL3 Nẵng URL1,URL2,URL3… Với từ Đà Nẵng có URL chứa từ Đà Nẵng, có URL chứa từ Đà từ Nẵng Ngoài từ Đà có URL nói cơng ty Sơng Đà Thủy điện Sông Đà, với tệp mục tìm kiếm lên, ảnh hưởng đến kết tìm kiếm Từ nhược điểm chúng tơi đề xuất cơng cụ xậy dựng tệp mục ngữ nghĩa 11 3.2.4 Tệp mục ngữ nghĩa a Tổng quan Theo tệp mục ngữ nghĩa tệp có mơ sau: Mơ tả (thuộc tính 1) URL1 URL2 Mơ tả (thuộc tính 2) URL1 URL2 KEY Mơ tả (Thuộc tính 3) URL1 URL2 Hình 3.2 Mơ hình tệp mục ngữ nghĩa Việc lập mục theo hướng ngữ nghĩa trích rút thuộc tnh có nội dung văn để làm mục biểu diễn cho nội dung tài liệu Việc trích rút thuộc tính thực theo nhiều phương pháp mà phương pháp Nhiều cơng trình lập mục theo ngữ nghĩa tìm giải pháp cho khơng cần so khớp tài liệu Từ việc lập mục theo hướng ngữ nghĩa chia hướng tiếp cận lớn : b Nhóm từ thuộc lĩnh vực ngữ nghĩa c Kế thừa ontology có 12 3.2.5 Các bƣớc xây dựng tệp mục ngữ nghĩa theo địa danh a Bước 1: Xác định từ địa danh Đầu vào liệu: tệp mục thông thường, tài liệu Internet Đầu liệu: tệp mục địa danh Theo toán phát biểu, xây dựng tệp mục ngữ nghĩa phạm vi từ địa danh Mà biết tệp mục thông thường tài liệu Internet, có nhiều từ khóa từ khóa địa danh khơng phải từ nói địa danh hay nói lĩnh vực khác Như phải làm để xác định từ khóa từ nói địa danh vấn đề cần giải bước Theo chúng tơi phương pháp đưa để giải vấn đề so khớp địa danh từ điển địa danh với tệp mục tài liệu đó, hay sử dụng phương pháp so mẫu xác hướng đưa để giải vấn đề Ta khái qt mơ hình xác định địa danh sau: Tệp mục thông thường Cơng cụ Tệp mục địa danh Hình 3.3 Mơ hình xác định từ địa danh Từ điển địa danh 13 Phương pháp xác định từ địa danh Chúng ta thực phương pháp so khớp key word với từ điển sử dụng phương pháp so mẫu Sau chúng tơi xin trình bày hai phương pháp so mẫu: Phương pháp so mẫu xác: Cho xâu mẫu P có độ dài m(P=P1 P2…Pm-Pi ký tự) văn T độ dài n (T=T1 T2…TnTi ký tự) Tìm tất vị trí xuất mẫu P xâu T Phương pháp so mẫu xấp xỉ: Tìm kiếm xấp xỉ tốn tìm xuất mẫu văn bản, khớp mẫu xuất chấp nhận “ k” lỗi (k giới hạn cho trước) Có thể kể vài kiểu lỗi, lỗi đánh máy hay lỗi tả hệ thống rút trích thơng tin…vì hệ thống tin học khó tránh lỗi nên vấn đề tìm kiếm xấp xỉ trở nên quan trọng Ví dụ thứ tự ghép từ khác mang ngữ nghĩa giống (ví dụ “tốn logic” “logic tốn”) thứ tự sai song hiểu nghĩa (ví dụ “tốn giải tích” “giải tích tốn”, ) lỗi đánh máy (ví dụ “sedan” viết thành “ sudan”) Phương pháp phát biểu: Cho xâu mẫu P độ dài m văn T độ dài n Từ xác định độ tương tự hai xâu P T Phương pháp đưa tìm xâu chung dài (hay khúc chung dài nhất) Một xâu w xâu hay khúc xâu T T= uwv (xâu u,v rỗng) Xâu w khúc chung hai xâu P,T w đồng thời khúc P,T Khúc chung dài hai xâu P,T 14 Qua phương pháp nhận thấy việc so khớp key word với từ điển địa danh cho trước, từ chúng tơi xây dựng tệp mục địa danh Như chúng tơi sử dụng phương pháp so mẫu xác keyword tệp mục với từ địa danh từ điển, từ nhận định đâu từ địa danh tệp mục Tiếp theo giữ lại từ địa danh URL nó, từ khóa URL không liên quan loại bỏ khỏi tệp mục Như sau bước có tệp mục địa danh 15 b Bước 2: Thu thập tài liệu nói từ địa danh Sau thực bước ta có tệp mục bình thường địa danh với địa danh có nhiều URL liên quan đến địa danh khơng liên quan đến địa danh, mà chứa từ khóa địa danh thơi Ví dụ : Trang Web nói nói cơng ty Đà Nẵng có từ khóa Đà Nẵng nội dung liên quan đến địa danh Đà Nẵng URL mà quan tâm Để thực công việc vậy, đề xuất cơng cụ thu thập tài liệu nói địa danh có mơ sau: Tệp mục địa danh Tiền xử lý Các tài liệu có liên quan đến địa danh Phương pháp tính trọng số từ khóa Bộ lọc Giám sát Tài liệu có liên quan đến địa danh URL tài liệu liên quan Hình 3.4 Mơ hình cơng cụ thu thập tài liệu nói địa danh 16 Đầu vào: tệp mục ngữ nghĩa địa danh với nhiều URL Đầu ra: tệp mục địa danh với URL có chứa tài liệu liên quan đến địa danh Trong bước cần quan tâm đến tài liệu URL tài liệu mà nội dung liên quan đến từ khóa địa danh Nên chúng tơi tiến hành thu thập tất tài liệu mà liên quan đến địa danh thơi Cơng cụ chúng tơi qua bước tiền xử lý tài liệu thuộc URL đó, sau bóc tách bỏ thẻ HTML thẻ không quan trọng trang Web lấy văn trang Web thơi Sau bước tiền xử lý ta có tài liệu liên quan đến địa danh, với tài liệu chúng tơi lưu địa URL trước với tài liệu phương pháp trọng số tiến hành lọc lại giám sát người để có tài liệu liên qua đến địa danh Với tài liệu liên quan đến địa danh có URL tương ứng Sau bước chúng tơi có tài liệu liên quan đến địa danh URL tài liệu c Bước 3: Xác định thuộc tính địa danh Đầu vào liêu: Địa danh cụ thể tài liệu (URL nói địa danh) Đầu liệu: Các thuộc tính địa danh danh sách URL theo thuộc tính Chúng tơi tiến hành sử dụng phương pháp trích rút mẫu quan hệ ngữ nghĩa từ xây dựng cơng cụ Mơ hình cơng cụ chúng tơi sau: 17 Tập thuộc tính mẫu Thu thập liệu chứa thuộc tính Tập trang Web lưu thuộc tính Tập thuộc tính địa danh Xử lý Kho mẫu thuộc tính Sinh thuộc tính Hình 3.5 Mơ hình trích rút thuộc tính theo mẫu quan hệ ngữ nghĩa Trong mô bước chúng sử dụng trích rút mối quan hệ ngữ nghĩa cụ thể phương pháp Snowball phương pháp máy tìm kiếm để trích rút thuộc tính địa danh Thu thập tài liệu Tài liệu có tệp mục địa danh thực bước Phân loại liệu chứa thuộc tính Dựa theo tập thuộc tính mẫu, chúng tơi sử dụng phương pháp so khớp để tìm ra, phân loại tài liệu chứa thuộc tính Tuy nhiên để biết xác tài liệu có chứa thuộc tính có phải mơ tả cho thuộc tính khơng, sử dụng chế duyệt lại tài liệu Như bước để đảm bảo độ 18 xác phân loại tài liệu theo thuộc tính, chúng tơi kết hợp việc học máy, có giám sát người Xử lý Ở bước này, với tài liệu xác định thuộc tính cụ thể chúng tơi tiến hành xếp lại theo kiểu: thuộc tính – URL tài liệu liên quan Song song với việc đó, với tài liệu liên quan đến địa danh, chưa xếp vào thuộc tính mẫu nào, chúng tơi tiến hành trích rút để tìm thuộc tính mới, bổ sung cho tập thuộc tính mẫu Chúng tơi tiến hành sau tách câu tập liệu thu giữ lại câu chứa hai thành phần Tách từ tiếng Việt, loại bỏ từ dừng cho tập câu Áp dụng phương pháp sinh tự động tập thực thể để mở rộng tập thực thể từ thực thể ban đầu cho mối quan hệ xác định trước nhãn thực thể Phương pháp trình bày phần Gán nhãn tổng quát Dựa vào tập thực thể mở rộng, tiến hành tìm xác định nhãn cho thực thể có chứa tập câu thu bước Sau thực thể gán nhãn, xác định thành phần trái, thành phần phải, thành phần cho thực thể có chứa tập thuộc tính dựa vào tập câu thu Biểu diễn thành phần trái, thành phần phải thành phần dạng vector, ta thu tập mẫu thô Phân cụm mẫu Tiến hành so khớp thành phần trái, thành phần phải thành phần cho mẫu thô để loại bỏ mẫu thô trùng Dựa theo phương pháp Snowball, xác định mẫu quan hệ thực việc phân cụm mẫu thô Mỗi cụm đại diện 19 mẫu trình phân cụm mẫu thực sau: Với mẫu thô sinh ra, tiến hành tính độ tương đồng với mẫu đại diện theo cơng thức sau: Match(mẫu1,mẫu2=(prefix1.prefix2)+(suffix1.suffix2)+(middle1.middle2) Sinh thuộc tính Những mẫu tổng quát thu làm đầu vào cho vào máy tìm kiếm để tìm tập câu có chứa mẫu Nhận dạng thực thể có chứa tập câu dựa vào tập thực thể mở rộng Kiểm tra độ tin cậy thuộc tính sinh Những thuộc tính vượt qua giá trị ngưỡng giữ chúng lại - Sau quay lại bước 1, sử dụng tập thuộc tính thu với tập thuộc tính ban đầu đưa vào máy tìm kiếm để tiến hành sinh tập thuộc tính Vịng lặp dừng số lượng thuộc tính mẫu khơng cịn tiếp tục sinh Sau thực việc trích rút mẫu ta có tập thuộc tính từ địa danh chuyển sang bước d Bước 4: Xây dựng mô tả từ địa danh Sau thực thao tác bước chúng tơi có thuộc tính địa danh biết với địa danh có nhiều thuộc tính mơ tả địa danh đó, thuộc tính lại liên kết với lớp mơ tả làm giàu thơng tin cho thuộc tính đó, lớp giống ontology chứa thơng tin mơ tả thuộc tính Sau bước chúng tơi có tập thuộc tính địa danh, với tập thuộc tính đại danh chúng tơi sử dụng thuộc tính địa danh kết hợp URL liên quan thuộc tính, tiếp tục xây dựng tệp mục mô tả địa danh 20 theo cụ thể với địa danh đưa URL liên quan đến thuộc tính địa danh vào Chúng tơi mơ tả tệp mục ngữ nghĩa dạng mục mục có dạng XML cụ thể địa danh từ mơ tả tổng quan sau: … … … … … … Sau mơ tả từ địa danh chúng tơi tiến hành lập mục ngữ nghĩa cho địa danh đó, tệp mục ngữ nghĩa địa danh trình bày mục 3.2.4 Kết luận: Qua bước thực bước xác định từ địa danh phương pháp so mẫu, bước thu thập tài liệu nói địa danh bước sử dụng phương pháp trích rút mẫu quan hệ để lấy 21 thuộc tính, bước xây dựng mơ tả từ địa danh lập tệp mục ngữ nghĩa địa danh 3.3 NGÔN NGỮ THỰC NGHIỆM, KẾT QUẢ DỰ KIẾN 3.3.1 Ngôn ngữ XML a Lịch sử XML (viết tắt từ tiếng Anh Extensible Markup Language, "Ngôn ngữ Đánh dấu Mở rộng") Vào năm 1990, chuyên gia SGML có kinh nghiệm với World Wide Web (vẫn vào thời đó) Họ tin tưởng SGML cung cấp giải pháp cho vấn đề mà Web gặp phải Jon Bosak đưa ý kiến W3C nên tài trợ chương trình mang tên "SGML Web" b Đặc điểm XML cung cấp phương tiện dùng văn (text) để mô tả thông tin áp dụng cấu trúc kiểu cho thông tin Tại mức bản, thơng tin thể dạng text, chen thẻ đánh dấu (markup) với nhiệm vụ ký hiệu phân chia thơng tin thành cấu trúc có thứ bậc liệu ký tự, phần tử dùng để chứa liệu, thuộc tính phần tử Về mặt đó, XML tương tự với biểu thức S (S-expression) ngơn ngữ lập trình LISP chỗ chúng mô tả cấu trúc mà nút có danh sách tính chất riêng c Cú pháp Cú pháp XML cho phần tử nội dung 22 3.3.2 Kết dự kiến Sau thực phương pháp trích rút thuộc tính xây dựng tệp mục ngữ nghĩa mong muốn luận văn đạt kết kiến cụ thể tệp mục ngữ nghĩa địa danh Đà Nẵng mô tả theo ngôn ngữ XML có cấu trúc sau: 23 < Đà Nẵng> http://www.vietnamtourism.com/v_pages/c ountry/province.asp?uid=73 http://infonet.vn/Thoi-su/Den-nam-2030dan-so-Da-Nang-se-len-den-2-trieunguoi/64725.info http://www.danang.gov.vn/portal/page/porta l/danang/chinhquyen/gioi_thieu/Dan_so… http://vi.wikipedia.org/wiki/%C4%90%C3% A0_N%E1%BA%B5ng http://www.dulichdanang.info/gioi-thieu-dulich-da-nang/vi-tri-dia-ly-dien-tich-tu-nhien-thanhpho-da-nang.html http://www.danang.gov.vn/portal/page/porta l/danang/chinhquyen/gioi_thieu/Dieu_kien_tu_nhien http://www.dulichdanang.info/gioi-thieu-dulich-da-nang/vi-tri-dia-ly-dien-tich-tu-nhien-thanhpho-da-nang.html http://www.danangxanh.com/thong-tin-dulich/diem-tham-quan-da-nang.html http://www.web-du-lich.com/dich- vu/type.php?iCha=10&iCat=103&module=new s … < /Đà Nẵng> 24 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong luận văn tập trung nghiên cứu phương pháp trích rút thơng tin phương pháp trích rút mối quan hệ ngữ nghĩa, luận văn sử dụng phương pháp trích rút mối quan hệ nghĩa cụ thể phương pháp Snowball để trích rút thuộc tính địa danh Trong thời gian khơng nhiều, nên chưa thực nghiệm phương pháp trích rút để đánh giá phương pháp trích rút Tuy nhiên luận văn đạt yêu cầu đề ra, Phân tích vấn đề xung quanh tốn trích chọn thuộc tính thuộc tính địa danh xây dựng mơ hình tệp mục ngữ nghĩa để áp dụng cho tốn tìm kiếm Do khn khổ có hạn thời gian lượng kiến thức có gặp khó khăn q trình thu thập liệu thử nghiệm nên số vấn đề mà luận văn phải tiếp tục hoàn thiện phát triển thời gian tới hướng phát triển cho tương lai Thử nghiệm liệu lớn hoàn chỉnh hơn, với nhiều từ địa danh hơn, mở rộng trích rút thuộc tính nhiễu lĩnh vực Xây dựng phương pháp hiệu việc trích chọn cụm danh từ, ngữ nghĩa tiếng Việt ... gắn với từ có thuộc tính mơ tả từ đó, để phục vụ tốt cho tốn kiếm Do chúng tơi định chọn đề tài ? ?Nghiên cứu kỹ thuật phân tích trích rút thuộc tính tài liệu phục vụ cho tốn tìm kiếm? ?? Trong luận... phá liệu Ứng dụng phân tích trích rút thuộc tính tài liệu tốn tìm kiếm Biểu diễn kết tìm kiếm Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài gồm: - Các tài liệu văn - Hệ thống tìm kiếm. .. nhiệm vụ - Tìm hiểu kỹ thuật phân tích trích rút thuộc tính tài liệu - Xây dựng lại tệp mục ngữ nghĩa phục vụ tốt cho kết tìm kiếm - Để đạt mục đích trên, nhiệm vụ đề tài là: Tìm hiểu tìm kiếm

Ngày đăng: 30/12/2013, 13:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan