Nghiên cứu kỹ thuật phân tích và trích rút thuộc tính tài liệu phục vụ cho các bài toán tìm kiế

26 241 0
Nghiên cứu kỹ thuật phân tích và trích rút thuộc tính tài liệu phục vụ cho các bài toán tìm kiế

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGÔ VĂN KHOA NGHIÊN CỨU KỸ THUẬT PHÂN TÍCH VÀ TRÍCH RÚT THUỘC TÍNH TÀI LIỆU PHỤC VỤ CHO CÁC BÀI TOÁN TÌM KIẾM Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Footer Page of 126 Header Page of 126 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: TS HUỲNH CÔNG PHÁP Phản biện 1: PGS.TS VÕ TRUNG HÙNG Phản biện 2: PGS.TS TRƢƠNG CÔNG TUẤN Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 18 tháng năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU Lý chọn đề tài Trên môi trường Internet ngày nay, số lượng thông tin từ Web Site vô lớn gia tăng nhanh chóng theo ngày Với trạng đó, tìm kiếm thông tin nhu cầu thiếu cho người sử dụng Internet Ngày nay, loại thông tin mà người sử dụng muốn tìm kiếm trở nên phong phú, không đơn tìm kiếm nội dung văn trang Web Internet, thay vào nhiều loại khác như: hình ảnh, tập tin âm thanh, tập tin video, tài liệu dạng tập tin soạn thảo trình soạn thảo … Tuy nhiên, máy tìm kiếm công cụ tìm kiếm hỗ trợ tốt cho người sử dụng để truy vấn thông tin Với máy tìm kiếm phổ biến Google, Yahoo, nhận truy vấn từ người dùng, máy tìm kiếm thường trả danh sách lớn kết tìm kiếm Các kết tìm kiếm thường không xác, kết tìm kiếm thường theo danh sách từ khóa mà người dùng truy vấn Thêm vào đó, truy vấn “nhập nhằng”, có nhiều chủ đề liên quan người dùng khó khăn tốn nhiều thời gian xem xét tiêu đề đoạn tóm lược tài liệu để tìm kết mong muốn Ví dụ, người truy vấn muốn tìm địa danh Đà Nẵng kết trả viết có chứa từ khóa Đà Nẵng FPT Đà Nẵng hay báo Đà Nẵng điện tử, du lịch Đà Nẵng, khách sạn Đà Nẵng… Nguyên nhân cho kết tệp mục danh sách từ xây dựng với từ gắn vào từ khóa mà Từ Footer Page of 126 Header Page of 126 trạng để nâng cao tính xác cho kết tìm kiếm, đề xuất xây dựng tệp mục ngữ nghĩa tốt hơn, từ khóa gắn với từ có thuộc tính mô tả từ đó, để phục vụ tốt cho toán kiếm Do định chọn đề tài “Nghiên cứu kỹ thuật phân tích trích rút thuộc tính tài liệu phục vụ cho toán tìm kiếm” Trong luận văn này, mong muốn sử dụng kĩ thuật nghiên cứu, sử dụng kĩ thuật phân tích trích rút thuộc tính tài liệu với số phương pháp xử lý ngôn ngữ tự nhiên để xây dựng tệp mục ngữ nghĩa để áp dụng vào máy tìm kiếm, tìm tập tất đối tượng thỏa mãn yêu cầu người dùng đặt Mục tiêu nhiệm vụ - Tìm hiểu kỹ thuật phân tích trích rút thuộc tính tài liệu - Xây dựng lại tệp mục ngữ nghĩa phục vụ tốt cho kết tìm kiếm - Để đạt mục đích trên, nhiệm vụ đề tài là: Tìm hiểu tìm kiếm khai phá liệu Ứng dụng phân tích trích rút thuộc tính tài liệu toán tìm kiếm Biểu diễn kết tìm kiếm Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài gồm: - Các tài liệu văn - Hệ thống tìm kiếm - Tệp mục Phạm vi nghiên cứu sau: Footer Page of 126 Header Page of 126 - Tài liệu HTML, file.Doc, file PDF - Tệp mục - Ngôn ngữ tiếng việt Phƣơng pháp nghiên cứu Phương pháp phân tích: Thu thập, phân tích liệu đánh giá độ liên quan bảng liệu Phương pháp thực nghiệm: Thực việc cài đặt, thử nghiệm phương pháp trích rút thuộc tính tài liệu Đánh giá kết đạt theo bảng đánh giá xây dựng Ý nghĩa khoa học thực tiễn đề tài Sau thực phương pháp nghiên cứu phương pháp trích rút thuộc tính, góp phần làm sở cho việc lập mục ngữ nghĩa Bố cục luận văn Nội dung luận văn chia thành ba chương với nội dung sau: Chƣơng Cơ sở lý thuyết Nội dung tìm hiểu lý thuyết liên quan đến vấn đề nghiên cứu - Giới thiệu xử lý ngôn ngữ tự nhiên - Khai phá liệu - Tổng quan hệ thống tìm kiếm thông tin Chƣơng Các phƣơng pháp trích rút thông tin Nội dung tìm hiểu phương pháp trích rút liên quan đến vấn đề nghiên cứu Footer Page of 126 Header Page of 126 - Các phương pháp trích rút thông tin - Đánh giá nhận xét phương pháp Chƣơng Thử nghiệm đánh giá kết Trong chương xây dựng chương trình - Phát biểu toán - Mô hình tổng quan - Ngôn ngữ thực nghiệm kết dự kiến Footer Page of 126 Header Page of 126 CHƢƠNG CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Giới thiệu Xử lý ngôn ngữ xử lý thông tin đầu vào “dữ liệu ngôn ngữ”, tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngôn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người lưu trữ dạng điện tử Đặc điểm kiểu liệu cấu trúc nửa cấu trúc chúng lưu trữ khuôn dạng cố định bảng biểu Theo đánh giá cảu công ty Oracle, có đến 80% liệu cấu trúc lượng liệu loài người có Với đời phổ biến Internet, sách báo điện tử, máy tính cá nhân, viễn thông, thiết bị âm thanh,…Người người tạo liệu văn hay tiếng nói Vấn đề ta xử lý chúng, tức chuyển chúng từ dạng ta chưa hiểu thành dạng ta hiểu giải thích được, tức ta tìm thông tin, tri thức hữu ích cho Xử lý ngôn ngữ tự nhiên ứng dụng thực tế để giải toán như: nhận dạng chữ viết, tóm tắt văn bản, khai phá liệu phát tri thức 1.1.2 Khái niệm ngôn ngữ tự nhiên 1.1.3 Khái niệm xử lý ngôn ngữ tự nhiên 1.2 KHAI PHÁ DỮ LIỆU Khái niệm khai phá liệu (Data Mining) Footer Page of 126 Header Page of 126 Khai phá liệu định nghĩa trình chắt lọc hay khám phá tri thức từ lượng lớn liệu Thuật ngữ Data Mining ám việc tìm tập nhỏ có giá trị từ lượng lớn liệu thô Có phân biệt khái niệm "Khai phá liệu" với khái niệm "Phát tri thức" (Knowledge Discovery in Databases - KDD) mà theo đó, khai phá liệu bước trình KDD 1.3 TỔNG QUAN HỆ THỐNG TÌM KIẾM THÔNG TIN 1.1.4 Giới thiệu tìm kiếm thông tin Tìm kiếm thông tin (Information Retrieval - IR) tìm kiếm tài nguyên tập lớn liệu phi cấu trúc lưu trữ máy tính nhằm thỏa mãn nhu cầu thông tin 1.1.5 Mục tiêu hệ thống tìm kiếm thông tin 1.1.6 Cách thức hoạt động hệ thống tìm kiếm thông tin Hình 1.1 minh họa cấu trúc, cách hoạt động hệ thống tìm kiếm thông tin cổ điển Hình 1.1: Mô hình hệ tìm kiếm thông tin Footer Page of 126 Header Page of 126 CHƢƠNG CÁC PHƢƠNG PHÁP TRÍCH RÚT THÔNG TIN 2.1 GIỚI THIỆU Như biết trích rút thông tin lĩnh vực nghiên cứu chuyên sâu thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Vì toán phương pháp trích rút thông tin có nguồn gốc, tương tự phương pháp kỹ thuật sử dụng xử lý ngôn ngữ tự nhiên Trong phần trình bày tóm tắt khảo sát toán liên quan đến trích rút thông tin từ văn (từ khóa, cụm từ khóa, thực thể có tên, quan hệ thực thể,…) phương pháp tiếp cận phương pháp trích rút mối quan hệ ngữ nghĩa Mục đích việc trích rút thông tin để tìm thuộc tính thông tin để xây dựng lại tệp mục tìm kiếm 2.2 CÁC PHƢƠNG PHÁP TRÍCH RÚT THÔNG TIN 2.2.1 Trích rút cụm từ khóa(Keyphrase Extraction) 2.2.2 Nhận diện thực thể có tên 2.2.3 Nhận diện mối quan hệ 2.2.4 Trích rút metadata 2.2.5 Khái quát trích rút mối quan hệ ngữ nghĩa 2.2.6 Các phƣơng pháp trích rút mẫu quan hệ ngữ nghĩa 2.3 ĐÁNH GIÁ NHẬN XÉT CÁC PHƢƠNG PHÁP Footer Page of 126 Header Page 10 of 126 CHƢƠNG XÂY DỰNG CHƢƠNG TRÌNH 3.1 PHÁT BIỂU BÀI TOÁN Trong thời đại công nghệ thông tin hiên nhu cần tìm kiếm thông tin Internet vấn đề cần thiết người dùng, số lượng thông tin từ Website vô lớn gia tăng nhanh chóng theo ngày Với trạng đó, tìm kiếm thông tin nhu cầu thiếu cho người sử dụng Internet Ngày nay, loại thông tin mà người sử dụng muốn tìm kiếm trở nên phong phú, không đơn tìm kiếm nội dung văn trang Web Internet Các máy tìm kiếm công cụ tìm kiếm hỗ trợ tốt cho người sử dụng Với máy tìm kiếm phổ biến Google, Yahoo, nhận truy vấn từ người dùng, máy tìm kiếm thường trả danh sách lớn kết tìm kiếm Các kết tìm kiếm thường không xác, đối tượng cần tìm kiếm không đưa lên trang Từ vấn đề người tìm kiếm muốn có công cụ tìm kiếm phải thỏa mãn hai tiêu chí: xác nhanh chóng Đây “thách thức” tất nhà phát triển muốn phát triển hệ thống tìm kiếm ngày Bởi vì, lượng thông tin Internet vô lớn, máy chủ chứa toàn tất thông tin nó, nên nhà phát triển phải chia lượng thông tin thành nhiều phần để lưu trử máy chủ đặt nơi khác Ngoài ra, lượng thông tin lớn vậy, nên việc tìm kiếm đòi hỏi thời gian lơn chúng tệp mục tốt Để đáp ứng hai tiêu chí đó, toán giải mà đưa trích Footer Page 10 of 126 Header Page 12 of 126 10 Trong mô hình tổng quan này, đầu vào liệu tệp mục thông thường tài liệu Internet sau đưa vào tiến trình trích rút thuộc tính tài liệu, ta xây dựng tệp mục ngữ nghĩa 3.2.2 Xây dựng tệp mục ngữ nghĩa 3.2.3 Nhận xét tệp mục thông thƣờng Trong phương pháp xây dựng tệp mục tệp mục thông thường chia từ khóa theo từ có dạng sau: Với từ khóa gắn vào URL1, URL2, URL3… URL liên kết với từ khóa Ví dụ: Với từ khóa Đà Nẵng tệp mục thông thường có dạng: KEY URL Đà Nẵng URL1,URL2,URL3 Đà URL1,URL2,URL3 Nẵng URL1,URL2,URL3… Với từ Đà Nẵng có URL chứa từ Đà Nẵng, có URL chứa từ Đà từ Nẵng Ngoài từ Đà có URL nói công ty Sông Đà Thủy điện Sông Đà, với tệp mục tìm kiếm lên, ảnh hưởng đến kết tìm kiếm Từ nhược điểm đề xuất công cụ xậy dựng tệp mục ngữ nghĩa Footer Page 12 of 126 Header Page 13 of 126 11 3.2.4 Tệp mục ngữ nghĩa a Tổng quan Theo tệp mục ngữ nghĩa tệp có mô sau: Mô tả (thuộc tính 1) URL1 URL2 Mô tả (thuộc tính 2) URL1 URL2 KEY Mô tả (Thuộc tính 3) URL1 URL2 Hình 3.2 Mô hình tệp mục ngữ nghĩa Việc lập mục theo hướng ngữ nghĩa trích rút thuộc tnh có nội dung văn để làm mục biểu diễn cho nội dung tài liệu Việc trích rút thuộc tính thực theo nhiều phương pháp mà phương pháp Nhiều công trình lập mục theo ngữ nghĩa tìm giải pháp cho không cần so khớp tài liệu Từ việc lập mục theo hướng ngữ nghĩa chia hướng tiếp cận lớn : b Nhóm từ thuộc lĩnh vực ngữ nghĩa c Kế thừa ontology có Footer Page 13 of 126 Header Page 14 of 126 12 3.2.5 Các bƣớc xây dựng tệp mục ngữ nghĩa theo địa danh a Bước 1: Xác định từ địa danh Đầu vào liệu: tệp mục thông thường, tài liệu Internet Đầu liệu: tệp mục địa danh Theo toán phát biểu, xây dựng tệp mục ngữ nghĩa phạm vi từ địa danh Mà biết tệp mục thông thường tài liệu Internet, có nhiều từ khóa từ khóa địa danh từ nói địa danh hay nói lĩnh vực khác Như phải làm để xác định từ khóa từ nói địa danh vấn đề cần giải bước Theo phương pháp đưa để giải vấn đề so khớp địa danh từ điển địa danh với tệp mục tài liệu đó, hay sử dụng phương pháp so mẫu xác hướng đưa để giải vấn đề Ta khái quát mô hình xác định địa danh sau: Tệp mục thông thường Công cụ Tệp mục địa danh Hình 3.3 Mô hình xác định từ địa danh Footer Page 14 of 126 Từ điển địa danh Header Page 15 of 126 13 Phương pháp xác định từ địa danh Chúng ta thực phương pháp so khớp key word với từ điển sử dụng phương pháp so mẫu Sau xin trình bày hai phương pháp so mẫu: Phương pháp so mẫu xác: Cho xâu mẫu P có độ dài m(P=P1 P2…Pm-Pi ký tự) văn T độ dài n (T=T1 T2…TnTi ký tự) Tìm tất vị trí xuất mẫu P xâu T Phương pháp so mẫu xấp xỉ: Tìm kiếm xấp xỉ toán tìm xuất mẫu văn bản, khớp mẫu xuất chấp nhận “ k” lỗi (k giới hạn cho trước) Có thể kể vài kiểu lỗi, lỗi đánh máy hay lỗi tả hệ thống rút trích thông tin…vì hệ thống tin học khó tránh lỗi nên vấn đề tìm kiếm xấp xỉ trở nên quan trọng Ví dụ thứ tự ghép từ khác mang ngữ nghĩa giống (ví dụ “toán logic” “logic toán”) thứ tự sai song hiểu nghĩa (ví dụ “toán giải tích” “giải tích toán”, ) lỗi đánh máy (ví dụ “sedan” viết thành “ sudan”) Phương pháp phát biểu: Cho xâu mẫu P độ dài m văn T độ dài n Từ xác định độ tương tự hai xâu P T Phương pháp đưa tìm xâu chung dài (hay khúc chung dài nhất) Một xâu w xâu hay khúc xâu T T= uwv (xâu u,v rỗng) Xâu w khúc chung hai xâu P,T w đồng thời khúc P,T Khúc chung dài hai xâu P,T Footer Page 15 of 126 Header Page 16 of 126 14 Qua phương pháp nhận thấy việc so khớp key word với từ điển địa danh cho trước, từ xây dựng tệp mục địa danh Như sử dụng phương pháp so mẫu xác keyword tệp mục với từ địa danh từ điển, từ nhận định đâu từ địa danh tệp mục Tiếp theo giữ lại từ địa danh URL nó, từ khóa URL không liên quan loại bỏ khỏi tệp mục Như sau bước có tệp mục địa danh Footer Page 16 of 126 Header Page 17 of 126 15 b Bước 2: Thu thập tài liệu nói từ địa danh Sau thực bước ta có tệp mục bình thường địa danh với địa danh có nhiều URL liên quan đến địa danh không liên quan đến địa danh, mà chứa từ khóa địa danh Ví dụ : Trang Web nói nói công ty Đà Nẵng có từ khóa Đà Nẵng nội dung liên quan đến địa danh Đà Nẵng URL mà quan tâm Để thực công việc vậy, đề xuất công cụ thu thập tài liệu nói địa danh có mô sau: Tệp mục địa danh Tiền xử lý Các tài liệu có liên quan đến địa danh Phương pháp tính trọng số từ khóa Bộ lọc Giám sát Tài liệu có liên quan đến địa danh URL tài liệu liên quan Hình 3.4 Mô hình công cụ thu thập tài liệu nói địa danh Footer Page 17 of 126 Header Page 18 of 126 16 Đầu vào: tệp mục ngữ nghĩa địa danh với nhiều URL Đầu ra: tệp mục địa danh với URL có chứa tài liệu liên quan đến địa danh Trong bước cần quan tâm đến tài liệu URL tài liệu mà nội dung liên quan đến từ khóa địa danh Nên tiến hành thu thập tất tài liệu mà liên quan đến địa danh Công cụ qua bước tiền xử lý tài liệu thuộc URL đó, sau bóc tách bỏ thẻ HTML thẻ không quan trọng trang Web lấy văn trang Web Sau bước tiền xử lý ta có tài liệu liên quan đến địa danh, với tài liệu lưu địa URL trước với tài liệu phương pháp trọng số tiến hành lọc lại giám sát người để có tài liệu liên qua đến địa danh Với tài liệu liên quan đến địa danh có URL tương ứng Sau bước có tài liệu liên quan đến địa danh URL tài liệu c Bước 3: Xác định thuộc tính địa danh Đầu vào liêu: Địa danh cụ thể tài liệu (URL nói địa danh) Đầu liệu: Các thuộc tính địa danh danh sách URL theo thuộc tính Chúng tiến hành sử dụng phương pháp trích rút mẫu quan hệ ngữ nghĩa từ xây dựng công cụ Mô hình công cụ sau: Footer Page 18 of 126 Header Page 19 of 126 Tập thuộc tính mẫu 17 Thu thập liệu chứa thuộc tính Tập trang Web lưu thuộc tính Tập thuộc tính địa danh Xử lý Kho mẫu thuộc tính Sinh thuộc tính Hình 3.5 Mô hình trích rút thuộc tính theo mẫu quan hệ ngữ nghĩa Trong mô bước chúng sử dụng trích rút mối quan hệ ngữ nghĩa cụ thể phương pháp Snowball phương pháp máy tìm kiếm để trích rút thuộc tính địa danh Thu thập tài liệu Tài liệu có tệp mục địa danh thực bước Phân loại liệu chứa thuộc tính Dựa theo tập thuộc tính mẫu, sử dụng phương pháp so khớp để tìm ra, phân loại tài liệu chứa thuộc tính Tuy nhiên để biết xác tài liệu có chứa thuộc tính có phải mô tả cho thuộc tính không, sử dụng chế duyệt lại tài liệu Như bước để đảm bảo độ Footer Page 19 of 126 Header Page 20 of 126 18 xác phân loại tài liệu theo thuộc tính, kết hợp việc học máy, có giám sát người Xử lý Ở bước này, với tài liệu xác định thuộc tính cụ thể tiến hành xếp lại theo kiểu: thuộc tính – URL tài liệu liên quan Song song với việc đó, với tài liệu liên quan đến địa danh, chưa xếp vào thuộc tính mẫu nào, tiến hành trích rút để tìm thuộc tính mới, bổ sung cho tập thuộc tính mẫu Chúng tiến hành sau tách câu tập liệu thu giữ lại câu chứa hai thành phần Tách từ tiếng Việt, loại bỏ từ dừng cho tập câu Áp dụng phương pháp sinh tự động tập thực thể để mở rộng tập thực thể từ thực thể ban đầu cho mối quan hệ xác định trước nhãn thực thể Phương pháp trình bày phần Gán nhãn tổng quát Dựa vào tập thực thể mở rộng, tiến hành tìm xác định nhãn cho thực thể có chứa tập câu thu bước Sau thực thể gán nhãn, xác định thành phần trái, thành phần phải, thành phần cho thực thể có chứa tập thuộc tính dựa vào tập câu thu Biểu diễn thành phần trái, thành phần phải thành phần dạng vector, ta thu tập mẫu thô Phân cụm mẫu Tiến hành so khớp thành phần trái, thành phần phải thành phần cho mẫu thô để loại bỏ mẫu thô trùng Dựa theo phương pháp Snowball, xác định mẫu quan hệ thực việc phân cụm mẫu thô Mỗi cụm đại diện Footer Page 20 of 126 Header Page 21 of 126 19 mẫu trình phân cụm mẫu thực sau: Với mẫu thô sinh ra, tiến hành tính độ tương đồng với mẫu đại diện theo công thức sau: Match(mẫu1,mẫu2=(prefix1.prefix2)+(suffix1.suffix2)+(middle1.middle2) Sinh thuộc tính Những mẫu tổng quát thu làm đầu vào cho vào máy tìm kiếm để tìm tập câu có chứa mẫu Nhận dạng thực thể có chứa tập câu dựa vào tập thực thể mở rộng Kiểm tra độ tin cậy thuộc tính sinh Những thuộc tính vượt qua giá trị ngưỡng giữ chúng lại - Sau quay lại bước 1, sử dụng tập thuộc tính thu với tập thuộc tính ban đầu đưa vào máy tìm kiếm để tiến hành sinh tập thuộc tính Vòng lặp dừng số lượng thuộc tính mẫu không tiếp tục sinh Sau thực việc trích rút mẫu ta có tập thuộc tính từ địa danh chuyển sang bước d Bước 4: Xây dựng mô tả từ địa danh Sau thực thao tác bước có thuộc tính địa danh biết với địa danh có nhiều thuộc tính mô tả địa danh đó, thuộc tính lại liên kết với lớp mô tả làm giàu thông tin cho thuộc tính đó, lớp giống ontology chứa thông tin mô tả thuộc tính Sau bước có tập thuộc tính địa danh, với tập thuộc tính đại danh sử dụng thuộc tính địa danh kết hợp URL liên quan thuộc tính, tiếp tục xây dựng tệp mục mô tả địa danh Footer Page 21 of 126 Header Page 22 of 126 20 theo cụ thể với địa danh đưa URL liên quan đến thuộc tính địa danh vào Chúng mô tả tệp mục ngữ nghĩa dạng mục mục có dạng XML cụ thể địa danh từ mô tả tổng quan sau: … … … … … … Sau mô tả từ địa danh tiến hành lập mục ngữ nghĩa cho địa danh đó, tệp mục ngữ nghĩa địa danh trình bày mục 3.2.4 Kết luận: Qua bước thực bước xác định từ địa danh phương pháp so mẫu, bước thu thập tài liệu nói địa danh bước sử dụng phương pháp trích rút mẫu quan hệ để lấy Footer Page 22 of 126 Header Page 23 of 126 21 thuộc tính, bước xây dựng mô tả từ địa danh lập tệp mục ngữ nghĩa địa danh 3.3 NGÔN NGỮ THỰC NGHIỆM, KẾT QUẢ DỰ KIẾN 3.3.1 Ngôn ngữ XML a Lịch sử XML (viết tắt từ tiếng Anh Extensible Markup Language, "Ngôn ngữ Đánh dấu Mở rộng") Vào năm 1990, chuyên gia SGML có kinh nghiệm với World Wide Web (vẫn vào thời đó) Họ tin tưởng SGML cung cấp giải pháp cho vấn đề mà Web gặp phải Jon Bosak đưa ý kiến W3C nên tài trợ chương trình mang tên "SGML Web" b Đặc điểm XML cung cấp phương tiện dùng văn (text) để mô tả thông tin áp dụng cấu trúc kiểu cho thông tin Tại mức bản, thông tin thể dạng text, chen thẻ đánh dấu (markup) với nhiệm vụ ký hiệu phân chia thông tin thành cấu trúc có thứ bậc liệu ký tự, phần tử dùng để chứa liệu, thuộc tính phần tử Về mặt đó, XML tương tự với biểu thức S (S-expression) ngôn ngữ lập trình LISP chỗ chúng mô tả cấu trúc mà nút có danh sách tính chất riêng c Cú pháp Cú pháp XML cho phần tử nội dung Footer Page 23 of 126 Header Page 24 of 126 22 3.3.2 Kết dự kiến Sau thực phương pháp trích rút thuộc tính xây dựng tệp mục ngữ nghĩa mong muốn luận văn đạt kết kiến cụ thể tệp mục ngữ nghĩa địa danh Đà Nẵng mô tả theo ngôn ngữ XML có cấu trúc sau: Footer Page 24 of 126 Header Page 25 of 126 23 < Đà Nẵng> http://www.vietnamtourism.com/v_pages/c ountry/province.asp?uid=73 http://infonet.vn/Thoi-su/Den-nam-2030dan-so-Da-Nang-se-len-den-2-trieunguoi/64725.info http://www.danang.gov.vn/portal/page/porta l/danang/chinhquyen/gioi_thieu/Dan_so… http://vi.wikipedia.org/wiki/%C4%90%C3% A0_N%E1%BA%B5ng http://www.dulichdanang.info/gioi-thieu-dulich-da-nang/vi-tri-dia-ly-dien-tich-tu-nhien-thanhpho-da-nang.html http://www.danang.gov.vn/portal/page/porta l/danang/chinhquyen/gioi_thieu/Dieu_kien_tu_nhien http://www.dulichdanang.info/gioi-thieu-dulich-da-nang/vi-tri-dia-ly-dien-tich-tu-nhien-thanhpho-da-nang.html http://www.danangxanh.com/thong-tin-dulich/diem-tham-quan-da-nang.html http://www.web-du-lich.com/dich- vu/type.php?iCha=10&iCat=103&module=new s … < /Đà Nẵng> Footer Page 25 of 126 Header Page 26 of 126 24 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong luận văn tập trung nghiên cứu phương pháp trích rút thông tin phương pháp trích rút mối quan hệ ngữ nghĩa, luận văn sử dụng phương pháp trích rút mối quan hệ nghĩa cụ thể phương pháp Snowball để trích rút thuộc tính địa danh Trong thời gian không nhiều, nên chưa thực nghiệm phương pháp trích rút để đánh giá phương pháp trích rút Tuy nhiên luận văn đạt yêu cầu đề ra, Phân tích vấn đề xung quanh toán trích chọn thuộc tính thuộc tính địa danh xây dựng mô hình tệp mục ngữ nghĩa để áp dụng cho toán tìm kiếm Do khuôn khổ có hạn thời gian lượng kiến thức có gặp khó khăn trình thu thập liệu thử nghiệm nên số vấn đề mà luận văn phải tiếp tục hoàn thiện phát triển thời gian tới hướng phát triển cho tương lai Thử nghiệm liệu lớn hoàn chỉnh hơn, với nhiều từ địa danh hơn, mở rộng trích rút thuộc tính nhiễu lĩnh vực Xây dựng phương pháp hiệu việc trích chọn cụm danh từ, ngữ nghĩa tiếng Việt Footer Page 26 of 126 ... khóa gắn với từ có thuộc tính mô tả từ đó, để phục vụ tốt cho toán kiếm Do định chọn đề tài Nghiên cứu kỹ thuật phân tích trích rút thuộc tính tài liệu phục vụ cho toán tìm kiếm” Trong luận văn... phá liệu Ứng dụng phân tích trích rút thuộc tính tài liệu toán tìm kiếm Biểu diễn kết tìm kiếm Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài gồm: - Các tài liệu văn - Hệ thống tìm kiếm... nhiệm vụ - Tìm hiểu kỹ thuật phân tích trích rút thuộc tính tài liệu - Xây dựng lại tệp mục ngữ nghĩa phục vụ tốt cho kết tìm kiếm - Để đạt mục đích trên, nhiệm vụ đề tài là: Tìm hiểu tìm kiếm

Ngày đăng: 06/05/2017, 11:40

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan