Xây dựng mô hình lý thuyết cho phương pháp mở rộng truy vấn dựa trên bản thể học

30 527 0
Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BẢN TÓM TẮT Hiện nay nhiều phương pháp tiếp cận vềmởrộng truy vấn đã và đang được đềxuất trong lĩnh vực Truy xuất Thông tin, đặc biệt là phương pháp mởrộng truy vấn dựa trên bản thểhọc (ontology). Tuy nhiên hiện chỉcó một sốít mô hình hay nền tảng lý thuyết được đềxuất. Thông qua các định nghĩa đề xuất, bài báo này trình bày một cách tiếp cận mới (trong việc xây dựng mô hình lý thuyết cho phương pháp mởrộng truy vấn dựa trên bản thểhọc) từ đó có thể đóng vai trò nền tảng đểphát triển các hệ thống mởrộng truy vấn trong thực tế. Từnhững mô hình đềxuất, hai hệthống được phát triển theo hướng mởrộng truy vấn trực tiếp và gián tiếp. Ngoài ra giải pháp đềxuất này không những áp dụng được vào hệthống truy xuất thông tin mà còn cảhệthống hỏi đáp nhằm mởrộng ngữnghĩa. Phần thực nghiệm cho những giải pháp này được tiến hành trên kho tài liệu và truy vấn tiếng Anh đã chứng tỏ tính khảthi của giải pháp đồng thời giúp định hướng nghiên cứu trong tương lai đểcải tiến mô hình lý thuyết một cách hiệu quảhơn. ABSTRACT In Information Retrieval (IR), there have been many published approaches of Query Expansion (QE) especially Ontology-Based Query Expansion (OBQE). However, just some of them presented new proposed theoretical models or frameworks. By presenting proposed definitions, the paper introduces an approach of building theoretical models of OBQE which can be based on to develop real QE systems. From these models, we developed two systems focusing on direct and indirect query expansion solutions. In additional, these solutions can apply not only to IR but also to Question Answering (QA) field to expand question’s meaning. The experimentation of those solutions, which is done for English documents and queries in initial iteration, shows that the proposed approach is possible, thence its several further researches is necessary to improve semantic models to be more effective. 1. GIỚI THIỆU Trong lĩnh vực Truy xuất thông tin, bài toán Mở rộng truy vấn (Query Expansion, QE) được nhiều nhà nghiên cứu quan tâm nhằm tìm kiếm giải pháp bổsung những truy vấn tương đương ngữnghĩa, từ đó giúp cho các động cơtìm kiếm thông tin (Search Engine, SE) tìm và nhận được nhiều kết quảhơn. Ngày nay, trên thếgiới đã có nhiều phương pháp mởrộng truy vấn được đề xuất, tuy nhiên mô hình lý thuyết cho những phương pháp đó vẫn là một ẩn số đối với việc tìm kiếm và nghiên cứu của nhiều người. Bài báo này trình bày các mô hình lý thuyết đề xuất cho bài toán Mởrộng truy vấn trên cơsở kết hợp bản thểhọc (Ontology-Based Query Expansion, OBQE) từnghiên cứu của nhóm tác giả. Những mô hình này đóng vai trò nền tảng cho những nghiên cứu tiếp theo của nhóm tác giảtrong lĩnh vực IR và QA. Hướng tiếp cận của đềxuất này chính là việc mô hình hóa bài toán OBQE trên cơsởtổng quát hóa các thành phần cùng với những phương pháp cài đặt vềmặt lý thuyết tương ứng. Theo đó, những mô hình lần lượt được xác định dựa trên hai định hướng chính là tách biệt với SE hay kết hợp với SE thông qua hệthống chỉmục hướng ngữnghĩa.

Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ ISS_HUTECH – 15/04/2010 A PROPOSAL FOR QUERY EXPANSION MODEL IN INFORMATION RETRIEVAL Nguyễn Chánh Thành Phan Thị Tươi* Khoa Công Nghệ Thông Tin, Đại học Kỹ Thuật Công Nghệ TP.HCM, Việt Nam *Khoa Khoa Học Kỹ Thuật Máy Tính, Đại học Bách Khoa TP.HCM, Việt Nam BẢN TÓM TẮT Hiện nhiều phương pháp tiếp cận mở rộng truy vấn đề xuất lĩnh vực Truy xuất Thông tin, đặc biệt phương pháp mở rộng truy vấn dựa thể học (ontology) Tuy nhiên có số mơ hình hay tảng lý thuyết đề xuất Thông qua định nghĩa đề xuất, báo trình bày cách tiếp cận (trong việc xây dựng mơ hình lý thuyết cho phương pháp mở rộng truy vấn dựa thể học) từ đóng vai trị tảng để phát triển hệ thống mở rộng truy vấn thực tế Từ mơ hình đề xuất, hai hệ thống phát triển theo hướng mở rộng truy vấn trực tiếp gián tiếp Ngoài giải pháp đề xuất áp dụng vào hệ thống truy xuất thơng tin mà cịn hệ thống hỏi đáp nhằm mở rộng ngữ nghĩa Phần thực nghiệm cho giải pháp tiến hành kho tài liệu truy vấn tiếng Anh chứng tỏ tính khả thi giải pháp đồng thời giúp định hướng nghiên cứu tương lai để cải tiến mơ hình lý thuyết cách hiệu ABSTRACT In Information Retrieval (IR), there have been many published approaches of Query Expansion (QE) especially Ontology-Based Query Expansion (OBQE) However, just some of them presented new proposed theoretical models or frameworks By presenting proposed definitions, the paper introduces an approach of building theoretical models of OBQE which can be based on to develop real QE systems From these models, we developed two systems focusing on direct and indirect query expansion solutions In additional, these solutions can apply not only to IR but also to Question Answering (QA) field to expand question’s meaning The experimentation of those solutions, which is done for English documents and queries in initial iteration, shows that the proposed approach is possible, thence its several further researches is necessary to improve semantic models to be more effective GIỚI THIỆU Trong lĩnh vực Truy xuất thơng tin, tốn Mở rộng truy vấn (Query Expansion, QE) nhiều nhà nghiên cứu quan tâm nhằm tìm kiếm giải pháp bổ sung truy vấn tương đương ngữ nghĩa, từ giúp cho động tìm kiếm thơng tin (Search Engine, SE) tìm nhận nhiều kết Ngày nay, giới có nhiều phương pháp mở rộng truy vấn đề xuất, nhiên mơ hình lý thuyết cho phương pháp ẩn số việc tìm kiếm nghiên cứu nhiều người Bài báo trình bày mơ hình lý thuyết đề xuất cho toán Mở rộng truy vấn sở kết hợp thể học (Ontology-Based Query Expansion, OBQE) từ nghiên cứu nhóm tác giả Những mơ hình đóng vai trị tảng cho nghiên cứu nhóm tác giả lĩnh vực IR QA Hướng tiếp cận đề xuất việc mơ hình hóa tốn OBQE sở tổng quát hóa thành phần với phương pháp cài đặt mặt lý thuyết tương ứng Theo đó, mơ hình xác định dựa hai định hướng tách biệt với SE hay kết hợp với SE thông qua hệ thống mục hướng ngữ nghĩa Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ Những mơ hình cịn đồng thời có biến thể (dạng mơ hình kết hợp) phát triển dựa việc khai thác kết hợp phương pháp thống kê Trong báo (được phát triển từ [13]), mục trình bày tóm lược nghiên cứu giới đề xuất cho mơ hình tốn QE OBQE Mục giới thiệu mô hình lý thuyết OBQE (do nhóm tác giả đề xuất) thông qua định nghĩa khái niệm lý thuyết Các triển khai mơ hình mục cung cấp lời giải cho vấn đề nghiên cứu nhóm tác giả để phục vụ cho cơng trình nghiên cứu liên quan lĩnh vực IR QA Mục tóm lược kết thu thực nghiệm tập tài liệu truy vấn tiếng Anh Phần cuối kết luận định hướng cơng việc tương lai nhóm tác giả CÁC NGHIÊN CỨU LIÊN QUAN Một nghiên cứu quan trọng quan tâm đến tính hiệu QE chi phí thời gian thực thi hao tổn [1] liên quan đến toán mở rộng truy vấn thời gian thực Trong cơng bố này, nhóm V.Lavrenko đề xuất cách tiếp cận đặc biệt nhằm cải tiến hiệu suất mơ hình ngơn ngữ (như Rocchio, Local Context Analysis, Relevance-Model) đề xuất trước Phương pháp thực việc phân tích cơng thức xếp hạng dựa kết đại số hốn vị, từ so sánh hiệu suất mơ hình ngơn ngữ với mơ hình R liên quan ước lượng công thức H ( R || D ) = ∑ w P(w | R) log P(w | D ) thông qua tài liệu D Tuy nhiên thực nghiệm nghiên cứu (trên tập tài liệu Associated Press, Financial Times, Los Angeles Times Wall Street Journal) cho thấy vấn đề quan trọng cần nghiên cứu tương lai chi phí tính tốn cao cho lời giải việc xây dựng tập tương đồng cấu trúc H ( M || D ) D tài liệu M tập tài liệu Cũng từ mơ hình RelevanceModel nhóm V.Lavrenko, có ba vấn đề trở ngại ảnh hưởng đến tính hiệu việc tìm kiếm tài liệu (theo [2]) bao gồm mối quan hệ từ mở rộng (intra-query term dependencies) tồn thường xuyên, xác suất phân bố ISS_HUTECH – 15/04/2010 P( M j ) phụ thuộc đồng nhiễu xuất thông tin phản hồi Nghiên cứu [2] đề xuất mơ hình Latent Variable Model (LVM) θQ việc xác định kết hợp từ w thành phần truy vấn mở rộng ẩn số S j tập S = {S1 , S2 , , SM } xếp hạng cao theo công thức P (w | θ Q ) = ∑ S j ∈S P (w | S j ) P( S j ) Từ LVM phát triển dựa tảng mơ hình Markov ẩn (HMM) với triển khai HMM-I HMM-II cải tiến hiệu mặt lý thuyết thực tế Tuy hướng nghiên cứu nhóm K Järvelin [3] đặt trọng tâm vào toán mở rộng truy vấn sở ý niệm, [3] cung cấp phương pháp tổng qt cho tốn QE thơng qua việc xây dựng mơ hình liệu suy diễn Mơ hình tổ chức phân cấp theo ba mức gồm mức ý niệm, mức ngôn ngữ mức kiện Từ đó, với giải thuật TRANSLATE, việc thực nghiệm nhóm tác giả tiến hành từ 54.000 báo tạp chí với 12.5 triệu lượt từ chiếm dung lượng 125MB Kết thu gồm 120 ý niệm 200 biểu thức liên quan khoảng 300 lượt so trùng mơ hình biểu thức Mơ hình liệu suy diễn hạt nhân tồn nghiên cứu nhóm tác giả Một nghiên cứu nhóm J.Arguello [4] quan tâm đến khả mở rộng dựa cấu trúc liên kết Wikipedia Họ sử dụng Mơ hình tài liệu lớn LD (dựa theo công thức PLD ( F | Q) = P ( F )PLD (Q | F ) tham số μ ) Mơ hình tài liệu nhỏ SD (từ công thức PSD ( F | Q) = P( F )∑ P (Q | E )P ( E | F ) (∀E ∈ F ) tham số λE , λF λC ) Từ hướng tiếp cận đề xuất Wikipedia Link-Based Expansion (WLBE) Bốn nhóm thực nghiệm cmuSD, cmuSDwiki, cmuLDwiki, cmuLDwikiSP dựa tảng Support Vector Machines cho kết có độ xác bình qn (MAP) 0.246, 0.259, 0.302 0.306, từ phản ánh mơ hình WLBE có kết tốt 66% Tuy nhiên mơ hình tài liệu nhỏ cần nhóm tác giả quan tâm cải thiện nhiều Trong lĩnh vực giải vấn đề tính tốn y khoa (MCP), nghiên cứu Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Cơng nghệ lần thứ nhóm C.Bratsas [5] đề xuất mơ hình mở rộng truy vấn dựa luận lý mờ (fuzzy logic) sở kết hợp phát triển mơ hình OBQE mơ hình khơng gian vectơ (VSM) để tạo ánh xạ hiệu người dùng kiến thức thu thập MCP Trong mơ hình này, từ điển từ đồng nghĩa mờ xây dựng thơng qua việc tính tần suất tương đồng từ với dựa hỗ trợ từ ontology hệ thống UMLS (Unified Medical Language System) Đây phương pháp tiếp cận công phu hiệu cho ứng dụng truy vấn thông tin hướng ngữ nghĩa lĩnh vực MCP ISS_HUTECH – 15/04/2010 - Xây dựng tập từ đồng nghĩa phong phú từ kho ngữ liệu ngôn ngữ thông dụng - Xây dựng hệ thống mục chứa đựng thơng tin ngữ nghĩa cung cấp nhiều thông tin mở rộng cho truy vấn ban đầu Điều phản ánh mơ hình OBQE hiệu mơ hình mở rộng truy vấn khác vấn đề mở rộng truy vấn dựa ngữ cảnh MƠ HÌNH BÀI TỐN OBQE Các nghiên cứu [6], [7] [8] quan tâm đến mơ hình tốn OBQE để mở rộng truy vấn theo phương pháp trực tiếp gián tiếp Trong đó, dựa ontology OOMP đề xuất, phương pháp trực tiếp trình bày hướng tiếp cận hồn chỉnh mở rộng truy vấn thông qua việc bổ sung từ liên quan cho thành phần khiếm khuyết truy vấn Cũng từ ontology này, phương pháp gián tiếp giới thiệu hướng tiếp cận khác phát triển mục hướng ngữ nghĩa Những phương pháp kết triển khai từ mơ hình lý thuyết trình bày mục Từ phân tích trên, hướng tiếp cận ứng dụng kết hợp xử lý ngôn ngữ tự nhiên ontology vào mở rộng truy vấn hướng chun biệt với số cơng trình cơng bố mơ hình lý thuyết đề xuất liên quan Mơ hình OBQE đề xuất mục tổng qt hóa phương pháp trình bày [6], [7] [8] đồng thời cho thấy việc sử dụng kết thu lĩnh vực xử lý ngôn ngữ tự nhiên (như phương pháp phân đoạn từ, gán nhãn từ loại, luật sinh văn phạm ngôn ngữ tự nhiên) với phương pháp xác suất hỗ trợ: - Việc phân tích chi tiết truy vấn để nhận biết đầy đủ thông tin cần thiết liên quan đến từ khóa, từ loại ngữ cảnh, từ nội dung khiếm khuyết bổ sung vào truy vấn hợp lý xác - Quá trình chọn lọc liệu phục vụ việc làm giàu ontology để giảm chi phí huấn luyện, dẫn đến giảm chi phí tính tốn việc xác định ứng viên bổ sung vào vị trí cịn thiếu truy vấn Liên quan đến hệ thống mở rộng truy vấn OBQE định nghĩa đề xuất mơ hình lý thuyết: OB - Mơ hình QEM −+IR , Query Expansion Model with Ontology-Based without Information Retrieval (Hệ thống mở rộng truy vấn dựa ontology độc lập với hệ thống truy xuất thông tin), OB + P - Mơ hình QEM −+IR , Query Expansion Model with Ontology-Based and Probability without Information Retrieval (Hệ thống mở rộng truy vấn dựa ontology kết hợp xác suất độc lập với hệ thống truy xuất thông tin), OB , Query Expansion Model - Mơ hình QEM ++IR with Ontology-Based with Information Retrieval (Hệ thống mở rộng truy vấn dựa ontology kết hợp hệ thống truy xuất thơng tin), OB + P - Mơ hình QEM ++IR , Query Expansion Model with Ontology-Based and Probability with Information Retrieval (Hệ thống mở rộng truy vấn dựa ontology kết hợp xác suất tích hợp hệ thống truy xuất thơng tin) Những mơ hình xây dựng kế thừa theo nhánh phát triển tích hợp độc lập với hệ thống truy xuất thơng tin - Nhánh tích hợp trang bị tảng cho phương pháp mở rộng truy vấn theo hướng gián tiếp, mơ hình ưu việt mơ hình việc bổ sung thành phần mục hướng ngữ nghĩa Ngồi ra, mơ hình cịn bước cải tiến từ mơ hình dựa việc triển khai yếu tố xác suất thành phần nhằm tăng cường khả chọn lọc kết tìm kiếm xác dựa xác suất điều kiện - Nhánh độc lập đóng vai trị phương pháp mở rộng truy vấn theo hướng trực Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ tiếp tiếp cận xử lý mở rộng nội dung truy vấn Mơ hình bước tiến triển mơ hình triển khai yếu tố xác suất thành phần, từ hỗ trợ tốt việc tính tốn chọn lọc nội dung bổ sung cho truy vấn dựa xác suất điều kiện Những định nghĩa trình bày [6] [7] quan hệ R m (thành phần đặc trưng đối tượng), quan hệ R p (thuộc tính đặc trưng thành phần) quan hệ trội Rfm Rfp góp phần hình thành nên mơ hình đề xuất bốn định nghĩa sau OB 3.1 Định nghĩa – Mơ hình QEM −+IR OB QEM −+IR hệ thống mở rộng truy Mơ hình vấn dựa ontology độc lập với hệ thống truy xuất thông tin bốn [Θ, q, ℜ, f ] , đó: Θ ontology sử dụng để khai thác liệu quan hệ, q truy vấn ban đầu, ℜ = {q' } tập truy vấn q’ hoàn chỉnh mở rộng từ q, f ( q → q' ) quy tắc xử lý bổ sung thơng tin mở rộng Trong đó: ∀q' ∈ ℜ : sem( q' ) ∩ sem( q) ≠ ∅ với sem(q) biểu thị tập ngữ nghĩa q ontology(*) Đặc biệt áp dụng định nghĩa quan hệ nêu trên, điều kiện (*) diễn đạt thành: Tq có liên quan Tq’ với ∀q' ∈ ℜ OB + P 3.2 Định nghĩa – Mơ hình QEM −+IR OB + P hệ thống mở rộng truy Mơ hình QEM −+IR vấn dựa ontology kết hợp xác suất độc lập với hệ thống truy xuất thông tin bốn Θ℘ , q, ℜ, f℘ , đó: Θ℘ ontology [ ] sử dụng để khai thác liệu quan hệ dựa xác suất điều kiện, q truy vấn ban đầu, ℜ = {q' } tập truy vấn q’ hoàn chỉnh mở rộng từ q, f℘ ( q → q' ) quy tắc bổ ISS_HUTECH – 15/04/2010 f℘ (q → q' ) ≈ ℘(q | q' ) *℘( q' ) (1) thành phần bao gồm: ⎞ 1⎛ n ℘( q | q' ) = ⎜⎜ ∑℘(t i ) ⎟⎟ (2) với ti trường n ⎝ i =1 ⎠ hợp thứ i xảy liên hệ từ truy vấn q với từ truy vấn q’ tương ứng trường hợp 1/nO, …, 1/nO nM, …, 1/nO nM nP , nO , n M , n P số phần tử tương ứng tập O, M, P ℘( q' ) = ∑℘( wi | wi −1 )℘(wi −1 ) (4) wi ∈q ' xác định dựa theo mơ hình Markov, với q' = w w1 w n Giá trị cụ thể ℘(q' ) xác định ℘(oi ) *℘(m j | oi ) *℘( p k | m j oi ) , , ℘(o i ) *℘(m j | o i ) *℘( p k | m j o i ) Kết xác suất tính tốn cho thấy giá trị ℘( q | q' ) số, việc tìm truy vấn mở rộng q’ phụ thuộc vào việc xác định ℘(q' ) Từ suy ℜ = {q' 0|q' = arg max q' ℘(q' )} (5) OB 3.3 Định nghĩa – Mơ hình QEM ++IR OB Mơ hình QEM ++IR hệ thống mở rộng truy vấn dựa ontology kết hợp hệ thống truy xuất thông tin năm [IR(Idx ), Θ, q, ℜ, f ] tương tự mơ hình đó: IR(Idx ) hệ thống truy xuất thông tin IR với tập mục Idx Idx ∩ Θ ≠ ∅ OB + P 3.4 Định nghĩa – Mơ hình QEM ++IR OB + P Mơ hình QEM ++IR hệ thống mở rộng truy vấn dựa ontology kết hợp xác suất tích hợp hệ thống truy xuất thông tin năm IR( Idx ), Θ℘ , q, ℜ, f℘ tương tự mơ hình [ ] IR( Idx ) hệ thống truy xuất thông tin IR với tập mục Idx Idx ∩ Θ℘ ≠ ∅ sung thông tin mở rộng dựa xác suất điều kiện CÁC TRIỂN KHAI TỪ NHỮNG MƠ HÌNH LÝ THUYẾT Trong đó: ∀q'∈ ℜ : sem( q' ) ∩ sem( q) ≠ ∅ (tương tự định nghĩa 1) Thơng qua mơ hình lý thuyết đề xuất trên, vấn đề mở rộng truy vấn tiếp cận theo hướng trực tiếp gián tiếp Trên sở đó, việc phát triển hệ thống mở rộng truy vấn Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ thực dựa việc kết hợp ontology OOMP (giới thiệu [8]) ứng dụng quan hệ R m , Rfm , R p Rfp để từ xác định phương pháp xử lý cần thiết Quá trình cài đặt phát triển hệ thống sử dụng hỗ trợ từ cơng cụ xử lý ngôn ngữ tự nhiên phổ biến giới (như GATE [12]) để thực số bước tiền xử lý phân đoạn gán nhãn từ loại, nhận biết cụm danh từ 4.1 Mở rộng truy vấn theo hướng trực tiếp (phạm vi toàn cục) OB + P , hệ thống mở Dựa mô hình MQE −+IR rộng truy vấn trực tiếp cho động tìm kiếm thơng tin Web giới thiệu sau ISS_HUTECH – 15/04/2010 Hình 2: Hệ thống mở rộng truy vấn gián tiếp Kế đến giải thuật HS với độ phức tạp O(n) ([6]) cung cấp phương pháp tìm kiếm kết hợp cho truy vấn người dùng, qua khai thác liên kết mở rộng cung cấp mục hướng ngữ nghĩa, từ thu thập mục từ mục tài liệu liên quan cần tìm nhiều 4.3 Mở rộng nội dung câu hỏi QA OB Một triển khai khác mơ hình MQE ++IR OB + P MQE ++IR việc ứng dụng vào hệ thống QA hỗ trợ việc mở rộng nội dung câu hỏi (hình 3) Hình 1: Hệ thống mở rộng truy vấn trực tiếp Trong hệ thống này, truy vấn kiểm tra hoàn chỉnh (xem [8], giải thuật CNPV, NPC có độ phức tạp O(n) O(n2)) để bao hàm đủ ba phần đối tượng (ký hiệu oi), thành phần đặc trưng (ký hiệu mj) thuộc tính đặc trưng (ký hiệu pk) liên kết đến ontology OOMP, sau mở rộng (xem [7], giải thuật SNPE với độ phức tạp O(n2)) theo hướng bổ sung phần tử oi’ , mj’ , pk’ khác ontology OOMP thỏa quan hệ R m , Rfm , R p Rfp nêu Kết thu tập truy vấn hoàn chỉnh mở rộng 4.2 Mở rộng truy vấn theo hướng gián tiếp (phạm vi cục bộ) OB + P , hệ thống mục Từ mơ hình MQE ++IR hướng đến ngữ nghĩa phát triển dựa kết hợp ontology OOMP tập mục tạo Lucene [10] (xem [6], giải thuật SIC có độ phức tạp O(n2)), từ phục vụ việc triển khai hệ thống mở rộng truy vấn cho hệ thống truy xuất thơng tin có sẵn theo hướng gián tiếp (hình 2) Hình 3: Hệ thống mở rộng nội dung câu hỏi Từ đây, câu hỏi phân tích thành liệu có cấu trúc , mà thành phần liên quan đến từ nghi vấn Sau đó, phương pháp mở rộng câu hỏi khai thác sở tri thức hệ thống để bổ sung thông tin liên quan đến phần cấu trúc đó, tạo nên tập liệu mở rộng Từ tập này, thông qua việc kết hợp liệu có phần chung liên quan đến câu hỏi ban đầu, hệ thống tìm chọn câu trả lời cần thiết Giải thuật SNPE (trong [7]) đóng vai trị tảng cho phương pháp mở rộng câu hỏi THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1 Nguồn liệu công cụ hỗ trợ Tập tài liệu sử dụng thực nghiệm khai thác từ nguồn TREC [9] sau Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ Bảng 1: Nguồn liệu thực nghiệm Nguồn (N1) Associated Press (N2) Congression al Record Số tài liệu, Dung lượng 1.044 272 222 91,6 Nguồn (N7) Los Angeles Times (N8) U.S Patents Số tài liệu, Dung lượng 730 169 235 ISS_HUTECH – 15/04/2010 cách khác, phương pháp mở rộng truy vấn (thể thông qua giải thuật SNPE) có độ tin cậy mức cao số trường hợp cụ thể mức 33,67% bình diện tổng quát 249 724 659 593 480 450 427 301 (N3) Department of Energy abstracts 178 72,1 (N4) Foreign Broadcast Information Service 492 (N5) Federal Register 828 244 (N6) Financial Times Limited 593 197 149 (N9) San Jose Mercury News 301 (N10) Wall Street Journal 572 (N11) ZiffDavis- (N12) ZiffDavis- 427 424 354 353 220 294 13 20 N1 N2 178 134 N3 194 177 N4 N5 Kết (số tài liệu) 159 N6 354 354 305 152 14 15 N7 N8 N9 N10 N11 N12 Kết xác (số tài liệu) Hình 4: Thống kê kết thực nghiệm theo nguồn liệu 5.2 Phương pháp đánh giá Thực nghiệm tiến hành 12.282 truy vấn dạng cụm danh từ tập liệu thử nghiệm TEST_DATA Kết thực nghiệm cho hai hướng phát triển đánh giá dựa độ đo độ xác P (precision), độ bao phủ R (recall) độ trung bình điều hịa Fβ ([11]) 5.3 Thực nghiệm cho hướng Trực tiếp Kết phân tích thể hình bao gồm số liệu so sánh lượng tài liệu truy hồi (thông qua việc tìm kiếm xác truy vấn) từ nguồn liệu số tài liệu xác đó, thực cho phương pháp mở rộng Qua kết này, ta thấy độ đo đạt giá trị cao thực nghiệm nguồn liệu liên quan đến nội dung truy vấn nhiều Ví dụ trường hợp xảy nguồn liệu N3, N6, N11 N12 liên quan đến lĩnh vực tin học Cũng từ kết phân tích này, giá trị trung bình độ xác độ F đạt 33,67% 39,04% ảnh hưởng nhiễu (do nhiều tài liệu khơng liên quan số nguồn liệu), mức độ bao phủ trung bình tốt mức 98,18% Các số liệu phản ánh mức độ tin cậy số liệu đối chiếu với số liệu thực tế Nói Ngồi ra, kết phương pháp SNPE so sánh với kết phương pháp tìm kiếm thơ truy vấn tập TEST_DATA Những so sánh tóm lược bảng 2, cột PP-Thơ PPSNPE biểu diễn số liệu tương ứng cho phương pháp tìm kiếm thơ phương pháp SNPE Bảng 2: So sánh kết PP-THƠ PP-SNPE Giá trị bình PP PP Tỉ lệ Thô SNPE quân theo truy vấn (a) Số lượt tài 7.92 37.90 4.78 liệu tìm (b) Số lượt tài 4.98 24.09 4.83 liệu tìm xác (c) Số tài liệu tìm 1.63 0.36 0.22 phân biệt (d) Số tài liệu tìm 0.37 0.06 0.16 xác phân biệt So sánh cho thấy phương pháp SNPE có kết trội bật mặt (a), (b) chưa thật trội mặt (c) (d) có trùng lặp cao tài liệu nhóm kết tìm phương pháp SNPE Điều phản ánh ưu nhược điểm phương pháp SNPE ngữ cảnh định, từ ảnh hưởng đến định hướng nghiên cứu tương lai vấn đề cải tiến phương pháp SNPE mơ hình liên quan Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ 5.4 Thực nghiệm cho hướng Gián tiếp Ba thực nghiệm sau tiến hành để tìm kiếm tất tài liệu liên quan đến từ khóa thành phần truy vấn tập TEST_DATA Phân tích đánh giá cho thực nghiệm thực phương diện số tài liệu liên quan tìm phân biệt chi phí thời gian 5.4.1 ISS_HUTECH – 15/04/2010 cao (1,61 lần) đạt mặt kết tìm trung bình giải thuật HS so với kết tìm kiếm thơ Đồng thời, cách biệt chi phí trung bình thời gian tìm kiếm giải thuật HS tìm kiếm thơ thu giảm đáng kể (chỉ cịn lại 1,10 lần so với 2,31 lần thực nghiệm 2) so với tìm kiếm thơ So với kết tương ứng thực nghiệm 2, cải tiến khách quan ảnh hưởng đến tính hiệu giải thuật HS Thực nghiệm 5.5 Thực nghiệm cho hướng Mở rộng câu hỏi Dựa tất phần tử liên kết mở rộng mục hướng ngữ nghĩa, hệ thống tiến hành tìm kiếm từ khóa cho tất truy vấn tập TEST_DATA tất nguồn liệu bảng Đây tốn tìm kiếm mở rộng tồn cục phạm vi toàn cục Kết phản ánh tỉ lệ tốt (1,05 lần) đạt mặt kết tìm trung bình PP-HS so với kết PP-Thơ Tuy nhiên, chi phí trung bình thời gian tìm kiếm giải thuật HS cao (4,08 lần) so với tìm kiếm thơ Đây vấn đề ảnh hưởng đến tính hiệu giải thuật HS 5.4.2 Thực nghiệm Giống thực nghiệm thực nghiệm hệ thống tìm kiếm nguồn N11 N12 Đây tốn tìm kiếm mở rộng toàn cục phạm vi cục Kết thực nghiệm cho thấy hai phương pháp thu giá trị bình quân số tài liệu tìm ngang Một nghịch lý xảy liên quan đến thời gian thực thi trung bình hai phương pháp Cả giá trị PP-Thô PP-HS cao so với kết tương ứng thực nghiệm trước Tuy nhiên, tỉ lệ cách biệt thời gian thực thi hai phương pháp thu giảm từ 4,08 (trong thực nghiệm 1) xuống 2,31 Kết phản ánh mức cải thiện đáng kể thời gian thực thi trung bình giải thuật HS so với kết tìm kiếm thơ Đây bước cải tiến khách quan ảnh hưởng đến tính hiệu giải thuật HS 5.4.3 Thực nghiệm Tương tự thực nghiệm 2, hệ thống chọn phần tử liên kết thuộc nguồn N11 N12 để xử lý phạm vi thực nghiệm Đây tốn tìm kiếm mở rộng cục phạm vi cục Kết thực nghiệm phản ánh tỉ lệ tốt Từ mơ hình hệ thống QA có mở rộng câu hỏi, việc thực nghiệm giai đoạn triển khai cài đặt số thành phần như: - Xây dựng sở tri thức thừa kế phần từ ontology OOMP cấu trúc tổ chức, - Xây dựng tập liệu huấn luyện thử nghiệm bao gồm câu hỏi dạng Yes/No WH, - Cài đặt chức phân tích câu hỏi (tạo liệu cấu trúc) sở tận dụng thư viện GATE JAPE [12], - Cài đặt giải thuật mở rộng câu hỏi sở cải tiến giải thuật SNPE Từ kết này, bước định hướng phát triển cài đặt cho phần quan trọng hệ thống (chức Tìm & Chọn câu trả lời) Tóm lại, hai phần thực nghiệm chứng tỏ mơ hình đề xuất chúng tơi hệ thống OBQE hướng phát triển tương ứng giải pháp khả thi, thơng qua phát triển nâng cấp tương lai KẾT LUẬN Bài báo trình bày sở lý thuyết mơ hình hệ thống OBQE đề cập hướng phát triển tương ứng cho hệ thống mở rộng truy vấn Những đề xuất đóng vai trị tảng cho nghiên cứu nhóm tác giả, số kết giới thiệu [6], [7] [8] cho thấy vai trị quan trọng mơ hình Phần thực nghiệm hướng phát triển quan tâm đến kết thu từ việc mở rộng so với chưa mở rộng, thực tập tài liệu từ nguồn TREC truy vấn tiếng Anh Kết thực nghiệm phản ánh độ xác tương Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ đối cao cho nguồn tài liệu có liên quan chặt chẽ đến nội dung ontology OOMP, vấn đề nhiễu tương đối cao cho trường hợp cịn lại Vì vậy, hướng nghiên cứu đến chúng tơi là hồn thiện mơ hình lý thuyết, tối ưu giải thuật sử dụng mơ hình hướng phát triển, để từ hướng đến tảng lý thuyết hồn thiện Ngoài ra, việc triển khai thực nghiệm cho kho ngữ liệu tiếng Việt vấn đề xây dựng phiên ontology OOMP cho tiếng Việt vấn đề quan tâm hàng đầu tương lai TÀI LIỆU THAM KHẢO V.Lavrenko, J.Allan , “Real-time Query Expansion in Relevance Models”, CIIR Technical Report, IR-473: (2006) Q.Huang, D.Song, “A Latent Variable Model for Query Expansion Using the Hidden Markov Model”, Proceeding of the 17th ACM conference on Information and knowledge management, California, USA 2008 K.Järvelin, J.Kristensen, T.Niemi, E.Sormunen, H.Keskustalo, “A Deductive Data Model for Query Expansion”, Proc of 19th Annual International ACM–SIGIR Conference on Research and Development in Information Retrieval J.Arguello, J.L.Elsas, C.Yoo, J.Callan, J.G.Carbonell, “Document and Query Expansion Models for Blog Distillation”, 17th Text REtrieval Conference (TREC 2008) Proceedings C.Bratsas, V.Koutkias, E.Kaimakamis, P.Bamidis, N.Maglaveras, “Ontology-based Vector Space Model and Fuzzy Query ISS_HUTECH – 15/04/2010 Expansion to Retrieve Knowledge on Medical Computational Problem Solutions”, In EMBS 2007, 29th Annual International Conference of the IEEE (2007) Thanh C.Nguyen, Tuoi T.Phan, “A hybrid solution of ontology-based query expansion”, The International Journal of Web Information Systems, Volume Number 2, 2008, pp 215–227 ISSN 1744– 0084 Nguyễn Chánh Thành, Phan Thị Tươi, “Truy xuất thông tin: Giải pháp thể học cho hồn chỉnh truy vấn”, Tạp chí Cơng Nghệ Thơng tin & Truyền Thơng: Các cơng trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin Truyền thông, số 19, Việt nam, tr 84–92 ISSN 0866– 7039 Thanh C.NGUYEN, Tuoi T.PHAN, “An ontology-based approach of query expansion”, The 9th International Conference on Information Integration and Web Based Application & Service (iiWAS2007), 2007, Indonesia, ACS, pp 113–123 ISBN 978–3–85403–229–8 TREC, http://trec.nist.gov 10.Lucene, http://lucene.apache.org 11.http://en.wikipedia.org/wiki/Recall_(informat ion_retrieval) 12.GATE, A General Architecture for Text Engineering, http://gate.ac.uk 13 Nguyễn Chánh Thành, Phan Thị Tươi, “Mơ hình mở rộng truy vấn Truy xuất Thơng tin”, Tạp chí Cơng Nghệ Thơng tin & Truyền Thơng: Các cơng trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin Truyền thông, số 23 (2), Việt nam, 2010 ISSN 0866–7039 Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ ISS_HUTECH – 15/04/2010 MỘT SỐ THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP TRÊN CƠ SỠ DỮ LIỆU PHÂN TÁN DỌC Cao Tùng Anh Nguyễn Hà Giang Khoa Công Nghệ Thông Tin, Đại học Kỹ Thuật Công Nghệ TP Hồ Chí Minh, Việt Nam BẢN TĨM TẮT Các khó khăn việc khai thác luật sở liệu(CSDL) phân tán là: (i) Tốn thời gian cho việc gửi nhận liệu bên (ii) Việc kết bảng lại với dẫn đến tốn không gian lưu trữ (iii) Lộ liệu bên tham gia Trong báo này, trình bày phương pháp khai thác luật kết hợp CSDL phân tán phép kết: inner join, outer join Chúng tơi đề xuất thuật tốn khai thác với số lần gửi nhận liệu bên thấp mà không cần kết CSDL lại với GIỚI THIỆU CSDL phân tán loại CSDL thường gặp thực tế Vấn đề đặt làm để khai thác hiệu chúng Vấn đề bảo mật bên thực nào? Gần đây, số phương pháp phát triển để giải vấn đề Trong [2], Vaidya Clifton trình bày số giải pháp thành công cho vấn đề CSDL phân tán dọc thành bên [3] với n bên (n>2) Các thuật toán địi hỏi phải tính tốn an tồn nhằm trì tính riêng tư liệu bên tham gia vào q trình khai thác luật Việc tính tốn an tồn (secure computation)[3] cho phép tính tốn luật từ liệu đưa vào bên tham gia cung cấp mà không làm lộ nguồn liệu riêng bên Tuy nhiên nhược điểm thuật tốn là: có khả suy thơng tin cá nhân dựa kết số trường hợp xác định [1] Để cải tiến phương pháp này, tác giả [1] đưa thuật toán cho phép khai thác luật kết hợp với độ an tồn liệu cao thuật tốn trước đó, nhiên thuật tốn mà tác giả áp dụng để khai thác thuật toán Apriori nên lượng liệu lớn gặp khó khăn khai thác liệu Trong [5], phát triển phương pháp hiệu để khai thác luật kết hợp bảo tồn tính riêng tư dựa vào IT-tree áp dụng cho CSDL phân tán dọc kết tự nhiên chúng Đóng góp báo: i) Phát triển thuật toán khai thác tập phổ biến CSDL phân tán dựa vào IT-tree phép kết outer join: left join, right join CƠ SỞ LÝ THUYẾT 2.1 Định nghĩa liệu giao dịch Cho I = {i1, i2, …, in} tập tất mục liệu (mặt hàng) T = {t1, t2, …, tm} tập tất giao dịch CSDL giao dịch D CSDL cho quan hệ hai ngơi δ ⊆ I × T Nếu mục i ∈ I xảy giao dịch t ∈ T ta viết ( i, t) ∈δ, kí hiệu i δ t Ví dụ: xét CSDL sau [4] Bảng 1:CSDL mẫu Mã giao dịch Nội dung giao dịch A, C, T, W C, D, W A, C, T, W A, C, D, W A, C, D, T, W C, D, T Giao dịch thứ hai biểu diễn {Cδ2, Dδ2, Wδ2} Proceedings of the 1st Conference on Science and Technology Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ ISS_HUTECH – 15/04/2010 2.2 Định nghĩa độ phổ biến [4] Cho CSDL giao dịch D tập liệu X ⊆ I Độ hỗ trợ X D, kí hiệu σ(X), định nghĩa số giao dịch mà X xuất D 2.3 Định nghĩa tập phổ biến [4] 2.6 Phương pháp IT-tree [4] IT-tree dựa phương pháp chia để trị nhằm tìm kiếm tập phổ biến có CSDL 2.6.1 Thuật toán X ⊆ I gọi phổ biến σ(X) ≥ minSup (với minSup giá trị người dùng định) tập phổ biến ký hiệu FI (Frequent itemset) Đầu vào: CSDL D với tập item I ngưỡng phổ biến minSup Kết quả: tập FI gồm tất tập phổ biến CDSL D thỏa minSup Phương pháp thực hiện: 2.4 Các tính chất tập phổ biến [4] a) Nếu X phổ biến Y ⊂ X phổ biến b) Nếu X khơng phổ biến Y ⊂ X không phổ biến ECLAT() [∅] = {i ∈ I: σ(i) ≥ minSup} ENUMERATE_FREQUENT([∅]) 2.5 Kết nối Galois [4] ENUMERATE_FREQUENT([P]) for all li ∈ [P] [Pi] = ∅ for all lj ∈ [P] with j > i I = l i ∪ lj T = t ( li ) ∩ t ( lj ) if |T| ≥ minSup then [Pi] = [Pi] ∪ { I × T } ENUMERATE_FREQUENT([Pi]) Cho quan hệ hai δ ⊆ I × T chứa CSDL cần khai thác Đặt X ⊆ I Y ⊆ T Ta định nghĩa hai ánh xạ P(I) P(T) sau: a) t : P(I ) a P(T), t(X ) = {y ∈T | ∀x ∈ X, xδ y} b) i : P(T ) a P(I ), i(Y ) = {x ∈ I | ∀y ∈ Y , xδ y} Thuật toán 1: Thuật toán phát sinh tập phổ biến thỏa ngưỡng minSup 2.6.2 Minh họa thuật tốn: Hình 1: Cây tìm kiếm tập phổ biến với minSup = 50% Proceedings of the 1st Conference on Science and Technology 10 Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ 1 GIỚI THIỆU So khớp ảnh vân tay kỹ thuật đóng vai trị quan trọng hệ thống nhận dạng vân tay với phạm vi rộng ứng dụng lĩnh vực hành pháp dân chẳng hạn điều tra tội phạm, thẻ tín dụng, lái xe, thẻ xuất nhập cảnh, truy cập máy tính xách tay, điện thoại di động Mặc dù dấu vân tay có nhiều thơng tin phân biệt có nhiều phương pháp tiến đề xuất cho hệ thống xác thực vân tay, việc xây dựng hệ thống xác thực vân tay mát thơng tin cịn tốn đầy thách thức [1] Do đó, So khớp ảnh vân tay nhận quan tâm nghiên cứu ngày tăng cộng đồng xử lý ảnh nhận dạng mẫu Vân tay hình thành nhóm đường cong Đặc trưng sử dụng nhiều bao gồm điểm rẽ nhánh điểm kết thúc gọi minutiae Hình ví dụ điểm rẽ nhánh điểm kết thúc Bifurcation   Endpoint   a)  b) Hình 1: Minutiaes (a) and Orientation Field (b) Thuật toán so khớp dựa vào tập minutiae hướng tiếp cận phổ biến Có nhiều phương pháp so khớp vân tay dựa vào đặc trưng minutiae công bố [2], [3], [12] Thuật toán so khớp dựa vào minutiae gồm hai giai đoạn: canh chỉnh hai vân tay tìm tương quan hai vân tay cho số cặp minutiae hai ảnh khớp với nhiều Jain [2] đề xuất phương pháp so khớp dựa vào việc canh chỉnh minutiae, đặc trưng đường vân ISS_HUTECH – 15/04/2010 sử dụng để đánh giá mức độ giống minutiae Tuy nhiên, việc lưu trữ thông tin đường vân tốn nhiều không gian nhớ Hơn nữa, việc canh chỉnh khơng xác He [9] cải tiến thuật tốn so khớp Jain [2] (phân tích giống đặc trưng toàn cục) Tuy nhiên, phương pháp gặp phải vấn đề đánh đổi độ xác chi phí tính tốn Jiang, Yau [6] Jea, Govindaraju [10] sử dụng cấu trúc toàn cục cục minutiae cho việc so khớp Trong đó, điểm minutiae lân cận sử dụng để tính tốn vector đặc trưng với kích thước cố định Phương pháp nhạy cảm với nhiễu việc tính toán phụ thuộc vào thứ tự minutiae lân cận Wang [20] đề xuất sử dụng đặc trưng Polyline cho việc rút trích thơng tin đường vân Phương pháp không hoạt động tốt số trường hợp vân tay bị bóp méo Số đường vân cặp điểm minutiae (do Sha [21] đề xuất) đặc trưng phân biệt tốt trường hợp ảnh bị bóp méo, việc tính tốn xác số đường vân khó trường hợp ảnh vân tay bị mát thơng tin Đặc trưng hướng đường vân đóng vai trò quan trọng hệ thống nhận dạng vân tay khơng áp dụng thuật toán so khớp ảnh (sử dụng vector đặc trưng mẫu đường vân, gọi FingerCode) [3] mà sử dụng việc nâng cao chất lượng ảnh [16] phân lớp ảnh [18], [21], [22] Đặc trưng toàn cục hướng đường vân có ưu điểm sau: so khớp nhanh, dễ rút trích, nhạy cảm so trường hợp ảnh bị nhiễu ảnh bị bóp méo, đặc trưng có nhược điểm: phân biệt chưa xác (trong số trường hợp hai vân tay khác có đặc điểm hướng đường vân), chi phí rút trích lưu trữ lớn Hơn nữa, độ xác phương pháp khơng ổn định (phụ thuộc nhiều vào việc phát điểm lõi) Có số phương pháp đề xuất sử dụng kết hợp đặc trưng để tăng cường hiệu hệ thống so khớp [11], [14] Proceedings of the 1st Conference on Science and Technology 16 Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ Phương pháp so khớp lai đề xuất Ross [14], Gu [11], phương pháp kết hợp thông tin so khớp minutiae với thông tin so khớp hướng đường vân Tuy nhiên, phương pháp thừa hưởng từ phương pháp có nên hiệu nhận dạng phụ thuộc vào kỹ thuật giai đoạn so khớp minutiae so khớp hướng (Độ xác khơng cao trường hợp ảnh bị bóp méo) Để tìm phép canh chỉnh tối ưu hai ảnh vân tay bị bóp méo, kỹ thuật so khớp dựa vào thuật giải di truyền (GA) đề xuất [1], [13], [15] Trong thuật toán so khớp dựa GA (Tan Bhanu [15]), hàm thích nghi tính tốn sở ba minutiae Tuy nhiên, phương pháp không đạt kết tốt (hội tụ lâu độ xác khơng cao), lý do: sử dụng tọa độ để đánh giá cặp minutiae tiềm khớp chưa đủ tin cậy Hơn nữa, phương pháp chưa thu hẹp khơng gian tìm kiếm thiết lập quần thể ban đầu Sheng [1] cải tiến phương pháp cách sử dụng đặc trưng cấu trúc cục minutiae để tính tốn độ thích nghi cải tiến toán tử di truyền: lai ghép đột biến (với mục tiêu thu hiệu suất so khớp cao hơn) Sau đó, Sheng [13] sử dụng thuật giải di truyền với nhiều đặc trưng (hướng, khoảng cách đường vân minutiae) để tìm phép canh chỉnh tối ưu đánh giá mức độ tương quan Tuy nhiên, phương pháp cơng thức tính tốn khoảng cách hướng việc đánh giá mức độ giống minutiae hạn chế Nhìn chung, phương pháp gặp giới hạn việc tìm phép canh chỉnh tối ưu hai ảnh vân tay việc đánh giá độ tương quan hai vân tay trường hợp ảnh vân tay bị mát thông tin Trong báo này, đề xuất phương pháp so khớp vân tay hiệu sử dụng kết hợp đặc trưng cục cấu trúc toàn cục thuật giải di truyền để tìm phép canh chỉnh tối ưu đánh giá độ tương quan hai vân tay mát thông tin Hướng đường vân, khoảng cách đường vân (đặc trưng toàn cục) đặc trưng cấu trúc cục minutiae sử dụng nhằm đảm ISS_HUTECH – 15/04/2010 bảo tối ưu hóa hướng xoay, độ co giãn độ dịch chuyển vân tay Trong phần sau, chúng tơi trình bày chi tiết thuật toán đề xuất cho việc so khớp ảnh vân tay Trong phần 2, đặc trưng dùng cho việc so khớp miêu tả rõ Phần trình bày thuật toán đề xuất Kết thực nghiệm sở liệu FVC2004 trình bày phần Cuối cùng, kết luận báo đúc kết phần BÀI TOÁN SO KHỚP Ảnh vân tay chất lượng thấp thường bị xoay, bị dịch chuyển bị bóp méo Do đó, cần phép biến đổi để canh chỉnh hai ảnh vân tay với Phép biến đổi f (qi ) = ( xi' , yi' , α i' ) điểm qi = ( xi , yi , α i ) biểu diễn sau: ⎡ x' ⎤ ⎡cos θ ⎢ ' ⎥ = s ⎢ ⎣ sin θ ⎣y ⎦ − sin θ ⎤ ⎡ x ⎤ ⎡ t x ⎤ +⎢ ⎥ cos θ ⎥⎦ ⎢⎣ y ⎥⎦ ⎣t y ⎦ (1) α i' = α i + θ Trong đó, ( xi , yi ) tọa độ điểm ảnh tương ứng α i hướng Vì vậy, việc canh chỉnh vân tay tìm tham số cho tối ưu hóa thơng tin tương quan hai ảnh vân tay θ , s , t tương ứng hệ số cần tìm hàm biến đổi f THUẬT TOÁN SO KHỚP VÂN TAY Việc so khớp vân tay mát thơng tin mà cần đảm bảo tìm phép biến đổi tối ưu để canh chỉnh hai ảnh vân tay từ tính tốn độ tương quan tương ứng tốn phức tạp Trong báo này, chúng tơi đề xuất thuật tốn mà cải tiến thuật toán so khớp dựa vào thuật giải di truyền Sheng [13] đề xuất để giải toán Thuật toán đề xuất gồm hai giai đoạn: thiết lập quần thể tiến Proceedings of the 1st Conference on Science and Technology 17 Kỷ yếu Hội nghị Khoa học Cơng nghệ lần thứ hóa dựa vào di truyền Giai đoạn thiết lập quần thể thực dựa vào đặc trưng cục vân tay, nhằm tạo tập cá thể ban đầu có tiềm cho phép biến đổi so khớp hiệu Giai đoạn tiến hóa bao gồm việc lựa chọn hệ cha để tái sản xuất thực lai ghép đột biến để tạo hệ Việc tiến hóa kết thúc gặp điều kiện dừng sau: (1) Giá trị thích nghi quần thể không đổi cho ΔN hệ (2) giá trị thích nghi cá thể tốt vượt qua ngưỡng mong đợi (giá trị ngưỡng trung bình độ giống cặp ảnh vân tay ngón), (3) số hệ vượt qua ngưỡng số lượng hệ xem xét N Thuật tốn trình bày tóm tắt sau: 1) Áp dụng toán tử so khớp cục để thiết lập quẩn thể ban đầu gồm P cá thể biểu diễn dạng vector số thực (xem phần 3.1) 2) Tính tốn giá trị thích nghi dựa vào phương trình (8) cho cá thể quần thể ban đầu 3) Lặp lại bước từ (4)-(7) gặp điều kiện dừng 4) Chọn P/2 cá thể có độ tích nghi cao (bằng phương pháp đấu chọn kích thước k [23], k=5 thực nghiệm chúng tơi) quần thể làm cá thể bố mẹ 5) Sản sinh hệ sử dụng phép lai ghép cá thể bố mẹ sau áp dụng phép đột biến theo phương pháp Gaussian lên cá thể (xem phần 3.2.2) ISS_HUTECH – 15/04/2010 Trong thuật giải di truyền, quần thể tập hợp cá thể biểu diễn không gian tham số cần tìm kiếm Mỗi cá thể i = ( t x ,i , t y ,i ,θi , si ) vector có bốn số thực, hai số đầu biểu diễn độ dịch chuyển theo phương x y tương ứng, số biểu diễn góc quay số cuối biểu diễn hệ số tỉ lệ Để thiết lập quần thể ban đầu, sử dụng đặc trưng cục minutiae để tìm cặp điểm minutiae tham chiếu Dựa vào cặp điểm tham chiếu này, tham số độ dịch chuyển, góc quay khởi tạo, nên khơng gian tìm kiếm thu hẹp lại Đặc trưng cục minutiae đề xuất Tico Kuosmanen [5] sử dụng việc tính toán đặc trưng cục minutiae Đặc trưng cấu thành từ độ lệch hướng điểm lân cận xung quanh minutiae so với hướng minutiae Một lưới trịn gồm L vịng trịn bán kính rl vịng trịn có K l điểm mẫu tọa độ điểm giao cung bán kính Gọi a = {α k ,l } b = {β k ,l } , vector mô tả thông tin hai minutiae (trong thực nghiệm chúng tôi: L = , r0 = 27 , K = 10 , r1 = 45 , K1 = , r2 = 63 , K = 22 , r3 = 81 , K = 28 ) Để tính khoảng cách hai minutiae dựa vào đặc trưng cục này, chúng tơi sử dụng cơng thức tính độ sai lệnh góc hiệu tác giả Liu đề xuất [18] là: 6) Tính tốn giá trị thích nghi cá thể tạo ∑ ∑ d ( a, b ) = − ∑ 7) Tạo quần thể có kích thước P gồm cá thể bố mẹ cá thể sinh từ lai ghép đột biến 8) Chọn thể có giá trị thích nghi cao quần thể giá trị tương quan cần tìm Chi tiết bước tính tốn liên quan đến hai giai đoạn mô tả rõ mục 3.1 So khớp cục thiết lập quần thể L Kl l =1 k =1 L j α −β e ( k ,l k ,l ) K l =1 l (2) Trong đó, α k ,l β k ,l độ lệch hướng ước lượng điểm ảnh ( k , l ) miêu tả hai minutiae a b, j = −1 , z độ lớn số phức z Đựa vào đặc trưng cục bộ, việc thiết lập quần thể ban đầu sau Gọi T Q lần lược vân tay mẫu vân tay truy vấn Chọn ngẫu nhiên số minutiae vân Proceedings of the 1st Conference on Science and Technology 18 Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ tay Q Với minutiae, tính tốn khoảng cách đặc trưng cục minutiae với tất minutiae vân tay mẫu T Chọn cặp minutiae có khoảng cách bé cặp điểm tham chiếu Đựa vào cặp điểm tham chiếu này, góc quay độ dịch chuyển tính tốn kết hợp với hệ số tỉ lệ ngẫu nhiên phạm vi δ s để thiết lập thể quần thể Nếu số lượng minutiae vân tay Q số lượng cá thể quần thể cần thiết lập, cá thể lại thiết lập ngẫu triên phạm vi định nghĩa trước δ tx , δ ty δθ , tương ứng (các hệ số xác định thực nghiệm) Sau thiết lập xong quần thể ban đầu, quần thể nhận khơng chứa phép biến đổi tối ưu mong đợi Đo đó, giai đoạn tiến hóa cần thực để tìm cá thể hệ ứng với phép biến đổi tối ưu Trong phần tiếp theo, giai đoạn tiến hóa phương pháp tính tốn độ thích nghi trình trình bày chi tiết 3.2 Giai đoạn tiến hóa Trong q trình tiến hóa quần thể, cần phải tính tốn độ thích nghi cá thể thực phát sinh quần thể 3.2.1 Hàm thích nghi Hàm thích nghi đóng vai trị quan trọng định hiệu thực thuật giải di truyền Trong phần này, đề xuất phương pháp tính tốn hàm thích nghi cách tích hợp đặc trưng dựa vào việc đánh trọng số đối đặc trưng Việc sử dụng đặc trưng tích hợp đảm bảo hàm thích nghi đánh giá mức độ tương quan hai vân tay phép biến đổi tương ứng Đặc trưng phân biệt sử dụng phổ biến minutae Đặc trưng cho phép đánh giá đầy đủ độ tương quan hai vân tay phép biến đổi tương ứng Giả sử M q , M t hai tập minutiae thuộc ảnh vân tay truy vấn ảnh mẫu Đặc trưng hai minutiae i biểu diễn ISS_HUTECH – 15/04/2010 ( xi , yi ,θi , ) với xi , yi tọa độ, θ i hướng đường vân minutiae vector đặc trưng cục Khi hai minutiae gọi tiềm khớp thỏa điều kiện sau: S ( , b j ) = ( S ( , bk ) ) (3) k đó: minutiae j minutiae k gần minutiae i hay thỏa điều kiện: ( xi − xk ) + ( yi − yk ) < ε d , θi − θ j < ε θ , (4) đó, ε d , εθ ngưỡng khoảng cách độ lệch góc hai mintiae xem giống (Trong thực nghiệm ε d = , εθ = π / ) Gọi n số cặp minutiae tiềm khớp hai tập minutiae hai ảnh Mức độ tương quan đặc trưng minutiae tính tốn công thức sau: S (Mq , Mt ) = n S ( , bi ) (q + t ) ∑ i =1 (5) Căn vào số minutiae gần ngưỡng cho trước giúp đánh giá mức độ tham số dịch chuyển tham số tỉ lệ Bên cạnh đó, vào mức độ giống đặc trưng cục cho phép đánh giá mức độ tham số hướng Tuy nhiên, nhiều trường hợp ảnh vân tay mát thơng tin (có nhiều nhiễu), minuitae giả xuất nhiều minutiae, dựa vào đặc trưng cục minutiae không đủ đánh giá mức độ tham số hướng mức độ tương quan hai ảnh vân tay Tương tự Ross [14], Sheng [13], đặc trưng hướng sử dụng đặc trưng phụ để đánh giá mức độ tương quan hai ảnh vân tay góp phần đánh giá mức độ tham số hướng dịch chuyển Proceedings of the 1st Conference on Science and Technology 19 Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ ISS_HUTECH – 15/04/2010 trường hợp ảnh vân tay chất lượng thấp (chứa nhiều minutiae giả) Gọi Oq Ot vân Trong thực nghiệm w1 = 0.6 , w2 = 0.25 , w3 = 0.15 hai vector biểu diễn trường hướng hai vân tay Khi đó, độ tương quan đặc trưng hướng tính cơng thức sau [18]: 3.2.2 Phát sinh quần thể d ( Oq , Ot ) = − ∑ k =M k =1 vk e ( j θ p ,k −θ q ,k ) (6) M ∑v k =1 k Trong đó, vk ∈ {0,1} , vk = phần tử k có vân tay tính hướng cho hai vân tay, j = −1 , z độ lớn số phức z , M số thành phần vector đặc trưng hướng Một đặc trưng phụ khác cho phép đánh giá mức độ tham số tỉ lệ tham số dịch chuyển đặc trưng mật độ đường vân Gọi Rq , Rt mật độ đường vân ảnh vân tay truy vấn q ảnh mẫu t Cơng thức tính mật độ đường vân tính sau: [13] S ( Rq , Rt ) = Ω ∑ ( −0.5*1/ R ( x , y )−1/ R ( x , y ) ) (7) e q t ( x , y )∈Ω Trong đó, Ω biểu diễn vùng vân tay giao 1/ Rq ( x, y ) tầng số đường vân khối ( x, y ) (ảnh vân tay chia thành lưới, khối có kích thước w , thực nghiệm w = 8) Giá trị hàm đánh giá độ thích nghi F ( q, t ) tương ứng với hai ảnh vân tay thực phép biến đổi tính sau: F ( q, t ) = w1 * f1 + w2 * f + w3 * f3 , f1 = S ( M t , M q ) , f = S ( Ot , Oq ) , (8) f3 = S ( Rt , Rq ) Trong đó, w1 , w2 , w3 trọng số cho biết mức độ phân biệt đặc trưng minutiae, đặc trưng hướng mật độ đường Để phát sinh quần thể tiếp theo, bước chọn cá thể bố mẹ có độ thích nghi cao theo phương pháp đấu chọn k cá thể (trong k cá thể ngẫu nhiên, chọn cá thể có độ thích nghi cao nhất) Sau đó, tiến hành chọn cặp cá thể bố mẹ thực lai ghép với xác xuất lai ghép cho trước (trong thực nghiệm xác xuất lai ghép 0.2) Công thức lai ghép theo phương pháp truyền thống là: [25] Con_1 = a* bố_mẹ_1 + (1-a) * bố_mẹ_2,(9) Con_2 = (1-a)*bố_mẹ_2 + a * bố_mẹ_1, Trong đó, a ∈ [ 0,1) hệ số ngẫu nhiên Sau lai ghép, cá thể đột biến với xác suất cho trước (trong thực nghiệm 0.01) Phương pháp đột biến Gaussian áp dụng sau: ai* = + σ N ( 0,1) , (10) Trong đó, thuộc tính cá thể con, σ ∈ [ 0.1, 0.2] kích thước trượt ngẫu nhiên phép đột biến, N ( 0,1) số Gaussian ngẫu nhiên KẾT QUẢ THỰC NGHIỆM Thuật toán đề xuất tiến hành thử nghiệm sở liệu thi đấu quốc tế FVC2004 DB1 DB4 [19] Với sở liệu chuẩn FVC2004 tập DB1 DB4, tập gồm 800 ảnh vân tay lấy từ 100 ngón tay khác nhau, ngón ảnh Các ảnh vân tay thu nhận từ máy quét với độ phân giải 500 dpi chứa nhiều ảnh vân tay chất lượng thấp mát thông tin chẳng hạn ảnh bị dịch chuyển, ảnh bị nhiễu, bị nhòe Để có đặc trưng cho việc xử lý so khớp, ảnh vân tay cần phải rút đặc trưng hướng, tầng số đường vân tập minutiae với đặc trưng cục Để Proceedings of the 1st Conference on Science and Technology 20 ... mơ hình OBQE hiệu mơ hình mở rộng truy vấn khác vấn đề mở rộng truy vấn dựa ngữ cảnh MƠ HÌNH BÀI TỐN OBQE Các nghiên cứu [6], [7] [8] quan tâm đến mơ hình tốn OBQE để mở rộng truy vấn theo phương. .. thống mở rộng truy vấn OBQE định nghĩa đề xuất mơ hình lý thuyết: OB - Mơ hình QEM −+IR , Query Expansion Model with Ontology-Based without Information Retrieval (Hệ thống mở rộng truy vấn dựa. .. tin mở rộng dựa xác suất điều kiện CÁC TRIỂN KHAI TỪ NHỮNG MƠ HÌNH LÝ THUYẾT Trong đó: ∀q''∈ ℜ : sem( q'' ) ∩ sem( q) ≠ ∅ (tương tự định nghĩa 1) Thông qua mô hình lý thuyết đề xuất trên, vấn đề mở

Ngày đăng: 08/12/2013, 10:36

Hình ảnh liên quan

Từ mô hình MQE +IR OB P - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

m.

ô hình MQE +IR OB P Xem tại trang 5 của tài liệu.
Hình 1: Hệ thống mở rộng truy vấn trực tiếp Trong hệ thống này, đầu tiên một truy vấn được  kiểm tra và hoàn chỉnh (xem [8], giải thuật  CNPV, NPC có độ phức tạp lần lượt là O(n) và  O(n2)) để bao hàm đủ ba phần là đối tượ ng (ký  - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 1.

Hệ thống mở rộng truy vấn trực tiếp Trong hệ thống này, đầu tiên một truy vấn được kiểm tra và hoàn chỉnh (xem [8], giải thuật CNPV, NPC có độ phức tạp lần lượt là O(n) và O(n2)) để bao hàm đủ ba phần là đối tượ ng (ký Xem tại trang 5 của tài liệu.
Dựa trên mô hình MQE +IR OB P - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

a.

trên mô hình MQE +IR OB P Xem tại trang 5 của tài liệu.
Bảng 1: Nguồn dữ liệu thực nghiệm - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Bảng 1.

Nguồn dữ liệu thực nghiệm Xem tại trang 6 của tài liệu.
Kết quả phân tích thể hiện trong hình 4 bao gồm số liệu so sánh về  lượng tài liệu truy hồi được  (thông qua việc tìm kiếm chính xác từng truy  vấn) từ các nguồn dữ liệu cùng số tài liệu chính  xác trong đó, thực hiện cho cùng phương pháp  mở rộng - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

t.

quả phân tích thể hiện trong hình 4 bao gồm số liệu so sánh về lượng tài liệu truy hồi được (thông qua việc tìm kiếm chính xác từng truy vấn) từ các nguồn dữ liệu cùng số tài liệu chính xác trong đó, thực hiện cho cùng phương pháp mở rộng Xem tại trang 6 của tài liệu.
(ii) Việc kết các bảng lại với nhau dẫn đến tốn không gian lưu trữ và (iii) Lộ dữ liệu giữa các bên tham gia - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

ii.

Việc kết các bảng lại với nhau dẫn đến tốn không gian lưu trữ và (iii) Lộ dữ liệu giữa các bên tham gia Xem tại trang 9 của tài liệu.
Hình 1: Cây tìm kiếm tập phổ biến với minSup = 50% - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 1.

Cây tìm kiếm tập phổ biến với minSup = 50% Xem tại trang 10 của tài liệu.
Bảng 2: CSDL của 2 bên tham gia khai thác - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Bảng 2.

CSDL của 2 bên tham gia khai thác Xem tại trang 11 của tài liệu.
Hình 3: Cây biễu diễn các mục đơn của DB1 và DB2 - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 3.

Cây biễu diễn các mục đơn của DB1 và DB2 Xem tại trang 12 của tài liệu.
Hình 2: Cây biễu diễn các mục đơn của DB1 - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 2.

Cây biễu diễn các mục đơn của DB1 Xem tại trang 12 của tài liệu.
Hình 5: Kết quả khai thác tập phổ biến trên CSDL phân tán với phép kết ngoại hai chiều - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 5.

Kết quả khai thác tập phổ biến trên CSDL phân tán với phép kết ngoại hai chiều Xem tại trang 13 của tài liệu.
Bảng 4: CSDL với phép kết ngoại “hai chiều”: TID  A B C D E F  G  - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Bảng 4.

CSDL với phép kết ngoại “hai chiều”: TID A B C D E F G Xem tại trang 13 của tài liệu.
Vân tay được hình thành bởi một nhóm các - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

n.

tay được hình thành bởi một nhóm các Xem tại trang 16 của tài liệu.
Hình 2: minh họa việc so khớp hai ảnh vân tay mất mát thông tin trong FVC2004, DB4: (a), (b)  vân tay mẫu, (c), (d) vân tay truy vân, (e) là ảnh  - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 2.

minh họa việc so khớp hai ảnh vân tay mất mát thông tin trong FVC2004, DB4: (a), (b) vân tay mẫu, (c), (d) vân tay truy vân, (e) là ảnh Xem tại trang 21 của tài liệu.
Hình 1: Sơ đồ khối vi chuột - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 1.

Sơ đồ khối vi chuột Xem tại trang 24 của tài liệu.
Hình 3: Cảm biến đo khoảng cách sử dụng phương pháp lượng giác.  - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 3.

Cảm biến đo khoảng cách sử dụng phương pháp lượng giác. Xem tại trang 25 của tài liệu.
Hình 2: Động cơ bước đơn cực Động cơ  bước hai cực :  Động cơ nam  châm vĩnh cửu hoặc hỗn hợp hai cực có cấu  trúc cơ khí giống y như động cơ đơn cực,  nhưng  hai mấu của động cơ được nối đơn giản  hơn, không có đầu trung tâm - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 2.

Động cơ bước đơn cực Động cơ bước hai cực : Động cơ nam châm vĩnh cửu hoặc hỗn hợp hai cực có cấu trúc cơ khí giống y như động cơ đơn cực, nhưng hai mấu của động cơ được nối đơn giản hơn, không có đầu trung tâm Xem tại trang 25 của tài liệu.
Hình 6: Sơ đồ nguyên lý mạch điều khiển trung tâm.  - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 6.

Sơ đồ nguyên lý mạch điều khiển trung tâm. Xem tại trang 26 của tài liệu.
Hình 4: Sơ đồ khối cảm biến GP2D120. (Nguồn: [1])  - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 4.

Sơ đồ khối cảm biến GP2D120. (Nguồn: [1]) Xem tại trang 26 của tài liệu.
Hình 7: Sơ đồ nguyên lý mạch điều khiển động cơ.  - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 7.

Sơ đồ nguyên lý mạch điều khiển động cơ. Xem tại trang 26 của tài liệu.
Hình 1: Sơ đồ chức năng vi chuột. [4] Có ba thành phần chính là nguồn (pin), các  bo mạch lái và điều khiển, các thiết bị ngoại vi  (động cơ, cảm biến) - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Hình 1.

Sơ đồ chức năng vi chuột. [4] Có ba thành phần chính là nguồn (pin), các bo mạch lái và điều khiển, các thiết bị ngoại vi (động cơ, cảm biến) Xem tại trang 28 của tài liệu.
Bảng 1: Các hàm chuyển động. - Xây dựng mô hình lý thuyết cho phương  pháp mở rộng truy vấn dựa trên bản thể học

Bảng 1.

Các hàm chuyển động Xem tại trang 30 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan