Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu kĩ thuật so sánh truy vấn để gợi ý tìm kiếm thông tin cho thanh thiếu niên và thử nghiệm

24 82 0
Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu kĩ thuật so sánh truy vấn để gợi ý tìm kiếm thông tin cho thanh thiếu niên và thử nghiệm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn tập trung vào các phương pháp và kỹ thuật gợi ý truy vấn như random walk, so sánh câu truy vấn sao cho phù hợp với nhu cầu và kỹ năng nhận thức của thanh thiếu niên hỗ trợ chúng tìm kiếm thông tin hiệu quả. Luận văn thực hiện khảo sát, nghiên cứu các phương pháp tính độ tương tự truy vấn trong hệ tìm kiếm như phương pháp dựa trên từ vựng và phương pháp dựa trên nhật ký truy vấn. Từ đó đưa ra hướng phát triển cho phương pháp tính độ tương t truy vấn phù hợp để áp dụng thử nghiệm vào một hệ tìm kiếm cho thanh thiếu niên.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐINH THỊ THANH LOAN NGHIÊN CỨU KĨ THUẬT SO SÁNH TRUY VẤN ĐỂ GỢI Ý TÌM KIẾM THƠNG TIN CHO THANH THIẾU NIÊN VÀ THỬ NGHIỆM Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN Hà Nội – 2016 Tóm tắt luận văn Đề tài luận văn: Nghiên cứu kĩ thuật so sánh truy vấn để gợi ý tìm kiếm thơng tin cho thiếu niên thử nghiệm Mục đích: X y d ng phần mềm th c nghiệm thi hành mơ hình đề xuất, th c thi việc tính đốn độ tương t c u truy vấn Cấu trúc luận văn: Cấu trúc luận văn bao gồm phần sau: Mở đầu Chương 1: Gợi ý truy vấn cho thiế niên Chương 2: Một số kĩ thuật gợi ý truy vấn cho thiếu niên Chương 3: Một mơ hình gợi ý truy vấn cho thiếu niên Chương 4: Thực nghiệm đánh giá Kết luận MỞ ĐẦU Trong bối cảnh, lượng thông tin Internet ngày lớn cập nhật kịp thời người dùng đặc biệt thiếu niên cần cơng cụ để tìm kiếm thông tin họ cần cách hiệu Thanh thiếu niên gặp khó khăn x y d ng truy vấn tìm kiếm l a chọn loại chủ đề có liên quan, kiến thức miền thiếu niên người lớn vốn từ v ng phát triển Một khía cạnh khác, thiếu niên gặp khó khăn đánh giá s liên quan kết tìm kiếm Hỗ trợ thiếu niên việc tìm kiếm thơng tin hiệu quả, hệ thống tìm kiếm cần phải thiết kế cho hỗ trợ phù hợp với nhu cầu trẻ kỹ nhận thức Luận văn đề cập tới nội dung nghiên cứu gợi ý truy vấn thông tin phù hợp với thiếu niên thử nghiệm ứng dụng nghiên cứu Luận văn tập trung vào phương pháp kỹ thuật gợi ý truy vấn random walk [1], so sánh c u truy vấn [6] cho phù hợp với nhu cầu kỹ nhận thức thiếu niên hỗ trợ chúng tìm kiếm thơng tin hiệu Luận văn th c khảo sát, nghiên cứu phương pháp tính độ tương t truy vấn hệ tìm kiếm phương pháp d a từ v ng [16] phương pháp d a nhật ký truy vấn [18] Từ đưa hướng phát triển cho phương pháp tính độ tương t truy vấn phù hợp để áp dụng thử nghiệm vào hệ tìm kiếm cho thiếu niên C n Gi i t i u G I un TRU V N CHO THANH THI U NI N n toàn Int n t iv it n t i u ni n 1.1.1 Ảnh hưởng Internet giới trẻ Theo báo cáo khảo sát LSE Research Online năm 2010 25 quốc gia ch u Âu có đến 93% thiếu niên sử dụng Internet năm 60% lên mạng ngày 80% thiếu niên sử dụng Internet có độ tuổi từ 15-16 Trong 85% sử dụng Internet trường học, trò chơi 83%, tin tức 62%, website chia sẻ liệu 16% blog 11% Các nội dung khảo sát tập trung vào vấn đề bóc lột, nội dung khiêu d m, thơng tin tình dục, ảnh hưởng giao lưu hẹn hò tr c tuyến nội dung có khả ảnh hưởng g y hại đến thiếu niên [8] Theo số liệu Trung t m Internet Việt Nam (2012), ngày 19/11/1997 ngày Việt Nam gia nhập vào mạng internet toàn cầu Sau 15 năm tính tới tháng 10/2012, số người sử dụng internet lên tới 31,1 triệu người, chiếm tỷ lệ 35,49% d n số Việt Nam đứng thứ 18/20 quốc gia có số người sử dụng Internet lớn giới,đứng thứ khu v c Ch u Á đứng vị trí thứ khu v c Đông Nam Á Mặt khác, internet phương tiện tiếp cận thông tin sử dụng phổ biến Việt Nam Theo kết nghiên cứu thị trường internet Việt Nam năm 2011, internet vượt qua báo, tạp chí radio để trở thành phương tiện tiếp cận thông tin phổ biến thứ hai, sau Tivi Ngày nay, với s phát triển gia tăng đến cấp số nh n dịng điện thoại thơng minh người sử dụng để truy cập Internet phần lớn thiếu niên nguy độc hại đối tượng lại cao [10] Ngoài việc tham gia vào hoạt động xã hội, thể th n, học tập quản lý sống hàng ngày trở nên dễ dàng nguy tiếp xúc tr c tiếp với loại thông tin độc hại tạo thách thức an toàn tr c tuyến cho trẻ em, chẳng hạn rủi ro liên quan đến dịch vụ định vị theo dõi 1.1.2 Biện pháp an toàn Internet thiếu niên Cũng theo LSE Research Online đưa lời khuyên an toàn Internet thiếu niên: Nhà trường, đặc biệt giáo viên, phụ huynh học sinh, phủ, quyền địa phương từ bạn bè học sinh tham gia tr c tiếp với học sinh khai thác thông tin Internet Giúp đỡ họ tìm kiếm thơng tin đưa lời khun cho học sinh Nếu thành lập tổ chức, hiệp hội quốc gia An toàn Internet cho thiếu niên, lập đường d y nóng nhằm mục đích hỗ trợ giải đáp thắc mắc vấn đề truy cập Internet giới trẻ Ở tất vấn đề phát sinh trình sử dụng Internet giới trẻ giải đáp cách kịp thời nhanh chóng Tóm lại Internet công cụ nghiên cứu tuyệt vời cách vui thích để liên lạc với bạn bè gia đình Nhưng tr c tuyến số nguy hiểm mà cần biết Dưới đ y số cách giải pháp tổng hợp báo cáo Safer Internet Day1 mà tránh xa rắc rối sử dụng trang Web: - Không gửi thông tin cá nh n chúng ta, chẳng hạn tên, địa chỉ, số điện thoại, hình ảnh tên trường vào không gian ảo - Có thể gửi chuyển tiếp thư điện tử cách nhắp chuột Hãy nhớ bất k thông tin cá nhân mà gửi đến cho người gửi đến cho người khác nhanh - Không lập kế hoạch gặp "người bạn" tr c tuyến tận mặt mà không kiểm tra trước với phụ huynh/người giám hộ Nếu phụ huynh/người giám hộ ĐỒNG với ý kiến này, dẫn cậu/cô ta theo gặp nơi công cộng Hãy nhớ người tr c tuyến vui tính th n thiện, th c tế họ hồn tồn khác - Hành vi tr c tuyến người trách nhiệm th n Không quấy rối bạo hành khơng trả lời có người khác cố ý tranh luận tr c tuyến - Nếu đương đầu với người tr c tuyến làm cho b c bội khó chịu, nói cho nguời lớn đáng tin cậy biết lập tức! Người lớn xem xét thơng tin hình định xem có nên báo cáo cho quyền hay khơng - Nhắc nhở em thiếu niên không tiết lộ thông tin cá nh n tr c tuyến Và để trợ giúp cho việc truy cập Internet an tồn, việc tìm kiếm thơng tin mạng tốt cần thiết đưa giải pháp truy vấn an toàn cho đối tượng thiếu niên việc tìm kiếm khai thác thơng tin mạng Internet www.saferinternetday.org G i t u vấn 1.2.1 ot n t i u ni n nghĩa gợi ý truy vấn cho thiếu niên Gần đ y, nhà nghiên cứu phát triển có quan t m đến ph n tích hành vi tìm kiếm nhóm người dùng khác nhau, đặc biệt trẻ em Đối tượng khó khăn việc thao tác, định hướng tìm kiếm thơng tin [7] Vì đưa giải pháp gợi ý tìm kiếm có ý nghĩa to lớn cho đối tượng thiếu niên Gợi ý truy vấn nói chung phần tích hợp cơng cụ tìm kiếm web Các cơng cụ tìm kiếm cung cấp tốt cho đối tượng người sử dụng Hình 1.1 Ví dụ gợi ý truy vấn cơng cụ tìm kiếm google Mục tiêu cơng cụ tìm kiếm để lấy kết liên quan truy vấn với kết xác Mặc dù mục tiêu chủ yếu phụ thuộc vào thuật toán xếp hạng cơng cụ tìm kiếm, chất lượng truy vấn gửi quan trọng Việc có nhiều kết trả phần c u truy vấn người dùng đưa vào mơ hồ khơng rõ nghĩa Do đó, việc đưa c u gợi ý truy vấn cho người dùng cho đối tượng khác nhau, đặc biệt trẻ em toán thu hút nhiều s quan t m nhà nghiên cứu nhằm x y d ng cơng cụ tìm kiếm thơng tin cho người trẻ giải khó khăn cách tồn diện 1.2.2 Gợi ý truy vấn cho thiếu niên số tốn liên quan Từ những khó khăn tìm kiếm đối tượng thiếu niên nêu như: diễn đạt c u truy vấn, khơng biết l a chọn từ khóa kết trả dài vv nên hình thành toán gợi ý truy vấn Gợi ý truy vấn thường định nghĩa để "tìm kiếm số truy vấn liên quan cho truy vấn ban đầu phát hành người dùng" Các toán liên quan đến gợi ý truy vấn kể đến như: Tìm ngữ cảnh truy vấn (Query Context), lưu trữ truy vấn vào QueryLog, xếp thứ hạng kết truy vấn, thứ hạng thẻ tìm kiếm truy vấn, Ngữ cảnh truy vấn hiểu đơn giản hợp tập query extensions adjacent query[4], tập mở rộng thường nối tiếp sau truy vấn xét, tập truy vấn thường xuất trước sau truy vấn xét Ngữ cảnh truy vấn thường cung cấp gợi ý quan trọng ý đồ tìm kiếm người dùng ài tốn luận văn đưa giải pháp: trợ giúp người dùng trẻ tuổi việc diễn đạt ý đồ tìm kiếm đưa c u truy vấn gần với ý đồ tìm kiếm 1.2.3 Một số kỹ thuật gợi ý truy vấn cho thiếu niên Có thể gợi ý truy vấn cho thiếu niên gợi ý tr c quan gợi ý dạng text: Hình 1.2 Gợi ý trực quan gợi ý dạng text - Gợi ý tr c quan tức dùng hình ảnh tr c quan để thể gợi ý tìm kiếm Hinh 1.3 Ví dụ gợi ý trực quan - Gợi ý dạng text đưa danh sách từ liên quan để người dùng t tìm kiếm Hình 1.4 Ví dụ gợi ý dạng text Các kỹ thuật gợi ý truy vấn áp dụng truy vấn cho thiếu niên tập chung vào khai phá QueryLog QueryLog định nghĩa tập hành vi người dùng khứ Với đặc thù hệ thống tìm kiếm nặc danh, sử dụng mà khơng cần xác th c Các kỹ thuật dùng để gợi ý truy vấn như: Kỹ thuật ph n cụm truy vấn, kỹ thuật thống kê, kỹ thuật hướng ngữ cảnh, so sánh c u truy vấn, hay sử dụng phương pháp học giám sát để xếp hạng truy vấn gợi ý cho thiếu niên 1.3 Bài toán g i ý truy vấn kỹ thuật so sánh câu truy vấn Các vấn đề gợi ý truy vấn-Query suggestion (QS) nên nghĩ đơn giản "một chuỗi so sánh hai câu truy vấn" [7] Truy vấn việc so sánh truy vấn ban đầu phát người tìm kiếm (người sử dụng) Các truy vấn thứ hai gọi "truy vấn ứng viên" để đề nghị (gợi ý) cho người sử dụng, thường đặt phần cuối danh sách tìm kiếm Việc so sánh truy vấn phụ thuộc vào số tính s giống thuật ngữ, nhật ký truy vấn, vv Cách tiếp cận so sánh truy vấn làm cho đơn giản hóa vấn đề gợi ý truy vấn, đơn giản cho q trình theo dõi, mở rộng gỡ lỗi Một tập hợp truy vấn ứng cử viên (đề nghị) query qi so sánh với tập ứng viên query qc Cuối cùng, truy vấn ứng cử viên xếp d a thứ hạng / trọng số chúng truy vấn top đ u n ứng cử viên trình bày cho người dùng gợi ý truy vấn C n M T S KỸ THUẬT G I TRU V N CHO THANH THI U NI N 2.1 G i ý truy vấn random walk 2.1.1 Cách tiếp cận Trong kỹ thuật này, trình bày phương pháp đề nghị truy vấn để giúp trẻ em dễ dàng tìm từ khóa liên quan sử dụng kỹ thuật random walk Phương pháp đề nghị truy vấn d a thẻ (Tag) từ v ng từ hệ thống đánh dấu Delicious (Delicious- trang web internet thiết kế phép truy cập vào bất k trang web mà người dùng đánh dấu) liên quan kết truy vấn web tài nguyên web nhìn thấy trước đ y dành cho trẻ em Các Tag liên quan thường xuyên đến URL tập trung vào trẻ em với chủ đề ứng cử viên tốt để x y d ng đề xuất truy vấn cho trẻ em Ví dụ: Hãy xem xét xe truy vấn xe Cars Theo đề xuất truy vấn gợi ý phổ biến Google, khía cạnh liên quan đến truy vấn có cho thuê xe hơi, xe ô tô để bán, sử dụng xe hơi, xe ô tơ hay xe hình ảnh Trong khía cạnh định hướng để đáp ứng nhu cầu thơng tin trẻ em cần thay vào bao gồm khía cạnh trị chơi xe hơi, đồ chơi xe hơi, phim xe, hình ảnh xe Hệ thống xếp hạng thẻ cao cung cấp gợi ý tập trung vào nội dung dành riêng cho đối tượng ph n loại 2.1.2 Xếp hạng thẻ (Tag) Xếp hạng thẻ (Tab) từ khóa gần đ y nhận nhiều s quan t m ý cho s phát triển chia sẻ xã hội Đã có phương pháp để ước tính đến trọng số liên quan thẻ hình ảnh d a phương pháp d đoán xác xuất Phương pháp random walk biểu diễn đồ thị hai chiều bao gồm thẻ tài nguyên web (url) Vấn đề quan trọng cấu trúc đồ thị phương pháp khai thác đặc điểm tài nguyên web nhắm vào trẻ em 2.1.3 Phương pháp Trong phần mô tả kịch kỹ thuật truy vấn mở rộng phương pháp đề xuất random walk truy vấn khuyến nghị sử dụng thẻ từ mạng xã hội 2.1.3.1 Kịch Phương pháp dùng lại dịch vụ tìm kiếm cho trẻ em cơng cụ tìm kiếm tiên tiến để cung cấp nội dung cho trẻ Trong hệ thống này, truy vấn gửi người dùng gửi đến công cụ tìm kiếm để lấy từ khóa, trích đoạn, chủ đề kết 10 web Những từ khóa đại diện cho chủ đề liên quan đến truy vấn người dùng Nhiệm vụ phương pháp tạo từ khóa xếp hạng chúng để x y d ng đề nghị truy vấn 2.1.3.2 Random walk hướng tới nội dung cho trẻ em Mơ hình Random walk sử dụng đồ thị hai chiều nguồn tài nguyên web (tức là, url) nút thẻ (Tag) Trước đ y có nghiên cứu d a xếp hạng thẻ sử dụng phương pháp Random walk cho hệ thống gợi ý sử dụng đồ thị gồm thẻ (Tag) Việc xem URL (nguồn tài nguyên web tin cậy) nút việc hữu ích phương pháp này, yếu tố nguồn gốc theo xu hướng random walk phù hợp cho đối tượng mục tiêu Kết hợp thường xuyên thẻ với URL với mục tiêu nhắm vào ph n khúc định người sử dụng (ví dụ trẻ em) thường xuyên làm bật thẻ để mơ tả url thích hợp cho người sử dụng khác (ví dụ người lớn) Trong kỹ thuật biểu đồ dử dụng tập đánh dấu (bookmarks) Cụ thể, đánh dấu url biết đến phù hợp cho trẻ em để tạo tập bao gồm url thẻ Tiền th n phương pháp random walk d a mơ hình đề xuất Craswell Szummer iểu đồ thức định nghĩa là: Địn n ĩ (đồ thị hai chiều) đồ thị hai chiều url thẻ: (2.1) Trong U={u1, u2, un} tập URL mô tả Tag T={t1,t2, tn} E tập cạnh đồ thị Địn n ĩ (Đánh dấu dành cho trẻ em) Túi đ ng đánh dấu bao gồm url đáng tin cậy định hướng cho đối tượng mục tiêu định nghĩa là: (2.8) Trong Uk tập nguồn url 2.1.3.3 iểu diễn truy vấn Các truy vấn biểu diễn nút đơn đồ thị định nghĩa xác suất chuyển đổi riêng từ nút truy vấn đến nút thẻ đồ thị Chúng ta khơng tính đến xác xuất chuyển đồi từ truy vấn đến nút url truy vấn người dùng biểu diễn túi đ ng thẻ (Tag) 11 Địn n (w1,w2, wn) ĩ (Query) Một truy vấn q có chiều dài l đại diện chuỗi từ Địn n ĩ (tập Tag truy vấn) Tập Tag truy vấn q bao gồm thẻ m trích từ hệ thống (trang) xã hội đánh dấu S, có liên quan đến kết top đầu web truy vấn q: Q={t1,t2, tm} 2.1.4 Nhận xét Kỹ thuật cách lạ để đẩy thẻ random walk sử dụng thường xuyên để mô tả nguồn tài nguyên cho trẻ em làm bật với mô hình nguồn tài nguyên web nhằm vào tài ngun cơng cộng nói chung Phương pháp tập trung thường xuyên đến liên kết URL thẻ (Tag) dành cho chủ đề trẻ em, đưa ứng viên tốt cho trẻ em x y d ng truy vấn cho trẻ ỹ t uật g i ý truy vấn so sánh truy vấn (QS) 2.2.1 Các tiếp cận Truy vấn đề nghị (QS) thường định nghĩa để "tìm kiếm số truy vấn liên quan cho truy vấn phát hành ban đầu người dùng " Các vấn đề QS nên nghĩ đơn giản "một loạt 'so sánh hai c u truy vấn" Truy vấn việc so sánh “truy vấn ban đầu” so sánh đưa người tìm kiếm (người sử dụng) Truy vấn thứ hai "truy vấn ứng viên" đề nghị cho người sử dụng, thường để l a chọn phần cuối trình đề xuất Việc so sánh truy vấn phụ thuộc vào số tính c u từ tương quan, nhật ký truy vấn, vv Với kỹ thuật khơng người ta cần quan t m đến việc so sánh hai truy vấn Dưới đ y mô hình gợi ý truy vấn kỹ thuật so sánh truy vấn bao gồm bước: 12 Khởi tạo truy vấn Tìm kiếm truy vấn ứng viên Điều khiển chung Sắp xếp truy vấn Điều khiển cuối Gợi ý truy vấn Hình 2.1 Mơ hình gợi ý truy vấn - Chọn / tìm truy vấn ứng viên - Điều khiển chung - Sắp xếp truy vấn ứng cử viên với một/hoặc nhiều thuật toán (bước quan trọng) - Điều khiển cuối 2.2.2 Nội dung phương pháp 2.2.2.1 Mô hình so sánh truy vấn Mơ hình bao gồm hai bước chính: select & sort Một số bước tương đối đơn giản nhỏ bổ sung bao gồm trình để cải thiện độ xác; mơ hình thêm bước post-select (điều khiển chung), post-sort (điều khiển cuối cùng) 13 Mơ hình (cũng thể hình 1) Chứa bước sau đ y: Chọn / tìm truy vấn ứng viên (bước quan trọng) Điều khiển chung (tùy chọn, bước tương đối nhỏ) Sắp xếp truy vấn ứng cử viên với một/hoặc nhiều thuật toán (bước quan trọng) Điều khiển cuối a) Khái quát hóa, đa dạng hóa (tùy chọn, bước tương đối nhỏ) b) Sắp xếp lại, xử lý sau (tùy chọn, bước tương đối nhỏ) 2.2.2.2 Pha l a chọn Giai đoạn l a chọn bước quan trọng mơ hình đề xuất đề nghị truy vấn Trong bước này, mục đích để tìm ứng viên cho truy vấn đề nghị Truy vấn ứng viên l a chọn từ tập c u truy vấn trước không phát sinh ghi truy vấn Trong nghiên cứu này, tập trung vào phương pháp đề nghị truy vấn sử dụng ghi truy vấn Ứng viên truy vấn lấy từ ghi truy vấn cách duyệt qua đồ thị truy vấn cách Click sử dụng DFS FS Trong trường hợp chung nhất, tất truy vấn đầu vào tất truy vấn truy vấn ứng viên, điều đòi hỏi xử lý cao 2.2.2.3 Pha xếp Mơ hình kết hợp thuật toán xếp ứng viên xếp hàng khác Điều th c bất k phương pháp kết hợp Việc tổng hợp thuật tốn xếp thấy giống s kết hợp kết cơng cụ tìm kiếm cơng cụ tìm kiếm siêu liệu mô tả ( Aslam & Montague, 2001 ) Kỹ thuật cố gắng để cải thiện hiệu suất truy vấn đề nghị cách kết hợp nhiều thuật tốn xếp Sau đ y tơi xin trình bày P n p áp ép(A tion m t ods) Phương pháp ghép xếp hai loại; phương pháp d a điểm d a thứ hạng( Renda & Straccia, 2003 ) Phương pháp tiếp cận khác đề nghị Kỹ thuật xác định lại làm giảm vấn đề “Query Suggestion (QS)” Kỹ thuật đề xuất module, mở rộng mơ hình đề xuất truy vấn để phương pháp với nhiều thuật toán QS dễ dàng đưa vào 14 Kỹ thuật đánh giá hiệu liệu Click d a kỹ thuật QS đề xuất cho mục đích chung cơng cụ tìm kiếm tài liệu, nhật ký cơng cụ tìm kiếm giáo dục th c tế Kỹ thuật đề xuất thuật tốn QS khai thác tính truy vấn chung (truy vấn, phiên làm việc, tính người dùng) cơng cụ tìm kiếm giáo dục (thuộc tính trường, lớp) Chúng ta đề xuất thuật toán lai ghép cho phép kết hợp số kỹ thuật QS cho hiệu cao Các thuật tốn tích hợp mơ hình đề cập Tín t n tự truy vấn 2.3.1 Cách tiếp cận Để đưa truy vấn ứng viên, gợi ý truy vấn cho truy vấn ban đầu, tốn tính độ tương t truy vấn (query similarity) đưa để giải vấn đề Khi sử dụng hệ thống tìm kiếm, người dùng nhập vào c u truy vấn yêu cầu máy tìm kiếm trả tập tài liệu liên quan Tuy nhiên, máy tìm kiếm thơng thường d a vào từ ngữ truy vấn mà trả tài liệu với nội dung khác 2.3.2 Các phương pháp tính độ tương t 2.3.2.1 Tính độ tương t d a từ v ng Để tính độ tương t hai truy vấn d a từ v ng, người ta sử dụng phương pháp biểu diễn truy vấn đơn giản d a từ ngữ nội truy vấn – “surface representation” Độ tương t hai c u truy vấn q s tính công thức sau [17]:  Độ đo kết hợp sim(q, s) | Q  S | (2.14)  Độ đo Dice sim(q, s)   |QS | ( 2.15) |Q|| S | 15  Độ đo Jaccard sim(q, s)  |QS | ( 2.16) |QS |  Độ đo Overlap sim(q, s)  |QS | (2.17) min(| Q |, | S | sim(q, s)  |QS | ( 2.18) |Q || S |  Độ đo Cosin Cách tính độ tương t c u truy vấn theo phương pháp đưa kết số từ đến Hai c u truy vấn coi tương t không tương t d a việc tính tốn xem chúng có chung từ cụm từ hay khơng 2.3.2.2 Tính độ tương t d a nhật ký truy vấn (query logs) Lịch sử truy vấn – query logs truy vấn t nhiên, hoạt động tr c tiếp người dùng, mô nhu cầu th c tế họ Tất nhiên, với lượng nhỏ liệu trang web mà người dùng chọn mở với c u truy vấn khơng thể đưa kết tính độ tương t c u truy vấn với độ xác cao Tuy nhiên, với lượng lớn liệu ghi lại từ máy chủ máy tìm kiếm lớn, có độ tin cậy cao việc tính tốn độ tương t truy vấn d a vào kết mà người dùng chọn mở văn với c u truy vấn tin tưởng [18] Google máy tìm kiếm nói lớn nhất, phổ biến Việt Nam giới Nó tín nhiệm sử dụng tính tin cậy kết trả trang web mà người dùng l a chọn mở sau người dùng đưa vào máy tìm kiếm c u truy vấn Vì vậy, luận văn sử dụng liệu kết người dùng chọn mở văn tiến hành truy vấn máy tìm kiếm Google, nói cách khác, luận văn sử dụng liệu lưu vết truy vấn máy tìm kiếm Luận văn trình bày phương pháp tính độ tương t cho c u truy vấn userlog với phương thức liệt kê phía Kết trả lưu lịch sử truy vấn người dùng đặt máy tìm kiếm khác thường có cấu trúc khác nhau, đơi cịn chứa tiêu đề, tóm tắt hay thư mục mà tài liệu thuộc về, nhiên ta đưa chúng dạng sau: session : query text  [clicked document]* ( 2.19) 16 Trong đó: o Session: lượt truy vấn người dùng o Query text: c u truy vấn biểu diễn dạng văn o Clicked URL: tài liệu người dùng chọn mở t n iải pháp g i ý truy vấn cho thi u niên Như phần 1.3 ph n tích việc l a chọn ứng viên bước quan trọng mơ hình đề xuất truy vấn sử dụng phương pháp so sánh truy vấn (QS) Khi cần chọn ứng viên truy vấn ta sử dụng kỹ thuật so sánh truy vấn để l a trọn Trong kỹ thuật so sánh ta sử dụng phương pháp tính độ tương t truy vấn (query similarity) Một phương pháp đo độ tương t hai truy vấn có độ xác cao hữu ích cho ứng dụng giúp hỗ trợ người dùng việc tìm kiếm giúp máy tìm kiếm đưa c u trả lời với mục đích người hỏi Nên luận văn tơi chọn phương pháp tính độ tương t truy vấn để áp dụng cho mô hình gợi ý truy vấn cho đối tượng thiếu niên 17 C n M T MÔ H NH G I TRU V N CHO THANH THI U NI N 3.1 Gi i thi u Như trình bày chương trước, tính độ tương t cho truy vấn tốn khó Do đặc trưng truy vấn thường ngắn mang ý chủ quan người nên việc tính tốn độ tương t c u truy vấn chưa đạt kết cao sử dụng phương pháp tính độ tương t văn truyền thống Từ userlog thu thập từ máy chủ máy tìm kiếm Google, luận văn trình bày phương pháp tính độ tương t c u truy vấn d a vào phương pháp sử dụng lưu vết truy vấn máy tìm kiếm [16] đề xuất mơ hình tính tốn trình bày mục sau 3.2 Mơ hình Mơ hình ý sử dụng hai thành phần có ý nghĩa câu truy vấn ban đầu liên kết người dùng chọn mở để sử dụng, tính độ tương t c u truy vấn Mơ hình cải tiến từ mơ hình “Nghiên cứu, phát triển phương pháp tính độ tương tự truy vấn hệ tìm kiếm ứng dụng thử nghiệm vào hệ tìm kiếm thực thể tiếng Việt” Nguyễn Thị Thu Chung- 2011 Điểm mơ hình tính độ tương t linh hoạt Khi dùng cách tính độ tương t theo từ v ng, dùng cách tính độ tương t theo trọng số Tức ph n rõ phần tính độ tương t nhằm cải thiện hiệu hệ thống so với mơ hình trước đ y Mơ hình thể sau: 18 Mơ hình gợi ý truy vấn thiếu niên UserLog Tính độ tương tự-Từ vựng Tiền xử lý Câu truy vấn Tương tự thấp Các liên kết lựa chọn Tiền xử lý Tính độ tương tự-Trọng số liên kết Truy vấn ban đầu Đánh trọng số Tương tự cao Sắp xếp Gợi ý truy vấn Pha lựa chọn Start End Hình 3.1 Mơ hình đề xuất so sánh truy vấn dựa vào tính độ tương tự câu truy vấn 3.3 Các thành phần mơ hình Cá b t ự i n mơ ìn :  Bước 1: Tiền xử lý c u truy vấn C u truy vấn đầu vào tiền xử lý  Bước 2: Lấy danh sách liên kết chọn mở có nội dung truy vấn  Bước 3: Đánh trọng số cho liên kết tương ứng với truy vấn  Tính độ tương t Luận văn sử dụng liệu lưu vết truy vấn tìm kiếm máy tìm kiếm Google, tiến hành cài đặt chương trình tính độ tương t c u truy vấn theo mơ hình đề xuất chương 3, gồm chức chính: xử lý liệu, tính độ tương t truy vấn theo công thức (2.19) với cải tiến việc đưa thêm giá trị trọng số cho liên kết web, sau l a chọn số truy vấn điển hình để tiến hành đánh giá Nội dung th c nghiệm trình bày đ y 19 C n THỰC NGHIỆM VÀ ĐÁNH GIÁ Đặt vấn ề Do hạn chế mặt thời gian, việc th c nghiệm mơ hình gợi ý phức tạp, nên luận văn th c nghiệm phần luận văn tính tương t 10 cặp truy vấn Sau dùng cơng cụ tìm kiếm google tiếng Việt để chạy thử nghiệm truy vấn 4.2 Thi hành mơ hình (Phần mềm phần cứng) Cấu hình phần cứng • CPU: Intel core Duo T8300 • Cache: 2.4Ghz • Ram: 4G • Hệ điều hành: Window • ộ nhớ ngồi: 250Gb Cơng cụ phần mềm sử dụng • Visual Studio 2013 • Mơi trường Net Framwork 4.1 • Ngơn ngữ lập trình C# Phần mềm tốn bao gồm thành phần • Chương trình xử lý gồm mơ đun: Tiền xử lý liệu (loại bỏ truy vấn dài, ngắn, tập truy vấn ban đầu ); • Mơ đun tính tốn độ tương t c u truy vấn: Similarity dùng để tính độ tương t theo từ v ng tính độ tương t theo trọng số liên kết • Mơ đun hiển thị kết danh sách gợi ý truy vấn cho người 4.3 Dữ li u trình thực nghi m 4.3.1 Dữ liệu Dữ liệu bao gồm C u truy vấn thử nghiệm kết hợp với việc sử dụng userlog cơng cụ tìm kiếm trang CocCoc.vn số lượt truy vấn người dùng số trường Trung học phổ thông Vệt Nam 4.3.2 Q trình thực  Tiền xử lý:  Tính độ tương t 20 Sau trình th c nghiệm, luận văn th c tính tốn với trọng số {x1, x2, , xn} khác thấy trọng số {0.9, 0.85, 1, 1.05, 1, , 1} đạt kết tốt Kết thu lấy 10 kết với ngưỡng đưa 0.39 STT 10 Truy vấn | | truy vấn LTV | | Trường THPT Lương Thế Vinh Toán | | Giải toán mạng Nghe nhạc | | nhạc online thi thpt 2016 || K thi THPT Quốc gia năm 2016 nghe nhạc online| |mp3 tr c tuyến Truyện tranh đẹp | | hình ảnh đẹp cách học văn hay | | nguyễn ngọc ngạn tro choi trang diem| |game vui thoi trang tro choi trang diem| |tro choi mien phi Hoa học trò | |báo niên Độ tương t 0.95 0.85 0.9 0.9 0.70000066 0.38249998 0.49249998 0.41249998 0.44249998 0.39 Bảng 4.1 Kết tính độ tương tự truy vấn 4.4 K t thực nghi m án iá 4.4.1 Giao diện chương trình tính độ tương t 1- Chương trình so sánh c u truy vấn: Trường THPT Lương Thế Vinh Trường THPT Lương Thế Vinh 2- Chương trình so sanh c u truy vấn Trường THPT Lương Thế Vinh Trường Lương Thế Vinh 21 4.4.2 Đánh giá Sử dụng bảng đánh giá ph n loại sau: Ph n loại Rất tốt Tốt Khá tốt Không tốt Mô tả Hai c u truy vấn có tương đương ngữ nghĩa Ví dụ LTV Trường THPT Lương Thế Vinh Hai c u truy vấn có chung mục đích thi thpt 2016 || Kỳ truy vấn, độ dài ngắn mô tả khác thi THPT Quốc gia Người sử dụng muốn nói đến ý năm 2016 đưa vào truy vấn Hai c u truy vấn có mục đích truy vấn, nghe nhạc online| s liên quan không rõ ràng |mp3 trực tuyến Hai c u truy vấn không liên quan đến Hoa học trò | |báo niên Bảng 4.2 Bảng phân loại đánh giá 4.4.3 Kết trả từ máy tìm kiếm Google sau truy vấn Với c u truy vấn: LTV | | Trường THPT Lương Thế Vinh 22 Hình 4.1 Tìm kiếm với câu truy vấn Hình 4.2 Tìm kiếm với câu truy vấn 23 T LUẬN Luận văn định hướng chủ đề gợi ý truy vấn Internet thiếu niên Kết luận văn là: - Cung cấp khảo sát gợi ý truy vấn tìm kiếm Internet thiếu niên - Trình bày hai kỹ thuật gợi ý truy vấn bước ngẫu nhiên (random walk) kỹ thuật so sánh c u truy vấn Nghiên cứu phương pháp thống kê phương pháp sử dụng lưu vết truy vấn cho tốn tính độ tương t c u truy vấn máy tìm kiếm - Đề xuất mơ hình gợi ý truy vấn cho đối tượng thiếu niên d a việc kết hợp kỹ thuật gợi ý truy vấn so sánh tính độ tương t c u truy vấn sử dụng lưu vết truy vấn Trong mơ hình, luận văn đưa thêm giá trị trọng số cho liên kết web để nâng cao độ xác kết trả - X y d ng phần mềm th c nghiệm thi hành mơ hình đề xuất, th c thi việc tính đốn độ tương t c u truy vấn Kết đánh giá định tính 10 cặp c u truy vấn tương t cho kết trả phù hợp Do hạn chế trình độ thời gian, luận văn chưa tiến hành thử nghiệm trọn vẹn mơ hình đề xuất mà số thành phần mơ hình ph n tích dạng định tính Hơn nữa, mơ hình đ y chưa tích hợp vào trang web Trường THPT Đại Mỗ Đấy hướng nghiên cứu luận văn 24 ... đạt ý đồ tìm kiếm đưa c u truy vấn gần với ý đồ tìm kiếm 1.2.3 Một số kỹ thuật gợi ý truy vấn cho thiếu niên Có thể gợi ý truy vấn cho thiếu niên gợi ý tr c quan gợi ý dạng text: Hình 1.2 Gợi ý. . .Tóm tắt luận văn Đề tài luận văn: Nghiên cứu kĩ thuật so sánh truy vấn để gợi ý tìm kiếm thông tin cho thiếu niên thử nghiệm Mục đích: X y d ng phần mềm th c nghiệm thi hành mơ... 4.1 Tìm kiếm với câu truy vấn Hình 4.2 Tìm kiếm với câu truy vấn 23 T LUẬN Luận văn định hướng chủ đề gợi ý truy vấn Internet thiếu niên Kết luận văn là: - Cung cấp khảo sát gợi ý truy vấn tìm kiếm

Ngày đăng: 16/01/2020, 03:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan