1. Trang chủ
  2. » Luận Văn - Báo Cáo

Truy vấn dữ liệu hướng người dùng

83 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Truy Vấn Dữ Liệu Hướng Người Dùng
Tác giả Lờ Doón Phước
Người hướng dẫn TS. Vũ Tuyết Trinh
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2006
Thành phố Hà Nội
Định dạng
Số trang 83
Dung lượng 1,44 MB

Nội dung

Tổng quan về truy vấn trong CSDL và tỡm kiếm thụng tin24T24T24T.... Kết hợp cỏc kỹ thuật tỡm kiếm thụng tin và truy vấn trong CSDL24T24T24T .... để tỡm ra những ăn bản v cú liờn quan nhi

Trang 1

LUẬN VĂN THẠC SĨ KHOA HỌC

NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ S : Ố

LÊ DOÃN PHƯỚC

Người hướng d n khoa h c: ẫ ọ TS VŨ TUYẾ T TRINH

HÀ NỘI 2006

Trang 2

Lời cảm ơn

Em xin gửi tới TS Vũ Tuyết Trinh – Bộ môn Hệ thống thông tin - Khoa CNTT - Đại học Bách Khoa Hà Nội lời cảm ơn chân thành và sâu sắc nhất vì những hớng dẫn tận tình về mặt định hớng cho luận văn cũng nh những giúp đỡ hết sức cụ thể về mặt chuyên môn Em cũng cảm ơn các thầy cô giáo thuộc khoa CNTT đã tạo điều kiện cho em đợc học tập và nghiên cứu trong suốt quá trình học cao học

Cuối cùng, tôi xin gửi lời càm ơn tới gia đình và bạn bè, những ngời đã giúp đỡ và động viên tôi trong quá trình học tập và thực hiện luận văn này

Trang 3

MỤC LỤC

24TMỤC LỤC24T 3

24TDANH MỤC CÁC HÌNH VẼ24T 4

24TMỞ ĐẦU24T 5

24TCHƯƠNG I: TỔNG QUAN24T 7

24T1.1 Khái niệm về truy vấn dữ liệu hướng người dùng24T 24T 24T 7

24T1.2 Tổng quan về truy vấn trong CSDL và tìm kiếm thông tin24T 24T 24T 8

24T1.3 Kết hợp các kỹ thuật tìm kiếm thông tin và truy vấn trong CSDL24T 24T 24T 10

24TCHƯƠNG II:24T 12

24TTÌM KIẾM THÔNG TIN24T 12

24T2.1 Giới thiệu chung 12 24T 24T 24 T 24T2.2 Các mô hình xử lý tìm kiếm 14 24T 24T 24 T 24T2.2.1 24T 24TMô hình không gian vectơ 14 24T 24T2.2.2 24T 24TMô hình xác suất24T 18

24T2.3 Tiếp cận hướng người dùng bằng kỹ thuật biểu diễn và xử lý user profile24T 24T 24T 24

24T2.4 Kết luận và đánh giá 24T 24T 2 4T 31

24TCHƯƠNG III:24 T 33

24TTRUY VẤN TRONG CÁC HỆ CƠ SỞ DỮ LIỆU24T 33

24T3.1 Quy trình xử lý câu truy vấn trong cơ sở dữ liệu24T 24T 24 T 33

24T3.2 Câu truy vấn lựa chọn k bản ghi (top-k query)24T 24T 24T 35

24T3.2.1 24T 24THàm tính điểm 36 24T 24T3.2.2 24T 24TĐại số quan hệ có xét đến thứ tự24T 38

24T3.2.3 24T 24TMô hình thực thi truy vấn top-k 24T 42

24T3.2.4 24T 24TTối ưu hóa thực thi top-k query24T 44

24T3.3 Preference SQL24T 24T 24T 47

24T3.3.1 24T 24TCú pháp 47 24T 24T3.3.2 24T 24TĐánh giá và kiểm soát chất lượng kết quả24T 51

24T3.3.3 24T 24TCài đặt thực thi24T 53

24TCHƯƠNG IV24T 56

24TKẾT HỢP KỸ THUẬT USER PROFILE VÀO CÁ THỂ HOÁ TRUY VẤN TRONG CÁC HỆ CƠ SỞ DỮ LIỆU24T 56

24T4.1 Mô hình biểu diễn Preference24T 24T 24 T 57

24T4.1.1 24T 24TPreference cơ sở (Atomic Preference) 59 24T 24T4.1.2 24T 24TPreference ẩn (Implicit Preference) 24T 64

4.1.3 Kết hợp các preference 66

Trang 4

DANH MỤC CÁC HÌNH VẼ

24TUHình 2.1: Quy trình xử lý chung của một hệ thống IRU24T 12

24TUHình 2.2: Tính điểm số của văn bản theo mô hình vectơU24T 16

24TUHình 2.3: Chuẩn hóa vectơ bằng hình cầu đơn vịU24T 17

24TUHình 2.4: Mô hình khái niệmU24T 18

24TUHình 2.5: Không gian sự kiệnU24T 20

24TUHình 2.6: Tiếp cận học tham sốU24T 22

24TUHình 2.7: Tìm kiếm hướng người dùng bằng user profileU24T 25

24TUHình 2.8 : Ví dụ về các loại cạnh biểu thị quan hệ giữa các từU24T 28

24TUHình 2.9: Đồ thị biểu diễn user profileU24T 28

24TUHình 3.1: Quy trình xử lý truy vấn trong cơ sở dữ liệuU24T 34

24TUHình 3.2: Mô hình tìm kiếm plan thực thi tối ưu cho câu truy vấnU24T 35

24TUHình 3.3: Mô hình thực thi truy vấn Top -KU24T 44

24TUHình 3.4: Tích hợp Preference SQLU24T 53

24TUHình 4.1: Cấu trúc cơ sở dữ liệu phim dùng để minh họa trong chương 4U24T 58

24TUHình 4.2: Các dạng hàm eURU(d)URU(u) 61 U24T 24TUHình 4.3: Một phần profile của John biểu diễn dưới dạng đồ thị 64 U24T 24TUHình 4.4: Ví dụ minh họa về preference ẩn được biểu diễn bởi đồ thịU24T 65

24TUHình 4.5: Biểu diễn truy vấn bằng đồ thịU24T 70

24TUHình 4.6: Minh họa về đường đi trong personalization graphU24T 71

Trang 5

M Ở ĐẦ U

Ngày nay, c ng nghệô thông tin (CNTT) ngày càng đi s u vào ầu hết c c lĩnh â h á

v c ực ủa đời ống s xã hội Th ng tin được số hó - gô a ọi chung là thông tin đ ệi n tử ngày àng c tr nên ở phong phú và sđồ ộ, thực tế đó đặ t ra y u cê ầu khai thác kho thông tin đ ện tử n mi ày ột c ch cá ó hi qu ph v ệu ả để ục ụ con người Tuy nhiên, yêu

cầu về khai th c th ng tin lá ô ại có th ể đa dạng với các (nh m) người dùng áó kh c nhau nên đặt ra vấ đề ền v cách khai th c th ng tin cho phá ô ù h hợp ơn với yêu cầu

đặc thù c a từng (nhóm) người s dủ ử ụng

Hiện nay, tồn ại t hai cách tiếp cận ph bi n ổ ế trong l u trư ữ và khai th c thá ông tin Đó là tìm kiếm th ng tin (Information Retrieval - IR) ô và cơ s dở ữ li ệu(Database – DB) Theo c ch tiếp cậ DB, á n thông tin được lưu trữ có cấu trúc

Người dùng truy xuất ữ ệu thô d li ng qua c c c u hỏi truy vấá â n có định dạng do một

h qu trệ ản ị c s d li (ơ ở ữ ệu Database Management System DBMS – ) quy định ới v

những đ ều kiện lựa chọ được ph t biểu r i n á õ ràng K ết quả ả ề ường tr v th là các

b ản ghi t m thấy trong DB ì Trái lại, đối ượng ủa IR ại t c l là các văn bản

(document) với thông tin cần tìm kiếm hầu hết ở ạng ex C c y u cầu truy xuấ d t t á ê t

c ngủa ười dùng được thực ện tr n nội dung của ă hi ê v n bản ch ôứ kh ng u trúc cấ

chặt chẽ như truy xuất trong DBMS iĐ ều kiệ để ộ ăn m t v n bản có m t k t qu ặ ở ế ả

có th ôể kh ng rõ ràng nh cáư c bản ghi trong DB Một văn bản được đưa ra ở ết k

qu nả ếu nó có một mối ê“li n h ” nào với yêu cầu truy xu Trong mệ đó ất ột tập k t ế

qu tr lả ả ời cho một c u truy vấâ n, người ta có thể tìm thấy c c văn bảná liên hệ

“chặt ch ” vẽ ới yêu cầu truy vấn cũng ư nh các văn b n “ítả ” li n quan hơ Đây lê n à

m t ộ đặc trưng cơ ản của c ch tiếp cận t b á ìm kiếm th ng tin nhờ ỹô k thu phâật n loại

Trang 6

Kết hợp các kỹ thu n có th là hật ày ể ướng ph t triển tốt cho ph p khai tháá é c một khối lượng thông tin s dựa c trên c u trúc cđồ ộ ả ấ ũng nh n dung c nó Truy ư ội ủa

vấn th ng tin th h nghi cho từngô íc (nhóm) người dùng có th ể được gọi chung là truy v n hấ ướng người dùng

Luận v n tập trung vào tìm hi mă ểu ột c ch “ti p c n lá ế ậ ại” giữa DB và cho IRphép tăng độ ềm dẻo ủa m c quá trình biểu diễn và x lý cáử c truy vấn và nhằm m ụcđích ử x lý t t h n cá êố ơ c y u c u truy v n cầ ấ ủa từng (nhóm) người dùng

N ội dung của luận văn (không k ph n m u) gồm có 4 chương và 1 phần ể ầ ở đầ

kết luận

Chương 1 : Tổng quan về truy vấn dữ ệu ướng người li h dùng Truy v n dấ ữ

li ệu trong tìm kiếm th g tin (IR) v trong cơ ở ữ ệuôn à s d li (Database) và các hướng

tiếp cận hướng người ử ụng So s nh truy vấn trong IR s d á và trong Database

Chương 2: Trình b v cáày ề c mô hình và k thu ỹ ật trong tìm kiếm th ng tin ô(Information Retrieval) Mô hình xây dựng và khai t ác user profile trong th ìm kiếm thông tin tr n Internet ê

Chương 3: Trình b v ày ề truy vấn trong các hệ CSDL B ểi u diễn truy vấn

hướng người dùng theo hướng nghiên c ứuPreference SQL Trình bày v thề ực thi truy v n (ấ query processing) và thực thi truy vấn Top-K

Chương 4: Trình b ý tày ưởng phát triển cho thực thi truy vấn trong Database,

đó là k t hợp k thu bi u di và xế ỹ ật ể ễn ử lý user profile v x lý ào ử truy vấn hướng

người dùng trong Database

Kết luận và hướng phát triển của đề tài.

Trang 7

CHƯƠNG I: T ỔNG QUAN

1.1 Khá i niệ m v t ề ruy vấn dữ liệu hướng người dùng

Trong thực tế, có rất nhiều ứng dụng phục vụ cho rất nhiều người s dử ụng

sống trong nhiều m i trường ăn h a với nhiô v ó ều tính cách và thói quen kh c nhau á

C s d li c nhơ ở ữ ệu ủa ững ứng ụng ày d n có th rể ất lớn và đa dạ , cng ó th có nhi u ể ềđịnh ạng d ákh c nhau nh tư ext, multimedia, markup language,…Ví dụ nh h ư ệ

thống ỗ ợ kh ch h h tr á àng c mủa ột c ng ty phô ần mềm, nhà s n xu t i n t , ho c ả ấ đ ệ ử ặ

một nh cung cấp dịch ụ Internet ( P) Hệ ốngà v IS th nhận y u cầu trợ gi p v khiếu ê ú à

n thôại ng qua email ho 1 hặc ệ ốn th g tổng iđài đ ện thoại call-center) Những u ( câ

h cỏi ủa kh ch há àng có dạng như: “Máy tính xách tay của i model l …, c tô à ó một

v n vấ đề ới driv c c d er ủa ar Wave-LAN T đã ố ắng ử khắc ục ằng ữngôi c g th ph b nh

cách sau:… nhưng kh ng thô ành công và nh n ậ được th ng b o lỗiô á nh ư sau …”

Một số thông tin trong c u hâ ỏi có th được chuyển thể ành trường có cấu trúc nh ư

nh ư NotebookModel, còn l mại ột số ữ ệu ở ạng t d li d ext kh ng c ấu tr ô ó c úc

Một v ụ kh c l ứng ụng ề ưu trữ tin tức news archive): Cáí d á à d v l ( c hãng phát hành b í hàng ng sáo ch ày ản xuất và phát hành ra thị trường mộ ố lượng lớn tin t s

t vức ới các ảnh và có th cể ả âm thanh được thu m kèm â theo Th ch thức đầu tiá ên nằm trong việc qu lý ản việc dư ừa th thông tin, ví d rụ ất nhiều c c bài áoá b ch sao ỉ

chép từ bài áo b ákh c với s s ự ửa chữa ôkh ng đáng kể Tất nhi n, trong c c b b ê á ài áomới cũng mang c c dữ ệuá li nh thôư ng tin chi ti t vế ề b b lúc ban ài áo đầu (ví d ụ

nh cáư c tin tức ở trang nhấ ) C c dữ ệu ày được d t á li n ùng b cáởi c nhà b chuyên áonghiệp hô(k ng giống nh như ững người dùng bình thường khi tìm kiếm th ng tin ôtrên Int net) Ver ì vậy, các nh áo thực hià b ện tìm kiếm tr n nhiều ng n ngữ, bao ê ô

Trang 8

Nh vư ậy, ần cc ó những ứng ụng d nhận y u cầu và ê cung cấp thông tin cho

người ử ụng m s d ột cách mềm d o và có tính tới nhẻ ững thói quen, tính c ch, sởáthích của ừng người t ákh c nhau hoặc từng ónh m người khác nhau Những ứng

dụng nh v ư ậy được gọi là những ệ truy vấ h n d liệu hướng người dùng Cụ ểữ th

hơn th ệ truy vấn dữ li hì h ệu ướng người dùng mà ta c n hầ ướng tới cần c khảó năng biểu diễn yêu cầu của ười dùng m ng ột c ch uyển chuyển nhằm có th cá th á ể ể

hóa y u cầu của ừng ngườiê t dùng; và cũng ần phải c có những ỹ k thu thật ực thi truy v n th ch hấ í ợp tr vđể ả ề ế k t qu phù hợp với s thíả ở ch, th quen của ừnói t g

người ử ụng s d

Truy vấn dữ liệu hướng người dùng là vi tìm ệc kiếm th ng tin hoặc thực hiệô n truy v n trong cấ ơ ở ữ s d liệu nhằm a ra kếđư t quả phù hợp với s thíchở , th i quen ó

c tủa ừng người hoặc từng nhóm người s dử ụng

Để có th ti p c n tới tính “hướng người dùng”ể ế ậ , ta phải quan t m tới ảâ c ph ía

tương t c với người dùng (front-end) lẫn phía bêá n trong hệ ống th (back-end)

Người dùng tương t c với h thá ệ ống truy vấn dữ ệu li thông qua cá âc c u hỏi truy

vấn, như ậy để ỗ ợ cho t v h tr ính “hướng người dùng phía front-” ở end, ta cần quan

tâm tới khả ăng hỗ ợ cho người dùng trong việc bi di yê n tr ểu ễn u cầu của mình Còn phíở a back end, ta cần quan t- âm tới khả ăng xử n lý những yêu c u truy vầ ấn

c ngủa ười dùng tr v để ả ề cho người dùng những thông tin s t với s thíá ở ch và

những ối quan t m của người dùng (kế m â t qu hướng người dùng ả hay kết quảđược cá th hó – pể a ersonalized answers)

1.2 T ổng quan về ruy ấn trong CSDL v ìm ếm th ng tin t v à t ki ô

Hiện nay, tồn ại hai ki u l u tr t ể ư ữ và khai th c th ng tin phổ ế Đóá ô bi n là s ử

dụng các hệ ống t th ìm kiếm th ng tin (Information Retrieval S tem - IRô ys ) hoặc dùng các hệ qu tr c s d li (ản ị ơ ở ữ ệu Database Management System - DBMS Để )

có th xâể y dựng được một hệ truy vấn dữ ệu ướng người dùng, ta c n xem x li h ầ ét

những đặc ưtr ng riêng của hai lĩnh ực ày v n

Trang 9

H thệ ống ìm t kiếm th ng tin (Information Retrieval System) lô à h thệ ống làm

việc trên nguồn thông tin dưới dạng các v n bản (ă document) để tìm ra những v n ă

b có liêản n quan tới u cầu của yê người dùng Quá trình quan trọng nhất của ộ m t

h thệ ống ìm t kiếm th ng tin lô à bước ắ s p x p theo mế ức liêđộ n quan của ỗ ă m i v n

b v yêản ới u cầu ủa ười c ng dùng Quá trình sắp xếp này được gọi là ranking, hàm

s ố được dùng để đánh giá m ức độ liên quan của văn bản so với yêu cầu của người dùng được gọi là ranking function Trong tìm kiếm th ng tin (ô Information Retrieval – IR), ta ũng g yê c ọi u cầu ủa c người dùng là truy vấn

Ví d ph biụ ổ ến nhất của IR là h thệ ống tìm kiếm th ng tin tr n Intô ê ernet nh ưYahoo Search, G gle, MSN Search Người dùng đưa vào oo truy vấn ưới ạng d d

những đ ạn văn bản ngắn o nh vào giao diập ện Web, hệ ống ẽ th s tìm trong các

Website v trong c c file văn bản ạng plain t t hoà á (d ex ặc dạng định kiểu nhưHTML, XML, PDF, ) để tìm ra những ăn bản v có liên quan nhiều nhất với truy

vấn và kết xuất kết qu tìm kiếm cho người dùng cả ũng trên giao diện W (có eb

link kèm theo ngđể ười dùng có th chuyể ển tiếp tới ăn bản gốc) v

Tr vái ới SysIR tem, tìm kiếm trong cơ ở ữ s d liệu có những iểm áđ kh c cơ ả b nThông tin trong cơ ở ữ s d liệu là thông tin có tính t ổ chức và có cấu tr Chẳngúc

h ạn trong c c cơ ở ữ ệu quan hệá s d li nh Orư acle, IBM DB2, MS SQL Server,…,

d li ữ ệu được tổ chức th ành các bảng (table) quan hệ, người dùng t ìm kiếm thông tin trong CSDL th ng qua cô á âc c u truy vấn Khác với truy vấn trong , truy vIR ấn trong D base data ựa trên những iđ ều kiện Boolean, mỗi bản ghi chỉ có 2 trạng th ái

là thỏa mãn hoặc kh ng thỏa m đ ều kiện truy vấô ãn i n; m b ghi ỗi ản được kết xuấ ởt

kết quả ủa truy vấ chỉ c n khi bản ghi đó ỏ th a mãn i u ki n truy vấn đ ề ệ Ngoài ra,

hiện nay truy vấn trong Database được hỗ ợ ốt hơn IR đối ới những d li tr t v ữ ệu

Trang 10

1.3 Kết hợp các kỹ thuật tìm kiếm thông tin và truy vấn trong CSDL

Trước đâ , y database và ìm t kiếm th ng tin IRô là hai l vĩnh ực đang được ph t átri n táể ch biệt ới nhau Cách y b v đâ a thập ỷ k , các chương trình ứng dụng được phát triển dựa trên những u cầ yê u và tiêu chí khác nhau; một số ứng ụng th ng d ươmại c iổ đ ển như tính bảng lương (payroll) hay qu lý t ản ồn kho (inventory management) được phát triển dựa trên Database, một số ứng ụng á d kh c nhưchương trình tóm tắt c c tác phẩm á được xuất bản ho bặc ằng sáng chế được phát triển dựa trên IR Ngày nay tình hình thay đã đổi ất nhiều, c c ứng ụng đều cần r á d

c d li có cả ữ ệu ấu trúc và cá d li dc ữ ệu ở ạng ext T t ích h d li có cợp ữ ệu ấu trúc và

d li tữ ệu ext là một trong những mong muốn ủa c nhiều sản phẩm ứng dụng th ng ươmại Các ứng dụng tiêu biểu cần sự tích hợp n là: ày

- H thệ ống h tr áỗ ợ kh ch hàng: theo dõi các luồng khiếu nại ủa kh ch c áhàng và ph h t nhà ản ồi ừ cung cấp; và trong trường ợp h lý tưởng ph t ải ựđộng xác định được ph n h n ả ồi ào trùng với phđã ản hồi ước tr đó

- H thệ ống chăm sóc s ức khoẻ truy cập v h: ào ệ ốn th g thông tin đ ệi n tử với nguồn thông tin cung c p bấ ởi các bệnh viện, phòng thí nghi m ệ

dược phẩm, c c b c sĩ,…; há á ệ ốn th g có khả ăng gi m s n á át tình hìn ức h skhoẻ chung c a cáủ c khu vực n cư ũng ư ự áo s dâ c nh d b ớm ề khả ă v n ng

xuất hiện dịch ệnh trong cộng đồng b

- Tìm kiếm th ng tin trong mô ạng intranet trong đó có nhi u dữ liệu có ề

cấu trúc cũng nh như ững ữ ệu ở ạn ex d li d g t t

Các ứng dụng ại ày ần cả khả ăng của ệ lo n c n h qu tr c s d li và ản ị ơ ở ữ ệu khả

năng của ột hệ m tìm kiếm th ng tin ( ) Trong nhiô IR ều trường hợp, c c u truy cá â

v n ấ được viết theo c c chuẩn truyền thốngá nh ư SQL hay XQuery không đủ mềm

d o th hi n ẻ để ể ệ được c y u cầu đặc thcá ê ù c ủa ứng ụng trong việc cho đ ể d i m (scoring) và xếp thứ ự ranking) những ế t ( k t qu tìm được Ngưả ợc lại, h thệ ốngtìm kiếm th ng tin ( ) lô IR ại thiếu những h tr có hi qu ỗ ợ ệu ả cho việc ử x lý d li ữ ệu

có cấu trúc và siêu dữ ệu metadata li ( ), IR cũng kh ng cho ph p những người ph ô é át

Trang 11

tri n ể ứng ụng (developer) quản d lý thông qua c c hàm xá ếp thứ ự t (ranking function)

Nh vư ậy, x y dựng ột hệ ống ưu trữâ m th l và x lý d li k h ử ữ ệu ết ợp được những

ư đ ểu i m c Dataủa base và của là mIR ục tiêu c nhi u nghiủa ề ên c hiứu ện nay Có

một số giải pháp đang được nghi n cứuê nh h thư ệ ống ỗ ợ kh ch h h tr á àng QUID System hoặc đề t ài nghi n cứuê lu n ậ án tiến sĩ ủa Ihab F Il c yas (Purdue University) Trong luận c mình – yas án ủa Il đã đưa ra ột kiểu truy vấn mới mnhằm kết hợp các kỹ thuật tìm kiếm trong IR vào trong Database

Cũng nh ư việc ết hợp giữa c kỹ k cá thu c ật ủa truy vấn trong D base và trong ata

IR System, ta cũng có thể ết hợp c hướng tiếp cận ướng người k cá h dùng c truy ủa

v n ấ trong Database và trong SysIR tem với nhau tđể ận dụng những ư đ ểm của u i

các những ướng ếp cận này Đó h ti là tính mềm d c ẻo ủa truy vấn trong IR và tính

có t ổ chức, c ấu tr , khả ăng xửó c úc n lý d li hi qu c Database ữ ệu ệu ả ủa

Trang 12

CHƯƠNG II:

TÌM KIẾM THÔNG TIN

Chương này sẽ đi sâu tìm hiểu về tìm kiếm thông tin, các mô hình xử lý và cách tiếp cận hướng người dùng bằng kỹ thuật biểu diễn và xử lý user profile 2.1 Giới thiệu chung

Tìm kiếm th ng tin đề ập trong chương nàyô c là quá trình tìm kiếm c c từ kh a á ó

(keyword) trong các văn bản (document) [TL12] Hiện nay, các dịch ụ v tìm m kiếthông tin bằng giao diện Web tr n Int net trê er ở nên rất phổ ến như bi Google, AltaVista, MSN S ch, Yahear oo S ch,… ear

Hình 2.1 m ả quy trô t ình x lý chung c mử ủa ột hệ ống IR đối ới m th v ột y u ê

cầu truy vấn:

Hìn h 2.1: Quy trình xử lý chung của một hệ thống IR

Trang 13

Ở quy trình trong hình 2.1, người dùng a vào các t óđư ừ kh a th c hi n tìm để ự ệkiếm và nh n ậ được một danh sách c c văn bản được x p th t và có á ế ứ ự liên kết(link ới ă) t v n bản g M t văốc ộ n bản có th ể coi là một “gói t ” (bag of word) Th ừ ứ

tự, vị trí c các t trong gói ôủa ừ kh ng được xem x đế Do văn bản thu thập được ét n

có những định ạng kh c nhau (t t, HMTL, XML,…) n d á ex ên cần phải tiền xử lý

v ăn bản trước khi có th lể ưu trữ, xử ,… ừ kh a c lý T ó ó th ể được coi là m t nhóm ộ

nh cáỏ c từ Tập ợp c từ kh a cần tìm h cá ó được gọi là truy vấn (query) c c u hỏiCá âtruy v n cấ ủa người dùng cũng ph i đượả c phâ ín tch cú pháp trước khi có th xể ử lý

Việc t m kiếm từ kh a trong văn bản ựaì ó d trên xếp hạng ranking) c c văn bản ( átheo mức liêđộ n quan tới t óừ kh a của câu truy vấn

Thứ hạng c mủa ột văn bản đối với m t truy v n ch u tác ộ ấ ị động ủa c các thông

s ố sau [TL12]:

- T s liêần ố n quan (Relative frequency ủa ộ ă) c m t v n bản đối với một truy

vấn: tính bằng ố ừ kh a của truy vấn xuất hiện trong văn bản s t ó

- M gức độ ần gũi (proximity) của hai từ kh a trong một vă ó n bản: tính bằng

s t ố ừ xen giữa 2 từ kh a trong truy vấ ó n tại v í có mịtr ặ ủat c 2 từ kh a đó ótrong văn bản Thông s n ố ày ch có ý ngh ỉ ĩa ta xét đến th t c các t ứ ự ủa ừtrong văn bản

- M ức độ đặc trưng (specificity) của ột từ kh a: thể ện mức độ đặc m ó hi thù, mức độ quan trọng ủa ừ kh a Từ kh a m ả kh i niện c c t ó ó ô t á ó n h ội àmcàng rộng thì độ đặc trưng càng nhỏ V ụ t óí d ừ kh a “Microsoft” có độ

đặc tr ng cao h n tư ơ ừ ókh a “corporation” vì “Microsoft” dùng để chỉ ập tđoàn M osoft trong khi “icr corporation” có ý nghĩa là “ tập đoàn” nói chung

Trang 14

Nh vư ậy, vấ đến ính ch đặt ra đối với m t h thộ ệ ống là xIR ử lý quá trình x p ế

th t cáứ ự c văn bản theo y u cầu truy vấn và cê ần phải ểu diễn c y u cầu truy bi cá ê

vấn cũng nh vư ăn bản theo một dạng thích hợp cho việc x lý ử

2.2 Cá c m ô h ình ử x lý t ki m ìm ế

Để ử x lý truy v n trong tìm ấ kiếm th ng tin, ta cầ đưô n a ra các mô hình x lý ửtìm kiếm Một mô hình x lý ph ử ải cho ph p biểu diễn ăn bản, c u truy vấn, hàm é v âtìm kiếm B n cạnh đó, nê ó còn ph làải m rõ kh niải ệm về độ liên quan giữa ăn v

b và ản truy vấn Kh i niá ệm này có th được bi u diễn mộể ể t c ch nhá ị phân ho c ặ

2.2.1 Mô hình kh ng gian vectơ ô

Mô hình không gian vectơ (vector space model được sử dụng trong các hệ ) thống tìm kiếm thông tin từ thu s ở ơ khai [TL12] M chi ỗi ều của kh ng gian ôvectơ ứng với mộ ừt t ókh a c truy v n, s chi u c ôủa ấ ố ề ủa kh ng gian vect là s t ơ ố ừkhóa của truy vấn, m vỗi ăn bản được coi là mộ đ ểt i m trong không gian đó

Mô hình n ày dùng 2 thông số là tần số liên quan và ức m độ đặc trưng xác định

th t vứ ự ăn bản ả ề ở ết quả tr v k Hàm xác định ứ ự ăn bản được gọi là th t v ranking function

Thông số tần s liê n quantrong mô hình không gian vectơ:

V m t t óới ỗi ập ừ kh a wR1R, wR2R,…,wRnR, để tìm thông s t n s liêố ầ ố n quan cho c c á

văn bản dR1R, dR2R,…dRmR ta lập ma trận boolean trong đó ỗi ộ đại ệ m c t di n cho 1 từ khóa m dòng , ỗi đại ện cho 1 v n b di ă ản ô có á trgi ị 0 có nghĩa là từ ó t ng kh a ươứng không có trong văn bản, ô có á trgi ị1: từ ó tkh a ương ứng có trong v n bă ản:

Trang 15

Bảng 2 : Ma trận boolean biểu diễn quan hệ giữa văn bản và từ 1 óa kh

D trêựa n ma tr n n , ta cậ ày ó th tính tể ầ ố liên s n quan của ă v n bản đối ới truy v

vấn Tần ố s liên quan của ăn bản d v RiR là s lố ượng ô có á tr gi ị 1 tr n dê òng i

Thông số ức độ đặc ưng mô hình m tr không gian vectơ:

Giả sử ầ c n tìm xác định độ đặ c tr ng hay đặcư thù của mộ ừt t óa kh wRiR, rõ ràng

độ đặ c thù c wủa R i R t lỷ ệ nghịch với s lố ượng văn bản có ch wứa RiR Gọi DRfR(w) là s ốvăn bản có chứa t ừ kho w thì á độ đặc ưng của w t l tr ỷ ệ nghịch với DRfR(w) Ngoài

ra trong số các t óa có mừ kh ột số ừ t ít quan trọng ơn những ừ kh c Do đó, h t á

người ta định nghĩa ộ m t thông s ký hiệu là IDF (ố nghịch đảo ần số ăn bản để t v )

c định độ đặc trưng của ừ kh a w: t ó

IDF w ( ) = log(N D/ RfR(w)) IDF là thông số đặc trưng cho bản thân các từ kh a IDF ó cho biết về ố ần s l

xuất hiện của ộ ừ m t t óa kh trong văn bản và cho biết cả độ quan trọng ủa ừ đó c t Tuy nhi n ta kh ng thê ô ể dùng bảng 2.1 tính thông s này, tức là ôđể ố kh ng th tính ể

0 0 0 1 1

0 1 1 0 0

1 1 0 0 0

Trang 16

Ngoài ra để cho biế độ quan trọng ủa 1 từ trong 1 văn bản, người ta đưa ra t c thông số ần số ừ Term Frequency – TF), t n s t t ( ầ ố ừ t được tính cho từng c (tặp ừ, văn bản):

T ần số ừ(w, d) t

= < Số lần xuất hiện từ w trong văn bản d> / <Số từ trong d>

Hàm tính đ ểm ủa văn bản coring function i c (s ):

Hàm tính i m đ ể là hàm toán học dùng để xác định “điểm số” của 1 văn bản đối với một tập các từ khóa trong truy vấn Đ ểi m số ủa ă c v n bản s ẽ được dùng xđể ếp

th t cá vứ ự c ăn bản và sau kđó ết xuất ra kết quả ả ề cho người c tr v ần tìm kiếm

Gi s ả ử người dùng đã đưa vào truy vấn q=(wRq1R, wRq2R, …, wRqrR), ta cần x c địnhá

đ ểi m s c văố ủa n bản d Có nhiều cách nh giđể đá á văn bản d theo truy vấn q,

chẳng hạn theo góc giữa 2 vectơ q, d hoặc theo khoảng cách giữa hai đỉnh của

2 vectơ: q , d(hình 2.1)

Hình 2.2 : Tính i đ ể m s ố ủa ă c v n b theo m ản ô h ình vectơ

Dùng mô hình ôkh ng gian vect ta cơ ó th tính ể được đ ểm số ủa c văi c cá n bản:

Score(d) = TF(w R 1 R, d) x IDF(wR 1 R ) + TF(wR 2 R, d) x IDF(wR 2 R) +

Nếu chẳng ạn văn bản d h R 3 R có m t wchỉ ặt ừ R 1 R c ủa truy vấn w thì ta có:

Trang 17

TF(wR 2 R, d) = TF(wR 3 R , d) =….= 0,

do : đó

Score(d R 3 R) = TF(wR 1 R , dR 3 R) x IDF(wR 1 R)

Đ ểi m s c ố ủa văn bản càng cao thì văn bản đó càng gần với truy v n ấ

Có hai c ch tá ính điểm số là theo khoảng cách giữa ngọn c vect bi u diễn ủa ơ ểtruy vấn và vect biểu diễn ơ văn bản và theo lớn c góc giữa 2 vect này Th độ ủa ơ ứ

t cáự c văn bản khi sắp ếp giảm ần x d theo điểm số tính theo 2 c ch tr n l khá ê à ông

giống nhau do d cáđộ ài c vect là ôơ kh ng bằng nhau, ví d nụ ếu một văn bản có chứa 2 từ trong truy vấn và một văn bản khác chứa 20 t ừ trong truy vấn thì đương nhiên d c úng là ônđộ ài ủa ch kh g tương đương Do đó ta cần chuẩn h a để c , ó cávectơ đề u có cùng d Muốn vậy, ta dđộ ài ùng 1 hình c u ầ đơn vị (unit sphere) và

đặ ấ ảt t t c các vect v hình cơ ào ầu này: g vect nằm tâm, ng n vect ốc ơ ở ọ ơ nằm trên

b mề ặt hình cầu (hình 2.2):

Hình 2.3: Chuẩn hóa vect b ơ ằng hình c n vị ầu đơ

Ta tính điểm số ủa c văn bản d bằng một hàm s có c cá ố tham số là s ố đo góc (q,d) Sau s x p cáđó ắp ế c văn bản theo thứ t iự đ ểm số đã tính được ột c ch M á

Trang 18

2.2.2 Mô hình xác suất

Nh trình b trênư đã ày ở , truy vấn trong IR d trên ựa việc x c định ứ ự c á th t cávăn bản ở ế k t qu Th t n ôả ứ ự ày kh ng lu n lu n tường minh Mô hình x lý truy ô ô ử

vấn theo x c suấ được ph t triểá t á n d trên tính ựa chấ kh ng ườngt ô t minh n ày

Phần này s trình b vẽ ày mô hình ề khái niệm (conceptual model) – mô t cáả ch phát triển một lớp các mô hình xác suấ Sau đót là các vấ đề chung của ọin m mô hình xác suất, đó là ôkh ng gian sự ệ ki n (event space), quy tắc xếp thứ ự t xác suất (probability ranking principle – PRP) và k thu h ỹ ật ọc tham số parameter (

learning)

a Mô hình khái niệm

M ối quan hệ giữa các văn bản và bi u diễn (presentation) c v n bản, giữa ể ủa ătruy vấn và bi di c ểu ễn ủa truy vấ được minh hoạ trong mô hình án kh i niệm ở hình 2.3:

H ình 2.4 : Mô hình á kh i niệ m

Truy v n cấ ó tính chất duy nhất, ngh là m t ĩa ộ truy v n lấ à một yêu c u th ng tin ầ ô

nh t ấ định ủ c a một người nh t ấ định V ậy hai truy vấn ủaì v c hai người ákh c nhau (ho c cùng mặc ủa ột người ại hai ời đ ểm kh c nhau) c t th i á ó th là áể kh c nhau ồnT

t mại ột quan hệ liên quan g ữa ội m t truy v n và m t ấ ộ văn bản ủa ột người ởc m cùng một thời đ ể i m

Trang 19

G là t h vọi R ập ợp ăn bản được quan t m, â R là tập hợp các văn bản ông khđược quan tâm Ký hiệu R = {R, R}, kh đó quan hệi liên quan giữa ăn bản v và truy vấn được mô t b ánh x ả ởi ạ Q D x  R

Khi so sánh chất lượng ủa c m c cá ô hình ákh c nhau thì mức biểu diễn là một tiêu ch quan trọng Từ nhí ận x t này ta r ra hai định ướng cho sựé út h phát triển các

mô hình x lý truử y vấn theo x c suấá t:

- T ối ưu h a chất lượng lấy dữ ệu cho một biểu diễn em x t một sốó li X é hình

th mô t s ph thuức ả ự ụ ộc giữa các từ kh a trong truy v n l ó ấ à một phương pháp quan trọng

- Ph t triển c c má á ô hình chi ti t hế óa mức ể bi u diễn c cáủa c truy vấn và v n ă

bản Mô hình c n ầ cung cấp th ng tin chi tiết hơn về c từ trong truy vấô cá n,

ví d thôụ ng tin về ần số t xuất hiện c t ủa ừ kho trong văn b , hoá ản ặc thông tin ở đầu ra của phương thức phâ ích văn t n bản nâng cao (advanced text analysis) (ví d phâụ n t h cho cíc á cc ụm từ - phrases)

b Không gian sự kiện

Trong mô hình ákh i niệm, không gian sự kiện Q D x là tập hợp các cặp ăn v

b – ản truy vấ dn ( Rm R, qRkR) (hình 2.5) Cặp ăn bản – truy vấn (d v Rm R, qRkR) được coi l ựà s kiện v n bản dă RmR được người dùng quan tâm mở ức n khi độ ào đưa ra truy vấn qRkR

V m c (ới ỗi ặp dRm R, qRkR) ta có một đánh giá ề ức độ liên quan giữa chúng, ký hi v m ệu

là (r dRmR, qRkR) ∈ R Ta thừa nhậ ằng mức liên r độ n quan r d ( RmR, qURkR) cho những ăn v

Trang 20

bản kh c nhau đốiá với cùng m t ộ truy vấn là độc lập với nhau

Hình 2.5: Khô ng gian s ự ệ ki n

Do hệ IR ử x lý d trên bi di c cáựa ểu ễn ủa c văn bản/truy vấn n IR ửên x lý nh ưnhau đối ới c văn bản truy vấn c v cá / ó cùng biểu diễn Đ ều ày được minh họa ởi n hình 2.5 bằng ánh x ạ giữa c d cá òng kề nhau tới cùng m t biộ ểu diễn truy vấ qn RkR và

các cột kề nhau tới cùng một mô t v n bản dả ă RmR Với mô hình này, các xác suất

P R|q( Rk R, dRmR) được thể ệ hi n rõ ràng: M c (ỗi ặp qRkR, dRmR) tương ứng với m t t h ộ ập ợp

những thành ph n có cùng biầ ểu diễn được minh họa trong hình là mộ ( t ma tr n ậcon) Vì vậy (P R|qRk R, dRmR) là phần tập ợp ă h v n bản-truy v n cấ ó liên quan

c Quy tắc xếp thứ tự xác suất PRP

Quy tắc xếp thứ ự t xác suất PRP nói rằng thứ ự ăn bản t v là t ối ưu khi c c văn á

b ản được sắp ếp theo giá tr ịgiảm c xá x ủa c suất li quan của ch g tới truy vấên ún n

Trang 21

Chứng minh quy tắc y như sau: gọi nà Clà chi ph đểí tìm ra một văn bản ông kh

liên quan, C là chi ph đểí tìm m t vra ộ ăn bản n quan Quy tắc trê ói r liê n n ằng ăn v

b ản dRmR là văn bản ti p theo được ch n kếế ọ để t xu t ra k t qu n u nh : ấ ế ả ế ư

C.P(R|q R k R, dR m R) + C(1 P(R|q- R k R, dR m R))

≤ C P(R|qR k R, dR j R ) + C(1 P(R|q- R k R, dR j R )

với mọi dRjR thuộc tập ợp ă h v n bản ch a được ch n và dư ọ R j R ≠ dR m R Nói cách khác, ta chọn văn bản mà chi ph ỳ ọngí k v là thấp nhất V C < ì C nên iđ ều kiện trên tương đương với:

P(R|qR k R, dR m R) ≥ P(R|qR k R, dR j R) (Quy tắc PRP được chứng minh !)

Quy tắc PRP có th ể được mở ộng để ử r x lý trong trường hợp mức liên độquan c 1 v n bủa ă ản so với truy vấn được bi u diễn b i m t ể ở ộ đại lượng có th có ểnhi á tr (ều gi ị multivalue) chứ kh ng phải chỉ hai gi ô á tr ị 0, 1 (binary): Giả ử s có n giá tr ịRR1R < RR2R< … RRnR, là chi ph ìm í t kiếm tương ứng cho n văn bản ới các đánh vgiá chi ph Cí: R1R, CR2R, …, CRnR Khi đó văn bản được x p th t theo ế ứ ự chi phí kỳ ọng v :

C

1

),

|(

d K ỹ thuật ọc tham số h

Trang 22

Hình 2.6 : Tiế ậ ọc tham số p c n h

Một mô hình xác suất tốt kh ng chỉ ửô x lý truy vấn dựa trên b n th n c u truy ả â âvấn mà còn ph d trê ác ph h c ải ựa n c ản ồi ủa người dùng, quá trình tiếp thu c mô ủahình xác suất từ những ph h c ản ồi ủa người dùng được gọi là quá trình t h ự ọctham số Nếu ta tổ chức mô hình theo hướng t hự ọc tham số thì có th tiể ếp cận theo ba hướng nh ư trong hình 2.4 Trong mỗi cách tiếp cận, ta ph n biệt ra lâ àm hai pha l pha họcà và pha ứng ụng Ở d pha h c, ta có d liọ ữ ệu phản h ồi cho tập con

QRLR Dx RLR Tx RLR c t ủa ập Q x D x T (trong t cáđó T chỉ ập c từ Từ ập ữ ệu) t d li phản

h n ồi ày ta sẽ ế ừa c tham số k th cá xác suất C c tham số ày đượ ử ụngá n c s d trong pha ứng ụng để d thêm th ng tin cho m ả ủa c văn bảnô ô t c cá và truy vấn

Trong hướng tiếp cận học liên quan với truy vấn , th ng tin phản h được ô ồidùng tính trđể ọng ố cho c c từ s á tìm kiếm c trong truy vấn qó RkR Ở đâ y, ta có các thông tin li n quan của ập c văn bản Dê t cá RLR , và ta có th ể ước ượng c tham số l cácho tập h t ợp ừ TRLR có mặt trong c c văá n bản này Pha ứng dụngđược giới ạn tới hcùng một truy vấn và t h t ập ợp ừ TRLR , nhưng có th dểáp ụng mô hình n ày cho t t c ấ ả

văn bản thuộc D

Trang 23

Hướng ếp cậ ti n học n quan ăn bản độc lập ới hliê v v ướng ếp cận học ti liên quan truy vấn: mô hình đánh ch mụcỉ theo x c suất s thu thập các d liệu ph n á ẽ ữ ả

h ồi cho mộ ăn bản dt v RmR xác định ừ ập ợp truy vấn Q t t h RLR với t h t vập ợp ừ ựng TRLR

có mặt trong c c truy vấn C c tham sá á ố được học ừ t cá dc liệu phữ ản hồi n ày ch ỉ

có th dùng ể cho cùng ộ ăn bản và cùng m t t h t vm t v ộ ập ợp ừ ựng TRLR (có mặt trong truy vấn) nh ng v tư ới ấ ả t c truy vấn V n ính vấ đề ch ới hướng tiếp c n nậ ày là trong

th t ôực ế kh ng c đủ ữ ệu phó d li ản hồi cho một văn bản, vì vậy hầu nh ôư kh ng có

cách nào để ước ượng tham số theo hướng tiếp cận này l

Tr ng ính ở ại ch đối ới v hai hướng tiếp c n tr n lậ ê à ph m vi giới h n c ứng ạ ạ ủadụng, vì pha ứng ụng ị giới hạn ào ột qu y ho d b v m er ặc một văn bản Để kh c ắ

ph ó ục kh khăn n , ta phày ải đưa ra mức độ ừu ượng tr t hóa cho c c văn b , truy á ảnvấn và t vừ ựng Hướng ếp cậ ti n liên quan m ả ựaô t d trên tư tưởng ống gi nh ư

phương thức nhận dạng ẫu pattern recognition method), mộ m ( t mô t liêả n quanbao gồm á tr c cági ị ủa c đặc tính c ủa đối ượng đang đượ xem x t (“đối t c é tượng” ở

đây bao g cáồm c truy vấn, văn bản và t vừ ựng Ở pha học, c c tham số có quan ) á

h vệ ới các đặc tính được rút ra t ừ ví dụ ọc h UQURLRP P x DRLR Tx RLR pha ứng dụng, không có hạn chế ới ập v t con UQURARP P x DRAR Tx RAR c cáủa c đối tượng mà các tham số

có khả ăng được p dụng: c n á ả truy v n mấ ới cũng như văn bản ới và t v m ừ ựngmới u đề được xem xét Đây là một phương thức h c dài h n (long-tọ ạ erm learning method), vì d li ph h có th ữ ệu ản ồi ể được thu thập t từ ất cả các truy vấn, vì v ậykích thước ủa c mẫu ọc sẽ ăng theo thời c cá h t gian, đồng ời đại ượng th l xác suất ước tính cũng có th tể ăng

Trang 24

2.3 Tiếp cận hướng người dùng bằng ỹ thuật biểu diễn và ử k x lý user profile

Để úgi p người dùng phải a ít yêu cầu h n và k t qu thu được sát với s đư ơ ế ả ởthích, mức độ quan t âm c ủa người dùng h n bơ ằng cách lưu lại thông tin về th óiquen, sở thích cá nhân,… của người dùng vào profile ri ng của ừngê t người qua việc tự động phâ ín t ch lịch sử s dử ụng ủa c người dùng hoặc người dùng t ự địnhnghĩa profile T khi người dùng đưa vào m t câừ đó ộ u truy vấn thì ta s kẽ ết hợp

n ội dung c u truy vấn với profâ ile của người dùng để đưa ra c u truy v n mâ ấ ới sát

hơn với ở s thích, thói quen, mức độ quan tâ m của ười ử ụng Vấ đề đặt ng s d n ra là cách cách tổ chức profile, cách thu thập thông tin vào profile và thuật toán dùng kết hợp n ội dung của u truy vấn và prof câ ile của người dùng để đưa ra c u truy âvấn mới

Để ễ d hình dung, xé í d v t v ụ ề việc tìm kiếm th ng tin trô ên Web, c c á môt ơtruyền thống trả ề ng một kế v cù t qu với cùng cách sắp x p cho t t c người dùng ả ế ấ ả

nếu như ọ ực hiện c h th ùng một truy v n (cùng m t nhóm t ấ ộ ừ kho Những k t á) ế

qu n có th trả ày ể ải rộng tr n rất nhiều lĩnh ực, có nhiê v ều lĩnh ực nằm ngoài s v ựquan tâm của người tìm kiếm Như ậy, người v tìm kiếm sẽ ất nhiều th gian m ờiduy ệt qua c c kếá t qu tìm ả để được đúng kết quả mình c n ầ Ngoài ra, nếu phảiduy quá lâệt u người tìm kiếm sẽ ất kiên nhẫn và s m ẽ đưa ra một truy vấ kh c n á

Một khía cạnh quan trọng kh c của ấ đề ày á v n n là người dùng thường chỉ đưa ra

một số ượng l ít các từ kh a do th ó ói quen - những ừ kh a này ường mang nghĩa t ó thchung chung và có th tìm thể ấy trong rất nhiều lĩnh ực Ví d v v ụ ới từ ó ìm kh a tkiếm là “Java Programming”, có người muốn ìm t kiếm c c tutorial, số kh c á á

l ại quan t m tới source code Hiện tượngâ nh nhập ằng v ề ngữ ngh n còn b gâĩa ày ị y

ra bởi các hiện tượng ừ đồng nghĩa t (synonym) đồng m (homonym) Ví dụ, khi â

người dùng đưa ra từ khóa tìm kiếm là “apple” thì có thể ọ muốn ìm th ng tin h t ô

liên quan tới apple” như ột loại “ m hoa quả, cũng có thể ọ h quan t m tới ông tin â th

về t o “ập đ àn Apple Computer” Như ậy, n u nh v ế ư không có ôth ng tin thêm thì

Trang 25

search engine kh ng thể đ án được định thực sự ủaô o ý c người ìm kiếm Từ đó đặ t t ra

yêu cầu cần cá nhân h a (personalization) việc tìm kiếó m c người dùng Ki n trúc ủa ếchung c h ủa ệ thống tìm kiếm hỗ trợ cá nhâ ó ó n h a c thể được m ả ằng ình ẽ sau ô t b h v [TL5]:

Hình 2.7 : Tìm kiế m h ướng ng ười dùng b ằng us er pr ofile

Thông tin của user được lưu trữ trong User Profile , N ội dung của nó được truy

xuất bởi module User Profiling Người dùng tương tác th ng qua module User ô

Interation – module nhận vào truy vấ Qn và hiển thị ết quả R cho người k dùng Module search personalization được đặt ngay tr n sê earch engine truyền thống hoặc

có thể được t ch hợp ới sí v earch engine Search personalization ồm 2 module nhỏ g là

query disambiguationresult ranking Q uery disambiguation s thêẽ m c c á

t /thuừ ật ngữ term) bổ sung và ( o c c từ kh a tìm á ó kiếm mà người dùng nhđã ập Ví

d n ngụ ếu ười dùng thường quan t m tới programming” th khi ngâ “ ì ười dùng tìm kiếm với ừ kh a “java”, module Query disambiguation t ó s thêm ẽ

Trang 26

a User Profile

Gi s rả ử ằng các truy vấ được c ng thức h a thn ô ó ành s kự ết hợp giữa các

t /thu ng (ừ ật ữ term) bằng các toán ử t logic dùng cáTa c ký hi ệu t R 1 R, tR 2 R,… để

biểu thị các từ C c toán ử logic gồm á t AND, OR, NOT ớiv ý nghĩa thông

thường Nếu nh ư trong cụm ừ t tìm kiếm: giữa 2 từ kh ng c ô ó to t thì to t án ử án ửmặc định là AND Một số ví dụ ề c truy vấn theo dạng ày: v cá n

"Java AND programming"

"geological AND phenomenon"

D ấu ngoặc đơn cũng được dùng nhóđể m 1 cụm từ và to t : án ử

"geological AND (phenomenon OR formation)"

H thệ ống ử ụng đồ thị (graph G(V,E) để s d ) mô hình hóa user profile trong đó

tập hợp nút V là tập các từ Tập hợp nút n ày được x y dựng ựaâ d trên lịch ử ươ s t ng

tác giữa người dùng v h thề ệ ống, c c á ontology,…Các nút thuộc V có trọng số

(weight) biểu thị mức độ quan tâm của người dùng Trọng ố s là một số ực trong thkhoảng [0, 1], giá tr ị 1 thể ện mức độ quan t m cao nhất (gần như hi â luôn luôn quan t m), giâ á tr ị 0 thể ện mức độ quan t m thấp nhất (gần như kh ng bao hi â ôgiờquan t m) Trâ ọng ố s c nút sác ẽ được sử dụng sđể ắp xếp kết qu truy vấn ảTập cạnh E cũng mang trọng s ố và biểu thị quan hệ giữa các từ Mỗi ạnh ối c n

t ừ từ t R i R t ới từ tR j R được liên kết với 1 to n tá ử logic nh t ấ định và bi u th kh n ng ể ị ả ă

viết lại (rewriting) thuật ngữ t R i R bằng thu ng ật ữ tR j R

T h E= ập ợp CDNS trong : đó

- T h gập ợp C ồm cá c cạnh ể ện quan hệ ết hợp conjunction th hi k ( )

Một cạnh conjunction tR i R_tR j R chỉ ra rằng tR i R có th ể được viết lạithành t R i R AND tR j R

- T h gập ợp D ồm c c ác ạnh ể ện quan hệ ch rời disjunction th hi tá ( )

Một cạnh disjunction t R i R _tR j R chỉ ra rằng tR i R có th ể được viết lại ành th

t R i ROR tR j R

Trang 27

- Tập hợp N gồm các cạnh ể ện quan hệ ủ định negation) Một th hi ph (

cạnh negation t R i R_tR j R chỉ ra rằng tR i R có th ể được viế ạit l thành tR i R

NOT t R j R

- Tập hợp N gồm các cạnh ể ện quan hệ thay thế substitution) th hi (

Một cạnh substitution tR i R_tR j R chỉ ra rằng tR i R có th ể được viết lạithành t R j R

Bảng ưới đây t d óm t ý ắt nghĩa và mô t ký hi hả ệu đồ ọa của c loại ạnh cá c nói trên :

conjunction tR i R có th ể xem x t thay thế ởi té b R i R AND tR j

disjunction tR i R có th ể xem x t thay thế ởi té b R i R OR tR j

negation tR i R có th ể xem x t thay thế ởi té b R i R NOT tR j

subtitution tR i R có th ể xem x t thay thế ởi té b R j

Bảng 2.5

Trọng ố ủa ạnh t s c c R i R_tR j R th hiể ệ ự n s quan trọng ủa ệ c vi c viế ại (rewriting) t l

t R i R thành tR j R Trọng s c cố ủa ạnh ũng là m c ột số ực trong khoảng [0, 1] th

Dưới đây là hình vẽ ví d v cáụ ề c loại ạnh ối giữa ác từ c n c và trọng số của

Trang 28

chúng :

Hình 2.8 : Ví dụ về các loại cạnh biểu thị quan hệ giữa các từ

Trong hình 2.9, "Java" có thể được thay thế bởi "Java AND

Programming" với độ quan trọng là 0.6; "AI" có thể được thay thế bởi

"Artificial Inteligent" với trọng số là 0.8 ; "Java" có thể thay thế

bởi "Java NOT Coffee" với độ quan trọng là 1 (mức cao nhất) có nghĩa –

không xét những văn bản có mặt "Java" mà có mặt "Coffee"; "Cartoon"

có thể được thay thế hoàn toàn (độ quan trọng bằng 1) bởi "animation"

Thông thường đồ ị ểu diễn er pr ile sẽ đồ ị kh ng li n th ng do c th bi us of là th ô ê ô ó nhiều lĩnh ực t ch rời nhau (c c thuật ngữ khô v á á ng có liên quan với nhau) Hình 2.10 là một ví d v th biụ ề đồ ị ểu diễn er pr ile của us of người dùng :

Hình 2.9: Đồ thị biểu diễn user profile

Trang 29

Trong th n có đồ ị ày 2 thành phần li n th ng ột li n quan đế background ê ô M ê n "

image" và một li n quan đếê n "Java pr ogramming" Hai thành ph n ôầ kh ng có m ốiliên hệ gì v nhau Mới ặt kh c, mộá t thành phần liên th ng cô ó thể chứa nhiều hơn

m t l v ộ ĩnh ực người dùng cần Trong đồ ị ở th hình 2.10 ", Java programming" liên

thông với database system N chung, với ỗi ặp đỉnh " " ói m c tR i R và tR j R , chỉ có th ểnhiều nhất 1 cạnh tR i R_tR j R mà kiểu của nó ph ản ánh ý niệm chính c tủa R i R trong tương quan với tR j R Mặt khác, tR i R_tR j R và tR j R_tR j R có th cùng t tể ồn ại V ụí d ‘Java’ được nối ới v

‘programming’ và ‘programming’ cũng được nối ới ‘Java’, tr t ọng ố ủa s c 2 cạnh

n là ôày kh ng bằng nhau, do ‘programming’ còn được nối ới ‘C’ Việc viết ại v l(rewriting) có th ôể kh ng chỉ ph thuụ ộc vào c c cạnh ối ực tiếp m ó th thôá n tr à c ể ng qua các cạnh trung gian trên thđồ ị Trọng ố ủa đường s c đi gián ếp này được titính d trên trựa ọng s cáố c cạnh thuộc đường i đ Đặc ệt, nếu bi DR N R là t h cáập ợp c

trọng ố c cạnh s cá thuộc đường đi th ọng ố gián ếp cì tr s ti ó th ể được x c định ởi á b

hàm fRTR(DR N R) Về ặ m t nguy n tê ắc, có th có nhiể ều hàm fRTR(DR N R) nhưng hàm n ph ày ảithỏa mãn iđ ều kiện : fRTR(DR N R) ≤ min(DR N R)

Ta s dử ụng phép nh n c c tham số ủa fâ á c RTR t tr nđể ính ọ g số gián ế ti p Trong đồ

th hình 2.10ị , trọng ố ủa việc viết ại gián ếp thuật s c l ti ngữ ‘Java’ b ởi

Trang 30

Có một số đ ều kiện x c định i á ng cữ ảnh như:

- Trọng ố gi n tiếp của tất cả đường đi nối từ ới s á m tR j R t ới truy vấn Q u đề

ph l hải ớn ơn ngưỡng T

- S lố ượng ạnh ủa ỗi đường c c m đi nối từ ới t m R j R t ới Q phải nh hỏ ơn

ngưỡng T

Đầ u ra (output): Truy vấn đã được sửa đổi Q’

Thuật toán QDP dựa trên thuật toán tìm đường đi ngắn nhất trong đồ thị có trọng số th có trĐồ ị ọng ố ở đây l s à biểu diễn th c usđồ ị ủa er pr ile Thuật ánof to

l ặp đi lặp lại quá trình duy tệt ừng từ đã có mặt trong truy vấn, tìm các từ trong

user pr ile sao cho đường n t m tof ối ừ từ ới đó ới từ đang x t thỏa mãn ié đ ều kiện CTX

Mô tả sơ bộ thuật toán:

QDP algorithm

Input: Query Q, User Profile U, Query-Context Criterion CXT

/*CXT(tj,Q)=TRUE then tj is in the context of Q */

Output: Modified query Q’

Trang 31

c Mô tả cài đặt ở mức prototype:

Hiện nay G gle cung cấp một search engine về tìm oo kiếm th ng tin tr n ô êInternet và cung cấp giao di n cho người lập trình ứng dệ ụng là google web API service - một ch ng trươ ình chạy trên web cho ph p té ìm kiếm v ửà x lý các thông tin tìm đượ , ta cc ó th s dể ử ụng google web API service để xây dựng module Search Interface Truy vấn sau khi được cá ânh n hóa bằng thuật toán QDP được dịch sang một dạng cú pháp theo quy định ủa c google: t m kiếm ch nh x c một ì í á

cụm từ thì cụm từ đó được bao bọc bởi d nh k ấu áy ép (“) Muốn tìm văn bản không có một từ ào đó n thì đặt dấu ‘ ở ngay trước t -‘ ừ đó Hệ ống lấy kế th t qu ả

c gooủa gle trả ề, tiến h v ành xếp thứ ự theo trọng s c cá t ố ủa c từ trong user profile

và tr kả ết quả cho người dùng

2.4 K ết luậ n và đánh gi á

Nh vư ậy, chương này đã trình b ày xong c c vấ đềá n liên quan n tìm kiếm đếthông tin ấ đề ửV n x lý truy vấn trong tìm kiếm th ng tin đã được trô ình b m ày ở ục

các mô hình x lý tìm ử kiếm ục(m 2.2) Tuy nhi n nhữngê mô hình n x lý ày chỉ ử

d trê êựa n y u cầu truy vấn, cụ ể th là d trêựa n bản thâ án c c từ kh a truy vấn và ó

chưa có tiếp cận hướng người dùng Mục 2.4 trình bđã ày hướng ếp cậ ti n User Profile cá th hó âđể ể a c u truy vấn Tuy nhiên đây ch là m phương pháp dỉ ột áp ụng

Trang 32

Để ă t ng hiệu qu x lýả ử , ta có thể ế k t hợp quá trìn á thh c ể hóa vào trong quá trình x lýử Khi đó, mô hình x lý s ph có nhiử ẽ ải ều thay đổi Khi kết hợp cá thể hoá thì quá trình x lý cử ấn phải quan tâm đến ngữ nghĩa ủa c từ kh a c cá ó truy vấn

Bên cạnh đó, kh i niệm tần số n quan giá liê ữa văn b n vả ới t óừ kh a cấn phải được

m rở ộng do ta có th thêể m vào u truy vấn một số ừ câ t khóa mới ấy từ quan hệ l

ng ữ nghĩa trong User Pr ile Khi tof ính t s liêần ố n quan giữa ă v n bản với những t ừkhóa mớ ày ta phảii n nhân th m với ệ ố ọng ố ủaê h s là tr s c các quan h ng ngh ệ ữ ĩa

giữa các từ óa trong er prkh us ofile

Trang 33

CHƯƠNG II I :

Trong chương này, luận văn s trình b tẽ ày ổng quan về quy trình xử lý câu truy v n trong cấ ơ ở ữ s d liệu Trên cơ ở đó, luậ s n vă đn i s u xem x t quy trâ é ình x ử

lý truy vấn Top-K - một hướng ti p c n c truy v n hướng người dùng Lu n ế ậ ủa ấ ậ

văn cũng đi s u v o Preference SQL - mâ à ột hướng ếp cậ để ểu diễn câu truy ti n bi

vấn hướng người dùng

3.1 Quy trình ử x lý câu truy vấn trong ơ ở ữ liệu c s d

Trong các hệ ản ị CSDL, qu qu tr á trình thực hi n truy v n bao gệ ấ ồm 3 bước là [TL2]: ph n t ch (Parser) câ í ú phá âp c u truy vấn, tối ưu h a (Optimizer) c u truy ó âvấn và thực thi (Execution) c u truy vấn (hâ ình 3.1):

Trang 34

Hình 3.1: Quy trình x lý ử truy vấn trong ơ s d li c ở ữ ệu

Trong quy trình x lý ử truy vấ ởn hình 3.1, yêu c u truy v n thầ ấ ường được biểu

di bễn ằng ngôn ngữ SQL trong các hệ qu c s d li ản trị ơ ở ữ ệu quan hệ Cú ph ápchung của câ ệnhu l SQL nh sau: ư

<Hành động> (SELECT/INSERT/UPDATE/DELETE,…)

<Danh sách các trường chịu tác động>

[FROM]

<Danh sách các quan h trong ph m vi tác ệ ạ động>

[WHERE Đ ề < i u ki n lệ ựa ch n các bọ ản ghi chịu tác động>]

Trong quy trình x lý ử truy vấ ởn hình 3.1, quá trình t ối ưu h a có ó nhiệm vụ

xác định cách thực thi ối ư best plan) cho truy vấ đãt u ( n ( được ph n t ch câ í ú pháp) Quá trình tìm kiếm c ch thực thi tố ư được thực hiện theo há i u ình 3.2:

Trang 35

Hình 3.2: Mô hình tìm kiếm plan thực thi tối ưu cho câu truy vấn

Việc x c địnhá phạm vi của kh ng gian tìm ô kiếm c ch thực thi tối ư được á u thực hiện bằng 2 module l Algebraic Spaceà và Method-Structure Space Module Algebraic Space xác định danh s ch c ch thực thi ở ức cáá á m c ph p toán đại ố é sModule Method- Structure Sp ace xác định ạm vi c c lựa chọn cài đặ ở ức c ph á t m cá

phương thức, cấu tr c để ực thi từngú th phép toán đại ố s

3.2 Câ u truy vấn lựa chọn k bản ghi ( top-k query)

Một c u truy vấn sau khi â được thực thi qua quy trình m 3.1 có th cho ở ục ể

Trang 36

câu truy vấn c giới ạn số kó h ết quả ả ề được gọi tr v là top-k query hay ranking query Top-k query là mộ ướng rt h ất quan trọng ủa c truy v n dấ ữ liệu hướng

người dùng trong DB, vấn đề đặt ra là cần tìm một mô hình th c thi có hiệu để ự

qu top-k query ả

Đối với những câu truy vấn thông thường, ta có th dùng ể đại ố s quan h ệ(relational algebra để ểu diễn ch ng Ta sẽ m r) bi ú ở ộng đại ố quan hệ s thành đại

số quan hệ có xét đến thứ tự (rank-relational algebra để) có th biể ểu diễ được n

cá top-c k query [TL3] Sau đó, ta cũng ần t c ìm một mô hình hi qu thệu ả để ực thi top-k query ểu diễn b bi ởi đại số quan hệ có xét đến thứ tự Cuối cùng, ta phải x t éđến quá trình t ối ưu h a việc thực thi ó top-k query sao cho chi phí thực thi là nh ỏ

nh t ấ

3.2.1 H àm t ính đ ểm i

Trong thực thi top-k qu y, vier ệc sắp ứ ự c bản th t cá ghi kở ết quả là một quá trình then chốt Để có th s th t cáể ắp ứ ự c bản ghi thì m b ỗi ản ghi cần có m t nh ộ đágiá hay “đ ểi m số” Do ph có mđó ải ột hàm tính iđ ểm cho c c bản ghi Hàá m tính

đ ểi m n có ày tham s là cá mố c ệnh đề (predicate) của cá thuc ộc tính thu c b ghi ộ ản

“Mệnh đề ” của ộ m t thuộc tính có th là bể ản th n thuộcâ tính, hoặ à tíc l ch số hay

tổng ố, hiệu ố ủa s s c thu tính v mộc ới ột hằng ố Ở đây ta coi những s ( thu tính ộctham gia vào àm h tính iđ ểm đều phải là thuộc tính có á tr sgi ị ố, hoặc đượ ác nh xạ

t á tr s ) rới gi ị ố T ước khi tính á tr c hgi ị ủa àm tính iđ ểm ta cần chuẩn h a gió á tr ị

c cáủa c mệnh đề trong hàm tính i đ ểm về khoảng [0, 1]

Tính chất đơ đ n iệu của các hàm tính i m đ ể

Cho quan hệ và R hàm tính điểm Score định ngh trêĩa n quan hệ R.

V ới q=(vR1R, vR2R,…vRnR) là truy vấn Top K tr n quan h- ê ệ R

Khi đó, nếu bản ghi t=(tR1R, tR2R,…,tRnR)t’=(tR1R’, t 2R R’,…, tRnR’) thỏa mãn iđ ều kiện:

|tRiR’-qRiR| ≤ |tRiR -qRiR| với i=1,…, n (nói cách kh c, t’ gần với q hơá n t với t t c các ấ ảthuộc tính)

thì Score q, t’ ≥ Score q, t( ) ( )

Trang 37

Dưới đây là một số hàm tính điểm th ng dụngô :

2 1

trong đó ((q -t ) /n (q -t )2/n)

n n

2 1

i i

n

t q

i i

n

t q

1

|

cộng của tổng các hiệu tọa độ của 2 vectơ t và q

T ừ định nghĩa ủa c các hàm tính iđ ểm tr n ta thấy rằng giê á tr hị àm Min ụph thuộc vào m ức độchênh lệch lớn nhất của ột thuộc t m ính của b ghi ản đang x t và éthuộc tính tương ứng ủa ản c b ghi đích Như ậy, muốn gi v á tr c h tính i m ị ủa àm đ ể

lớn thì tất cả ức độ ch nh lệch giữa hai thuộc t m ê ính tương ứng ủa ản c b ghi ang đ

Trang 38

l ựa chọ đạ được xấp xỉ thì có th ùn t ể “b ” được cho những tiêu ch kh c.í á Do đó,

EulideanSum dùng tính iđể đ ểm trong trường ợp c ti u ch kh ng nhất thiế h cá ê í ô t

ph ải được thỏa mãn và mức độ đánh giá ph thuụ ộc như nhau vđối ới các ti u chê í

3.2.2 Đại số quan hệ có xét đế n thứ ự t

Để ể bi u diễn truy v n th ng thấ ô ường người ta dùng đại ố s quan hệ Với top-k

query, do có xét đến thứ ự t và có hạn chế ố ượng ản s l b ghi kở ết quả cho n n cần ê

đưa ra s quan h có xét n th t bi u di n úng đại ố ệ đế ứ ự để ể ễ ch

Trước ết ta cần đưa ra định h nghĩa ề những thành ph v ần quan trọng ủa đại ố c s quan hệ có xét đến thứ ự t :

- Định nghĩa ề giá trị cận trên upper bound) v ( hay giá trị lớn nhất maximal (

possible score) c 1 bủa ản ghi : t

Gi s ả ử ta cần tính á tr c gi ị ủa hàm tính điểm F(pR 1 R,pR 2 R,… ,pR n R),quá trình tính giá tr cị ủa F được chia thành n bước Giả ử ở ước +1, tập ợp c thuộc t s b j h cá ính đãđược tính là ρ= {pR 1 R …pR j R} Khi đó ta định nghĩa đ ểm cận tr n (upper bound) i ê

c ủa 1 bản ghi t theo biểu thức:

F RρR(pR 1 R,pR 2 R,…pR n R)[t] = F(pR jR =pR j R(t) nếu pR i R ∈ ρ , pR j R = 1 nếu pR i R ∉ ρ

- Định nghĩa ề quan hệ có thứ tự (rank-relation) v :

Cho quan hệ R, hàm tính điểm F(pR 1 R,pR 2 R,… ,pR n R), P là t ập con của ập ợp t h{pR 1 R, pR 2 R,…,pR n R} Khi đó ta định ngh quan ĩa hệ có thứ tự RRPRP Pbao gồm các bản ghi

c ủa quan hệ R nhưng có xét đến thứ ự ủa ch ng, thứ ự ủa t c ú t c các b n ghi được ả

sắp xếp dựa trên điểm số của ừng ản t b ghi, iđ ểm số ủa ản ghi t ch nh l điểm c b í à cận trên F R ρ R(pR 1 R ,pR 2 R,…pR n R )[t]c b ghi ủa ản đó

Ngoài ra ta cũng có th ể địnhnghĩa ề v quan h th t <ệ ứ ự RRpR giữa các bản ghi như sau:

t R 1 R<R Rp Rt 2 R ⇔ FR P R[tR 1 R]<R Rp R FR P R[tR 2 R]

Ví dụ:

Trang 39

Xét quan hệ R a, b) v p ( à R1R, pR2RR Rlà cá mc ệnh đề đã được chu n hóa v khoảng [0, ẩ ề1]:

Trang 40

- Ph p sắp ếp thứ ự ản ghi theo gié x t b á tr c mị ủa ột thuộc tính, ký hi là ệu

µ được định nghĩa nh sau: ư

••••• t ∈µp (RRpR) nếu v chỉ ế à n u tRRp

••••• tR1R< µp(R p)tR2Rnếu v chỉ ếà n u:

F P∪ { p} (tR1R) < F P∪ { p} (tR2R) Ngoài ra c c ph p to áá é án kh c đề đãu có mặt trong đại ố s quan h , tuy nhiệ ên ởđây do có xé ới th tt t ứ ự c cáủa c bản ghi n n ta cầ địn nghĩa ạiê n h l các ph p toán é

n trong s ày đại ố quan hệ có xét tới ứ ự th t :

- Phép chọn (selection), ký hi : ệu σvới iđ ều kiện c (đ ều kiệ booleani n )

t∈σc (RRpR) nếu v chỉ ếà n u tR pvà t thỏa mãn iđ ều kiện c

- Phép join hai quan hệ, ký hi ệu ∞

••••• tR p1c S p2 nếu v chỉ ế tà n u ∈R p1 Sx p2 và tht ỏa m đ ều kiện cãn i

••••• t 1 < Rp1c Sp2 t 2 nếu v chỉ ếà n u F p1p2 [t 1 ] < F p1p2 [t 2 ]

Ngày đăng: 26/01/2024, 15:49

w