Hiện nay, sự gia tăng của các phương tiện truyền thông trong việc lưu trữ và sự bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm văn bản càng trở nên quan trọng hơn bao giờ hết
Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 MỤC LỤC LỜI MỞ ĐẦU PHẦN I. CƠ SỞ LÝ THUYẾT I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT 1.Tính chính xác của văn bản tiếng Việt 2. Từ tiếng Việt 2.1. Từ đơn_từ ghép. 2.2. Từ loại 2.3. Dùng từ cấu tạo ngữ 3. Câu tiếng Việt 3.1 Câu đơn 4. Các đặc điểm của tiếng Việt 4.1 Đặc điểm chính tả 4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN 1. Biểu diễn văn bản Sinh từ ( Term Generation) Lọc từ (Term Filter) 2. Các kỹ thuật khai phá 2.1. Khai phá các luật kết hợp (Association Rules) 2.2. Lập chỉ mục tự động (Auto indexing) 3. Phân nhóm văn bản III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 1. Tìm hiểu chung về các hệ thống khai thác thông tin 2. Tìm kiếm văn bản theo mô hình không gian vectơ 2.1 Độ chính xác và độ truy hồi 2.2 Bảng tần xuất. 2.3 Chỉ dẫn ngữ nghĩa tiềm ẩn (Latent Sematic Indexing LSI) 2.4.Tìm kiếm tài liệu dùng SVD 2.5. TV_Tree TrÞnh §øc Cêng Trang 1 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 2.5.1. Thit lp TV_Tree 2.5.2.Chốn vo TV_Tree 2.5.3.Tỡm kim trờn TV_Tree 3. Tỡm kim vn bn theo mụ hỡnh tp thụ dung sai 3.1 Khỏi nim tp thụ v khụng gian dung sai 3.2 Mụ hỡnh tp thụ dung sai (TRSM) trong vic khai thỏc thụng tin 3.2.1 Khụng gian dung sai: 3.2.2 Gii thut tỡm kim vn bn s dng TRSM Else 3.3 Hm xp hng chớnh v xp hng ph trong vic ỏnh giỏ mc chớnh xỏc ca ti liu. PHN II. PHNG N GII QUYT V CI T TH NGHIM I. PHNG N GII QUYT C s d liu quan h dung sai Cỏc xp x di II. CI T TH NGHIM 1. TIN X Lí VN BN TING VIT 1.1 T chc t in 1.2. T chc c s d liu vn bn 1.3. Xỏc nh cỏc t khoỏ trong vn bn 2. X lý d liu phc v cho mụ hỡnh tỡm kim vn bn bng phng phỏp tp thụ dung sai. Tớnh khụng gian dung sai v cỏc xp x trờn v xp x di 3. Tỡm kim vn bn s dng mụ hỡnh tp thụ dung sai HNG PHT TRIN TRONG TNG LAI TI LIU THAM KHO. Trịnh Đức Cờng Trang 2 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 LI M U Chỳng ta bit rng ngun ti nguyờn c lu tr di dng d liu vn bn l rt rng ln v giu thụng tin nhng vic khai thỏc ngun d liu ny vn cha t hiu qu cao. Hin nay, trờn th gii ó cú khỏ nhiu h thng thc hin cụng vic ny theo nhng phng phỏp khỏc nhau tuy cha t c hiu qu ti u nhng cng phn no ỏp ng c cỏc yờu cu thụng tin ca ngi s dng. Mi phng phỏp khỏc nhau u th hin c nhng im mnh riờng ca nú v vic la chn phng phỏp no ph thuc vo nhng mc ớch v tiờu chớ riờng t ra. Hin nay, s gia tng ca cỏc phng tin truyn thụng trong vic lu tr v s bựng n ca cỏc c s d liu ln lm cho vic tỡm kim vn bn cng tr nờn quan trng hn bao gi ht. Chớnh vỡ vy, vic la chn phng phỏp tỡm kim vn bn giỳp cho ngi s dng cú th tỡm kim c nhng thụng tin cn thit mt cỏch chớnh xỏc hiu qu t ngun ti liu vn bn rng ln phc v cho cỏc mc ớch trong cụng vic cng nh trong i sng l rt cn thit. Nhn thc c tm quan trng ca vic khai thỏc d liu vn bn, em ó la chn ti: Tỡm kim vn bn ting Vit. Vi ti ny em i sõu vo nghiờn cu vic tỡm kim vn bn ting Vit s dng lý thuyt tp thụ tp thụ dung sai (Tolerance Rough Set Model). õy cng l mt trong nhng phng phỏp rt hiu qu cho mc ớch khai phỏ d liu cng nh tỡm kim vn bn ting Vit vỡ nú ó phn no gii quyt c vn ng ngha trong ting Vit m t trc cho ti nay vn cha cú mt bin phỏp no gii quyt tt cho vn ng ngha. õy l mt ti tng i rng v phc tp nhng thi gian nghiờn cu khụng nhiu, s hiu bit trong lnh vc ny cũn b hn ch nờn ỏn tt nghip ny s khụng trỏnh khi nhng thiu sút. Em rt mong nhn c s úng gúp, ch bo thờm ca thy cụ v cỏc bn c ỏn ny hon thin v hu ớch hn trong thi gian ti. Trịnh Đức Cờng Trang 3 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 Em xin chõn thnh cm n TS. Nguyn Kim Anh. Cụ ó m ra cho em hng nghiờn cu v tỡm kim vn bn ting Vit ng thi cụ ó tn tỡnh hng dn em trong sut quỏ trỡnh lm ỏn. anh Lu Anh Tun v anh Lờ Minh Hin nhng ngi ó tn tỡnh giỳp em trong quỏ trỡnh lm ỏn. Tụi cng xin cm n cỏc bn hc cựng khoa ó úng gúp ý kin cho tụi hon thnh ỏn mt cỏch tt hn. Trịnh Đức Cờng Trang 4 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 PHN I. C S Lí THUYT I.TING VIT V NG PHP TING VIT 1.Tớnh chớnh xỏc ca vn bn ting Vit Khi nghiờn cu v vn bn ting Vit chỳng ta gp rt nhiu khú khn trong vic tin hc hoỏ phc v cho vic khai phỏ ngun d liu vn bn ting Vit. Mt trong nhng khú khn ú chớnh l ng phỏp ting Vit. phõn tớch v kim tra tớnh chớnh xỏc ca mt vn bn ting Vit, chỳng ta phi tin hnh phõn tớch t vng, phõn tớch cỳ phỏp, phõn tớch ng ngha, v phõn tớch chng thc. Phõn tớch t vng: Quỏ trỡnh ny nhm phõn tớch hỡnh thỏi ca cỏc t to nờn cõu t ú kim tra c tớnh ỳng n ca õm tit v t. Phõn tớch cỳ phỏp: Quỏ trỡnh ny a ra mụ t v quan h v vai trũ ng phỏp ca cỏc t trong cõu ng thi a ra hỡnh thỏi ca cõu. u vo ca giai on ny l cõu ó c phõn tỏch t, trong ú mi t cú c im hỡnh thỏi nht nh. Quỏ trỡnh kim tra cỳ phỏp tin hnh phõn tớch v t hp cỏc t u vo, da trờn cỏc lut cỳ phỏp loi b cỏc trng hp bt quy tc v tng bc dng lờn cu trỳc cỳ phỏp ca cõu. u ra ca giai on ny l hỡnh thỏi cõu. Cỏc lut cỳ phỏp thng c xõy dng theo c ch m, ngha l cú th sa i, b sung hay loi b cỏc lut tha. Kt qu ca bc phõn tớch cỳ phỏp ph thuc rt nhiu vo tớnh chớnh xỏc v y ca cỏc lut cỳ phỏp. Phõn tớch ng ngha: Mc ớch ca quỏ trỡnh ny l kim tra ý ngha ca cõu cú mõu thun vi c on hay khụng? Da trờn mi quan h logic v ngha gia cỏc cm t trong cõu v mi quan h gia cỏc cõu trong on, h thng s xỏc nh c mt phn ý ngha ca cõu trong ng cnh ca c on. u vo ca giai on phõn tớch ng ngha l tp cỏc kh nng phõn tớch cõu v thụng tin v ng ngha ca tt c cỏc t. Cỏc thc t thng cú Trịnh Đức Cờng Trang 5 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 nhiu ngha v ngha ca nú ch c xỏc nh duy nht trong mi quan h gii thớch vi cỏc t khỏc trong cõu. Mt cỏch tip cn c nhiu ngi quan tõm l s dng logic v t biu din thụng tin ng ngha. Thụng tin ng ngha c lu tr ging nh thụng tin cỳ phỏp. Cỏc phng phỏp lp lun logic cú th dựng phng oỏn v suy lun nhiu thụng tin hn da trờn thụng tin u vo. Cỏc thụng tin ny khụng cn phi phõn loi (nhn giỏ tr ỳng hay sai). Mụ hỡnh cu trỳc ng phỏp ca cõu l cu trỳc cú y ngha ng phỏp v thụng bỏo. Cú hai cỏch miờu t: Miờu t cỏc quan h cỳ phỏp gia t v t hp t. Miờu t mụ hỡnh hay ý ca cõu. Vic miờu t nhm cho phộp suy oỏn c ý ca cỏc b phn ln hn t t ú xỏc nh ý ca cõu. Cõu l mt th trn vn ch khụng phi l tng cỏc b phn cu thnh nú. í ca cõu l tớch ý ngha cỏc yu t tham gia cựng vi ý ngha quan h tng th cu trỳc cõu. T l mt t hp ca cõu, trong t th hin mt phn ý ca cõu. Nhng t khụng nht thit phi hin din trong cõu vi ngha m nú cú khi úng vai trũ mt n v c lp cp khỏc. Da trờn mụ hỡnh cu trỳc cỳ phỏp cõu, ta cú th nhn din cu trỳc chỡm ca cõu (nh hnh ng-ch th hnh ng, hnh ng - i tng hnh ng), giỳp gii thớch c ý ngha ca cõu v vch ra tớnh a ngha ca chỳng. Phõn tớch thc chng: Quỏ trỡnh ny xỏc nh ý ngha cõu da trờn mi quan h ca cõu vi hin thc. í ngha thc t ca cõu ph thuc ph thuc rt nhiu vo ý, t v ng cnh din ra li núi. Do vy, quỏ trỡnh phõn tớch thc chng rt khú thc hin bng mỏy tớnh thụng thng, vic phõn tớch cõu ch dng mc phõn tớch phõn tớch ng ngha, cũn vic phõn tớch thc chng do ngi dựng quyt nh. Trịnh Đức Cờng Trang 6 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 2. Từ tiếng Việt Trong phạm vi cấu tạo từ, phương tiện chủ yếu về ngữ pháp chính là sự kết hợp các tiếng. Trật tự sắp xếp các tiếng có vai trò qua trọng trong cấu tạo từ. Kết hợp các phương tiện này. Có hai phương thức cấu tạo từ chủ yếu đó là láy và ghép. Láy là việc sắp đặt các tiếng thành đôi, kề cận nhau, có sự phối hợp về ngữ âm tạo nên nghĩa. Còn ghép là việc sắp đặt các tiếng thành đôi, kề cận nhau, có sự kết hợp về ngữ nghĩa tạo nên nghĩa của từ ghép. TrÞnh §øc Cêng Trang 7 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 2.1. T n_t ghộp. T trong ting Vit cú th l mt ting hay gm nhiu tin. Hn na, trong ting Vit nhng t nhiu ting cú th c ghộp bi nhng ting hay t khỏc cú ngha. Vớ d nh hai t ch mt ting ú l t t, nc cú th c ghộp vi nhau thnh mt t cú ngha tru tng hn l ú l t t nc. Nhng t ny gi l t ghộp. Do s tn ti ca nhng t n (l nhng t mt ting) v t ghộp, chỳng ta phi tin hnh nghiờn cu cú th xut nhng phng ỏn hu hiu trong bi toỏn nhn dng t trong cõu. Khi xem xột t ghộp, chỳng ta cú th thy cú hai loi nh sau: T ghộp song song: Mi ting thng l mt ting cú ngha, cú th dựng l t mt ting, gn bú vi nhau theo quan h song song v núi chung cú th i ch cho nhau. Trong s phi hp v ng ngha thỡ thng cú s bin i v ngha riờng thnh mt ngha hỡnh tng. Vớ d: n ung, bn gh, nh ca T ghộp chớnh ph: Mi ting cú th cú mt ting cú ngha, nhng thụng thng cú mt ting cú th dựng lm t cũn ting kia khụng cú chc nng ng phỏp ú. Ting Vit tn ti mt s cỏc cỏc t ghộp cú nhiu hn hai ting, phỏt trin t loi t ghộp chớnh ph, qua ú cú th chia thnh cỏ phn chớnh, phn ph, thun tin hn trong vic phõn tớch t. Chớnh s tn ti ca t ghộp (ghộp bi cỏc ting cú ngha) l nguyờn nhõn ca s nhp nhng v ngha ca cõu. Do vy, trỏnh s nhp nhng v ngha trong cõu, mun phõn tớch v x lý vn bn ting Vit mt cỏch tt nht thỡ bi toỏn t ra l lm th no tỏch cỏc t trong cõu tht chớnh xỏc. Trịnh Đức Cờng Trang 8 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 2.2. T loi Trong ting Vit, t c phõn ra thnh nhiu t loi khỏc nhau. Trong ti liu T loi danh t trong ting Vit hin i ca tỏc gi Nguyn Ti Cm ta thy xut hin cỏc t loi c bn sau: Danh t: bn, gh, vi vúc, khoa hc, k thut, ng t: i, ng, nghiờn cu, chm súc, Tớnh t: núng, p, p , vui v, bun, i t: tụi, h, nú, S t: mt, hai, ba, Loi t: con, cỏi, Quỏn t: cỏc, nhng, Trng t: trờn, di, trong, ngoi, Liờn t v, hay, nu, tuy, Gii t: cựng, vi, bng, , Phú t: ó, s, khong, rt, Tr t: nh, nhộ, thỡ m, Tt nhiờn trong vic phõn loi trờn ch cú ý ngha tng i, vỡ trong nhiu ti liu khỏc nhau vn cú s khỏc nhau v cỏch phõn chia theo t loi. Nu xem xột mt cỏch k lng hn na v mt cỳ phỏp, trong mi loi t cũn cú th chia nh hn c na. Trịnh Đức Cờng Trang 9 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 2.3. Dựng t cu to ng Ng l n v ng phỏp trung gian gia t v cõu. Cho nờn vic tỡm hiu cu to cng nh cỏc loi ng l cn thit tỡm hiu cu to ca cõu. Qua cu to ng, cú th nhn rừ thờm c im ng phỏp ca t loi. Theo Ng phỏp ting Vit-cõu ca tỏc gi Hong Trng Hiu, ting Vit cú cỏc ng loi c bn sau: Danh ng: Ng cú danh t lm trung tõm. ng ng: Ng cú ng t lm trung tõm. Tớnh ng: Ng cú tớnh t lm trung tõm. Gii ng: Ng bt u bng gii t. xõy dng c mt h thng lut cỳ phỏp tt, ta cn phi chia cỏc loi ng mt cỏch cht ch hn. V do vy, ta cng hn ch s lng cõu sai. Chng hn, danh ng kt thỳc trỏi (l danh ng m v trỏi ca nú ó im tn cựng), ta khụng th thờm hay b sung t no vo u to nờn danh ng mi. Vớ d mt bi toỏn; ta khụng th b sung cỏc, nhng, vo trc ng ú. 3. Cõu ting Vit Cõu l n v dựng t, hay ỳng hn l dựng ng m cu to nờn trong quỏ trỡnh t duy. Xột v mt cu trỳc cõu, ting Vit cú hai loi cõu l cõu n v cõu ghộp. Trịnh Đức Cờng Trang 10 [...]... số: Một chủ đề t và một văn bản d Nếu relevant(t,d) là đúng thì có nghĩa là văn bản d được xem xét thích hợp với chủ đề t Ví dụ: Thuộc tính thích hợp có thể thực hiện trên nghiệm Dtest⊆ D của những văn bản và tập hợp kiểm tra độ tương tự Ttest của các chủ đề tập các văn bản tập các văn bản có liên quan thích đáng các văn bản tìm được sau thuật toán truy vấn Hình 2: Truy vấn văn bản TrÞnh §øc Cêng Trang... phá dữ liệu văn bản khác, giải quyết các bài toán làm việc trên một tập lớn các tài liệu như phân lớp văn bản, phân loại văn bản, tìm kiếm văn bản do đó mối tương quan giữa các từ chiết xuất được và tập văn bản phải được lưu ý đến Ngưỡng kết hợp mà ta chọn ở trên có thể tạo ra một danh sách rất dài các từ đại diện nhiều hơn mong đợi, dư thừa, không có hiệu quả khi xét trên toàn bộ tập văn bản Mục đích... lọc các từ đại diện cho văn bản một cách chính xác và đặc trưng cho văn bản Việc trích lọc các từ đại diện cho văn bản là một khâu quan trọng trong việc giải quyết bài toán khai phá dữ liệu văn bản Mô hình dưới đây nhằm xác định các từ đại diện cho văn bản một cách tự động Văn bản Bộ đọc (reader) Phân tích cú pháp Sinh từ Lọc từ Hình 1: Mô hình xác định từ đại diện cho văn bản TrÞnh §øc Cêng Trang... đề trong truy vấn cơ sở dữ liệu văn bản Trong đồ án này sẽ trình bày cụ thể hơn về mô hình không gian vectơ áp dụng cho bài toán tìm kiếm văn bản, các khái niệm và xây dựng thuật toán cho tìm kiếm thông tin 2.1 Độ chính xác và độ truy hồi Giả sử D là một tập hữu hạn các văn bản A là một giải thuật nhận chuỗi ký tự theo chủ đề là t làm đầu vào và trả lại một tập các văn bản A(t) ở đầu ra A(t)⊆D Với việc... 2.2 Bảng tần xuất Giả sử D là tập hợp của N văn bản, T là tập hợp của M term xuất hiện trong các văn bản D Bảng tần xuất (frequency table) FreqT là sự kết hợp giữa D và T là ma trận (M×N) trong đó FreqT(i,j) là số lần xuất hiện của term Ti trong văn bản dj Như vậy trong bảng tần xuất FreqT văn bản d j biểu diễn bằng số cột j, còn số lần xuất hiện của term t i được biểu diễn bằng hàng i trong ma trận bảng... α (Q,djk) Sau đây, chúng ta sẽ tìm hiểu kỹ về hai mô hình tìm kiếm thông tin được sử dụng rộng rãi và khá phổ biến đó là mô hình không gian vectơ và mô hình lý thuyết tập thô TrÞnh §øc Cêng Trang 25 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 2 Tìm kiếm văn bản theo mô hình không gian vectơ Một trong những mô hình phân nhóm hoặc tìm kiếm văn bản truyền thống đó là dựa theo... văn bản nói riêng Chúng ta sẽ tiến hành chọn những từ có số điểm vượt ngưỡng M (do người sử dụng chọn qua thực nghiệm), tập này sẽ được sử dụng cho các kỹ thuật khai phá dữ liệu văn bản sẽ được trình bầy ở phần sau 2 Các kỹ thuật khai phá Các bài toán thường được quan tâm trong khai phá dữ liệu văn bản là Phân loại văn bản (text categorization), Phân lớp văn bản (text classification), lập chỉ mục tìm. .. câu hỏi đặt ra là tại sao bảng tần xuất lại quan trọng? Để giải thích một cách chính thức câu hỏi này hãy làm một ví dụ gồm một vài văn bản mang tính giả thiết Term /văn d1 d2 d3 d4 d5 d6 t1 615 390 10 10 18 65 t2 15 4 76 217 91 816 t3 2 8 815 142 76 1 bản 5 t4 312 511 677 11 71 2 1 t5 45 33 516 64 49 59 1 Bảng 1: Bảng tần suất của một số văn bản Nếu chúng ta kiểm tra các văn bản này, chúng ta cần chú... chung chung, không thực sự mạnh mẽ, chặt chẽ, hướng chủ đề 3 Phân nhóm văn bản Với nhiệm vụ của bài toán khai phá dữ liệu văn bản là tìm kiếm những thông tin còn tiềm ẩn trong trong cơ sở dữ liệu Với những cơ sở dữ liệu lớn vấn đề đặt ra là các hệ thống tìm kiếm sao cho có hiệu quả, một trong những kỹ thuật chủ yếu là phân nhóm văn bản nhằm giải quyết vấn đề trên Trong bài toán phân nhóm, một nhóm là... toàn bộ tập văn bản Pha lọc từ sẽ tìm và loại bỏ các từ đại diện không đáng quan tâm trên toàn bộ ngữ cảnh của toàn bộ tập văn bản, hoặc tần xuất của từ đó chưa đủ lớn (chưa vượt qua ngưỡng) hoặc sự phân bố không đồng đều trên toàn bộ tập văn bản Cách tiếp cận của chúng ta là sử dụng một hàm thống kê cho điểm trên các từ Hàm này gán điểm cho mỗi từ dựa trên tần xuất của từ đó trên toàn bộ văn bản nói chung . indexing) 3. Phân nhóm văn bản III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 1. Tìm hiểu chung về các hệ thống khai thác thông tin 2. Tìm kiếm văn bản theo mô hình. ĐẦU PHẦN I. CƠ SỞ LÝ THUYẾT I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT 1.Tính chính xác của văn bản tiếng Việt 2. Từ tiếng Việt 2.1. Từ đơn_từ ghép. 2.2. Từ