Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)
B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ISO 9001:2008 ÁN T T NGHI P NGÀNH CÔNG NGH THƠNG TIN H I PHỊNG - 2016 B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG K THU T PHÂN TÍCH NG M N ÁN T T NGHI P I H C H LIÊN THÔNG Ngành Cơng ngh thơng tin H I PHỊNG 2016 B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG K THU T PHÂN TÍCH NG M N ÁN T T NGHI I H C H LIÊN THÔNG Ngành Công ngh thông tin Sinh viên th c hi n: Nguy n Minh Thành Mã s sinh viên: 1513101003 ng d n: Nguy n Tr H I PHÒNG 2016 -o0o - NHI M V T T NGHI P SINH VIÊN: NGUY N MINH THÀNH MÃ S : 1513101003 L P: CTL901 NGÀNH: CÔNG NGH THÔNG TIN TÀI: ÁP D NG K THU T PHÂN TÍCH NG TI M N phúc NHI M V TÀI N I DUNG VÀ YÊU C U C N GI I QUY T TRONG NHI M V TÀI T T NGHI P A N I DUNG - Tìm hi m - Tìm hi u m t s - o lu n gi i thu t liên quan ng h th ng - Th nghi m v i công c B K T QU C N gi i quy t toán C: a Lý thuy t - N m d li u - N c gi i thu t liên quan - Áp d ng ki n th c xâp d ng ph n m m th nghi m - b Th c nghi m Th nghi m v h mã ngu n m C CÁC YÊU C U V I SINH VIÊN - Có tinh th n trách nhi i v i cơng vi c - Bi t nh t m t ngơn ng l p trình - Kh c t ng h p d li u NG D CÁN B TÀI T T NGHI P ng d n th nh t : H tên : Nguy n Tr H c hàm, h c v : Th : N i H c Dân L p H i Phịng ng d n : - Tìm hi m - Tìm hi u m t s o lu - n gi i thu t liên quan xâp d ng h th ng - Th nghi m v i cơng c g i quy t tốn ng d n th hai : H tên H c hàm, h c v : N i ng d n tài t t nghi Yêu c c ngày 30 n nhi m v n nhi m v : Sinh viên Cán b H i Phòng, ngày tháng n HI NG n H u Ngh ng d n T.T.N PH N NH N XÉT TÓM T T C A CÁN B Tinh th c NG D N án ng c tài (so v i n i dung yêu c nhi m v án) m c a cán b ng d n m ghi b ng s ch ): Ngày tháng n CÁN B NG D N CHÍNH ( Ký, ghi rõ h tên ) PH N NH A CÁN B CH M PH N BI tài t t nghi p (v m TÀI T T NGHI P lý lu n, thuy t minh giá tr th c t , ) m c a cán b ph n bi n ( m ghi b ng s ,ch ): Ngày tháng n CÁN B CH M PH N BI N (Ký, ghi rõ h tên ) M CL C M CL C DANH M C HÌNH .12 DANH M C B NG .13 DANH M C T VI T T T .14 .15 Gi i thi n .17 1.1 Gi i thi u 17 1.2 Phân tách tài li u thành t khóa (Filter) 17 1.2.1 Các nghiên c u v c u trúc c a nhà nghiên c u Vi t Nam 17 1.2.2 Tách tài li u thành t khóa 22 1.2.3 Gi i pháp tách t Ti ng Anh 23 1.2.4 Gi i pháp cho Ti ng Vi t 23 1.3 Các h th ng g i ý (recommender systems - RS) .25 1.3.1 Các khái ni m v Recommender System 25 1.3.2 X lý tài li u ti ng Vi t 26 1.3.3 X lý tài li u theo ng 27 m n 30 2.1 Ti n x lý 30 b n .30 p 30 p .30 2.2 Tách t 30 2.2.1 Ti ng ti ng Vi t 31 2.2.2 T ti ng Vi t 31 2.2.3 T d ng t g c 31 2.3 ph bi n .32 32 2.3.1 2.3.2 TF-IDF Term Frequency Inverse Document Frequency 33 2.3.3 based Learning (TBL) .34 2.3.4 Mơ hình tách t b ng WFST m ng Neural .34 2.3.5 ti ng Vi t d a th ng kê t Internet thu t gi i di truy n .35 2.4 phân tích ng m n 36 2.4.1 Gi i thi u 36 2.4.2 Khái ni m 37 2.4.3 Cách th c ho ng .38 n 46 2.5 2.5.1 ng 46 2.5.2 n Ti ng Vi t 49 2.6 ng cho toàn b n 52 Bài toán áp d ng 53 3.1 Gi i thi u ngôn ng R 53 3.1.1 Gi i thi u R 53 3.1.2 Các l n gói phân tích ng 3.2 t ch 3.2.1 3.2.2 m n R 54 57 t .57 Ch Error! Bookmark not defined 65 .66 10 BÀI TOÁN ÁP D NG 3.1 Gi i thi u ngôn ng R 3.1.1 Gi i thi u R Phân tích s li u bi c ti n hành b ng ph n m m thông d - ng ph n m công ti ph n m m phát tri n gi i thi u th c tr ng kho ng ba th p niên qua, i h c, trung tâm nghiên c toàn th gi i s d ng cho gi ng d y nghiên c s d ng ph n m m t ti ih c -la m n (và c kh c ts m ts ng n) khơng có s d ng chúng m th ng kê th gi p tác v u phát tri n m t ph n m m m i, v i ch n m , cho t t c thành viên ngành th ng kê h c toán h c th gi i có th s d ng m t cách th ng nh t hoàn toàn mi n phí t báo quan tr ng v tính toán th ng kê, hai nhà th ng kê h c Ross Ihaka Robert Gentleman, lúc thu i h c Auckland, New Zealand phác h a m t ngôn ng m i cho phân tích th ng kê mà h ki t tên R Sáng c r t nhi u nhà th ng kê h c th gi i tán thành tham gia vào vi c phát tri n R 53 phát tri n, ngày có nhi u nhà th ng kê h c, toán h c, nghiên c u m n sang s d tích d li u khoa h c Trên toàn c R, s tm t tri i s d ng t nhanh Có th nói vịng nhi u a, vai trò c a ph n m m th i s khơng cịn l i gian qua n a V y R gì? V b n ch t, R ngôn ng nhi u m c tiêu khác nhau, t s d ng cho n, tốn h c gi i trí (recreational mathematics), tính tốn ma tr bi phân n phân tích th ng kê ph c t p v Vì m t ngơn ng , ta có th s d m m chuyên môn cho m t v phát tri n thành ph n tính tốn cá bi t 3.1.2 Các l n gói phân tích ng m n R - alnumx: chu i ký t bao g m m t bi u th c quy s d ng gsub tri t nh t t c ký t ch s (bao g m c ký c bi t m t s ngôn ng ) Câu l nh: data(alunumx) - as.textmatrix: Tr v m t không gian ng createLSAspace) m n (t o b i nh d ng textmatrix: hàng nh ng thu t ng , c n Câu l nh: as.textmatrix(LSAspace) - associate: tr l i nh ng thu t ng d a m u nh t, s p x p theo th t gi m d n v s ng, g n v i thu t ng ban ng Câu l nh: (t t c thu t ng ng 0,7 s ng, n c ch s p x p theo th t gi m d n v ng b ng s tr l i t t c thu t ng ) d li u ch a t p ví d - corpora: lu n Dùng t p l nh: data(corpus_training), data(corpus_essays), ho c data(corpus_scores) - cosine: tính cosine gi c gi a t t c t c a ma tr n x Dùng l nh: cosine(x,y = NULL) (Ma tr n x có th ma tr n thu t ng -tài li u, c t tài li u, hàng thu t ng Khi th cosine c ng ) 54 ch n m t giá tr h p lý cho phân tách giá tr s - dimcalc: SVD LSA Dùng t p l nh: dimcalc_share(share=0.5) (giá tr dimcalc_ndocs(ndocs) (giá tr tài li u) dimcalc_kaiser() dimcalc_raw() dimcalc_fraction(frac=(1/50)) (giá tr - fold_in: tài li ti m cb c ánh x vào m t không gian ng c mà không n s phân ph i c a không gian Dùng l nh: fold_in( docvecs, LSAspace ) (docvecs ma tr n thu t ng , LSAspace không gian ng m n t o b i l nh createLSAspace) - lsa: tính khơng gian ti m n ng lsa(x,dims=dimcalc_share()) ( ma tr n thu t ng -tài li u Câu l nh: x ma tr n thu t ng tài li u, dims s chi u ho c c u trúc hàm.) - print.textmatrix: in ma tr n text L nh: print( x, bag_lines, bag_cols, ) (x ma tr n text, bag_lines s hàng, bag_cols s c t, d u is c truy n vào) - query: t o m t truy v nh d ng c a ma tr L nh: query ( qtext, termlist, stemming=FALSE, language="german" ) (termlist danh sách thu t ng c a ng c nh không gian ti m n ng nh li u t t c thu t ng t c hi n th stemming: xác c, qtext chu i truy v n, i cách tr ng) - sample.textmatrix: T o m t t p h gi m b c ng n c a m t ng li giúp li u thông qua vi c l y m u ng u nhiên L nh: sample.textmatrix(textmatrix, samplesize, index.return=FALSE) (samplesize s file mong muôn- Desired number of files, index.return n true s tr l i v trí t p t g c) 55 - specialchars: danh sách ký t c bi t c a th c th html ký t thay th Câu l nh: data(specialchars) - stopwords : t p t d ng Câu l nh : data(stopwords_de) stopwords_de data(stopwords_en) stopwords_en data(stopwords_nl) stopwords_nl data(stopwords_fr) stopwords_fr data(stopwords_ar) stopwords_ar - summary.textmatrix: Tr l i m t b n tóm t t v i m t s thông tin th ng kê v m t textmatrix nh summary(obje nh Câu l nh : (object ma tr n text, d u is - textmatrix: t o ma tr n thu t ng -tài li u t c nh nh T p l nh : textmatrix( mydir, stemming=FALSE, language="english", minWordLength=2, maxWordLength=FALSE, minDocFreq=1, maxDocFreq=FALSE, minGlobFreq=FALSE, maxGlobFreq=FALSE, stopwords=NULL, vocabulary=NULL, phrases=NULL, removeXML=FALSE, removeNumbers=FALSE) textvector( file, stemming=FALSE, language="english", minWordLength=2, maxWordLength=FALSE, minDocFreq=1, 56 maxDocFreq=FALSE, stopwords=NULL, vocabulary=NULL, phrases=NULL, removeXML=FALSE, removeNumbers=FALSE ) , qu n lý l y SPO- (ch - triples: , v ng ng) ba liên k t v i c t tài li u c a m t ma tr n thu t ng tài li u T p l nh: getTriple( M, subject, predicate ) setTriple( M, subject, predicate, object ) delTriple( M, subject, predicate, object ) getSubjectId( M, subject ) - weightings: tính tr ng s s a ma tr n thu t ng -tài li ch n lw_tf(m) lw_logtf(m) lw_bintf(m) gw_normalisation(m) gw_idf(m) gw_gfidf(m) entropy(m) gw_entropy(m) (m ma tr n thu t ng tài li u) 3.2 3.2.1 t ch t t R, ta ph i truy nh p vào m : http://cran.R-project.org Tài li u c n t i v , tùy theo phiên b n h ng có tên b t u b ng R theo sau s phiên b n Phiên b n m i nh t hi n cho Windows phiên b n R 3.3.2 cho c h u hành 32 64bit Tài li u kho ng 70 a ch c th t i là: https://cran.r-project.org/bin/windows/base/ 57 t, icon R Sau hồn t t q trình t s xu t hi n desktop c a máy tính vi c v i R d server, c ta nên làm phiên b n ch y desktop c phiên b n ch y u hoàn toàn mi n phí a ch t i Rstudio: http://www.rstudio.org/download/ File t i v có tên RStudio-1.0.44 phiên b n m i nh t hi n t i t thành công, icon Rstudio s xu t hi n desktop C a s làm vi c c a Rstudio: Hình 8: C a s làm vi c c a Rstudio 3.2.2 Th c nghi m S d ng ph n m th c hi n LSA 58 Input: - D li u g m chín tài li u v k thu t v i ch v khác nhau, i (c1-c5), b n v lý thuy th toán h c (m1-m4) c1: Human machine interface for ABC computer applications (Giao di n máy cho ng d ng máy tính Lab ABC v i i) c2: A survey of user opinion of computer system response time (Nghiên c u s tính tr l i) i s d ng v th i gian h th ng máy a c3: The EPS user interface management system (H th ng qu n lý giao di i dùng EPS) c4: System and human system engineering testing of EPS (Ki m th k thu t xây d ng h th ng i EPS) c5: Relation of user perceived response time to error measurement (M i quan h c ng) i s d ng-th i gian tr l i th sai l m1: The generation of random, binary, ordered trees (Sinh ng u nhiên, nh phân, không th b c) m2: The intersection graph of paths in trees ( th ng qua l i c ng d n cây) m3: Graph minors IV: Widths of trees and well-quasi-ordering (Th b th IV: Chi u r ng c a h c s p th t t t) m4: Graph minors: A survey (Th b th : S nghiên c u) Output: - quan thu t ng -tài li u K t qu : Ma tr n, bi t ng tài li u sau ch 59 C có th ch t, ta m Rstudio, t i ph n Packages, ch n Install: Hình 9: Sau ng t n lsa n Install, Rstudio s t n lsa: 60 Hình 10: n lsa n lsa, ta t i a ch : https://CRAN.R-project.org/package=lsa Kh i l nh c a ph n Input (file lsa_landauer.R): ldir = tempfile() dir.create(ldir) write( c("human", "interface", "computer"), file=paste(ldir, "c1", sep="/")) write( c("survey", "user", "computer", "system", "response", "time"), file=paste(ldir, "c2", sep="/")) write( c("EPS", "user", "interface", "system"), file=paste(ldir, "c3", sep="/")) write( c("system", "human", "system", "EPS"), file=paste(ldir, "c4", sep="/")) write( c("user", "response", "time"), file=paste(ldir, "c5", sep="/")) write( c("trees"), file=paste(ldir, "m1", sep="/")) write( c("graph", "trees"), file=paste(ldir, "m2", sep="/")) write( c("graph", "minors", "trees"), file=paste(ldir, "m3", sep="/")) write( c("graph", "minors", "survey"), file=paste(ldir, "m4", sep="/")) F c demo b ng Rstudio: 61 Hình 11: File lsa_plot.R Ta th c thi l nh n bi t t ng dòng l nh b tr chu t t ng Run ho c t h p CTRL+Enter T b u: Hình 12: L nh return Sau th c thi, file lsa_landauer.R c phân tích ng c demo s c ch y, th c hi n m n 62 Hình 13: Các thu t ng -tài li u Hình 14: Ma tr n thu t ng tài li u 63 Hình 15: Ma tr n gi m chi u Hình 16: Ma tr n tài li u-tài li u 64 t ng -tài li u Hình 17: Bi Qua l n th c hi khoa h án này, tìm hi u v cr ng c ng c tham gia nghiên c u phát tri n phân tích ng ti m n Giúp em h c h i hoàn thi lý thuy Tìm hi u v phân tích ng m n th c hành n hi u bi t v n cho em n i, x lý ngôn ng t n gi i quy t cv sau: - Nghiên c lý ngôn ng t nhiên - Nghiên c u v ng vào vi m th t t , n 65 ng d ng phân tích ng d ng r t nhi tâm, v m i nhi u m c áp khác nhau, t trích ch n n v mà h quan v chép tài li u, ngồi cịn ng d ng v qu c phịng, kinh t tr r t nhi u v khác nghiên c u chuyên sâu hoàn thi ghép, c m t ng phát tri n c an ninh tài s n x lý ti ng Vi làm cho k t qu c a h th c xác hồn thi O [Thomas K Landauer, Peter W Foltz, Darrell Laham] An Introduction to Latent Semantic Analysis Thomas K Landauer, Peter W Foltz, Darrell Laham, 1998 [ ng Th ng] [ Th Thanh Nga] ng Th gi a t v i t ng Semantics, TP.H Chí Minh, 1997 ng Th n d a vào i h c Công ngh i h c Qu c gia Hà N i, 2010 [ Nghiên c ng d ng h tr n ti ng Vi t nt , Vi n i h c M Hà N i, 2014 66 [Tr n Ng c Phúc] i n i dung tài li , Tr n Ng ih cL c H ng, 2012 [Nguyen Thi Minh Huyen, Vu Xuan Luong, Le Hong Phuong] Nguyen Thi Minh Huyen, Vu Xuan Luong, Le Hong Phuong A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts 67 ... - ÁP D NG K THU T PHÂN TÍCH NG M N ÁN T T NGHI P I H C H LIÊN THƠNG Ngành Cơng ngh thơng tin H I PHỊNG 2016 B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG K THU T PHÂN TÍCH NG M N ÁN. .. quan tr ng, tránh nh ng t c m thán 1.2.4 Gi i pháp cho Ti ng Vi t 1.2.4.1 Các gi Hi n có r t nhi tr vi c phân tích cú pháp, tách t , gán nhãn t ti ng Vi t v i gi i thu t thu t toán khác Nh c tham... phát t nh ng lý trên, em ch tích ng m n tài: Áp d n 15 M c tiêu c n áp d ti m n Gi i thi u: Phát bi u tốn Trình bày khái ni m ki n th i sánh b n i n n th c nghi tích ng a phân m K t lu n Tài li u