BỘ GIÁO DỤC VÀ ĐÀO TẠO DAI HOC HUE
TRUONG DAI HOC KHOA HOC
LE HUYNH
NGHIEN CUU DO TUONG DONG TRONG
KHAI PHA DU LIEU VAN BAN VA UNG DUNG
LUAN VAN THAC SI KHOA HOC
CONG NGHE THONG TIN
Thira Thién Hué, 2020
Trang 2
MỞ ĐÀU
Hiện Cách mạng Cơng nghiệp 4.0 (CMCN 4.0) đang diễn ra tại các nước phát triển như Mỹ, châu Âu, một phần châu Á Những yếu tố cốt lõi của Kỹ thuật số
trong CMCN 4.0 là: Trí tuệ nhân tạo (AD, Vạn vật kết nối - Internet of Things (IoT)
và dữ liệu lớn (Big Data) Bùng nỗ Cơng nghệ thơng tin kéo theo việc gia tăng về số lượng văn bản, số hĩa dữ liệu tăng cao, hệ thống cơ sở đữ liệu văn bản ngày càng lớn và phong phú về số lượng, nhu cầu tìm kiếm văn bản cũng tăng theo Cĩ thể khẳng định tài liệu số giúp cho hoạt động quản lý và cơng tác hành chính trở nên nhanh chĩng, dễ dàng và tiết kiệm hơn; tài liệu số cĩ những tính năng ưu việt như:
cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trong trao đổi đặc biệt là
qua Internet, dễ dàng sửa đổi
Hiện nay, tình trạng sao chép, vi phạm bản quyên và gian dối, chống đối trong
các kết quả học tập, nghiên cứu diễn ra khá sơi nổi và khĩ kiểm sốt Đặc biệt trong lĩnh vực Giáo dục và Đào tạo, việc người học tham khảo và chép bài của nhau là
phơ biến, làm giảm khả năng tư duy và chất lượng nghiên cứu, học tập Vấn đề đặt ra là làm thế nào để xác định được phép đo độ giống nhau giữa các văn bản, trên cơ
sở đĩ đưa ra những kết luận về việc sao chép bài điện tử, làm căn cứ để phân loại và
đánh giá kết quả bài luận, nghiên cứu của người học Thực tế đã cĩ một số nghiên cứu đề xuất các phương pháp khác nhau đề xác định xem một đoạn văn bản của một tài liệu cĩ nằm trong một tài liệu nào khác khơng Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi, tuy nhiên so khớp chuỗi chỉ cĩ hiệu quả nếu việc sao chép là “nguyên văn” Việc sao chép cĩ sửa đổi như thay thế một số từ bằng từ đồng nghĩa hay thay đổi thứ tự các câu trong văn bản cần các phương pháp
khác hiệu quả hơn Xuất phát từ nhu cầu đĩ, tơi đã chọn để tài: "Nghiên cứu độ
tương đồng trong khai phá đữ liệu văn bản và ứng dụng"
Mong muốn để tài này là hỗ trợ các cấp quản lý, các đơn vị giáo dục trên địa bàn tỉnh Quảng Trị xây dựng mơ hình đánh giá kết quả nghiên cứu khoa học của giáo viên, bài luận cũng như kết quả nghiên cứu học tập của học sinh nhằm gĩp phần nâng cao chất lượng giáo dục trên địa bàn tinh nha
Trang 3LỜI CAM ĐOAN
Tơi xin cam đoan những kiến thức trình bày trong luận văn này là do tơi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu của tơi Trong quá trình làm luận văn tơi cĩ tham khảo các tài liệu cĩ liên quan và đã ghi rõ nguồn tài liệu tham khảo đĩ Phần lớn những kiến thức tơi trình bày trong luận văn này chưa được trình bày hồn chỉnh trong bat cứ tài liệu nào
Thừa Thiên Huế, tháng năm 2020
Học viên
Trang 4LỜI CẢM ƠN
Dé hồn thành được luận văn này, trước hết tơi xin gửi lời cảm ơn sâu sắc nhất tới PGS TS Lê Mạnh Thạnh, Khoa CNTTT trường Đại học khoa học - Đại Học Huế
đã tận tình hướng dẫn, chỉ bảo, định hướng, đĩng gĩp những ý kiến quý báu trong
suốt quá trình tơi thực hiện luận văn này
Tơi xin chân thành cảm ơn quý thầy, cơ trong Khoa Cơng nghệ thơng tin,
Phịng Đào tạo Sau đại học, Trường Đại học Khoa học - Đại học Huế đã tạo mọi
điều kiện tốt nhất để tơi hồn thành khĩa học này Đồng thời, tơi cũng xin cảm ơn gia đình, bạn bè, những người luơn khuyến khích và giúp đỡ tơi trong mọi hồn cảnh khĩ khăn Tơi xin cảm ơn cơ quan và các đồng nghiệp đã hết sức tạo điều kiện cho tơi trong suốt quá trình học tập và làm luận văn này
Thừa Thiên Huế, tháng 10 năm 2020
Học viên
Trang 5MỤC LỤC
ID 0)28)/10/919.(08:7\0/65:)000005 i DANH MUC CAC HINH secsssssssssssssssssssccssssscsucssscsucsssssscsucessssecsuccssssecsucessessceseens ii DANH MỤC CÁC THUẬT NGỮ VÀ CHỮ VIẾT TẮTT - iii MỠ ĐẤU senbtsstiitirngtrtiirdtrdtirldttdtirigttiiriSttltiETftiEtGHHEISIELEHSISLAiStEaigttgtasai Chuong 1 TONG QUAN VE KHAI PHA DU LIEU VAN BẢN
1.1 TAI SAO LAI CAN KHAI PHA DU LIEU (DATAMINING) 00.000000- 3
1.2 PHAT HIEN TRI THUC TRONG CGO SG DU LIEU VA KHAI PHA DU LIEU 4 1.3 KHAI PHÁ DỮ LIỆU VĂN BẢN 2 2222222212221221121121122 xe 7 1.4 CÁC BÀI TỐN TRONG LĨNH VỰC KHAI PHÁ DỮ LIỆU VĂN BẢN 8
1;4:1; Ehãt-hiện xu hướng:văn DẪN sosssssesissstoxiSSTDAISEIHDNIEIVREIYEEHSSISfSGSSEPMegsal 8 1.4.2 Tìm kiếm văn bản - 22: 2222221122112211222112111221122112111221 1e 8 1.4.3 Phân loại văn bản 222211 22211112211 1155111111111 150111511 k kg 1kg key 8 1.4.4 Lập nhĩm văn bản 3 22121212 E1 1E xà tre 8 in a6 na § 1.4.6 Dẫn đường văn bản - 2 2221 221221121121121121121121121122212 2e § 1.4.7 Trích chọn từ khĩa - - c2 2112221111221 11511 1115111111101 1 11501111111 k kg x key 9
1.5 CÁC KHĨ KHĂN TRONG KHAI PHÁ DỮ LIỆU VĂN BẢN 9 1.6 CÁC BƯỚC TIÊN XỬ LÝ VĂN BẢN 2.22222222212112 e 9
16-1; Tách thuận ssseseneetteisoitblSDDSEEGOISSIRDEESEIDNEEEIERIEIVENESSSRSSNGSSEaensai 9 1.6.2 Giảm chiều cho tập thuật ngữ -2- 52222 22112212211221122122222 e6 10
1 XỬ LÝ NGƠN NGỮ TIẾNG VIỆT . -2222222221222122122122.22 e6 10
1.7.1 Đặc điểm của ngơn ngữ tiếng Việt Q2 212222222222 ee 10
1.7.2 Xử lý ngơn ngữ tiếng Việt 2 0 2222222122222 re 14
1.7.3 Một số khĩ khăn và nhập nhằng trong xử lý văn bản tiếng Việt 14
1.8 MỘT SĨ KHÁI NIỆM SỬ DỤNG TRONG LUẬN VĂN 16
Trang 61.8.4 So khớp văn bản c1 t1 vn HH này Hà HH Ho re 18
1.9 MOT SO UNG DUNG TRONG ĐĨI SÁNH VĂN BẢN 18 1.10 KET LUAN CHUONG 1 222222222212212212112212222222 2 ee 18 Chuong 2 DOI SANH VAN BAN DUA TREN DO TƯƠNG ĐƠNG VĂN BAN
sessssecssscsssscssnscsssscssuscsssscssuecssucssscsssscsssscssssesssscsssscssuscssuscsssecssuecsssecssuesssucsasecsssecessecsssees 19
2.1 CÁC MƠ HÌNH BIÊU DIỄN VĂN BẢN 22222 222222221.22 re 19
2.1.1 Giới thiệu 2-2222 122212221211 2211221222222 re 19
2.1.2 Mơ hình biểu điễn văn bản truyền thống - 22 ©2222222222221222122e2 20
2.2 TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN DỰA TRÊN MƠ HÌNH VECTOR
24
2.2.1 Khái niệm độ tương đồng -2-©22 222 2211221221122112211221.222 ee 24
2.2.2 Độ tương đồng văn bản dựa trên tập từ Chung o.oo 25 2 213 Kkhộngrốdhhi TBfOiseiseessoseeisrsrniniitsiEinindtniegieETEiERSCLSEA0110LEE500010C1035001 0002000000008 25 2.2.4 Mơ hình tương phản (Contrast model) -.í-c cc ccscsssisrrerrrrerres 25 2.2.5 Hệ số Jaccard - 5s 221 22122212211221122112211221122222222 re 25 2.3 DO TUONG DONG VAN BAN DUA TREN VECTOR BIEU DIEN .25 2.3.1 Độ tương đồng Cosine 2 222 2222212221221121122121121222222 ae 25
2.3.2 Độ tương đồng dựa vào khoảng cách Manhattan -2-©2s2zz2zx¿ 25 2.3.3 Độ tương đồng dựa vào khoảng cách Eueliđe -©-2-22s22zc2zxcsze2 25
2.4 ĐỘ TƯƠNG ĐỒNG VĂN BẢN TRONG TIẾNG VIỆT -©2s52s¿ 25
2.4.1, D6 tuong-tu nett nghiatt = Wessex 26
2.4.2 Độ tương tu về thứ tự của từ trone:rvăn DẪN seseseeseneoatuasosotiassoaiseauaa 26
2.5 CÁC PHƯƠNG PHAP TACH TU TRONG VAN BAN TIENG VIET .26
2.5.1 Phuong phap m6 hinh Markov 4 o.oo ccsccccccce cece eece cece testes teseteseteeee 26 2.5.2 Phương pháp chuyền dịch trạng thái hữu hạn cĩ trọng số và mạng Neural 28 2.5.3 Phương pháp học đựa trên sự cai bién (Transformation-based Leaming — TBL)33 2.5.4 Phương pháp so khớp cực đại che re 33
2.6 BÀI TỐN TÁCH TỪ TIẾNG VIỆT 55.25 222E12E1211211110122ctrtrerrre 36 2.6.1 Xử lý nhập nhằng 2 222 2222221222121121121121122122222 ae 38
Trang 72.7 MỘT SĨ CƠNG CỤ CHO TÁCH TỪ - 2225 E21121111011212Eetrerrtxe 39
2.8 CƠNG CỤ VNTOKENIZER 222 221122112212211211221122122122.2 re 39
Trang 8DANH MỤC CÁC BẢNG BIẾU
Trang 9DANH MỤC CÁC HÌNH
Hình 1 Các bước trong Data Mining & KDD Sen renreree 5 Hình 2.1 Qua trình mơ hình hĩa văn bản eee 2212211211221 1511211 15118111 te 20 Hình 2.2 : Biếu diễn các vector văn bản trong khơng gian 2 chiều - 21
Hình 2.3 Mơ hinh Markov ai ccsssccccsccsssssssssssststeeeeeesseseessssssnsssneeeeseeeeeeessnsen 27
Hình 2.5 Sơ đồ mơ hình WFST - 222222 2221221112211221121112111211211 21 xe 29 1E 00/1560 RI08)32/600904i10712)000011T D0 0U Tư 7 7.7.Ạ, TA 40
Hình 3.2 Mơ hình giải quyết - 552222 2212221222122212112122222222 xe 43
Hình 3.4 Minh họa xử lý văn bản gốc - 22222 2221221222121122122222222ee 46 Hình 3.5 Xử lý tách từ trên VnTok€nIn1Z@T St St nrrrnrytrrrerrerrer 46 Hình 3.6 Biểu đồ tần suất xuất hiện của các từ khĩa trong các văn bản 51
Hinh 3.7 Két quả tính độ đo của hệ thống - 5222222 22222212221221211222.2 e6 52
Hình 38 Biểu đồ mức độ giống nhau về tần suất xuất hiện các từ khĩa của “SKKNnew” so với “VB3” c1 re 53
Hinh 3.9 Két qua thực nghiệm khi thay đổi số long tit khoa o.oo 53
Hình 3.10 Kết quả chương trình kiểm tra 58
Trang 10DANH MUC CAC THUAT NGU VA CHU VIET TAT TT | Phần viết tat Phần viết đầy đủ 1 | AI Artificial intelligence 2 | CMCN Cách mạng Cơng nghiệp 3 |CSDL Cơ sở dữ liệu 4 |GV Giáo viên 5 |HS Học sinh
6 | IDF Inverse document frequency 7 |loT Internet of Things
8 | KN Ki nang
Trang 11MỞ ĐÀU
Hiện Cách mạng Cơng nghiệp 4.0 (CMCN 4.0) đang diễn ra tại các nước phát triển như Mỹ, châu Âu, một phần châu Á Những yếu tố cốt lõi của Kỹ thuật số
trong CMCN 4.0 là: Trí tuệ nhân tạo (AD, Vạn vật kết nối - Internet of Things (IoT)
và dữ liệu lớn (Big Data) Bùng nỗ Cơng nghệ thơng tin kéo theo việc gia tăng về số lượng văn bản, số hĩa dữ liệu tăng cao, hệ thống cơ sở đữ liệu văn bản ngày càng lớn và phong phú về số lượng, nhu cầu tìm kiếm văn bản cũng tăng theo Cĩ thể khẳng định tài liệu số giúp cho hoạt động quản lý và cơng tác hành chính trở nên nhanh chĩng, dễ dàng và tiết kiệm hơn; tài liệu số cĩ những tính năng ưu việt như:
cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trong trao đổi đặc biệt là
qua Internet, dễ dàng sửa đổi
Hiện nay, tình trạng sao chép, vi phạm bản quyên và gian dối, chống đối trong
các kết quả học tập, nghiên cứu diễn ra khá sơi nổi và khĩ kiểm sốt Đặc biệt trong lĩnh vực Giáo dục và Đào tạo, việc người học tham khảo và chép bài của nhau là
phơ biến, làm giảm khả năng tư duy và chất lượng nghiên cứu, học tập Vấn đề đặt ra là làm thế nào để xác định được phép đo độ giống nhau giữa các văn bản, trên cơ
sở đĩ đưa ra những kết luận về việc sao chép bài điện tử, làm căn cứ để phân loại và
đánh giá kết quả bài luận, nghiên cứu của người học Thực tế đã cĩ một số nghiên cứu đề xuất các phương pháp khác nhau đề xác định xem một đoạn văn bản của một tài liệu cĩ nằm trong một tài liệu nào khác khơng Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi, tuy nhiên so khớp chuỗi chỉ cĩ hiệu quả nếu việc sao chép là “nguyên văn” Việc sao chép cĩ sửa đổi như thay thế một số từ bằng từ đồng nghĩa hay thay đổi thứ tự các câu trong văn bản cần các phương pháp
khác hiệu quả hơn Xuất phát từ nhu cầu đĩ, tơi đã chọn để tài: "Nghiên cứu độ
tương đồng trong khai phá đữ liệu văn bản và ứng dụng"
Mong muốn để tài này là hỗ trợ các cấp quản lý, các đơn vị giáo dục trên địa bàn tỉnh Quảng Trị xây dựng mơ hình đánh giá kết quả nghiên cứu khoa học của giáo viên, bài luận cũng như kết quả nghiên cứu học tập của học sinh nhằm gĩp phần nâng cao chất lượng giáo dục trên địa bàn tinh nha
Trang 12Nội dung chính của luận văn được trình bày trong 3 chương:
Chương 1 Chương này trình bày cơ sở lý thuyết, kết quả nghiên cứu: Tổng quan về khai phá đữ liệu, khai phá đữ liệu văn bản; một số ứng đụng của khai phá
dữ liệu Trên cơ sở các phân tích, đánh giá sẽ định hướng, để xuất và xác định các
nội dung nghiên cứu sẽ được triển khai
Chương 2 Chương nay tinh bay các mơ hình biểu diễn văn bản, tập trung nghiên cứu mơ hình vector; cách tính độ tương đồng văn bản đựa trên mơ hình vector; các phương pháp tách từ trong văn bản tiếng Việt Từ đĩ lựa chọn nghiên cứu phương pháp đối sánh văn bản dựa trên độ tương đồng văn bản
Chương 3 Chương này thực hiện ứng dụng so khớp văn bản trong đánh giá mức độ tương đồng văn bản Thực trạng nghiên cứu sáng kiến kinh nghiệm của
giáo viên ở các đơn vị trực thuộc Sở Giáo duc va Dao tao Quang Tri, bài tốn đặt ra
là làm thế nào đề phát hiện một sáng kiến kinh nghiệm cĩ độ tương tự với sáng kiến
kinh nghiệm đã thực hiện ở các năm học trước Sử dụng cơng cụ tách tử
Trang 13Chương 1
TONG QUAN VE KHAI PHA DU LIEU VAN BAN 1.1 TAI SAO LAI CAN KHAI PHA DU LIEU DATAMINING)
Số lượng người sử dụng các thiết bị thơng minh như smartphone, table hay
PC, laptop cĩ kết nối Internet để tìm kiếm thơng tin, giải trí, trị chuyện, mua săm,
trên tồn thế giới đang gia tăng với tốc độ tên lửa Ngồi ra sự xuất hiện của thuật ngữ Lo.T (Internet of Things) miêu tả sự kết nối giữa tất cả các thiế bị với nhau bằng Internet, cho phép trao đổi, truyền tải đữ liệu I.o.T hỗ trợ con người rất nhiều lĩnh vực khơng chỉ là van dé sinh hoạt trong cuộc sống hằng ngày mà cả cơng nghiệp, nơng nghiệp, bán lẻ đến ý tế, xã hội Các cơng ty cũng ứng đụng cơng nghệ
I.o.T trong các hoạt động kinh doanh, sản xuất với mục đích tìm kiếm cơ hội gia tăng lợi nhuận, phát hiện sớm các rủi ro Với các đơn vị tổ chức giáo dục,
Datamining cĩ thể giúp tạo ra framework để làm các báo cáo phân tích dự đốn: tìm
ra các biến chung dự đốn tỉnh trạng bỏ học của học sinh bằng việc kết hợp các cơ so di liéu, Khong chi vay, Datamining con tao dich vu moi dua vao trải
nghiệm của người dùng và quản trị rủi ro khơng đáng cĩ trong quá trình học tập Chính vì những lí do trên mà khối lượng dữ liệu và nhu cầu thu thập, phân tích ngày càng lớn, từ dữ liệu người tiêu dùng, dữ liệu khách hàng đến dữ liệu thị
trường, dữ liệu sản xuất, giáo dục đa dạng, và phức tạp hơn
Nguồn đữ liệu Big Data là nguồn lực quan trọng của mỗi tơ chức ngồi nguồn
nhân lực và tài chính Nhưng để tận dụng hiệu quả dữ liệu để đạt được giá trị trong
kinh doanh, trong sản xuất, thì Dafa mining là cơng cụ khơng thể thiếu, nĩ giúp chúng ta hiểu được các tập đữ liệu đang thê hiện cái gì, đang cung tấp các thơng tin,
kiến thức hữu ích nào,
Trang 14“Necessity is the mother of invention” - Data Miming ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên Khá nhiều định nghĩa về Data Mining, tuy nhiên cĩ thể tạm hiểu rằng Data Mining như là một cơng nghệ tri thức giúp khai thác những thơng tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một cơng ty, tổ chức nào đĩ
1.2 PHAT HIEN TRI THUC TRONG CO SO DU LIEU VA KHAI PHA DU LIEU
Khai pha dit ligu (Data Mining) 1a quá trình phát hiện những tri thức hữu ich ấn chứa trong cơ sở đữ liệu hay các kho chứa thơng tin khác Một ví dụ hay được sử
dụng là là việc khai thác vàng từ đá và cát, Dataming được ví như cơng việc "Đãi
cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước Thuật ngữ Dataming ám
chỉ việc tìm kiếm một tập hợp nhỏ cĩ giá trị từ một số lượng lớn các dữ liệu thơ Cĩ
nhiều thuật ngữ hiện được dùng cũng cĩ nghĩa tương tự với từ Datamining như Knowledge Mining (khai pha tri thirc), knowledge extraction (chat lọc tri thức), data/patern analysis (phan tich dữ liệu/mẫu), data archaeoloogy (khao cé dit liéu),
datadredging (nạo vét dữ liệu),
Định nghĩa: Khai phá đữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mỗi quan hệ lân nhau của đữ liệu trong một tập hợp
dữ liệu khơng lồ và phức tạp, đơng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ
liệu đỏ
Khai phá dữ liệu là một bước trong quy trình phát hiện trị thức trong CSDL (Knowledge Discovery in Dabases - KDD) và KDD được xem như 7 quá trình khác
nhau theo thứ tự sau:
e© Làm sạch dữ liệu (data cleaning & preprocessing): Loại bỏ nhiễu và các dữ
liệu khơng cần thiết
Trang 15e Trich chon dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đĩ chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dit liéu khéng
day da (incomplete dafa), v.v
¢ Chuyén déi dữ liệu: Các đữ liệu được chuyên đổi sang các đạng phù hợp cho quá trình xử lý
e Khai phá dữ liệu (data mining): Là một trong các bước quan trọng nhất, trong đĩ sử dụng những phương pháp thơng minh đề chất lọc ra những mẫu dữ liệu
e©_ Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thơng qua các độ đo nào đĩ
e_ Biểu diễn tri thức (knowledge presenfation): Quá trình này sử đụng các kỹ thuật để biêu diễn và thể hiện trực quan cho người dùng Pattern " Data — Task-relevant 'Ø F vn Đata Warehi : ' Data Cleaning fe ' x1 Nha = Databases Hình 1 Cac budc trong Data Mining & KDD
Các chức năng chính của khai phá dữ liệu
Data Mining được chia nhỏ thành một số hướng chính như sau:
- Mé ta khai niém (concept description): thiên về mơ tả, tổng hợp và tĩm tắt
Trang 16- Luật kết hop (association rules): la dang luat biểu diễn tri thứ ở dạng khá đơn
giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì cĩ tới 80% trong số họ sẽ
mua thêm thịt bị khơ” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y hoc, tin-sinh, tài chính & thị trường chứng khốn, v.V
- Phân lớp và dự đốn (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cận này thường sử đụng một số kỹ thuật của machine learning như cây
quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta
cịn gọi phân lớp là học cĩ giám sát (học cĩ thầy)
- Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước Người ta cịn gọi phân cụm là học khơng giám
sát (học khơng thầy)
- Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng cĩ thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khốn vì nĩ cĩ tính dự báo cao
Ứng dụng của khai phá dữ liệu
Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nĩ Một số ứng dụng điển hình:
e Phan tich dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) e_ Điều trị y hoc (medical treatment)
e Text mining & Web mining e Tin-sinh (bio-informatics)
e Tai chinh va thi trrong ching khoan (finance & stock market) e Bao hiém (insurance)
Trang 171.3 KHAI PHÁ DỮ LIỆU VĂN BẢN
Thực tế hiện nay, một phan quan trọng của các thơng tin sẵn cĩ được lưu trữ trong cơ sở dữ liệu văn bản (hoặc cơ sở dữ liệu tài liệu) gồm tập hợp rất lớn các tài liệu từ nhiều nguồn khác nhau, như các bài báo mới, các bài báo nghiên cứu, sách, thư viện điện tử, các thơng điệp thư điện tử hay các trang Web Các cơ sở dữ liệu
văn bản phát triển nhanh do sự tăng lên của lượng thơng tin điện tử cĩ sẵn, như các
xuất bản điện tử, các loại khác của tài liệu điện tử, thư điện tử, và World Wide Web (cĩ thể xem như một lượng cơ sở dữ liệu văn bản lớn, liên kết và dong)
Hầu hết các thơng tin trong chính phủ, cơng nghiệp, thương mại và các viện
nghiên cứu đều được lưu trữ ở dạng điện tử, theo kiểu cơ sở dữ liệu văn bản Số
lượng tài liệu điện tử này phát triển với tốc độ chĩng mặt gây cho con người những khĩ khăn trong việc tiếp nhận nội dung chính của chúng
Các kỹ thuật tìm kiếm thơng tin truyền thống trở nên khơng tương xứng với lượng đữ liệu văn bản ngày càng lớn Người dùng khơng biết bên trong tài liệu chứa gì, thật khĩ để đưa ra câu truy vấn hiệu quả cho việc phân tích và trích rút các thơng
tin cĩ ích từ dữ liệu Người sử dụng cần các cơng cụ so sánh các tài liệu khác nhau, xếp hạng độ quan trọng và độ liên quan của các tài liệu, hoặc tìm các mẫu và các xu
hướng qua nhiễu tài liệu Do đĩ, việc tính độ tương đồng trong văn bản, độ tương đồng giữa các văn bản, tĩm tắt văn bản trở nên ngày càng phổ biến và là nội dung cần thiết trong khai phá text
Khai phá dữ liệu văn bản là việc trích ra, lay ra các thơng tin cĩ ích, chưa được
biết đến cịn tiềm ấn trong các kho dữ liệu văn bản lớn
Khai phá dữ liệu văn bản là việc thu thập và phân tích dữ liệu bằng các cơng cụ tự động hoặc bán tự động từ các nguồn tài liệu đã cĩ khác nhau để cĩ được các
Trang 181.4 CÁC BÀI TỐN TRONG LĨNH VỰC KHAI PHÁ DỮ LIỆU VĂN BẢN
1.4.1 Phát hiện xu hướng văn bản
Đây là bài tốn phát hiện các xu hướng, các luật chưa được biết đến trong các CSDL text lớn
1.4.2 Tìm kiếm văn bản
Tìm kiếm văn bản là quá trình tìm các văn bản trong một kho đữ liệu theo các yêu cầu của người dùng Ở đây, các yêu cầu là các truy vấn và thường được biểu diễn dưới dạng thuật ngữ hay biểu thức logic giữa các thuật ngữ
1.4.3 Phan loại văn bản
Phân loại văn bản tức là gán văn bản vào một hoặc một số nhĩm văn bản đã được biết trước Phân loại văn bản cĩ hai dang là phân loại nhị phân và phân loại
theo cấp độ
1.4.4 Lập nhĩm văn bản
Lập nhĩm văn bản là bài tốn tự động lập ra các nhĩm văn bản từ một tập các
văn bản sao cho các văn bản trong cùng một nhĩm thì tương tự với nhau nhiều hơn so với các văn bản ở các nhĩm khác nhau Người sử dụng cĩ thể chỉ định số nhĩm
cần lập hoặc hệ thống tự động tính số nhĩm sao cho phù hợp nhất 1.4.5 Tĩm tắt văn bản
Tĩm tắt văn bản là bài tốn tìm ra thể hiện nội dung của một văn bản thơng
qua một vài đoạn văn bản, hoặc thơng qua các câu quan trọng nhất của văn bản đĩ 1.4.6 Dẫn đường văn bản
Trang 191.4.7 Trích chọn từ khĩa
Bài tốn trích chọn từ khố, thực hiện việc trích ra được các từ khố quan trọng nhất của văn bản, thể hiện đặc thù về chuyên mơn của văn bản đĩ
1.5 CÁC KHO KHAN TRONG KHAI PHA DU LIEU VAN BAN
Tinh đa chiéu (high dimensonality): Số thuật ngữ trong một văn bản lớn dẫn đến số chiều của khơng gian vector sẽ rất lớn
Tinh khả cỡ (scability): Các CSDL lớn thường chứa hàng trăm nghìn văn bản Tính chính xác (accuracy): Bất kỳ ngơn ngữ nào cũng đều cĩ sự nhập nhằng Tri thức tiên nghiệm: Trong nhiều bài tốn chẳng hạn như bài tốn lập nhĩm văn bản thì người sử dụng phải xác định trước một số tham số đầu vào như số nhĩm văn bản cần lập
1.6 CÁC BƯỚC TIÊN XỬ LÝ VĂN BẢN
Quá trình tiền xử lý đĩng vai trị quan trọng trong việc ảnh hưởng đến hiệu năng và độ chính xác của các giải thuật khai phá dữ liệu Các cơng việc chính trong
quá trình tiền xử lý là tách thuật ngữ và giảm số chiều thuật ngữ 1.6.1 Tách thuật ngữ
Tách thuật ngữ cĩ thể được hiều là quá trình phân tách chuỗi ký tự trong văn bản thơ ban đầu thành các từ cĩ nghĩa
Các giải thuật tách thuật ngữ Tiếng Việt
Bài tốn: Nhập vào một câu tiếng Việt bất kỳ, hãy tách câu đĩ thành những đơn vị từ vựng (từ), hoặc chỉ ra những âm tiết nào khơng cĩ trong từ điển (phát hiện
đơn vị từ vựng mới)
a) Tách thuật ngừ theo độ dài từ dài nhất
Đây là phương pháp tách thuật ngữ đơn giản và dễ cài đặt Phương pháp này sử đụng một từ điển từ vựng để làm cơ sở phân tách các thuật ngữ
b) Tách thuật ngữ tiếng Việt bằng phương pháp đồ thị
Trang 20Phương pháp tách thuật ngữ bằng đồ thị quy việc phân tách câu về việc tìm đường đi trên một đỗ thị cĩ hướng, khơng cĩ trọng số
Như đã nĩi ở trên, cách phân tách câu đúng đắn nhất tương ứng với đường đi qua ít cung nhất trên đồ thị Do đĩ ta cĩ thể quy bài tốn liệt kê các phương án phân tách câu về bài tốn tìm tất cả những đường đi ngắn nhất từ đỉnh 0 đến đỉnh n của
dé thị phân tách câu
1.6.2 Giảm chiều cho tập thuật ngữ
Cĩ rất nhiều kỹ thuật dé giảm chiều của tập thuật ngữ bao gồm: e Tìm gốc từ e_ Sử dụng từ điển đồng nghĩa e Loại bỏ các từ dừng e_ Chỉ trích chọn một phần văn bản ©_ Loại bỏ những thuật ngữ cĩ trọng số thấp nhất e_ Các kỹ thuật dựa trên lý thuyết thơng tin
1.7 XỬ LY NGON NGU TIENG VIET
1.7.1 Đặc điểm của ngơn ngữ tiếng Việt
Tiếng Việt là một ngơn ngữ đơn lập, đặc điểm này bao quát tồn bộ tiếng Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp Do đĩ chúng ta phải tiến hành tìm hiểu đặc điểm này của tiếng Việt để cĩ thể cĩ được những hướng nghiên cứu cụ thể về văn bản tiếng Việt
1.7.1.1 Tiếng và đặc điểm của tiếng
Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta cĩ thể thấy tiếng là một thành phần khá quan trọng Trong kí pháp, mỗi tiếng đứng độc lập và ta cĩ thể phát hiện được ngay các tiếng trong cả tiếng nĩi cũng như văn bản
Trang 21- Tiếng và giá trị ngữ âm
Ngữ âm chính là mặt âm của ngơn ngữ Tại sao ta lại phải nghiên cứu khía cạnh này của ngơn ngữ tiếng Việt? Đĩ là vì trên thực tế, các ứng dụng liên quan đến
tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng văn bản, sau
đĩ mới tiến hành các thao tác xử lý Mỗi tiếng chính là một âm tiết và được ghi lại
thành một cụm trong văn bản
- Tiếng và giá trị ngữ nghĩa
Nếu xét về mặt ngữ nghĩa thì tiếng là đơn vị nhỏ nhất cĩ thể cĩ nghĩa Thực ra ta cĩ thé thay rang đơn vị ngữ âm thấp nhất là âm vị thì hồn tồn khơng cĩ nghĩa (ví đụ như các chữ cái đứng riêng rẽ) Tuy nhiên cũng cĩ những tiếng khơng cĩ
nghĩa (ví dụ như ạ, ứ ) Ta cĩ thể phân biệt các tiếng như sau:
Các tiếng tự nĩ cĩ nghĩa (ví dụ như chuơng, kính, bút ) cĩ thể được dùng để gọi tên sự vật, hiện tượng, cĩ thể được dùng như một từ
Các tiếng cĩ nghĩa nhưng khơng đùng để gọi tên sự vật, hiện tượng (ví dụ như
thuỷ, thực.) mà chỉ được dùng với tư cách là bộ phận để cấu thành nên từ cĩ nghĩa ở bậc cao hơn Ta khơng thể nĩi “tơi thực” mà chỉ cĩ thể nĩi “tơi ăn”, nhưng cĩ
những từ như “thực phẩm”
Các tiếng bản thân khơng hề cĩ nghĩa mà chỉ dùng dé kết hợp tạo thành nghĩa cho đơn vị trực tiếp cao hơn, đĩ là từ Ví dụ như các tiếng “lãng, đãng” tự nĩ khơng cĩ nghĩa nhưng cĩ thể tạo thành từ cĩ nghĩa là lãng đãng
- Tiếng và giá trị ngữ pháp
Khía cạnh ngữ pháp bao gồm những quy tắc cấu tạo từ, cấu tạo câu Ta cĩ thể thấy rằng tiếng là đơn vị ngữ pháp dùng để cấu tạo từ Về việc dùng tiếng để cấu tạo
từ, ta cĩ hai trường hợp như sau:
Từ một tiếng gọi là từ đơn: Trường hợp này một tử chỉ cĩ duy nhất một tiếng
Ví dụ: Như ơng, bà, cây, đá các tiếng (đĩng vai trị là từ) là một bộ phận cầu thành nên câu
Trang 22Từ hai tiếng trở lên (từ phức): Trường hợp này một từ cĩ thể cĩ hai hay nhiều tiếng trở lên kết hợp với nhau, gắn bĩ tương đối chặt chẽ
Ví dụ: Xã hội, an ninh, hợp tác xã, chủ tịch,
Việc nghiên cứu cấu trúc từ (nhiều tiếng hay một tiếng) đĩng vai trị rất quan trọng trong quá trình nghiên cứu và cài đặt ứng dụng tách từ tiếng Việt
1.7.1.2 Từ và các đặc điểm của từ tiếng Việt
Cĩ rất nhiều quan niệm về từ trong tiếng Việt, từ nhiều quan niệm về tử tiếng Việt khác nhau đĩ chúng ta cĩ thể thấy đặc trưng cơ bản của "từ " là sự hồn chỉnh
về mặt nội dung, từ là đơn vị nhỏ nhất để đặt câu Người ta dùng "từ" kết hợp thành
câu chứ khơng phải dùng "tiếng" do đĩ quá trình lập chỉ mục bằng cách tách câu thành các "từ" cho kết quả tốt hơn là tách câu bằng “tiếng”
* Khai niém tir
Trong tiếng Việt, cũng cĩ nhiều định nghĩa về từ
Theo Trương Văn Trình và Nguyễn Hiến Lê thì: “Từ là âm nghĩa, đùng trong ngơn ngữ đề diễn tả một ý đơn giản nhất, nghĩa là ý khơng thể phân tích ra được”
Nguyễn Kim Thân thì định nghĩa: “Từ là đơn vị cơ bản của ngơn ngữ, cĩ thể
tách khỏi các đơn vị khác của lời nĩi để vận dụng một cách độc lập và là một khối
hồn chỉnh về ý nghĩa (từ vựng hay ngữ pháp) và cấu tạo”
Theo Hỗ Lê: “Từ là đơn vị ngơn ngữ cĩ chức năng định danh phi liên kết hiện thực, hoặc chức năng mơ phỏng tiếng động, cĩ khả năng kết hợp tự do, cĩ tính vững chắc về cấu tạo và tính nhất thê về ý nghĩa”
Các đặc điểm của từ tiéng Việt
Từ và tiếng là hai đơn vị khác nhau nhưng đều rất quan trọng trong ngữ pháp tiếng Việt Do đĩ ta phải đi xét các đặc điểm của từ
Từ là đơn vị nhỏ nhất để đặt câu
Trang 23Như trên vừa trình bày, ta thấy từ cĩ thể gồm cĩ một tiếng nhưng cũng cĩ thể gồm hai hay nhiễu tiếng, tuy nhiên từ là đơn vị nhỏ nhất để đặt câu
Ví dụ: Cơ quan này rất lớn, Người này rất giỏi
Một lưu ý là dé đặt câu là đề viết, để nĩi, để suy nghĩ thì chúng ta đùng từ chứ khơng phải là dùng tiếng Cĩ thể thấy lưu ý này rất quan trọng, vì trong thực thế thành phần riêng rẽ cĩ thê phát hiện trong một câu (ở dạng nĩi hay viết) là một tiếng nhưng để cĩ thể hiểu ý nghĩa của câu ta phải dùng từ Do đĩ bất kỳ một nghiên cứu về tiếng Việt trên máy tính nào cũng phải quan tâm đến việc ghép các tiếng thành từ
Từ cĩ nghĩa hồn chỉnh và cấu tạo ổn định
Ta cĩ thể nhận ra điều này ở các tử tiếng Việt một tiếng, cịn đối với những từ
nhiều tiếng thì đĩ là những đặc điểm xác định lẫn nhau Cấu tạo ổn định dẫn đến nghĩa hồn chỉnh và ngược lại Ví dụ như từ hai tiếng “cây cối” cĩ cấu tạo ổn định
và nghĩa hồn chỉnh, nhưng cụm khơng phải là từ như “cây và cối” khơng cĩ cấu
tạo ổn định và nghĩa hồn chỉnh
Đối với những từ nhiều tiếng, tính hồn chỉnh về nghĩa và ổn định về cấu tạo được hình thành theo mối quan hệ giữa các tiếng cấu thành nên từ Đĩ là mối quan hệ phối hợp, cĩ thê theo ngữ âm (các từ láy âm), hoặc về nghĩa (ví dụ như nghĩa của hai từ “xe” và “đạp” trong từ “xe đạp”)
Theo quy tắc chính tả hiện nay, mỗi tiếng được ghi thành một cụm chữ cái rời nhau, do đĩ từ cĩ bao nhiêu tiếng thì viết thành bấy nhiêu cụm chữ cái rời nhau
Như vậy nếu fa cĩ câu “Trung tâm dữ liệu Tin học hoạt động rất hiệu quả” thì các
khoảng trống đánh dấu sự phân biệt các tiếng chứ khơng phải là các từ, trong khi đối tượng nghiên cứu của chúng ta là các từ Điều này hồn tồn khác so với các ngơn ngữ phơ dụng như Anh, Pháp, trong các ngơn ngữ này, các khoảng trống đánh
dấu sự tách rời các từ Chính nhận xét trên đã nêu bật được khĩ khăn lớn nhất khi
tiếng hành nghiên cứu các câu tiếng Việt, làm thế nào để phát hiện được các từ trong câu tiếng Việt?
Trang 241.7.1.3 Câu và các đặc điểm của câu
Trong ngữ pháp tiếng Việt, từ và câu là những đơn vị ngữ pháp rất quan trọng Đối với con người, từ được coi như sẵn cĩ trong kho từ vựng được tích luỹ trong quá trình sống Cịn để cĩ thể hiểu, giao tiếp thì con người phải dùng đến câu Trong ngơn ngữ, câu là đơn vị ở bậc cao hơn cả Nĩi gì, viết gì cũng phải thành câu
- Câu cĩ ý nghĩa hồn chỉnh
Tính hồn chỉnh về nghĩa của câu là tính hồn chỉnh của cả một quá trình tư duy, quá trình thơng báo diễn ra trong một hồn cảnh nhất định Trong một câu bao
giờ cũng cĩ hai thành phan, một thành phần nêu sự vật hiện tượng và một thành phan giải thích của sự vật hiện tượng đĩ
- Câu cĩ cầu tạo đa dạng
Câu cĩ dạng đơn giản như là câu đơn, và cịn cĩ những cấu trúc phức tạp hơn gọi là câu ghép Xét về mặt ngữ nghĩa, câu đơn cĩ nhiều dạng khác nhau, biểu lộ những ý nghĩa, trạng thái, nội dung cần thơng báo khác nhau Tính chất đa dạng khơng trái ngược với tính chất chặt chẽ của câu về mặt ngữ pháp Nĩi chung, cấu tạo ngữ pháp cĩ thay đổi thì nghĩa cũng cĩ thay đổi và ngược lại
1.7.2 Xử lý ngơn ngữ tiếng Việt
Là xử lý thơng tin khi đầu vào là “đữ liệu ngơn ngữ” (dữ liệu cần biến đổi),
tức dữ liệu “văn bản” hay “tiếng nĩi” Các đữ liệu liên quan đến ngơn ngữ viết (văn bản) và nĩi (tiếng nĩi) đang dần trở nên kiểu đữ liệu chính con người cĩ và lưu trữ
dưới dạng điện tử Đặc điểm chính của các kiểu dữ liệu này là khơng cĩ cấu trúc
hoặc nửa cấu trúc và chúng khơng thể lưu trữ trong các khuơn dạng cố định như các bảng biểu
1.7.3 Một số khĩ khăn và nhập nhăng trong xử lý văn bản tiếng Việt
Khi nghiên cứu về văn bản tiếng Việt thường gặp rất nhiều khĩ khăn trong
việc số hĩa, biểu diễn phục vụ cho việc khai phá nguồn dữ liệu văn bản Một số khĩ
khăn và nhập nhằng trong xử lý văn bản tiếng Việt như:
Trang 25Nguồn dữ liệu: Cần thu thập nguơn đữ liệu cĩ tính bao phủ, quy mơ, phù hợp với yêu cầu đặt ra
Về ngữ pháp tiếng Việt: Để phân tích và kiểm tra tính chính xác của một văn bản tiếng Việt, chúng ta phải tiến hành phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa,
Đặc điểm chính tả tiếng Việt cũng là một yếu tố quan trọng làm ảnh hưởng đến việc xử lý đữ liệu văn bản như: Xử lý các tiếng đồng âm, các từ địa phương,
cách gõ, vị trí dấu, ký tự ngất câu
Vấn đề đa nghĩa và nhập nhằng trong ngơn ngữ, nhập nhằng cú pháp sẽ gây khĩ khăn trong quả trình phân tích và xử lý
Ngữ nghĩa tiếng Việt rất phức tạp, mang tính nhập nhằng cao nên rất khĩ để áp dụng vào hệ thống so sánh văn bản mang yếu tố ngữ nghĩa Bên cạnh đĩ, kho
ngữ liệu văn bản tiếng Việt phục vụ cho việc nghiên cứu, ứng dụng trong lĩnh vực
NLP để giải quyết vấn đề ngữ nghĩa cịn rất nhiều hạn chế so với ngơn ngữ tiếng Anh và các ngơn ngữ khác
Quy tắc bỏ đấu: Cĩ nhiều quy tắt bỏ dấu khác nhau trong tiếng Việt nên để loại bỏ nhập nhằng này cần chuẩn hĩa về một chuẩn bỏ đấu nào đĩ Tuy nhiên hiện nay, văn bản tiếng Việt được lưu trữ rất lớn và trong văn bản hình thức bỏ đấu cũng cĩ nhiều kiểu nên sẽ rất phức tạp khi chuẩn hĩa dấu
Bên cạnh đĩ, các phương pháp, kỹ thuật, cơng cụ giải quyết bài tốn tách
đoạn, tách câu, tách từ cũng khơng thể đạt kết quả chính xác tuyệt đối, đặc biệt là
đối với xử lý văn bản tiếng Việt cĩ nhiều nhập nhằng so với tiếng Anh và các ngơn ngữ khác
Bài tốn tách đoạn, tách câu thường khơng phân biệt ngơn ngữ vì hầu hết các ngơn ngữ khi phân tích để tách đoạn thường dựa trên ký tự xuống dịng: tách câu thường đựa trên các dấu câu như dấu chấm (.), dấu chấm than (!), đấu chấm hỏi (2) và dấu chấm phẩy (;) Tuy nhiên, để cĩ kết quả chính xác cao thì phụ thuộc rất lớn vào nguơn văn bản, nội dung văn bản
Trang 26Với bài tốn tách từ trong tiếng Việt, khơng sử dụng dấu cách (space) để làm ranh giới phân tách từ, nĩ chỉ cĩ ý nghĩa phân tách các từ đơn (âm tiết) với nhau Vì vậy, để xử lý văn bản tiếng Việt, cơng đoạn tách từ là một trong những bài tốn cơ bản, quan trọng và tạo tiền đề để giải quyết các bài tốn về NLP khác như: Phân
loại văn bản, tĩm tắt văn bản, máy dịch tự động, hiểu văn bản, khai thác văn bản,
Hiện nay, cĩ nhiều cơng trình nghiên cứu để xử lý tách từ tiếng Việt và đạt
được những kết quả chính xác cao như bộ cơng cụ tách câu, tách từ gán nhãn từ loại
JvnTextPro của nhĩm tác giả Nguyễn Cẩm Tú, cơng cụ tách từ vnTokennizer của
tác giả Lê Hồng Phương
Tĩm lại, với những khĩ khăn như đề cập ở trên, so với các ngơn ngữ khác thì xử lý văn bản tiếng Việt sẽ gặp những khĩ khăn và phức tạp hơn do đặc thù riêng của ngơn ngữ tiếng Việt
1.8 MỘT SĨ KHÁI NIỆM SỬ DỤNG TRONG LUẬN VĂN 1.8.1 Văn bản
Van ban (Document/Text) 1a đối tượng nghiên cứu của nhiều ngành khoa học,
nhiều lĩnh vực khác nhau, tùy theo gĩc độ nghiên cứu và mục đích tiếp cận sẽ cĩ
nhiều định nghĩa khác nhau về văn bản
Thơng thường trong các hệ thống lưu trữ và truy xuất thơng tin, văn bản là các bản ghi thơng tin, là phương tiện để ghi nhận, lưu giữ và truyền đạt các thơng tin từ chủ thể này sang chủ thể khác bằng một ký hiệu hay ngơn ngữ nhất định nào đĩ Văn bản bao gồm các tài liệu, tư liệu, giấy tờ cĩ giá trị pháp lý, mỗi văn bản gồm
tập hợp các câu cĩ tính trọn vẹn về nội dung, hồn chỉnh về hình thức, cĩ tính liên kết chặt chẽ và hướng tới một mục tiêu giao tiếp nhất định
Trong tin học, văn bản là một chuỗi ký tự được mã hĩa thành các định dạng cĩ thể đọc được trên máy tính, hay cịn gọi là văn bản điện tử Trong luận văn, văn bản được để cập là đối tượng nghiên cứu chính, là văn bản điện tử ở dạng văn bản thuần, việc xử lý, tính tốn sẽ loại bỏ các hình ảnh, cơng thức, bảng biểu Hay nĩi
cách khác, các phương pháp để xuất trong luận văn được xử lý trên đối tượng văn
Trang 27bản thuần, từ các văn bản điện tử được lưu trữ dưới dạng các tệp tin doc,.docx,
.pđ£ hay tính tốn, xử lý trên các nội dung văn bản được lưu trữ trong CSDL 1.8.2 Độ tương tự
D6 tuong tu (Similarity measures) hay độ tương đồng là một khái niệm quan
trọng và đã được sử dụng rộng rãi Các định nghĩa trước đây về độ tương tự được gắn liền trong một ứng dụng cụ thể hoặc một dạng thể hiện của tri thức
Dekang Lin định nghĩa độ tương tự thơng qua trực giác (Intuitions):
Trực giác 1: Độ tương tự giữa A và B cĩ liên quan tới sự tương tự (giống nhau) của chúng Sự tương tự càng nhiều, độ tương tự càng lớn
Trực giác 2: Độ tương tự giữa A và B cĩ liên quan tới những sự khác biệt giữa chúng Càng nhiều sự khác biệt, độ tương tự cảng thấp
Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt
nhau hay gọi là đồng nhất 1.8.3 Độ tương tự văn bản
Độ tương tự văn bản (Text similarity) là mức độ giống nhau của văn bản Khi
so sánh hai đơn vị văn bản (tồn văn bản hoặc một phân đoạn của văn bản) với nhau
thì đĩ là mức độ giống nhau giữa đơn vị văn bản này với đơn vị văn bản kia; so sánh giữa một văn bản kiểm tra với tập văn bản khác thì đĩ là mức độ giống nhau
giữa văn bản kiểm tra với các văn bản khác Nĩi cách khác, tính độ tương tự văn
bản là tìm ra tỷ lệ giống nhau của văn bản
Cĩ hai hướng để so sánh độ tượng tự của hai văn bản, một là so sánh độ tương tự của các phân đoạn văn bản, và hai là so sánh độ tương tự của tồn bộ văn bản
Để đo độ tương tự văn bản thường dùng là độ tương tự chuỗi (String similarity) Để đo độ tương tự các chuỗi, người ta sử dụng các độ đo khoảng cách để tính độ tương tự chuỗi hoặc dùng các phương pháp đo độ tương tự ngữ nghĩa (Semantic similarity) để hiểu được nghĩa của văn bản, thường liên quan đến cơ sở
tri thức, các khái niệm, Ontology,
Trang 28Tĩm lại, các văn bản tương tự nhau là những văn bản cĩ tần số từ tương đối giống nhau, vì vậy cĩ thê đo độ tương tự giữa các văn bản hoặc giữa một văn bản với các văn bản khác trong kho đữ liệu thường dựa vào bảng tần số từ Trong khai
phá văn bản cĩ nhiều độ đo khác nhau để tính tốn mức độ tương tự của các văn
bản
Trong phạm vị đặt ra, luận văn tập trung vào các phương pháp đo độ tương tự văn bản mà khơng xét đến yếu tố ngữ nghĩa của văn bản Luận văn tính tốn độ tương tự văn bản dựa trên phương pháp khoảng cach Euclide
1.8.4 So khớp văn bản
So khớp van ban (Text alignment) 14 so sánh sự giống nhau giữa các phân
đoạn văn bản để tìm ra độ tương tự của văn bản
1.9 MỌT SĨ ỨNG DỤNG TRONG ĐĨI SÁNH VĂN BẢN
° Ứng dụng trong soạn thảo văn bản, thư viện số và cơng cụ tìm kiếm
e Ung dung trong phat hiện đột nhập mạng
e Ung dung trong Tin sinh hoc va nghién ctru cấu trúc hĩa học
1.10 KET LUAN CHUONG 1
Chương này trình bày cơ sở lý thuyết về khai phá đữ liệu, khai phá đữ liệu văn bản; tầm quan trọng hay tại sao phải khai phá dữ liệu, các chức năng chính cũng như ứng dụng của khai phá dữ liệu Chương l này tác giả cũng tìm hiểu một số bài tốn trong lĩnh vực khai phá dữ liệu văn bản cũng như một số khĩ khăn trong khai
phá dữ liệu văn bản, ngồi ra chương này cịn tìm hiểu một số đặc điểm nổi bật của
tiếng Việt Trải qua một quá trình phát triển tiếng Việt đồng thời cũng cĩ nhiều sự thay đổi và ngày càng phức tạp hơn Đây cũng là một khĩ khăn lớn đối với người sử dụng tiếng Việt nĩi chung và xử lý ngơn ngữ tiếng Việt nĩi riêng
Trang 29Chương 2
ĐĨI SÁNH VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG ĐỊNG VĂN BẢN
Chương này giới thiệu tĩm tắt các mơ hình biểu diễn văn bản, tập trung nghiên cứu mơ hình biểu diễn văn bản thơng dụng đĩ là mơ hình biểu biễn văn bản theo khơng gian vector; trình bày phương pháp tính trọng số các đặc trưng của văn bản biểu diễn trên mơ hình vector; tính độ tương đồng văn bản dựa trên mơ hình vector và các phương pháp tách từ trong văn bản tiếng việt
2.1 CÁC MƠ HÌNH BIÊU DIEN VAN BAN
2.1.1 Giới thiệu
Văn bản dưới dạng đữ liệu phi cấu trúc thường chiếm khoảng 80%, được lưu
trữ ở các hình thức khác nhau của tài liệu như các báo cáo, bài báo, luận văn và trên
các website là chủ yếu Do vậy muốn xử lý chúng, trước hết phải biểu diễn chúng
dưới dạng cĩ cầu trúc theo mơ hình biểu diễn văn bản phù hợp Bên cạnh đĩ, việc xác định mối liên quan và thực hiện các phép biến đổi, ánh xạ văn bản cũng địi hỏi
những dạng này phải cĩ khả năng thao tác bằng những phép tốn cơ bản (cộng, nhân, đại số quan hệ ) và các phép tốn phức tạp khác
Biểu diễn văn bản là một bước tiền xử lý rất quan trọng trong nhiều lĩnh vực như khai phá văn bản, truy vấn thơng tin, NLP Mơ hình biểu diễn văn bản truyền thống như: Mơ hình túi từ và khơng gian vector là các mơ hình được sử dụng phổ biến nhất Mơ hình khơng gian vector biểu diễn văn bản như một vector đặc trưng
của các thuật ngữ (từ, cụm từ) xuất hiện trong tồn bộ tập văn bản Trọng số các đặc trưng thuong duoc tinh qua d6 do TF, IDF, TF-IDF
Trong xử lý văn bản cĩ rất nhiều phương pháp cĩ cách tính tốn khác nhau, nhưng nhìn một cách tổng quan thì các phương pháp đĩ thường khơng tương tác
trực tiếp trên tập dữ liệu thơ ban đầu, mà thường thực hiện các bước chung như sau:
Trang 30| mm } Tiên xử lý F—' M6 hinh van ban |
Hình 2.1 Qua trình mơ hình hĩa văn ban
Tiền xử lý: Văn bản trước khi được mơ hình hĩa, cần phải được tiền xử lý
(tách câu, tách từ, xử lý chữ viết hoa/chữ thường, loại bỏ từ dừng ) Quá trình tiền
xử lý sẽ giúp nâng cao hiệu suất và giảm độ phức tạp của thuật tốn
Mơ hình văn bản: Là bước chọn mơ hình biểu diễn văn bản phù hợp dé dem
lại hiệu quả trong tính tốn, xử lý Nĩi cách khác, một trong những nhiệm vụ đầu tiên trong việc xử lý văn bản là chọn được một mơ hình biểu diễn văn bản thích hợp Một văn bản ở dạng thơ (dạng chuỗi) cần được chuyển sang một mơ hình khác để tạo thuận lợi cho việc biểu diễn và tính tốn Tùy thuộc vào từng thuật tốn xử lý khác nhau để cĩ thể lựa chọn mơ hình biểu diễn riêng
2.1.2 Mơ hình biểu diễn văn bản truyền thống
Hiện nay, trên thế giới cĩ nhiều nghiên cứu về các mơ hình biểu diễn văn bản, chúng tương đối đa dạng và mỗi mơ hình mang nét đặc trưng riêng
Cĩ thể chia thành hai hướng tiếp cận chính cho việc biểu diễn văn bản, đĩ là:
Hướng thống kê và hướng ngữ nghĩa Trong tiếp cận theo hướng thống kê, các văn
bản được biểu diễn theo một số tiêu chí phục vụ đo lường dựa trên thống kê, trong
khi các phương pháp tiếp cận theo hướng ngữ nghĩa liên quan đến khái niệm và thực hiện việc phân tích cú pháp và ngữ nghĩa Sau đây là các mơ hình và phương pháp biểu điễn văn bản:
Hướng tiếp cận thống kê: Một số mơ hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê thuần túy cĩ thể kế đến là mơ hình Boolean, mơ hình khơng gian vector, mơ hình xác suất và mơ hình túi từ Ý tưởng chính theo hướng tiếp cận này là biểu diễn nội dung của văn bản bằng danh sách các từ hay thuật ngữ (term hay chunk) xuất hiện trong văn bản Luận văn tập trung nghiên cứu theo hướng tiếp cận thống kê
Hướng ngữ nghĩa: Thường đựa trên phân tích cấu trúc ngữ pháp, sử dụng từ
Trang 31cac Ontology, m6 hinh đồ thị, mơ hình khái niệm, phân tích từ loại, trật tự từ Các
phương pháp này thường xử lý chậm, tốn nhiều chi phi hơn hướng tiếp cận thống kê tuy nhiên về mặt ngữ nghĩa thì cho kết quả chính xác hơn
Biểu diễn văn bản là bước xử lý khơng thể thiếu trong các bài tốn về xử lý văn bản Luận văn đã khảo sát và trình bày những nội dung cơ bản cũng như những
nhận xét, đánh giá về các mơ hình biểu diễn văn bản, cụ thể như sau:
2.1.2.1 Mơ hình logic
2.1.2.2 Mơ hình phân tích cú pháp
Các mơ hình phân tích cú pháp được áp dụng nhiều trong NLP Đối với tiếng Việt, cĩ nghiên cứu về hệ phân tích cú pháp tiếng Việt theo hướng phân tích cú pháp đựa trên luật và theo thống kê
2.1.2.3 Mơ hình khơng gian vector
Cách biểu diễn văn bản thơng dụng nhất là thơng qua vector biêu diễn theo mơ hình khơng gian vector (Vector Space Model) Đây là một cách biểu diễn tương đối đơn giản và hiệu quả
Theo mơ hình này, mỗi văn bản được biểu diễn thành một vector Mỗi thành
phần của vector là một từ khĩa riêng biệt trong tập văn bản gốc và được gán một giá
trị là hàm f chỉ mật độ xuất hiện của từ khĩa trong văn bản
Hình 2.2 : Biếu diễn các vector văn bản trong khơng gian 2 chiều
Trang 32Giả sử ta cĩ một văn bản và nĩ được biểu diễn bởi vector V(vị,Va, , Vn)
Trong đĩ, vị là số lần xuất hiện của từ khĩa thứ ¡ trong văn bản Ta xét 2 văn bản sau: VBI: Life is not only life VB2: To life is to fight Sau khi qua bước tiền xứ lý văn bản, ta biểu diễn chúng như sau: Bảng 1 Tần suất xuất hiện từ khĩa trong văn bản Từ Vector VB_ 1 Vector VB_2 Life 2 1 Fight 0 1 Only 1 0
Trong các co sở dữ liệu văn bản, mơ hình vector là mơ hình biểu diễn văn
bản được sử dụng phổ biến nhất hiện nay Mối quan hệ giữa các trang văn bản được
thực hiện thơng qua việc tính tốn trên các vector biểu diễn vì vậy được thị hành khá hiệu quả Đặc biệt, nhiều cơng trình nghiên cứu về mối quan hệ "tương tự
nhau" giữa các trang web (một trong những quan hệ điển hình nhất giữa các trang web) dựa trên mơ hình biểu diễn vector
2.1.2.4 Mơ hình Boolean
Giả sử cĩ một tập D gồm m văn bản D = {d¡, do, ., dm}, voi dj la van ban thir 1 Mỗi văn bản gồm n từ khĩa T = {t, t, ., ty} Goi W = {w,} 1a ma tran trong SỐ,
trong do wi, la trong số của từ khĩa t¡ trong văn bản dj
Mơ hình Boolean là mơ hình đơn giản nhất, trong đĩ trọng số các từ trong văn bản
là 0 hoặc 1 Khi đĩ, mỗi văn bản sẽ được biểu diễn dưới dạng tập hợp d,= {tj}, trong đĩ tụ là từ t¡ cĩ trọng số wi, trong van ban d; Trọng số được tính theo cơng
thức đơn giản như sau:
Trang 33- Ưu điểm:
+ Mơ hình lý thuyết chặt chẽ, rõ ràng
+ Đơn giản, dé hiểu, dễ cài đặt và sử dụng
+ Trả về kết quả chứa chính xác các từ khĩa sau khi so sánh giống nhau - Nhược điểm:
+ Mơ hình Boolean kiểm tra sự xuất hiện của một từ khĩa biểu diễn trong một văn bản hoặc là cĩ hoặc khơng, vì vậy việc so sánh theo Boolean hoặc là đúng hoặc saI
Do đĩ, hiệu quả truy vấn hay so sánh khơng cao
+ Khơng thể xếp hạng kết quả trả về nên khơng xác định được mức độ giống nhau giữa các văn bản được so sánh
+ Mơ hình này chưa xét đến tần suất xuất hiện của các từ khĩa trong văn bản và các
mối quan hệ ngữ nghĩa như: hình thái của từ, thứ tự của các từ hay vị trí xuất hiện
của từ trong tài liệu nên khơng thể so sánh sự tương tự mang yếu tố ngữ nghĩa của
văn bản
2.1.2.5 Mơ hình tần suất
2.1.2.6 Mơ hình túi từ
Theo mơ hỉnh này, văn bản là tập hợp các từ được dùng trong văn bản nên được gọi là mơ hình túi từ (bag of words) Mơ hình này khơng phụ thuộc vào trật tự của từ, cấu trúc, ngữ pháp nhưng tính xác suất số lần mỗi từ xuất hiện trong văn bản nên đây cũng là dạng của mơ hình xác suất Trong mơ hình túi từ, một văn ban sẽ được biểu diễn bởi một vector, với trọng số của mỗi thành phần của vecfor sẽ cĩ giá trị là 0 nếu như từ đĩ khơng xuất hiện trong văn bản và ngược lại thì sẽ là số lần
mà từ đĩ xuất hiện trong văn bản
Trang 34Ưu điểm:
+ Văn bản được sắp xếp dựa vào xác suất liên quan đến tài liệu truy vấn
+ Mơ hình xác suất đạt chất lượng về hiệu năng cao horn trong tìm kiếm so với các mơ hình khơng áp dụng phương pháp xác suất
Nhược điểm:
+ Mơ hình túi từ đối với những tập ngữ liệu lớn thì kích thước vốn từ sẽ lên đến hàng trăm nghìn và đơi khi lên đến cả triệu từ, gấp nhiều lần số lượng từ phân biệt của một ngơn ngữ
+ Một trong những hạn chế lớn của mơ hình này là giả định các từ độc lập với nhau,
nghĩa là các mối tương quan ngữ nghĩa của các từ này khơng được xét đến và do đĩ khơng thể so sánh giữa những từ đồng nghĩa
2.2 TINH DO TUONG DONG VAN BAN DUA TREN MO HiNH VECTOR
2.2.1 Khái niệm độ tương đồng
Độ tương đồng là một đại lượng dùng để so sánh hai hay nhiều đối tượng với nhau, phản ánh cường độ của mối quan hệ giữa các đối tượng với nhau
Phát biểu bài tốn tính độ tương đồng như sau:
Xét 2 văn bản d, va dj Muc tiéu 1a tim ra mot gia tr’ S(di.dj), Se (0,1), thé
hiện độ tương đồng giữa 2 văn bản d; và dị Giá trị càng cao thì sự giống nhau về nghĩa của hai văn bản càng nhiễu
Vi du trong mơ hình khơng gian vector, ta sử dung dé do Cosine, hay Euclid
để tính độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector
Trang 352.2.2 Độ tương đồng văn bản dựa trên tập từ chung 2.2.3 Khoảng cách Jaro 2.2.4 Mơ hình tương phản (Contrast model) 2.2.5 Hệ số Jaccard 2.3 ĐỘ TƯƠNG ĐƠNG VĂN BẢN DUA TREN VECTOR BIEU DIEN 2.3.1 Độ tương đồng Cosine
2.3.2 Độ tương đồng dựa vào khoảng cách Manhattan 2.3.3 Độ tương đồng dựa vào khoảng cách Euclide
Khoảng cách Eueliđe là một phương pháp khá phổ biến đề xác định mức độ tương đồng giữa các vector đặc trưng của hai văn bản
Cho hai vector By va Dy khoang cach Euclide duoc dinh nghia nhu sau:
2.4 DO TUONG DONG VAN BAN TRONG TIENG VIET
Thơng thường khi đánh giá độ tương tự văn bản, chúng ta cần phân tích văn bản
thành các đơn vị nhỏ hơn và thực hiện đánh giá dựa trên các đơn vị này Việc xử lý văn bản và tách từ vựng sử dụng bộ cơng cụ tách từ tiếng Việt như vnTokenIzer,
làm bước tiền xử lý cho hệ thống so sánh văn bản Sau khi tách từ, mỗi văn bản T;
Trang 36sẽ được biểu diễn bằng một vector cac tr co dang: Ti = {w, , W2, , Wni} Voi nj la s6 tr tach duoc cia T;
Trong nhiéu trường hợp, độ tương tự giữa hai đoạn văn bản cĩ thể xác định dựa trên so khớp tử đơn giản, điểm tương tự được xác định dựa trên số đơn vị từ vựng
xuất hiện ở cả hai đoạn văn bản đầu vào Tuy nhiên, phương pháp này khơng thể khẳng định được độ tương tự ngữ nghĩa của văn bản do chưa quan tâm tới hiện
tượng đồng nghĩa của từ, tâm quan trọng của từ như tần suất xuất hiện, vị trí xuất
hiện của từ và câu trong văn bản
Các phương pháp đánh giá độ tương tự văn bản chủ yếu đựa trên hai yếu tố: độ tương tự ngữ nghĩa giữa các từ và độ tương tự theo trật tự của các từ trong văn bản
Đánh giá độ tương tự ngữ nghĩa giữa các từ: một số phương pháp sử dụng
mang tu (WordNet), mot số khác dựa trên kho ngữ liệu Web hoặc dựa trên phân
tích ngữ nghĩa ân
Đánh giá độ tương tự theo trật tự của từ trong văn bản
2.4.1 Độ tương tự ngữ nghĩa từ - từ
2.4.2 Độ tương tự về thứ tự của từ trong văn bản
Độ tương tự về thứ tự của từ là một yếu tố quan trọng ảnh hưởng đến độ tương tự của văn bản Các văn bản cùng chứa một tập từ vựng giống nhau nhưng khác nhau về vị trí cĩ thê cĩ ý nghĩa hồn tồn khác nhau
2.5 CÁC PHƯƠNG PHÁP TÁCH TỪ TRONG VĂN BẢN TIÊNG VIỆT
2.5.1 Phương pháp mơ hình Markov Ấn
Mơ hình Markov (Hidden Markov Model - HMM) được giới thiệu vào cuối những năm 1960 Cho đến hiện nay nĩ cĩ một ứng dụng khá rộng như trong nhận dang giọng nĩi, tính tốn sinh học và xử lý ngơn ngữ tự nhiên
Mơ hình Markov là mơ hình máy hữu hạn trạng thái với các tham số biểu diễn xác suất chuyên trạng thái và xác suất sinh đữ liệu quan sát tại mỗi trạng thái
Trang 37Mơ hình Markov ân là mơ hình thống kê trong đĩ hệ thống được mơ hình hĩa
được cho là một quá trình Markov với các tham số khơng biết trước và nhiệm vụ là xác định các tham số ấn từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của mơ hình được rút ra sau đĩ cĩ thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu
Trong một mơ hình Markov điển hình, trạng thái được quan sát trực tiếp bởi
người quan sát, vì vậy các xác suất chuyên tiếp trạng thái là các tham số đuy nhất Mơ hình Markov ân thêm vào các đầu ra, mỗi trạng thái cĩ xác suất phân bồ trên
các biểu hiện đầu ra cĩ thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi
HMM khơng trực tiếp chỉ ra day các trạng thái
Các chuyển tiếp trạng thái trong mơ hình Markov an
] b2 b3
y1 y2 y3 Hình 2.3 Mơ hinh Markov an
x; : Các trạng thái trong mơ hình Markov aj Cac xac suat chuyén tiép
by Các xác suất đầu ra vị: Các dữ liệu quan sát
Mơ hình Markov ân thêm vào các đầu ra, mỗi trạng thái cĩ xác suất phân bố trên
các biểu hiện đầu ra cĩ thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi
HMM khơng trực tiếp chỉ ra dãy các trạng thái Ta cĩ tìm ra được chuỗi các trạng thái mơ tả tốt nhất cho chuỗi đữ liệu quan sát được bằng cách tính
Trang 38PCY | X) = PCY | X)/ P(X)
Hinh 2.4 Dé thị vơ hướng HMM
Ở đĩ Yn là trạng thái tại thời điểm thứ t=n trong chuỗi trạng thái Y, Xn là dữ liệu quan sát được tại thời điểm thứ t=n trong chuỗi X Do trạng thái hiện tại chỉ
phụ thuộc vào trạng thái ngay trước đĩ với giả thiết rằng đữ liệu quan sát được tại
thời điểm t chỉ phu thuộc và trạng thái t Ta cĩ thể tính PCY, X) n
PCY, X) = P(Yi )PCX1 | Yi DUPCYt| Yt-i )*PCXt [Yt ) t=2
Một số hạn chế của mơ hình Markov để tính được xác suất P(Y,X) thơng
thường ta phải liệt kê hết các trường hợp cĩ thể của chuỗi Y và chuỗi X Thực tế thì
chuỗi Y là hữu hạn cĩ thể liệt kê được, cịn X (các dữ liệu quan sát) là rất phong
phú Đề giải quyết các vấn đề này HMM đưa ra giả thiết về sự độc lập giữa các dữ
liệu quan sát Dữ liệu quan sát được tại thời điểm t chỉ phu thuộc vào trạng thái tại
thời điểm đĩ Hạn chế thứ hai gặp phải là việc sử dụng xác suất đồng thời P (Y, X)
đơi khi khơng chính xác vì với một số bài tốn thì việc sử dụng xác suất điều kiện
P(Y|X) cho kết quả tốt hơn rất nhiều
2.5.2 Phương pháp chuyển dịch trạng thái hữu hạn cĩ trọng số và mạng Neural Chuyển địch trạng thái hữu hạn cĩ trong sé (Weighted Finite-State Transducer
- WFST)
Y tưởng chính của phương pháp này áp dụng cho tách tử tiếng Việt là các từ sẽ được gán trọng số bằng xác suất xuất hiện của từ đĩ trong dữ liệu Sau đĩ duyệt
qua các câu, cách duyệt cĩ trọng số lớn nhất sẽ là cách dùng để tách từ
Trang 39Trong phương pháp này, tầng tiền xử lý cĩ nhiệm vụ xử lý định dang van ban:
Tiêu để, đoạn, câu; chuẩn hố về chính tả tiếng Việt (cách bỏ dấu, cách viết các ký tu y, 1, trong tiếng Việt) Ví dụ: Vật lý = vật lí, thời kỳ = thời kì)
Sau đĩ câu được chuyên sang tầng WFST Trong tầng này tác giả xử lý thêm
các vấn để liên quan đến đặc thù của tiếng Việt, như: Từ láy, tên riêng,
Cuối cùng, nếu cịn nhập nhằng câu sẽ được chuyển sang tầng khử nhập nhằng băng mạng Neural C Bit in v Tiền xử lý Vv Tang WFST I Yes No Tang WFST 4 Vv Hình 2.5 Sơ đồ mơ hình WFST - Tầng WFST
Hoạt động của WFST cĩ thể chia thành ba bước sau:
+ Bước 1: Xây đựng từ điển trọng số: Trong mơ hình WFST, thì việc phân đoạn từ
cĩ thể được xem như là một sự chuyển địch trạng thái cĩ xác XuẤt Chúng ta miêu tả từ điển D là một đỗ thị biến đổi trạng thái hữu hạn cĩ trọng số Giả sử :
H là tập các tiếng trong tiếng Việt;
Trang 40P là tập các loại từ của từ trong tiếng Việt (POS: Part-Of-Speech) Mỗi cung của D cĩ thể là:
Từ một phần tử của H tới một phần tử của H; Từ phần tử e (xâu rỗng) đến một phần tử của P
Nĩi cách khác, mỗi từ được miêu tả trong từ điển D là một chuỗi tuần tự các cung:
Bắt đầu bằng một trạng thái ban đầu của D, được gán nhãn bằng một phần tử S
thuộc H và kết thúc bởi một cung được gán nhãn là một phần từ của ex P Nhãn
này biểu thị một chi phi ước lượng (lấy log của xác suất)
Chúng ta biểu diễn câu cần tách là một máy nhận trạng thái hữu hạn khơng cĩ trọng số (FSA - Finite State Acceptor) I trên H Giả sử đã tồn tại một hàm Id mà đầu vào là FSA A, và đầu ra là một chuyển dịch mà các phần tử trong đĩ chỉ bao gồm các
phần tử thuộc A (gọi là D*) Mỗi từ được kết thúc bởi một cung biểu diễn sự
chuyển đổi giữa s và từ loại của chúng Xác suất chuyển đổi được tính bằng cách lấy log của xác suất trong một tập mẫu lớn theo cơng thức:
Cost = - log (£/N)
Trong đĩ, f: tần số xuất hiện của từ;
N: kích thước tập mẫu
* Bước 2: Xây dựng các khả năng tách từ:
Bước này thống kê tất cả các khả năng tách từ của một câu Vấn đề ở đây là đề giảm sự bùng nỗ các cách tách từ, thuật tốn sẽ loại bỏ ngay những nhánh tách từ nào đĩ khơng phù hợp mà chứa từ khơng xuất hiện trong từ điển, khơng phải là từ láy, khơng phải là danh từ riêng thì loại bỏ các nhánh xuất phát từ cách tách từ đĩ Thật
vậy, giả sử một câu gồm n âm tiết, mà trong tiếng Việt thì một từ cĩ tối đa 4 âm tiết
tức là ta sẽ cĩ tối đa 2n-l cách tách từ khác nhau Một câu tiếng Việt trung bình cĩ
24 âm tiết thì lúc đĩ ta phải giải quyết 8.000.000 trường hợp tách từ cĩ thể trong
một câu