TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2LỜI CẢM ƠN
Trước tiên, tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với TS Nguyễn Phương Thái, giảng viên Bộ môn Khoa học máy tính - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN Trong thời gian làm luận văn tốt nghiệp, thầy
đã dành nhiều thời gian quí báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn
Tôi xin được cảm ơn các GS, TS đã giảng dạy tôi trong quá trình học tập và làm luận văn Các thầy đã giúp tôi hiểu thấu đáo hơn lĩnh vực mà mình nghiên cứu để có thể vận dụng các kiến thức đó vào trong công tác của mình
Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên, cổ vũ tôi trong suốt quá trình học tập và nghiên cứu để hoàn thành tốt bản luận văn tốt nghiệp này
Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên chắc chắn luận văn này còn nhiều thiếu sót và hạn chế Kính mong nhận được sự góp ý của thầy cô và các bạn
Hà Nội, ngày 20 tháng 09 năm 2010
Học viên
Đỗ Thị Thanh Nga
Trang 3Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp
đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan Các nội dung nghiên cứu
và kết quả trong đề tài này là hoàn toàn trung thực
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được liệt kê tại phần Tài liệu tham khảo ở cuối luận văn
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình
Hà Nội, ngày 20 tháng 09 năm 2010
Học viên
Đỗ Thị Thanh Nga
Trang 4DANH MỤC CÁC BẢNG 1
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 2
MỞ ĐẦU 3
CHƯƠNG I KHÁI NIỆM ĐỘ TƯƠNG TỰ 5
1.1 Tổng quan về độ tương tự 5
1.2 Khái niệm độ tương tự 6
1.2.1 Định nghĩa độ tương tự (Definition of Similarity) 7
1.2.2 Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values) 8
1.2.3 Độ tương tự chuỗi (String Similarity-A case study) 9
1.3 Độ tương tự ngữ nghĩa 10
CHƯƠNG II ĐỘ TƯƠNG TỰ TỪ-TỪ 11
2.1 Khái niệm từ, thuật ngữ 11
2.1.1 Từ và cấu trúc từ của tiếng Việt 11
2.1.1.1 Định nghĩa từ 11
2.1.1.2 Cấu trúc từ của tiếng Việt 11
2.1.2 Nghĩa của từ 12
2.1.3 Thuật ngữ (terms) 12
2.2 Từ đồng nghĩa 12
2.3 Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa 14
2.3.1 Dựa trên trí tuệ nhân tạo (AI-based) 14
2.3.2 Dựa trên Cơ sở tri thức (Knowledge-based) 14
2.3.3 Dựa trên ngữ liệu (Corpus-based) 14
2.4 Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet) 15
2.4.1 Khái quát về từ điển WordNet 15
2.4.2 Độ tương tự từ-từ dựa trên từ điển WordNet 16
2.5 Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu 17
2.5.1 PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm) 18
2.5.2 LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) 18
2.5.3 Phương pháp của Dekang Lin 18
CHƯƠNG III ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN 21
3.1 Xử lý văn bản tiếng Việt 21
3.1.1 Một số kết quả đã đạt được 21
3.1.2 Đặc trưng của cấu trúc ngữ pháp tiếng Việt 23
3.2 Tách từ trong văn bản tiếng Việt 23
3.3 Các hướng tiếp cận tách từ 24
3.3.1 Các hướng tiếp cận dựa trên “từ” 24
3.3.2 Các hướng tiếp cận dựa trên ký tự 25
3.4 Một số phương pháp tách từ tiếng Việt hiện nay 26
3.4.1 Phương pháp Maximum Matching: Forward/Backward 26
3.4.2 Phương pháp Transformation-based Learning (TBL) 27
3.4.3 Mô hình tách từ bằng WFST và mạng Neural 27
3.4.3.1 Tầng WFST 27
3.4.3.2 Tầng mạng Neural 28
3.4.4 Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền 28
3.4.4.1 Online Extractor 28
3.4.4.2 GA Engine for Text Segmentation 29
3.4.5 Nhận xét 29
3.5 Độ tương tự văn bản-văn bản 30
Trang 5TỰ GIỮA TỪ VỚI TỪ 33
3.1 Phát biểu bài toán 33
3.2 Giải quyết bài toán 33
3.2.1 Chuẩn bị dữ liệu 33
3.2.2 Tách từ: Tách văn bản thành các từ ghép và danh từ riêng 36
3.2.2.1 Tách từ ghép trong văn bản 36
3.2.2.2 Tách danh từ riêng trong văn bản 39
3.2.3 Tính toán độ tương tự văn bản 41
3.3 Xây dựng hệ thống 44
3.3.1 Nhập trực tiếp 2 văn bản 45
3.3.2 Nhập 2 văn bản từ file 46
3.3.3 Lấy nội dung 2 văn bản từ URL 47
3.4 Kết quả thử nghiệm và đánh giá 48
3.4.1 Một số ví dụ cụ thể 48
3.4.2 Kết quả thử nghiệm 54
3.4.2.1 Cách tiến hành 54
3.4.2.2 Kết quả thử nghiệm 54
3.4.3 Đánh giá 59
KẾT LUẬN 61
HƯỚNG PHÁT TRIỂN 62
TÀI LIỆU THAM KHẢO 63
Trang 6DANH MỤC CÁC BẢNG
Bảng 1 Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com 11
Bảng 3 Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh 24
Bảng 5 Một số kết quả độ tương tự của hai file bất kỳ 55 Bảng 6 Kết quả đánh giá 20 tin tức do người và máy thực hiện 56 Bảng 7 Địa chỉ của 30 tin rao vặt trên các trang Web 56 Bảng 8 Một số kết quả độ tương tự của hai tin rao vặt bất kỳ 58 Bảng 9 Kết quả đánh giá 30 tin rao vặt do người và máy thực hiện 59
Trang 7DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1 Ví dụ phân phối của các giá trị có thứ tự ưu tiên 9
Hình 5 Danh sách một số file trong kho ngữ liệu đã xử lý 34
Hình 9 Giao diện cho phép nhập trực tiếp hai văn bản 45 Hình 10 Giao diện kết quả độ tương tự sau khi nhập hai văn bản 46
Hình 12 Giao diện kết quả sau khi nhập hai văn bản từ file 47 Hình 13 Giao diện tính độ tương tự nội dung của hai trang Web 48
Trang 8MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong thời đại công nghệ số như hiện nay, các nguồn tài liệu là vô cùng phong phú Việc “sao chép tài liệu” theo nghĩa tiêu cực như đạo văn, sao chép các luận án, luận văn, đồ án trở nên phổ biến và đang là vấn nạn Ở qui mô rộng hơn, các thư viện điện tử ngày càng nhiều, một tài liệu có thể được phát hành trên internet nhiều lần trong những thư viện điện tử khác nhau, trên các trang web khác nhau
Làm thế nào để phát hiện sự sao chép tài liệu theo nghĩa tiêu cực? Làm thế nào ngăn chặn việc sao chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ
đề này đã được nghiên cứu từ khoảng hơn 10 năm qua Hiện tại, đã có một số giải pháp cho việc phát hiện sao chép và một vài công cụ phần mềm cho phép phát
hiện một tài liệu (gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu nguồn hay không Tập hợp các tài liệu nguồn có thể là đóng- tức là các tài liệu tập
hợp trước trong một thư viện điện tử- hoặc là mở, chẳng hạn như tập các tài liệu văn bản trên internet
Đã có một số nghiên cứu đề xuất các phương pháp khác nhau để xác định xem một đoạn văn bản của một tài liệu có nằm trong một tài liệu nào khác hay không Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi Tuy nhiên, các phương pháp so khớp chuỗi chỉ có hiệu quả nếu việc sao chép là
“nguyên văn” Do vậy một yêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc sao chép khi có sửa đổi đôi chút như thay thế một số từ bằng từ đồng nghĩa hay thay đổi một ít trong thứ tự các câu trong văn bản
Chính vì vậy, đề tài “Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ” được chọn làm đề tài luận văn tốt nghiệp của tôi
2 Mục tiêu của luận văn
Vận dụng các phương pháp tính độ tương tự giữa từ với từ để tính độ tương đồng ngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có được sao chép từ văn bản kia hay không
3 Đối tượng và nhiệm vụ của luận văn
Đối tượng:
Tập các văn bản trong bộ dữ liệu mẫu
Tập các tài liệu trên Internet
Trang 9Nhiệm vụ:
Luận văn tập trung vào tính độ tương tự ngữ nghĩa văn bản dựa trên tập ngữ liệu có sẵn Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độ tương
tự giữa từ với từ và tập các từ đồng nghĩa
4 Phương pháp và nội dung nghiên cứu
Nghiên cứu lý thuyết về độ tương tự, các cách tính độ tương tự giữa từ với từ
Nghiên cứu về kho ngữ liệu, hiện tượng từ đồng nghĩa
Tìm hiều các cách tách từ trong văn bản tiếng Việt
Nghiên cứu các phương pháp tính độ tương tự ngữ nghĩa văn bản dựa trên độ tương tự giữa từ với từ
5 Kết cấu của luận văn
Nội dung chính của luận văn gồm 4 chương:
Chương I: Khái niệm độ tương tự
Chương II: Độ tương tự từ-từ
Chương III: Độ tương tự văn bản-văn bản
Chương IV: Tính độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ
Trang 10CHƯƠNG I KHÁI NIỆM ĐỘ TƯƠNG TỰ
1.1 Tổng quan về độ tương tự
Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng cách”) thuộc phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhưng trong khoa học máy tính và các ứng dụng máy tính có phần khác Trong khoa học máy tính, phép tính xấp
xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic) và không theo thể thức (ad-hoc) Trong ngữ cảnh này, khái niệm “sự tương tự” xuất hiện
ở nhiều dạng, diễn xuất, và nhiều ứng dụng
Khái niệm “sự tương tự” có nhiều dạng khác nhau Bất chấp những khác biệt, chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh hai (hay nhiều) đối tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau Luôn có mục đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp sau đó được thực hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết Vì lý do đó, hai đối tượng được đem so sánh giữ những vai trò khác nhau Đối tượng thứ nhất đang được xem xét và được gọi là vấn đề (problem) Đối tượng thứ hai là đã biết và đã lưu; thường được gọi là bản mẫu (prototype) hay tình huống (case)
“Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết vấn đề, nổi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition) Chúng có liên hệ với nhau và không có ranh giới rõ ràng giữa phép loại suy và các phương pháp khác Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đối tượng thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tương tự trong cùng một lĩnh vực Một khác biệt cơ bản giữa CBR và phép loại suy là CBR thường (không phải luôn luôn) xét các đối tượng được mô tả theo cùng ngôn ngữ mô tả và thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hoàn toàn khác nhau Dưới đây là một số ngữ cảnh cần đến “sự tương tự”:
Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn
đề bằng cách sử dụng các kinh nghiệm trước đó Những kinh nghiệm này được ghi lại trong một cơ sở dữ liệu gọi là kho tình huống Ý tưởng bên dưới nhằm tái sử dụng những kinh nghiệm là: “Nếu hai vấn đề là tương tự thì chúng có các giải pháp tương tự” CBR cũng có một giả định cơ bản là luôn tồn tại kinh nghiệm Với điều kiện này, CBR có thể được áp dụng cho hầu hết các dạng ứng dụng Thường thì có rất nhiều kinh nghiệm được lưu trữ và một khía cạnh thiết yếu là nhanh chóng tìm ra những kinh nghiệm hữu ích (bài toán thu hồi)
Trang 11 Trong cơ sở dữ liệu (Databases), “sự tương tự” cũng có liên quan với tìm kiếm,
và có quan hệ nào đó với CBR Đa phần cơ sở dữ liệu cần so trùng chính xác Các phép đo độ tương tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt như
cơ sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý database)
(geo- Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiên cứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu Vì những mẫu như thế không phải lúc nào cũng giống hệt nhau, khái niệm “sự tương tự” thường đóng một vai trò quyết định
Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tương tự” được sử dụng để phân loại các đối tượng: các đối tượng tương tự thuộc về cùng một lớp/cụm, các đối tượng không tương tự thuộc về các lớp/cụm khác nhau
Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn xuất theo ý nghĩa của chúng và chúng được so sánh với nhau Ví dụ, một ảnh y khoa thực tế và một ảnh không có bệnh lý nào đó được so sánh với nhau; độ tương tự giữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa bệnh lý hay không Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này
Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sự tương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữa những con người tương xứng mức độ nào Có nhiều dạng mô hình về sự tương
tự trong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc tính (featural), dựa trên canh lề (alignment-based), và biến đổi (transformational)
Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xác định vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,…
Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt được các văn bản qua nội dung của chúng Xét trên khía cạnh nào đó, độ tương tự càng lớn, hai văn bản giống nhau càng nhiều
1.2 Khái niệm độ tương tự
Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi Các định nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể hoặc một dạng thể hiện của tri thức
Nhiều độ đo độ tương tự đã được đưa ra, chẳng hạn như nội dung thông tin (Resnik, 1995b), độ đo thông tin chung (mutual information – Hindle, 1990), độ đo
Trang 12dựa trên khoảng cách (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương phản (Tversky, 1977) McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử dụng trong tìm kiếm thông tin (McGill et al., 1979)
Một vấn đề trong độ đo độ tương tự trước đây là mỗi một trong số chúng bị trói buộc trong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể Ví dụ độ đo về
độ tương tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al., 1989) thừa nhận rằng phạm vi được thể hiện trong một mạng Nếu một tập các tài liệu không được thể hiện như một mạng, độ đo dựa trên khoảng cách sẽ không được áp dụng Hệ số dice (súc sắc) và hệ số cosin chỉ có thể được áp dụng khi các đối tượng được thể hiện như các vecto đặc trưng bằng số
Một vấn đề khác với các độ đo độ tương tự trước đây là các điều giả định cơ bản của chúng thường không ở trạng thái rõ ràng Ngoài việc biết các giả định này, không thể tạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào Hầu hết tất cả các so sánh và đánh giá của các độ đo độ tương tự trước đây đều dựa trên kết quả do kinh nghiệm
Định nghĩa độ tương tự trong phần sau đạt được 2 mục đích:
Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ
lý thuyết thông tin Điều đó có thể được áp dụng miễn là phạm vi có một mô hình xác suất Từ đó lý thuyết xác suất có thể được tích hợp với nhiều loại thể hiện của tri thức, chẳng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ nghĩa (Pearl, 1988), định nghĩa của chúng ta về độ tương tự có thể được áp dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trước Hơn nữa, tính phổ biến của định nghĩa còn cho phép độ đo được sử dụng trong lĩnh vực không có giả định trước, chẳng hạn như độ tương tự giữa các giá trị có thứ
tự
Tính giả định (Theoretical Justification): độ đo độ tương tự không được định nghĩa một cách trực tiếp bởi công thức Hơn nữa, nó được phân phát từ một tập các giả định về độ tương tự Mặt khác, nếu các giả định được cho là hợp lý, độ
đo độ tương tự cần thiết phải xảy ra
1.2.1 Định nghĩa độ tương tự (Definition of Similarity)
Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ tương tự, đầu tiên chúng ta đưa ra các trực giác (intuitions) về độ tương tự
Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng của chúng Sự tương đồng càng nhiều, độ tương tự càng lớn
Trang 13 Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa chúng Càng nhiều sự khác biệt, độ tương tự càng thấp
Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt nhau (đồng nhất - identical)
1.2.2 Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values)
Rất nhiều các đặc trưng có các giá trị ưu tiên Ví dụ, thuộc tính “chất lượng” có thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful” Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai giá trị có thứ
tự Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể được áp dụng
Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự mô tả
cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị excellent và average” Do đó, sự tương đồng giữa hai giá trị ưu tiên được giới hạn bên trong giữa chúng
Giả sử phân phối của thuộc tính “chất lượng” được nêu ra như ở hình 1 Sau đây là 4
P av
2 log(0.10 0.50)
0.34log 0.10 log 0.50
Trang 14
Kết quả chỉ ra rằng độ tương tự giữa “excellent” và “good” cao hơn độ tương tự giữa
“good” và “average”, độ tương tự giữa “excellent” và “average” cao hơn độ tương tự giữa “good” và “bad”
1.2.3 Độ tương tự chuỗi (String Similarity-A case study)
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát từ cùng một gốc như là một từ cho sẵn Ví dụ, cho trước từ “eloquently”, mục đích của chúng ta là để tìm ra các từ liên quan khác như “ineloquent”, “ineloquently”,
“eloquent” và “eloquence” Để làm điều đó, ta có thể định nghĩa độ đo tương tự giữa hai chuỗi và xếp hạng các từ trong danh sách từ theo thứ tự giảm dần của độ tương tự với từ cho sẵn Những từ xuất phát từ cùng một từ gốc nên xuất hiện sớm trong bảng xếp hạng
Chúng ta tiến hành thử nghiệm với 3 độ đo sau:
Độ đo đầu tiên được định nghĩa như sau:
1 ( , )
Trang 15ở đó tri(x) là tập các bộ ba trong x Ví dụ tri(eloquent) = {elo, loq, oqu, que, ent}
Độ đo độ tương tự thứ ba là dựa trên giả định là xác suất của một bộ ba xảy ra trong một từ là độc lập với các bộ ba khác trong từ đó
Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trong rất nhiều lĩnh vực như trong y học (so sánh các gen), trong phân lớp văn bản (các văn bản tương tự nhau thì cùng thuộc một lớp),…
Mỗi lĩnh vực khác nhau có các cách để tính độ tương tự ngữ nghĩa khác nhau Sau đây chúng ta sẽ tìm hiểu các phương pháp tính độ đo tương tự từ-từ và độ đo tương từ giữa văn bản-văn bản
Trang 16CHƯƠNG II ĐỘ TƯƠNG TỰ TỪ-TỪ
2.1 Khái niệm từ, thuật ngữ
2.1.1 Từ và cấu trúc từ của tiếng Việt
2.1.1.1 Định nghĩa từ
Khái niệm từ nghe rất thông dụng dễ hiểu nhưng định nghĩa chính xác thế nào thì không đơn giản Từ trước tới nay cũng có nhiều định nghĩa được đưa ra, tất cả đều đúng nhưng chưa hoàn chỉnh Dưới đây, tôi nêu ra một số định nghĩa về từ
Thời Hy Lạp cổ đại, trường phái ngôn ngữ Alexandre định nghĩa: “Từ là đơn vị nhỏ nhất trong chuỗi lời nói” Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa, hoàn toàn có khả năng độc lập và bản thân có thể làm thành câu tối giản”
Còn với những nhà ngôn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tín hiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm chỉ tiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị tách rời có thể hiểu được” Theo Nguyễn Kim Thản thì “Từ là đơn vị cơ bản của ngôn ngữ, có thể tách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là một khối hoàn chỉnh về mặt ý nghĩa và cấu tạo” Quan niệm của ông về “đơn vị cơ bản” là những đơn vị có số lượng hữu hạn để thông báo, trao đổi tư tưởng cho nhau Đơn vị này phải có ý nghĩa, và khi sử dụng, người dùng phải có ý thức về nó Chính vì thế, từ không thể là câu, và không thể là âm tiết (vì nhiều khi âm tiết không có nghĩa
và khi sử dụng, người dùng không ý thức về nó)
Có người lại cho rằng “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo câu” Ví dụ: nhà, người, áo, nếu, sẽ, thì, đường sắt, sân bay, dạ dày, đen sì, v.v
2.1.1.2 Cấu trúc từ của tiếng Việt
Từ tiếng Việt không giống với ngôn ngữ phương Tây khác là không thể tách để xác định từ loại Từ trong tài liệu tiếng Việt có thể là từ đơn (từ có cấu tạo từ một âm tiết) hoặc từ ghép (từ có cấu tạo từ hai âm tiết trở lên Theo như thống kê trên trang
http://Vdict.com thì độ dài của một từ tiếng Việt được thể hiện trong bảng:
Độ dài của từ Tần số Tỉ lệ %
Trang 17Vì thế, sự vật, hiện tượng nào mà càng ít được nghiênc cứu, phám phá thì nhận thức về
nó được phản ánh trong nghĩa của từ gọi tên nó càng xa với khái niệm khoa học
Việc xác định nghĩa của từ trong văn bản là một trong những thách thức lớn
nhất trong xử lý ngôn ngữ tự nhiên Nghĩa của từ chưa biết thường được suy ra từ văn
cảnh sử dụng chúng Sự nhận dạng các từ đồng nghĩa là bước khởi đầu trong việc học định nghĩa một từ
2.1.3 Thuật ngữ (terms)
Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó, ví dụ:
“máy tính”, “công nghệ phần mềm”, “tính toán song song” Các thuật ngữ này thuộc
về lĩnh vực “tin học”
Một thuật ngữ có thể có nhiều từ Ví dụ: Thuật ngữ “công nghệ” gồm 2 từ
“công” và “nghệ”, khi tách chúng ra thì 2 từ này không có ý nghĩa gì cả
Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách nào đó, hoặc đồng thời cả hai
Trang 18Ví dụ:
- start, commence, begin (trong tiếng Anh)
- cố, gắng, cố gắng (trong tiếng Việt)
là những nhóm từ đồng nghĩa
Những từ đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm đồng nghĩa Trong các ví dụ vừa nêu, ta có các nhóm đồng nghĩa của từng ngôn ngữ tương ứng
Những từ đồng nghĩa với nhau không nhất thiết phải tương đương với nhau về
số lượng nghĩa, tức là các từ trong một nhóm đồng nghĩa không nhất thiết phải có dung lượng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhưng từ kia có thể
có tới dăm bảy nghĩa Thông thường, các từ chỉ đồng nghĩa ở một nghĩa nào đó Chính
vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau: Ở nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa khác
Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa Tuỳ theo từng nghĩa được nêu lên
để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm như:
+ coi – xem: coi hát – xem hát
+ coi – giữ: coi nhà – giữ nhà
Trong mỗi nhóm từ đồng nghĩa thường có một từ mang nghĩa chung, được dùng phổ biến và trung hoà về mặt phong cách, được lấy làm cơ sở để tập hợp và so sánh, phân tích các từ khác Từ đó gọi là từ trung tâm của nhóm
Ví dụ trong nhóm từ “yếu, yếu đuối, yếu ớt” của tiếng Việt, từ “yếu” được gọi là từ trung tâm
Tuy nhiên, việc xác định từ trung tâm của nhóm không phải lúc nào cũng dễ và đối với nhóm nào cũng làm được Nhiều khi ta không thể xác định một cách dứt khoát được theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ như: tần số xuất hiện cao (hay được sử dụng) hoặc khả năng kết hợp rộng
Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt như: hồi, thuở, thời; hoặc chờ, đợi; hoặc chỗ, nơi, chốn, rất khó xác định từ nào là trung tâm
Tập hợp đủ các nhóm từ đồng nghĩa, phân tích cho hết được những nét giống nhau, khác nhau giữa các từ trong mỗi nhóm, luôn luôn làm mong muốn của những người nghiên cứu và xử lí vấn đề từ đồng nghĩa
Trang 19Nhận biết để tập hợp, phân tích thấu đáo các nhóm đồng nghĩa sẽ giúp cho người ta sử dụng được chuẩn xác và tinh tế hơn, phù hợp với tâm lí và thói quen của người bản ngữ hơn Điều đó rất quan trọng đối với việc dạy và học tiếng
2.3 Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa
Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là
“khử sự nhập nhằng ngữ nghĩa của từ” là bài toán khó khăn nhất và cũng là bài toán trọng tâm mà đến nay trên thế giới vẫn chưa giải quyết ổn thỏa Hiện nay, có rất nhiều
mô hình với nhiều hướng tiếp cận khác nhau, chủ yếu là:
2.3.1 Dựa trên trí tuệ nhân tạo (AI-based)
Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hệ như IS-A, PART-OF…Tuy nhiên, do hầu hết các tri thức về ngữ nghĩa trong cách tiếp cận này đều được xây dựng bằng tay, vì vậy các mô hình đều dừng lại ở mức độ biểu diễn trên một vài câu Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức
2.3.2 Dựa trên Cơ sở tri thức (Knowledge-based)
Vào đầu thập niên 80, người ta đã chuyển sang hướng khai thác tri thức tự động
từ các từ điển điện tử (MRD: Machine – Readable Dictionaries) như các từ điển đồng nghĩa…để có thể phần nào khắc phục hạn chế của hướng tiếp cận dựa trên trí tuệ nhân tạo (thiếu tri thức) Kết quả của hướng tiếp cận này là sự ra đời của mạng WordNet – Một cơ sở tri thức khổng lồ về ngữ nghĩa theo hướng liệt kê nét nghĩa Tuy nhiên, các
cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống chọn nghĩa tham khảo, còn chọn thông tin nào trong số những thông tin có liên quan đó thì ta phải tự xác định trong từng trường hợp cụ thể
2.3.3 Dựa trên ngữ liệu (Corpus-based)
Hướng tiếp cận này sẽ rút ra các qui luật xử lý ngữ nghĩa (bằng thống kê, bằng máy học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường hợp mới Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn
dữ liệu hạn chế, thiết bị xử lý chưa hiện đại nên không có điều kiện phát triển Mãi tới thập niên 1990, khi mà công nghệ phát triển mạnh, đã có thể vượt qua được khó khăn của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng tiếp cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm
Trang 202.4 Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển
WordNet)
2.4.1 Khái quát về từ điển WordNet
Wordnet là một cơ sở dữ liệu tri thức từ vựng học được thiết kế dựa trên những
lý thuyết về ngôn ngữ tâm lý theo cách liên tưởng từ ngữ của con người WordNet được tổ chức dựa theo các quan hệ ngữ nghĩa bởi vì một quan hệ ngữ nghĩa là một quan hệ giữa các nghĩa và các nghĩa có thể được đại diện bởi nhiều synset Và chúng
ta có thể xem những quan hệ ngữ nghĩa như là những con trỏ giữa các synset Đó là đặc tính của quan hệ ngữ nghĩa và chúng có tác động qua lại với nhau
Một từ bất kỳ có thể có nhiều nghĩa (word meaning) và khi đó mỗi nghĩa của nó
sẽ thuộc vào những tập đồng nghĩa khác nhau Ngược lại, mỗi tập đồng nghĩa lại có thể chứa một hoặc nhiều hơn một từ khác nhau Xét ví dụ sau:
Ví dụ:
Khi tìm từ letter trong WordNet ta sẽ được kết quả như sau:
The noun letter has 4 senses:
i Letter, missive: a written message addressed to a person or organization;
“wrote an indignant letter to the editor”
ii Letter, letter of the alphabet, alphabetic character: the conventional characters of the alphabet used to represent speech; “his grandmother tauch him his letter”
iii Letter: a strictly literal interpretation (as distinct from the intention); “he followed instructions to the letter ”; “he obeyed the letter of the law”
iv Letter, varsity letter: an award earned by participation in a school sport;
“he won letters in three sports ”
Trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa:
i Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương ứng là “lá thư”, “thư tín”
ii Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic character với nghĩa tiếng Việt tương ứng là “ký tự”, “chữ” hay “chữ cái” iii Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”,
“nghĩa mặt chữ”
Trang 21iv Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương ứng là “huy hiệu”, “danh hiệu” tặng cho những sinh viên có thành tích thể thao đặc biệt ở trường
Hình 2: Một phần từ điển WordNet
2.4.2 Độ tương tự từ-từ dựa trên từ điển WordNet
Một số độ đo trình bày dưới đây được nghiên cứu dựa trên từ điển phân cấp WordNet Tất cả các độ đo này đều có đầu vào là một cặp khái niệm, giá trị trả ra là mối quan hệ ngữ nghĩa của chúng Chúng ta có thể dễ dàng chuyển sang độ tương tự từ-từ bằng cách lựa chọn bất cứ cặp từ cho sẵn nào mà ý nghĩa của chúng dẫn tới độ tương tự cao nhất giữa khái niệm-khái niệm
(1) Leacock và Chodorow
Độ tương tự được xác định bởi công thức:
log2
Lch
length Sim
(3) Wu và Palmer
Trang 22Độ tương tự được đo bởi độ sâu của hai khái niệm trong WordNet và độ sâu của LCS (Least common subsumer) (nút cha chung gần nhất của cả hai khái niệm đó) Công thức như sau:
depth concept depth concept
Trả về nội dung thông tin (IC) của LCS của hai khái niệm:
có thể áp dụng được cho từ tiếng Việt
2.5 Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu
Độ tương tự ngữ nghĩa dựa trên tập ngữ liệu (corpus) xác định mức độ tương tự giữa các từ bằng việc sử dụng thông tin xuất phát từ tập ngữ liệu lớn
Chúng ta xét một số phương pháp sau:
Trang 232.5.1 PMI (Pointwise Mutual Information) (Thông tin chung dựa trên
điểm)
PMI sử dụng dữ liệu đã tập hợp từ việc tìm kiếm thông tin (PMI-IR) được đưa
ra bởi Turney 2001 như một độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa của từ Nó dựa trên các từ đồng xảy ra trên một tập ngữ liệu lớn (large corpora) Độ đo PMI-IR cho 2 từ w1 và w2 được tính như sau:
1 2
1 2 2
(w , w )IR(w , w ) log
(w ) (w )
p PMI
p p
2.5.2 LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn)
Trong LSA, các từ đồng xảy ra trong tập corpus được nắm bắt (capture) bằng việc giảm số chiều bởi SVD (Singular Value Decomposition) của một ma trận T (ma trận từ-tài liệu) thể hiện tập corpus Trong các thí nghiệm ở đây, chúng ta sẽ thực hiện SVD trên tập British National Corpus
SVD là thao tác trong đại số tuyến tính, cái có thể được áp dụng cho bất kỳ ma trận chữ nhật nào để tìm ra mối tương quan giữa hàng và cột Trong trường hợp này, SVD phân tách ma trận T thành 3 ma trận
SVD có thể được xem là cách để vượt qua một số hạn chế của mô hình không gian vecto chuẩn (số chiều cao – Sparseness and high dimensionality) Thực tế, độ tương tự LSA được tính với số chiều thấp hơn, và mối quan hệ thứ hai giữa thuật ngữ-văn bản được khai thác Độ tương tự trong không gian kết quả được đo bằng độ tương
tự cosin Chú ý rằng LSA cũng sinh ra một mô hình không gian vecto cho phép thể
hiện sự đồng nhất (và so sánh) giữa các từ, tập các từ và các văn bản
2.5.3 Phương pháp của Dekang Lin
Phương pháp này do Dekang Lin (1997) đề xuất trong bài báo “Automatic Retrieval and Clustering of Similar Words”
Kí hiệu (w, r, w’) là một bộ ba có từ trung tâm là w, từ phụ thuộc là w’ và hai từ này được quan hệ với nhau thông qua quan hệ r
Kí hiệu ||w, r, w’|| là số lượng của một loại bộ ba (w, r, w’) Nếu một giá trị trong số ba giá trị w, r hoặc w’ được thay thế bằng dấu * thì giá trị đó là một giá trị xác định bất kì trong kho ngữ liệu Ví dụ, || gia_đình, mod, *|| là số lượng bộ ba có từ trung tâm là gia_đình và quan hệ là mod, và ||*, *, *|| là tổng số bộ ba được trích từ kho ngữ liệu cú pháp
Một từ w được mô tả thông qua những bộ ba có từ w đó là từ trung tâm hay nó được mô tả thông qua các bộ ba có dạng (w, *, *) Sự tương đồng giữa hai từ được mô
Trang 24tả thông qua những bộ ba mà có sự xuất hiện của một hoặc hai từ đó trong kho ngữ liệu
Ví dụ : từ giàu được mô tả thông qua các bộ ba sau
|| giàu , mod-of , chuyện || 1
|| giàu , mod-of , cuộc_đời || 1
|| giàu , mod-of , quốc_gia || 1
|| giàu , mod-of , tay || 1 Bảng 2 : Mô tả các bộ ba của từ giàu
Giả sử rằng sự xuất hiện của các loại bộ ba là độc lập với nhau Khi đó lượng thông tin chứa trong mô tả của một từ là tổng thông tin chứa trong tất cả các bộ ba có phần tử trung tâm là từ đó
Công thức tính lượng thông tin chứa trong một bộ ba bất kì (w, r, w’) được tính bằng tần xuất xuất hiện của bộ ba đó trong kho ngữ liệu cú pháp hoặc trong trường hợp bộ ba (w, r, w’) không tồn tại trong kho ngữ liệu thì ta có thể tính lượng thông tin
đó thông qua các bộ ba chứa một trong các thành phần của bộ ba nói trên trong toàn bộ kho ngữ liệu, hay trong trường hợp một bộ ba tồn tại thì lượng thông tin trong bộ ba trên được định nghĩa là
( , , ) (|| , , ||) /(|| *,*,* ||)
P w r w w r w
Trang 25Trong trường hợp bộ ba không tồn tại trong kho ngữ liệu thu được thì nó có thể tính thông qua các bộ ba khác trong kho ngữ liệu, áp dụng công thức xác suất bayes với giả thiết A và C là các biến ngẫu nhiên độc lập với nhau ta có :
P(A, B, C) = P(A|B, C) P(B, C)
= P(A|B, C) P(C|B) P(B)
= P(A|B) P(C|B) P(B) với các biến cố ngẫu nhiên
A: một từ được chọn ngẫu nhiên w
B: một kiểu phụ thuộc được chọn ngẫu nhiên r
C: một từ được chọn ngẫu nhiên w’
Chú ý rằng I(w, r, w’) là lượng thông tin tương hỗ giữa w và w’
Ta định nghĩa tập T(w) là tập các cặp (r, w’) sao cho giá trị log (P(A, B, C)) dương Khi đó độ tương tự sim(w1, w2) giữa 2 từ w1 và w2 được định nghĩa như sau:
1 2
( , ) ( ) ( , ) ( )
( , , ) ( , , ) ( , )
Trang 26CHƯƠNG III ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN
3.1 Xử lý văn bản tiếng Việt
3.1.1 Một số kết quả đã đạt được
Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào Trong sự phát triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên quan đến “tiếng Việt” đã được làm và ít nhiều có kết quả ban đầu:
(a) Trước hết là các bộ gõ chữ Việt và thành công của việc đưa được bộ mã chữ Việt vào bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nước vẫn chưa chịu đổi thói quen
cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng của xử lý tiếng Việt) Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy nỗ lực và nhiều
ý nghĩa được nhiều người theo đuổi lâu nay, cần được nhà nước tiếp tục ủng
hộ lâu dài (http://nomfoundation.org)
(b) Tiếp theo có thể kể đến các chương trình nhận dạng chữ Việt in (OCR: optical character recognition), như hệ VnDOCR của Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam Các chương trình nhận dạng
chữ in nhằm chuyển các tài liệu in trên giấy thành các tài liệu điện tử (dưới
dạng các tệp văn bản trên máy tính)
(c) Các phần mềm hỗ trợ việc sử dụng tiếng nước ngoài, tiêu biểu là các từ điển song ngữ trên máy tính, thí dụ như các từ điển điện tử của Lạc Việt đã được dùng rộng rãi trên máy tính để tra cứu từ Anh-Việt, Việt-Anh Điều ta cần phân biệt là các từ điển điện tử này dành cho con người sử dụng, khác với từ điển điện tử dành cho máy tính sử dụng trong xử lý ngôn ngữ tự nhiên (sẽ được đề cập ở phần sau)
(d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt, Việt-Anh, chẳng hạn như các hệ dịch EVTRAN và VETRAN
(e) Một loại việc nữa là Việt hóa các phần mềm mà gần đây tiêu biểu là kết quả Việt hóa Windows và Microsoft Office của Microsoft Việc này có thể
xem như việc “dịch” các thông báo tiếng Anh cố định trong các phần mềm
thành các thông báo tiếng Việt
Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử Với sự ra đời và phổ biến của Internet, của sách báo điện tử, của máy tính cá nhân,, của viễn thông,
Trang 27của thiết bị âm thanh,…người người ai cũng có thể tạo ra dữ liệu văn bản hay tiếng nói Vấn đề là làm sao ta có thể xử lý chúng, tức chuyển chúng từ các dạng ta chưa hiểu được thành các dạng ta có thể hiểu và giải thích được, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho mình Sau đây là một số bài toán tiêu biểu của xử lý ngôn ngữ với các mức độ khác nhau về xử lý và sử dụng ngôn ngữ tự nhiên của con người:
Nhận dạng tiếng nói (speech recognition): từ sóng tiếng nói, nhận biết và chuyển chúng thành dữ liệu văn bản tương ứng [Jelinek, 1998], [Jurafsky and Martin, 2000]
Tổng hợp tiếng nói (speech synthesis): từ dữ liệu văn bản, phân tích và chuyển thành tiếng người nói [Jelinek, 1998], [Jurafsky and Martin, 2000]
Nhận dạng chữ viết (optical character recognition, OCR): từ một văn bản in trên giấy, nhận biết từng chữ cái và chuyển chúng thành một tệp văn bản trên máy tính
Dịch tự động (machine translation): từ một tệp dữ liệu văn bản trong một ngôn ngữ (tiếng Anh chẳng hạn), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác (tiếng Việt chẳng hạn) [Dorr et al, 2000], [Nagao, 1989]
Tóm tắt văn bản (text summarization): từ một văn bản dài (mười trang chẳng hạn) máy tóm tắt thành một văn bản ngắn hơn (một trang) với những nội dung
cơ bản [Mani and Maybury, 1999]
Tìm kiếm thông tin (information retrieval): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những tệp có nội dung liên quan đến một vấn đề (câu hỏi) ta cần biết (hay trả lời) [Baeza-Yates and Riberio-Neto, 1999] Điển hình
của công nghệ này là Google, một hệ tìm kiếm thông tin trên Web, mà hầu
như chúng ta đều dùng thường xuyên
Trích chọn thông tin (information extraction): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những đoạn bên trong một số tệp liên quan đến một vấn đề (câu hỏi) ta cần biết hay trả lời [Cohen and McCallum, 2003]
Phát hiện tri thức và khai phá dữ liệu văn bản (knowledge discovery and text data mining): từ những nguồn rất nhiều văn bản thậm chí hầu như không có quan hêj với nhau, tìm ra được những tri thức trước đấy chưa ai biết Đây là một vấn đề rất phức tạp và đang ở giai đoạn đầu của các nghiên cứu trên thế giới [Berry, 2004], [Sirmakessis, 2004]
Trang 28Còn nhiều bài toán và công nghệ xử lý ngôn ngữ khác, như giao diện người máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ra ngôn ngữ,…
3.1.2 Đặc trưng của cấu trúc ngữ pháp tiếng Việt
Các đặc điểm trong câu của tiếng Việt:
Câu được cấu tạo đa thành phần, có câu đơn, câu ghép, câu tối giản
Các câu được phân tách bằng các dấu chấm câu
Câu hoàn chỉnh có hoặc không sử dụng các trạng từ, từ cảm thán (các từ dừng
sẽ được loại bỏ khi phân tách để lọc thông tin)
Câu được hình thành từ các từ, hoặc các câu đơn
Mỗi câu mang một ý nghĩa thông tin hoàn chỉnh
Với các tài liệu tiếng Anh, các từ được phân cách nhau bởi dấu cách Việc xử lý phân tách từ từ các văn bản tiếng Anh tương đối dễ dàng
Trong tiếng Việt không thể phân tách được thành những từ riêng bởi dấu cách
Vì từ có thể gồm một, hai hoặc nhiều hơn số lượng âm tiết (số lượng từ ghép) Vì thế, việc tách từ để chính xác đòi hỏi giải thuật tách từ tốt
3.2 Tách từ trong văn bản tiếng Việt
Tách từ là một khó khăn chính trong việc xử lý văn bản theo ngữ nghĩa đối với các ngôn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt Mặc dù được viết bằng các ký tự Latinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngôn ngữ Đông Nam Á khác như khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn Âu
Do đó rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt
Tuy nhiên, việc xác định ranh giới từ trong tiếng Việt lại là bài toán khó Tại sao lại như vậy? Đơn vị cơ bản trong tiếng Việt là tiếng, không phải là từ Từ trong tiếng Việt có một số đặc tính sau:
Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp
Từ được cấu trúc từ “tiếng”
Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n < 5), bao gồm từ láy và từ ghép
Trang 29Trong khi đó, định nghĩa về từ trong tiếng Anh như sau: “Từ là một nhóm ký tự
có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu” (Từ điển Webster) Dưới đây là một số điểm khác biệt chính giữa tiếng Việt và tiếng Anh Những đặc điểm này làm cho việc tách từ tiếng Việt trở nên khó khăn hơn
Từ loại Chưa được định nghĩa rõ
3.3 Các hướng tiếp cận tách từ
Các hướng tiếp cận cơ bản trong việc tách từ:
Hình 3: Các hướng tiếp cận cơ bản trong việc tách từ
3.3.1 Các hướng tiếp cận dựa trên “từ”
Hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hoàn chỉnh trong câu Hướng tiếp cận này có thể chia ra theo 3 hướng: dựa trên thống kê (statistics - based), dựa trên từ điển (dictionary – based) và nhóm lai (hydrid) (kết hợp nhiều phương pháp với hy vọng đạt được những ưu điểm của các phương pháp này)
Hướng tiếp cận dựa trên thống kê: Dựa trên các thông tin thống kê như tần số
xuất hiện của từ trong tập huấn luyện ban đầu Hướng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện Nhờ vậy, hướng tiếp cận này tỏ ra linh hoạt và hữu dụng trong nhiều lĩnh vực khác nhau
Tách từ
Trang 30 Hướng tiếp cận dựa trên từ điển: Ý tưởng của hướng tiếp cận này là những
cụm từ được tách ra từ văn bản phải được so khớp với các từ trong từ điển Do
đó trong hướng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm Hướng tiếp cận “full word / phrase” cần sử dụng một từ điển hoàn chỉnh để có thể tách được đầy đủ các từ hoặc ngữ trong văn bản, trong khi đó hướng tiếp cận thành phần “component” lại sử dụng từ điển thành phần Từ điển thành phần chỉ chứa các thành phần của từ và ngữ như hình vị và các từ đơn giản Hướng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ vì thực hiện hoàn toàn dựa vào từ điển Nếu như thực hiện thao tác tách từ bằng cách
sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ từ điển hoàn chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và công sức Nếu tiếp cận theo hướng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế, khó khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ sử dụng các hình vị từ và các từ đơn giản và các từ khác để hình thành nên từ, cụm từ hoàn chỉnh
Hướng tiếp cận theo Hybrid: Với mục đích kết hợp các hướng tiếp cận khác
nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác nhau nhằm nâng cao kết quả Hướng tiếp cận này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phương pháp này Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian
xử lý, không gian đĩa và đòi hỏi nhiều chi phí
Tóm lại, các hướng tiếp cận để tách từ tiếng Việt dựa vào từ chỉ khả thi khi chúng ta có bộ từ vựng tốt hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy
3.3.2 Các hướng tiếp cận dựa trên ký tự
Các hướng tiếp cận dựa trên ký tự (dựa trên “tiếng” trong tiếng Việt) có thể chia làm 2 nhóm nhỏ: uni-gram và n-gram
Trong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong bảng chữ cái Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các tiếng trong văn bản như rút trích từ 1 ký tự (uni-gram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết quả nhất định được minh chứng thông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các ngữ Rồi công trình nghiên cứu của H.Nguyễn[2005] làm theo hướng tiếp cận là thay vì sử dụng ngữ liệu thô, công trình tiếp cận theo hướng xem Internet như một kho ngữ liệu khổng lồ, sau đó tiến hành thống kê và sử dụng thuật giải di truyền để tìm cách tách từ tối ưu nhất, và một số công trình của một số tác giả
Trang 31khác Khi so sánh kết quả của tác giả Lê An Hà và H.Nguyễnt thì thấy công trình của H.Nguyễn cho được kết quả tốt hơn khi tiến hành tách từ, tuy nhiên thời gian xử lý lâu hơn Ưu điểm nổi bật của hướng tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, ngoài ra còn có thuận lợi là ít tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn Qua nhiều công trình nghiên cứu của các tác giả đã được công bố, hướng tiếp cận tách từ dựa trên nhiều ký tự, cụ thể là cách tách từ hai ký tự được cho
là sự lựa chọn thích hợp
3.4 Một số phương pháp tách từ tiếng Việt hiện nay
3.4.1 Phương pháp Maximum Matching: Forward/Backward
Phương pháp khớp tối đa (MM - Maximum Matching) hay còn gọi là Left Right Maximum Matching Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu
LRMM-Dạng đơn giản của phương pháp dùng để giải quyết nhập nhằng từ đơn Giả sử chúng ta có một chuỗi ký tự C1, C2, …, Cn Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hay không Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất
Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ Thông thường người ta chọn phân đoạn ba từ có chiều dài tối đa Thuật toán bắt đầu từ dạng đơn giản, cụ thể
là nếu phát hiện ra những cách tách từ gây nhập nhằng, như ở ví dụ trên, giả sử C1 là
từ và C1C2 cũng là một từ, khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi C1, C2,
… , Cn để tìm tất cả các đoạn có ba từ bắt đầu với C1 hoặc C1C2
Ví dụ: Giả sử chúng ta có được các đoạn sau:
Phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển
để thực hiện Tuy nhiên, khuyết điểm của phương pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển
Trang 323.4.2 Phương pháp Transformation-based Learning (TBL)
Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu Theo cách tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ đúng Rõ ràng chúng ta thấy phương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra Và rõ ràng để tách
từ được hoàn toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ
ngữ nghĩa sau khi đã tách từ (nếu có)
Chi tiết về 2 tầng này như sau:
3.4.3.1 Tầng WFST
Gồm có 3 bước:
o Bước 1: Xây dựng từ điển trọng số: theo mô hình WFST, thao tác phân đoạn từ được xem như là một sự chuyển dịch trạng thái có xác suất.Chúng ta miêu tả từ điển D là một đồ thị biến đổi trạng thái hữu hạn có trọng số
Giả sử:
H là tập các từ chính tả tiếng Việt (còn gọi là “tiếng”)
- P là từ loại của từ
Mỗi cung của D có thể là:
- Từ một phần tử của H tới một phần tử của H
- Các nhãn trong D biểu diễn một chi phí được ước lượng theo công thức: Cost = -log(f/N)
Trong đó: f là tần số của từ, N là kích thước tập mẫu
Trang 33o Bước 2: Xây dựng các khả năng phân đoạn từ: Để giảm sự bùng nổ tổ hợp khi sinh ra dãy các từ có thể từ một dãy các tiếng trong câu, tác giả đã đề xuất phương pháp kết hợp dùng thêm từ điển để hạn chế sinh ra các bùng nổ tổ hợp,
cụ thể là nếu phát hiện thấy một cách phân đoạn từ nào đó không phù hợp ( không có trong từ điển, không phải là tứ láy, không phải là danh từ riêng,…) thì tác giả loại bỏ các nhánh xuất phát từ cách phân đoạn đoạn đó
o Bước 3: Lựa chọn khả năng phân đoạn từ tối ưu: Sau khi có được danh sách các cách phân đoạn từ có thể có của câu, tác giả đã chọn trường hợp phân đoạn
từ có trọng số bé nhất
3.4.3.2 Tầng mạng Neural
Mô hình được sử dụng để khử nhập nhằng khi tách từ bằng cách kết hợp so sánh với từ điển
Nhận xét: Mô hình này đạt được độ chính xác trên 97% theo như công bố trong công
trình của tác giả, bằng việc sử dụng thêm mạng Neural kết hợp với từ điển để khử các nhập nhằng có thể có khi tách ra các được nhiều từ từ một câu và khi đó tầng mạng Neural sẽ loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển Bên cạnh đó, cũng tương tự như phương pháp TBL điểm quan trọng của mô hình này cần tập ngữ liệu học đầy đủ
3.4.4 Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải
di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H.Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán di truyền với dữ liệu thống kê được lấy từ Internet
Trong tiếp cận của mình, tác giả đã mô tả hệ thống tách từ gồm các thành phần: 3.4.4.1 Online Extractor
Thành phần này có tác dụng lấy thông tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn Sau đó, tác giả sử dụng các công thức dưới đây để tính toán mức độ phụ thuộc lẫn nhau MI (Mutual Information) để làm cơ sở tính fitness cho GA (Genetics Algorithm) engine
Tính xác suất các từ xuất hiện trên Internet:
Trang 34
MAX
)w2
&
w1count(
)
w 2
&
w1p(
MAX
count(w)w
&
w1p(
)w2
|w1
w jp
MI(cw)
3.4.4.2 GA Engine for Text Segmentation
Mỗi cá thể trong quần thể được biểu diễn bởi chuỗi các bit 0,1, trong đó, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhóm bit cùng loại đại diện cho cho một segment Ví dụ:
3.4.5 Nhận xét
Sau khi xem xét một số hướng tiếp cận trong tách từ văn bản tiếng Việt, các nghiên cứu đã được công bố đều chỉ ra rằng phương pháp tách từ dựa trên từ mang lại kết quả có độ chính xác khá cao, điều này có được nhờ vào tập huấn luyện lớn, được