Tìm hiểu kỹ thuật tách từ và ứng dụng vào tự động phân loại văn bản

Các phương pháp này tuy đơn giản nhưng mang lại nhiều kết quả quan trọng được minh chứng thông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [4] xây dựng tập

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC HUẾ

TRƯỜNG ĐẠI HỌC KHOA HỌC

ĐỒN VĂN ĐƠNG

TÌM HIỂU KỸ THUẬT TÁCH TỪ VÀ ỨNG

DUNG VAO TU DONG PHAN LOAI VAN BAN CHUYEN NGANH: KHOA HOC MAY TINH

MA SO: 8.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC ĐỊNH HƯỚNG ỨNG DỤNG

Trang 2

LỜI CAM ĐOAN

Tôi cam đoan Luận văn thạc sĩ chuyên ngành Khoa học máy tính với để tài “Tìm hiểu kỹ thuật tách từ và ứng dụng vào tự động phân loại văn bản” là công

trình nghiên cứu của cá nhân tôi, dưới sự hướng dẫn khoa học của TS Trần Thanh Lương và PGS.TS Lê Mạnh Thạnh

Tất cả các số liệu, kết quả nghiên cứu trong luận văn là trung thực, chưa

được người khác công bố trong bất cứ một công trình nghiên cứu nào

Thành phố Huế, Ngày ˆ tháng 02 năm 2020

Trang 3

LOI CAM ON

Lời đầu tiên Tôi xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo PGS TS Lê

Mạnh Thạnh, TS Trần Thanh Lương người đã tận tình hướng dẫn, giúp đỡ và tạo mọi điều kiện tốt nhất cho tôi trong suốt thời gian thực hiện luận văn tốt nghiệp này

Đồng thời, tôi xin chân thành cảm ơn các Thầy Cô giáo trong khoa Công

nghệ thông tin — Trường Đại học Khoa, Đại học Huế, các Thay, Cô giáo tham gia

giảng dạy lớp Cao học Khoa học máy tính niên khóa 2018 - 2020, những người đã dạy dỗ và trang bị cho tôi những kiến thức cơ sở để hoàn thành luận văn và có thê tiếp tục con đường nghiên cứu sau này

Cuối cùng, Tôi cũng xin gửi lời cảm ơn đến những người thân, đồng nghiệp và bạn bè đã động viên, góp ý và giúp đỡ trong thời gian qua

Trang 4

Hiện nay, rất nhiều hệ thống phân đoạn từ phổ biến sử đụng hướng dẫn cận lai Hướng tiếp cận lai áp đụng nhiều cách khác nhau đề tận dụng ưu điểm của các giải pháp Ví dụ, nhóm tác giả Linh Giang [3] đã nghiên cứu ứng dụng các mô hình

CRF va SVM để phân đoạn từ tiếng Việt Hoặc như nhóm tác giả Đình Điền [5] đã

sử dụng mô hình MEM sử dụng giải thuật tối ưu GIS dé huấn luyện bộ phận đoạn

theo corpus gán nhãn Trong nghiên cứu đó, tác giả phân tích hai quá trình nhận dạng từ mới và phân đoạn từ đã viết như hai tiến trình đối lập nhau Tuy nhiên, tác giả nhận thấy rằng hai tiến hành đồng thời để nâng cao độ chính xác

2.2.2 Các hướng tiếp cận dựa trên ký tự từ

Các hướng tiếp cận dựa trên ký tự từ (dựa trên “tiếng” trong tiếng tiếng Việt) có thể chia làm 2 nhóm nhỏ: uni-gram và n-gram Các phương pháp này tuy đơn giản nhưng mang lại nhiều kết quả quan trọng được minh chứng thông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [4] xây dựng tập ngữ liệu thô I0MB bằng cách sử đụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các ngữ được phân cách bởi các ký tự phân cách Kết quả thực nghiệm tuy không cao nhưng cũng đã thấy N-gram sẽ trở nên hữu ích nếu ta biết cách sử đụng thông tin này thì liên kết với các nguồn thông tin khác

Trong bài báo gần đây của H Nguyễn et al, để xuất năm 2005 Đây là phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyén, thay vì sử đụng ngữ liệu thô, tác giả sử dụng thông tin thống kê trực tiếp từ Internet và sử dụng giải thuật đi truyền để tìm ra những cách phân đoạn văn bản tối ưu nhất của cùng một văn bản

2.3 NHẠP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIÊNG VIỆT

Nếu chúng ta tiến hành tách từ thủ công, thì việc nhập nhằng rất khó xây ra Do ta đã hiểu được ngữ nghĩa của câu và tách từ đựa trên ngữ nghĩa của từ trong câu Tuy nhiên việc tách từ bằng tay là điều không thể thực hiện được với tập đữ liệu không lỗ Mà máy tính thi không thể hiểu hết ngữ nghĩa của câu, nên việc nhập nhằng xây ra là tất yếu Trong tiếng Việt hiện nay xuất hiện nhiều hiện tượng nhập

Trang 5

2.6 PHAN MÈM TÁCH TỪ VNTOKENIZER - 2 5 n2 cererrre 34 2.7 TIỂU KÉT CHƯƠNG 2 22 2222221225122512131211121112111211121121122 2e 36 Chương 3 ỨNG DỤNG TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN 37 3.1 GIỚI THIỆU VẺ BẢO HIẾM XÃ HỘI HUYỆN CAO LÃNH 37 3.2 UNG DUNG PHAN LOAI VAN BẢN TẠI CƠ QUAN BẢO HIẾM XÃ HỘI 38 3.3 CÀI ĐẶT VÀ CHẠY PHÀN MẺM VNTOKENIZER 25 2 42

3.3.1 Cài đặt, 0 2222222121212 re 42 3.3.2 Dữ liệu - 22 22222212211221122112111221121111122212222212 re 42

3.3.3 Chạy chương trình i1 212 12 tt HH HH Hà Hà Hà HH 43

Trang 6

DANH MỤC CÁC BẢNG

Bảng 3.1 CSDL thể loại văn bản

Trang 7

DANH MỤC CÁC HÌNH VẼ

Trang

Hình 1.1 Tín hiệu sóng âm của hai âm tiết tiếng Việt 22- 222222 2122222222-e2 5

Hình 1.2 Các bước xử lý văn bản it t1 St ret 6 Hình 1.3 Cây cú pháp của câu “Nam là sinh viên g1Ỏ1” :- cccsscssccsxsvxsvsse2 8

Hlth: 2L, IMG billy Marre Steccxnsccesscssnessnemmsssceemnserevasermrepseiroevetense tenet rocco 25

Hình 2.2 Đồ thị vô hướng HMM 2222 221222122122112211222222222 xe 26

Hình 2.3 Sơ đồ mơ hình WFST -©22¿ 222221 22211221122112111211211211 21 e6 27 Hình 2.4 Quy trình tách từ .- S1 t1 nà Hà Hà Ha tt 35

Hình 3.1 mô hình tự động phân loại văn bản ¿S32 S2tSsrsrEerrrrrrreres 41

Hình 3.2 Giao diện command của phần mềm VntokenizZer 22-25-2222 44 Hình 3.3 Tệp dữ liệu đưa vào chương trìÌnh óc 2S vs x2 rrrererrresrer 44 Hình 3.4 Kết quả chạy phần mềm vnfokenizer 22222 22s2211221122122122122 e6 44 Hình 3.5 Kết quả sau khi chạy phần mềm vnfokenizer 2222s22zc22zcs2 45 Hình 3.6 Kết quả chạy phần mềm vntokenizer định dạng XML - 45 Hình 3.7 Kết quả khi chạy chương trình vntokenizer tách từ từ thư mục 46 Hình 3.8 Giao diện chính của chương trìÌnh óc St St SsErtrxsrrerrerersrer 48

Hình 3.9 Giao diện chọn tập tin để 01:00 49

Hình 3.10 kết quả phân loại văn bản Ì -22222222E221221122122212212222 e6 49

Hình 3.11 Hình kết quả phân loại văn bản 2 -©22222222212221222121122.2 e0 50

Trang 8

CNTT CSDL NPL CREs TBL LM MM HMM WEST BHXH BHYT SVM

DANH MUC CAC TU VIET TAT

Công nghệ thông tin

Cơ sở dữ liệu

Natural language processing (xử lý ngôn ngữ tự nhiên)

Conditional Random Fields (các trường ngẫu nhiên có điều kiện) Transformation-based Learning (học tập đựa trên chuyền đổi) Longest Mafching (so khớp từ dài nhất)

Maximal Matching (so khớp cực đại)

Hidden Markov Models (mô hình Markov ân)

Weighted Finite State Transducer (Chuyển trạng thái hữu hạn có trọng số

Bảo hiểm xã hội

Bảo hiểm y tế

Support Vector Machine (máy học vector hỗ trợ)

Trang 9

MỞ ĐẦU

Hiện nay là thời đại của cách mạng công nghiệp 4.0, công nghệ thông tin phát triển mạnh mẽ, đóng vai trò không thê thiếu trong việc phát triển kinh tế, xã hội, quốc phòng, anh ninh, trong đó việc ứng dụng trong quản lý hành chính, chính quyền điện tử va đặc biệt là trong công tác cải cách hành chính Hiện nay các thông tin tổ chức theo phương thức sử đụng văn bản giấy trong cơ quan nhà nước, trong giao địch đang dần được số hóa Có nhiều tính năng vượt trội mà phương thức

này mang lại như có thể lưu trữ lâu dài, phân loại, tìm kiếm một cách nhanh chóng

Nó không chỉ để nâng cao năng lực, hiệu quả hoạt động của các của Cơ quan quản lý Nhà nước mà là yếu tố góp phần vào sự tăng trưởng, chuyên dịch cơ cấu kinh tế và làm thay đổi cơ bản cách quản lý, học tập, làm việc của con người

Ứng dụng Công nghệ thông tin để giải quyết công việc, phục vụ cải cách

hành chính ngày càng trở thành công việc bắt buộc phải thực hiện tại mọi cơ quan,

đơn vị tạo điều kiện cho giảm thiêu thời gian chờ, tăng trưởng nhanh nên kinh tế và tạo những yếu tố tiền để cho sự phát triển kinh tế tri thức, đồng thời tạo ra nhiều sản phẩm địch vụ tiện ích góp phần đạt hiệu quả trong công tác quản lý điều hành, thúc

đây hội nhập, nâng cao chất lượng cuộc sống cho xã hội

Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của Trí tuệ nhân tạo, tập trung vào việc nghiên cứu sự tương tác giữa máy tính và ngôn ngữ tự nhiên của con người Mục tiêu của lĩnh vực này là giúp máy tính hiểu và thực hiện hiệu quả những nhiệm vụ liên quan đến ngôn ngữ của con người như: tương tác giữa người và máy, cải thiện hiệu quả giao tiếp giữa con người với con người, hoặc đơn giản là nâng cao hiệu quả xử lý văn bản và lời nói, Kỹ thuật xử lý ngôn ngữ tiếng Việt có nhiều hướng tiếp cận khác nhau và đã có nhiều công trình nghiên cứu đạt những kết quả khả quan trong thời gian vừa qua, nó đóng vai trò

Trang 10

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép có trong câu Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc

ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là

phải xác định được đâu là từ trong câu Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết

Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á

theo loại hình ngôn ngữ đơn lập, ví dụ: Tiếng Trung Quốc, tiếng Nhật, tiếng Thái,

và tiếng Việt Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như

tiếng Anh , mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu

tạo bởi một hoặc nhiều tiếng Vì vậy đối với các ngôn ngữ thuộc vùng Đông Nam Á, vấn để của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ

Do yêu cầu công việc cơ quan Bảo hiểm xã hội (BHXH) ngày càng nhiễu, các văn bản quy định liên quan đến chính sách BHXH, bảo hiểm y tế (BHYT) ngày càng nhiều và có sự kế thừa với nhau Tuy rằng với khối lượng thông tin nhiều, nhưng nhu

cau dé phân loại thông tin với đối với từng đối tượng cụ thể khác nhau, tốc độ khác

nhau Đề tìm được những thông tin cần thiết cho mục đích của mỗi người sẽ mất rất nhiều thời gian và công sức, như vậy cần có giải pháp đề phân loại một cách tự động dé giúp chúng ta xử lý văn bản được thuận tiện hơn Có nhiều kỹ thuật xử lý ngôn ngữ tiếng Việt được dé xuất, mỗi phương pháp đều có lợi thé và bất lợi riêng khi sử dụng Nhiều ứng dụng đã và đang được xây dựng dựa trên kỹ thuật tách từ rất hiệu qua Vì vậy luận văn tập trung vào việc “7? hiểu kỹ thuật tách từ và ứng dụng vào

tự động phân loại văn bản” với mục đích xây dựng hệ hỗ trợ phân loại văn bản tự động tại Bảo hiểm xã hội huyện Cao Lãnh

Do thời gian thực hiện luận văn có hạn nên việc nghiên cứu và thực hiện có

thê mắc phải một số thiếu sót ngồi ý muốn Chúng tơi mong muốn nhận được các góp ý của quý thầy cô, bạn bè và những người quan tâm đến lĩnh vực này để đề tài

Trang 11

Chuong 1 TONG QUAN VE XU LY VAN BAN

Xu ly ngon ngit tu nhién (Natural language processing) là bài toán hay và cũng là bài toán khó khăn nhất của ngành máy tính từ hơn 50 năm qua Con người muốn dùng máy tính để xử lý ngôn ngữ đã gặp phải trở ngại lớn nhất từ phía ngôn ngữ, đó là tính nhập nhằng vốn có của ngôn ngữ tự nhiên Tuy nhiên, các nhà ngôn ngữ học và các nhà khoa học đã từng bước khắc phục được đáng kể các trở ngại này và đã đạt nhiều kết quả khả quan [2]

Tuy nhiên, xử lý ngôn ngữ tiếng Việt @XLNNTV) cũng vấp phải vô vàn khó khăn, mà lớn nhất phải kế đến sự khó khăn về nhân sự Những người nắm giữ những kiến thức về XLNNTV quả thực không nhiều, và cũng không có được l

mạng lưới liên kết, trao đổi và hỗ trợ một cách hiệu quả Ngoài ra, những khó khăn

khác như không có đữ liệu đủ lớn, thiếu những nghiên cứu nền tảng, cũng hạn

chế không ít sự phát triển của XLNNTV [1]

Ngày nay, công nghệ thông tin (CNTT) đã và đang được triển khai, ứng dụng rộng rãi vào mọi lĩnh vực trong đó có phân loại văn bản đang phát triển ở nhiều đơn

vị hành chính nhà nước, các ban ngành, đoàn thể, trường học, Với sự phát triển đó, nó đã tạo được chuyển biến trong công tác lãnh đạo, chỉ đạo nhằm nâng cao năng suất, hiệu quả trong hoạt động nội bộ của cơ quan Nhà nước, các Ngành nhằm

góp phần hỗ trợ đây mạnh cải cách hành chính và tìm kiếm thông tin nhanh chóng

và chính xác

Theo đó, chương này sẽ giới thiệu tổng quan về ngôn ngữ tự nhiên, tìm hiểu các đặc điểm của ngôn ngữ tiếng Việt và xử lý ngôn ngữ tiếng Việt, các đặc trưng cơ bản của tiếng Việt, một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng

1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN

1.1.1 Khái niệm

Xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vảo các ứng dụng trên ngôn ngữ của con người Trong

Trang 12

trí tuệ nhân tao thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ, cơng cụ hồn hảo nhất của tư duy và giao tiếp

Xử lý ngôn ngữ tự nhiên nhằm mục đích: Phân tích, nhận biết, tổng hợp ngôn ngữ tự nhiên Là cơ sở chính để hiểu ngôn ngữ, dịch ngôn ngữ, xử lý tiếng nói, xử lý văn bản, Để xử lý ngôn ngữ tự nhiên bằng máy tính, trên thế giới người ta đã cho ra đời một ngành học mới được kết hợp giữa hai ngành máy tính và ngôn ngữ học, được gọi là ngôn ngữ học, máy tính Trong thế hệ máy tính thứ 5 (tương lai) sử dụng ngôn ngữ tự nhiên để giao tiếp giữa người và máy, máy có khả năng hiểu được ngôn ngữ tự nhiên của con người và trả lời các câu hỏi của con người Thậm chí máy sẽ dịch được các ngôn ngữ tự nhiên từ một ngôn ngữ này sang một ngôn ngữ khác một cách nhanh chóng và chính xác

Với một hệ thống xử lý ngôn ngữ tự nhiên, đầu vào của một hệ thống có thể là

một hoặc nhiều câu đưới dạng tiếng nói hay văn bản Các đữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con

người có và lưu trữ dưới dạng điện tử Đặc điểm chính của các kiểu dữ liệu này là

không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn

dạng cố định như các bảng biểu Ở đây, trong khuôn khé thoi gian có hạn, luận văn

chỉ xét các hệ thống xử lý với đầu vào là các văn bản số hóa dưới dạng word

Theo đánh giá của công ty Oracle, hiện có đến 80% đữ liệu không cấu trúc trong lượng dữ liệu của loài người đang có [Oracle Text] Với sự ra đời và phổ biến

của Internet, sách báo điện tử, máy tính cá nhân, viễn thông, thiết bị âm thanh,

người người ai cũng có thể tạo ra dữ liệu văn bản hay tiếng nói Vấn để là làm sao ta có thê xử lý chúng, tức chuyên chúng từ các đạng ta chưa hiểu được thành các

dạng ta có thể hiểu và giải thích được, tức là ta có thể tìm ra thông tin, tri thức hữu

ích cho mình

Giả sử chúng ta có các câu sau trong các tiêng nước ngoài:

Trang 13

“Aujourd'hui nous nous réunissons ici pour discuter le traitement de langueet de parole vietnamienne.”

“Mh BCTPAWHA©MC1 3/I€Cb C€TO/THH, WNTOỐEBI TOBOPHTB O BbB€THAMCKOM A3bIKe HW

oOpaborTke pewH.”

Nếu có ai đó dịch, hoặc có một chương trình máy tính dịch chúng ra tiếng

Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau 6 day dé ban về xử lý ngôn ngữ và tiếng nói tiếng Việt” Nếu các câu này được lưu trữ như các

tệp tiếng Anh, Pháp, Nga và Việt như ta nhìn thấy ở trên, ta có các dữ liệu “văn

bản” Nếu ai đó đọc các câu này, ghi âm lại, ta có thể chuyển chúng vào máy tính dưới đạng các tệp các tín hiệu “tiếng nói” Tín hiệu sóng âm của hai âm tiết tiếng Việt có thể nhìn thấy như sau:

Hình 1.1 Tín hiệu sóng âm của hai âm tiết tiếng Việt

Tuy nhiên, một văn bản thật sự (một bài báo khoa học) có thể có đến hàng

nghìn câu và ta không phải có một mà hàng triệu văn bản Web là một nguồn dữ liệu văn bản khổng lồ và cùng với các thư viện điện tử trong một tương lai gần các sách báo xưa nay và các nguồn âm thanh được chuyển hết vào máy tính (các chương trình nhận đạng chữ, thu nhập âm thanh hoặc gõ thắng vào máy) sẽ sớm

chứa hầu như toàn bộ kiến thức của nhân loại Vấn để là làm sao “xử lý” được khối

dữ liệu văn bản và tiếng nói khổng lồ này qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng

1.1.2 Các bước xử lý

Trang 14

nhiều kiến thức bổ trợ khác mới có thể xử lý tốt được Quá trình này thường được

chia thành các bước cụ thể như sơ đỗ:

Tiền xử lý —b| Phân tích | Phân tích py Phan tich | Tíchhợp —j Phân tích

văn bản hình thái cú pháp ngữ nghĩa văn bản thực nghĩa

Hình 1.2 Các bước xử lý văn bản

1.1.2.1 Tiền xử lý văn bản

Khi đầu vào của hệ xử lý ngôn ngữ là một văn bản, ta cần phải có thêm tầng tiền xử lý để xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các đơn vị rõ ràng để cho hệ xử lý chính dễ dàng thực hiện Cụ thê bước này sẽ bao gồm các công việc sau:

Bước tiền xử lý sẽ xử lý sơ bộ văn bản đầu vào (làm sạch văn bản) bằng cách xóa bỏ những ký tự, những mã điều khién, những vùng không cần thiết cho việc xử lý

Trong môi văn bản, bước tiên xử lý sẽ nhận diện các tiêu đê, các chú thích, các số thứ tự và gạch đầu dong, cac đoạn văn trong văn bản

Trong mỗi đoạn văn, bước tiền xử lý sẽ phân rã nó ra thành các câu là đơn vị cơ sở của một văn bản Đây là giai đoạn khó nhất và sẽ là trọng tâm của bước tiền

ce 99

xử lý, như dấu “.” trong trường hợp sau (không biết đâu là đấu chấm câu)

Ví dụ: Với khoản tiền 100.000 triệu đồng bạn có thể học chuyển tiếp 2 năm thạc sỹ tại Việt Nam

Xa hơn nữa, bước tiền xử lý có thể phân tích câu thành những ngữ để giảm bớt gánh nặng đồng thời tăng chất lượng cũng như tốc độ xử lý của hệ thống

1.122 Phân tích hình thái

Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ Trong tiếng Anh và nhiều ngôn ngữ khác các từ được phân tách với nhau bằng dấu cách Tuy nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phân tách từ trong tiếng Việt là một

Trang 15

Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ)

riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại, phạm

trù ngữ pháp, các biến cách của từ, tiền tố, hậu tố của từ (nếu có) Trong trường hợp gặp từ mới, hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để chuyển sang phân xử lý tên riêng hay từ mới Bước phân tích hình thái gồm các phân:

Phân tích phụ tố: Bao gồm tiền tố và hậu tố, ta thường gặp các loại phụ tố này trong tiếng Anh Xử lý từ ghép, ngữ cố định: Nhận diện được từ ghép hay ngữ cổ định từ các thành tố của chúng, như ngôi nhà, sách gối đầu giường

Xử lý các trường hợp tỉnh lược (bỏ bớt) trong một số từ như đại từ, thời gian

Đánh dấu từ loại các từ trong câu để xác định từ loại của từ một cách tự

động, chủ yếu ta phải giải quyết trường hợp nhập nhăằng từ loại (một từ có nhiều từ

loại), nhưng trong câu cụ thể, ta chỉ có thể có một từ loại đúng mà thôi

Ví đụ: Trong câu “Học sinh học sinh học”, ta sẽ phải đánh dấu từ loại như

sau: “Học sinh | danh từ học | động từ sinh học | danh từ”

Thông thường, nhất là với các ngôn ngữ ở Châu Âu, nhiệm vụ phân tích câu

thành các từ độc lập của khối phân tích hình thái là không khó vì hầu hết tất cả các

từ đều nằm nguyên thành một chữ, không cần chia cắt, ngoại trừ một số trường hợp đặc biệt như viết tắt (có thể xử lý ngoại lệ) Với một số ngôn ngữ như với tiếng

Việt, tiếng Nhật, vấn đề trở nên rất khó nếu các từ trong ngôn ngữ được thành

nhiều cụm có thê hiểu nhập nhằng

Vi du: Xét câu sau “Ông già đi nhanh quá” Chúng ta có ít nhất 2 cách phân cách từ:

Trang 16

1.1.2.3 Phân tích củ pháp

Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự liên kết giữa các

từ này Sẽ có những dãy từ bị loại do vị phạm các luật văn phạm

Phân tích cú pháp là nhằm phân tích một câu thành những thành phần văn phạm có liên quan với nhau và được thê hiện thành cây cú pháp Khi nhập câu, ta phải phân thành các thành phần như chủ ngữ, vị ngữ; gán vai trò chủ từ, đối từ của động từ chính, bổ nghĩa Để phân tích cú pháp, chúng ta cần có bộ luật văn phạm và giải thuật phân tích cú pháp Hiện nay, người ta đã đưa nhiều lý thuyết văn phạm

(như: CFG, UG, LG, TAG, ), và các giải thuật phân tích cú pháp hiệu quả (Earley, Tomita, TBL, )

Vi du: Nhap câu “Nam là sinh viên giỏi”, sẽ phân tích như sau: [Nam] DT [là Đt[sinh viên DT giỏi TTỊNP]VP và cây cú pháp tương ứng: we Trong đó : ch k Cn,Vn : chủ ngữ, vị ngữ Dt :Danh từ 7 ⁄ — VP : động ngữ t N Nani ĩ ⁄ A NP: danh ngit la 1 | TT: tinh tir

sinh viên giỏi ok ÔNG, Từ

Hình 1.3 Cây cú pháp của câu “Nam là sinh viên giỏi”

Các tập luật cú pháp phải được xây đựng theo cơ chế mở, có thê sửa đổi, bổ sung hay loại bỏ các luật Kết quả của bước phân tích cú pháp phụ thuộc rất nhiều vào tính chính xác và đầy đủ của các luật cú pháp

1.1.2.4 Phân tích ngữ nghĩa

Trang 17

cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được

một phần ý nghĩa của câu trong ngữ cảnh của đoạn

Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân tích câu và thông tin về ngữ nghĩa của tất cả các từ Các thực từ thường có nhiều nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giải thích với các từ khác trong câu

Giải quyết nhập nhằng nghĩa ở mức từ vựng

Xét ví dụ “Tôi với quả bóng ở trên cao”, ta có từ “với” là “liên từ” hoặc

“động từ” Đề chọn được nghĩa thích cho từ “với” trong trường hợp này chúng †a phải vận dụng các ý niệm của ngôn ngữ học tri nhận đề biết rằng “với” là động từ

chỉ hành động tác động đến một danh từ chỉ sự vật, và “với” là liên từ liên kết giữa

hai đối tượng có cùng kiểu Kết hợp những ý niệm ấy, ta có “tôi” là đại từ và “quả bóng” là danh từ chỉ sự vật không thuộc cùng đạng đối tượng, do đó máy tính sẽ chọn từ “với” có nghĩa là “động từ” cho trường hợp này

Mức độ nhập nhằng cầu trúc

Vi du: “M6t người đàn ông và một người đàn bà già” ta có 2 cách phân tích Cách 1: “Người đàn ông| và |người đàn bà già”;

Cách 2: “Người đàn ông và người đàn bài già”;

Máy tính sẽ chọn cách phân tích thứ hai, do tính cân bằng vốn có trong cấu trúc song song của liên từ “và”

Tuy nhiên, nếu xét “Một đứa trẻ và một người đàn ông già”, ta cũng sẽ có 2 cách phân tích:

“Đứa trẻ| và |người đàn ông già” “Đứa trẻ và người đàn ông| già”

Trang 18

Aức độ nhập nhằng liên câu

Ví dụ xét câu “Con khi ăn quả chuối vì nó đói”, máy tính hiện nay, trong

một số trường hợp, có thể xác định được đại từ “nó” thay thế cho từ nảo: “con khỉ”

hay “quả chuối” Đề giải quyết được nhập nhằng này, máy tính phải xem lại mệnh đề trước và vận đụng tri thức về thé giới thực (có trong WordNet) để biết rằng “chỉ có &hí mới có khả năng đó?” nên sẽ chọn “nó thay thế cho con khỉ” Còn trong câu: “Con khi ăn quả chuối vì nó chín”, thì máy tính sẽ biết rằng “chỉ có chuối mới có kha nang chin” nén sẽ chọn “nó” thay thế cho “quả chuối”

1.1.2.5 Tích hợp văn bản

Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau

1.1.2.6 Phân tích thực nghĩa

Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định nó

thật sự có nghĩa là gì Day là quá trình phân tích nhằm xác định ý nghĩa câu dựa trên

mối liên hệ của câu với hiện thực Ý nghĩa thực tế của câu phu thuộc rất nhiều vào ý

tử của người nói và ngữ cảnh diễn ra lời nói Do vậy, quá trình phân tích thực chứng rất khó thực hiện bằng máy tính

Trong một số trường hợp nhập nhằng, ta không thể dùng thông tin bên trong

nội bộ câu hay câu lân cận, mà phải xét trên toàn nội dung văn bản, xem xét xem văn bản đang bàn về vấn dé gì, thuộc lĩnh vực gì, để từ đó mới có thể chọn đúng

nghĩa của từ, câu

Vi du: Tt “sentence” vừa có nghĩa là “câu” vừa có nghĩa là “án tù”, ta phải xem xét xem văn bản này đang bàn về “ngữ pháp” hay “luật pháp”

Để xác định được ngữ cảnh toàn văn bản, máy tính phải dựa vào sự xuất hiện của các từ khóa trên toàn văn bản Ngoài ra, việc xác định ngữ cảnh này còn được ứng dụng vào việc phân loại văn bản tự động

Trang 19

1.1.3 Các bài toán và ứng dụng

Xử lý ngôn ngữ tự nhiên đã được ứng đụng trong thực tế để giải quyết các

bài toán như: Nhận dạng chữ viết, nhận dạng tiếng noi, tổng hợp tiếng nói, dịch tự động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu và phát hiện tri thức

Nhận dạng chữ viết: Từ một văn bản trên giấy, nhận biết từng chữ cái và

chuyển chúng thành một tệp văn bản trên máy tính, có hai kiêu nhận dạng: Thứ nhất

là nhận dạng chữ ¡n W7 đ/: Nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện tử như dưới định dang doc của Microsoft Word chẳng hạn

Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác Với chương trình nhận dạng chữ viết in có thể chuyên hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn Nhận dạng chữ viết của con người có ứng dụng trong

khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử)

Nhận dạng tiếng nói: Từ sóng tiếng nói nhận biết rồi chuyên chúng thành dữ liệu văn bản tương ứng Giúp thao tác của con người trên các thiết bị nhanh hơn và

đơn giản hơn, chăng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn

thảo sẽ tự ghi nó ra Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhận đạng tiếng nói có khả năng trợ

giúp người khiếm thị rất nhiều

Tổng hợp tiếng nói: Từ đữ liệu văn bản, phân tích và chuyển thành thành

tiếng nói Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự

động đọc cho chúng ta Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối củng trong giao tiếp giữa robot Với người

Dịch tự động: Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác Một phần mềm điền hình về tiếng Việt của chương trình này

là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại, phần

mềm từng được trang web vdict.com mua bản quyên, đây cũng là trang đầu tiên đưa ứng dụng này lên mạng

Trang 20

Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản và tiếng nói, tìm ra những tệp có liên quan đến một vấn đề Các máy tìm kiếm đựa trên giao diện web như Google hay Yahoo hiện nay chỉ phân tích nội dung rất đơn giản dựa trên tần suất của từ khoá và thứ hạng của trang và một số tiêu chí đánh giá khác để đưa ra

kết luận, kết quả là rất nhiều tìm kiếm không nhận được câu trả lời phù hợp, thậm

chí bị dẫn tới một liên kết không liên quan gì do thủ thuật đánh lừa của các trang web nhằm giới thiệu sản phẩm

Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn

theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất

Khai phá đữ liệu và phát hiện tri thức: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới Thực tế để làm được điều này rất khó, nó gần như là mô phỏng quá trình học tập, kham pha khoa học của con người, đây là lĩnh vực đang trong giai đoạn đầu phát triển Ở mức độ đơn giản khi kết hợp với máy tìm kiếm nó cho phép

đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lời dựa trên các thông tin trên web

mặc cho việc trước đó có câu trả lời lưu trên web hay không (giống như trang

Yahoo hỏi và đáp, nơi chuyên đặt các câu hỏi để người khác trả lời), nói một cách

nôm na là nó đã biết xử lý đữ liệu để trả lời câu hỏi của người sử dụng, thay vì máy móc đáp trả những gì chỉ có sẵn trong bộ nhớ

1.2 TIM HIEU VE TIENG VIET VA XU LY NGON NGU TIENG VIET

1.2.1 Một số khái niệm cơ bản về xử lý ngôn ngữ tiếng Việt 1.211 Xử ly ngôn ngữ

Là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi),

tức dữ liệu “văn bản” hay “tiếng nói” Các đữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người có và lưu trữ

dưới dạng điện tử Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc

hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các

bảng biểu

Trang 21

1.212 Ngôn ngữ

Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn phép ấn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn hay

sự thật thuộc lịch sử và siêu việt Nhiều ngôn ngữ sử dụng điệu bộ, âm thanh, ký

hiệu, hay chữ viết và cố gắng truyền khái niệm, ý nghĩa, ý nghĩ nhưng mà nhiều khi những khía cạnh này nằm sát quá, cho nên khó phân biệt nó

1213 Ngữ liệu

Ngữ liệu (Corpus) thường là tập hợp các câu dưới dạng tiếng nói hay văn ban, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ thê trong xử lý ngôn ngữ tự nhiên

1.2.1.4 Các cấp độ trong ngôn ngữ

Âm tiết hay tiếng: Là do một hay nhiều âm phát ra cùng một lúc tạo thành Tiếng là đơn vị cơ bản trong tiếng Việt và có âm đầu, vần và thanh

Hình vị : Hình vị được xem là đơn vị tế bào sốc, đơn vị tế bào của ngôn ngữ

và còn được gọi là “từ tố” Hình vị tiếng Việt có khi gồm có một tiếng nhưng cũng có khi gồm nhiều tiếng tạo thành

Từ: Từ gồm có một tiếng hoặc một tổ hợp tiếng có ý nghĩa hoàn chỉnh Căn cứ vào cách cấu tạo, ta có từ đơn và từ phức; trong đó từ phức có từ ghép và từ láy (hay láy âm)

Ngữ: Gồm 2 hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với nhau, Ví

đụ: Bức thư, mạng máy tính

Câu: Gồm các từ, ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và có chức năng cơ bản là thông báo ƒ7 đ„: Tôi đang đọc sách

Văn bản: Hệ thống các câu được liên kết với nhau về mặt hình thức, từ ngữ,

ngữ nghĩa và ngữ dụng

Với nghĩa thông thường, văn bản là tên gọi chỉ những tài liệu, bài viết được in ấn, lưu hành hàng ngày trong giao tiếp (một bài báo, một công văn, một tập tài

liệu, một quyết định, )

Trang 22

Với nghĩa là một thuật ngữ ngôn ngữ học, văn bản là một trong những đơn vị

phức tạp, có nhiều cách hiểu và định nghĩa khác nhau Có thể hệ thống hóa một số

cách định nghĩa về văn bản như sau: Hướng thiên về nhấn mạnh hình thức; Hướng

thiên về nhấn mạnh mặt nội dung; Hướng tổng hợp: Hướng phân biệt văn bản và

diễn ngôn

1.2.1.5 Nhập nhằng trong ngôn ngữ học

Là hiện tượng thường gặp trong giao tiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng này Nhưng trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự

động nhập nhằng trở thành vấn đề nghiêm trọng

Nhập nhằng: Là hiện tượng mà khi nói, viết hoặc diễn tả những từ ngữ, ý nghĩ mơ hỗ, không rõ nghĩa hoặc có nhiều nghĩa làm cho người đọc hoặc người nghe không phân biệt rõ ràng, gây ra sự hiểu lầm

Ví đu: Trong một câu cần dịch có xuất hiện từ “đường” như trong câu “ra

chợ mua cho mẹ ít đường” vấn để nảy sinh là cần dịch từ này là “road” hay “sugar”, con người xác định chúng khá đễ dàng căn cứ vào văn cảnh và các dấu hiệu nhận biết khác nhưng với máy thì không

Khái niệm nhập nhằng cũng có thể hiểu theo một cách khác như sau: Trong

mỗi lĩnh vực, các vấn đề thường đề cập, trình bày hoặc được hiểu theo một chuẩn

nhất định, chuẩn này có thể được quy ước bằng văn bản hoặc quy ước ngầm định Khi đó tất cả những cách hiểu, cách đề cập hoặc trình bày vấn đề nằm ngoài phạm vi chuẩn đó được xem là nhập nhằng

1.2.2 Đặc điểm của ngôn ngữ tiếng Việt

Tiếng Việt là một ngôn ngữ đơn lập, đặc điểm này bao quát toàn bộ tiếng Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp Do đó chúng ta phải tiến hành tìm hiểu đặc điểm này của tiếng Việt để có thể có được những hướng nghiên cứu cụ thể về văn bản tiếng Việt

Trang 23

1.2.2.1 Tiếng và đặc điểm của tiếng

Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy tiếng là một thành phần khá quan trọng Trong kí pháp, mỗi tiếng đứng độc lập và ta có thê phát hiện được ngay các tiếng trong cả tiếng nói cũng như văn bản

Tiếng và giá trị ngữ âm

Ngữ âm chính là mặt âm của ngôn ngữ Tại sao ta lại phải nghiên cứu khía cạnh này của ngôn ngữ tiếng Việt? Đó là vì trên thực tế, các ứng dụng liên quan đến

tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng văn bản, sau

đỏ mới tiến hành các thao tác xử lý Mỗi tiếng chính là một âm tiết và được ghi lại

thành một cụm trong văn bản

Tiếng và giá trị ngữ nghĩa

Nếu xét về mặt ngữ nghĩa thì tiếng là đơn vị nhỏ nhất có thê có nghĩa Thực ra ta có thể thấy rằng đơn vị ngữ âm thấp nhất là âm vị thì hoàn toàn không có nghĩa (ví đụ như các chữ cái đứng riêng rẽ) Tuy nhiên cũng có những tiếng không có

nghĩa (ví dụ như ạ, ứ ) Ta có thể phân biệt các tiếng như sau:

Các tiếng tự nó có nghĩa (ví dụ như chuông, kính, bút ) có thể được dùng dé gọi tên sự vật, hiện tượng, có thể được dùng như một từ

Các tiếng có nghĩa nhưng không dùng để gọi tên sự vật, hiện tượng (ví du

như thuỷ, thực ) mà chỉ được dùng với tư cách là bộ phận để cấu thành nên từ có

nghĩa ở bậc cao hơn Ta không thể nói “tôi thực” mà chỉ có thê nói “tôi ăn”, nhưng có những từ như “thực phẩm”

Các tiếng bản thân không hề có nghĩa mà chỉ dùng để kết hợp tạo thành

nghĩa cho đơn vị trực tiếp cao hơn, đó là từ Ví dụ như các tiếng “lãng, đãng” tự nó

không có nghĩa nhưng có thể tạo thành từ có nghĩa là lãng đãng Tiếng và giá trị ngữ pháp

Khía cạnh ngữ pháp bao gồm những quy tắc cấu tạo từ, cấu tạo câu Ta có thé thay rằng tiếng là đơn vị ngữ pháp dùng đề cấu tạo từ Về việc đùng tiếng để cấu

tạo từ, ta có hai trường hợp như sau:

Trang 24

Từ một tiếng gọi là từ đơn: Trường hợp này một từ chỉ có duy nhất một tiếng

Vi du: Như ông, bà, cây, đá các tiếng (đóng vai trò là từ) là một bộ phận câu thành nên câu

Từ hai tiếng trở lên (từ phức): Trường hợp này một từ có thể có hai hay nhiễu tiếng trở lên kết hợp với nhau, gắn bó tương đối chặt chẽ

Ví du: Xã hội, an ninh, hợp tác xã, chủ tịch,

Việc nghiên cứu cấu trúc từ (nhiều tiếng hay một tiếng) đóng vai trò rất quan trọng trong quá trình nghiên cứu và cài đặt ứng dụng tách từ tiếng Việt

1.2.2.2 Từ và các đặc điểm của từ tiếng Việt

Có rất nhiều quan niệm về từ trong tiếng Việt, từ nhiều quan niệm về từ tiếng Việt khác nhau đó chúng ta có thể thấy đặc trưng cơ bản của "từ" là

sự hoàn chỉnh về mặt nội dung, từ là đơn vị nhỏ nhất để đặt câu Người ta dùng "từ"

kết hợp thành câu chứ không phải dùng "tiếng" do đó quá trình lập chỉ mục bằng cách tách câu thành các "từ" cho kết quả tốt hơn là tách câu bằng “tiếng”

Về khái niệm từ: 7rong tiếng Liệt, cũng có nhiễu định nghĩa về từ

Theo Trương Văn Trình và Nguyễn Hiến Lê thì: “Từ là âm nghĩa, dùng trong ngôn ngữ để diễn tả một ý đơn giản nhất, nghĩa là ý không thê phân tích ra được”

Nguyễn Kim Than thì định nghĩa: “Từ là đơn vị cơ bản của ngôn ngữ, có thể

tách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là một khối

hoàn chỉnh về ý nghĩa (từ vựng hay ngữ pháp) và cấu tạo”

Theo Hồ Lê: “Từ là đơn vị ngôn ngữ có chức năng định danh phi liên kết

hiện thực, hoặc chức năng mô phỏng tiếng động, có khả năng kết hợp tự do, có tính

vững chắc về cấu tạo và tính nhất thể về ý nghĩa”

Các đặc điểm của từ tiếng Việt: Từ và tiếng là hai đơn vị khác nhau nhưng đều rất quan trọng trong ngữ pháp tiếng Việt Do đó ta phải đi xét các đặc điểm của từ

Từ là đơn vị nhỏ nhất để đặt câu: như trên vừa trình bày, ta thay từ có thể

gồm có một tiếng nhưng cũng có thể gồm hai hay nhiều tiếng, tuy nhiên từ là đơn vị nhỏ nhất đê dat cau Vi du: Co quan này rất lớn, Người này tất giỏi

Trang 25

Một lưu ý là dé đặt câu là đề viết, đề nói, để suy nghĩ thi chúng ta đủng từ chứ không phải là dùng tiếng Có thể thấy lưu ý này rất quan trọng, vì trong thực thế thành phần riêng rẽ có thể phát hiện trong một câu (ở dang nói hay viết) là một tiếng nhưng để có thể hiểu ý nghĩa của câu ta phải dùng từ Do đó bất kỳ một nghiên cứu về tiếng Việt trên máy tính nào cũng phải quan tâm đến việc ghép các tiếng thành từ

Từ có nghĩa hoàn chỉnh và cấu tạo ồn định: Ta có thể nhận ra điều này ở các

từ tiếng Việt một tiếng, còn đối với những từ nhiều tiếng thì đó là những đặc điểm

xác định lẫn nhau Cấu tạo ổn định dẫn đến nghĩa hoàn chỉnh và ngược lại Ví dụ

như từ hai tiếng “cây cối” có cấu tạo ổn định và nghĩa hoàn chỉnh, nhưng cụm không phải là từ như “cây và cối” không có cấu tạo ồn định và nghĩa hoàn chỉnh

Đối với những từ nhiễu tiếng, tính hoàn chỉnh về nghĩa và ổn định về cấu tạo được hình thành theo mối quan hệ giữa các tiếng cấu thành nên từ Đó là mối quan hệ phối hợp, có thê theo ngữ âm (các từ láy âm), hoặc về nghĩa (ví dụ như nghĩa của hai từ “xe” và “đạp” trong từ “xe đạp”)

Theo quy tắc chính tả hiện nay, mỗi tiếng được ghi thành một cụm chữ cái rời nhau, do đó từ có bao nhiêu tiếng thì viết thành bấy nhiêu cụm chữ cái rời nhau

Như vậy nếu ta có câu “Trung tâm dữ liệu Tin học hoạt động rất hiệu quả” thì các

khoảng trống đánh đấu sự phân biệt các tiếng chứ không phải là các từ, trong khi đối tượng nghiên cứu của chúng ta là các từ Điều này hoàn toàn khác so với các ngôn ngữ phổ dụng như Anh, Pháp, trong các ngôn ngữ này, các khoảng trống đánh

dấu sự tách rời các từ Chính nhận xét trên đã nêu bật được khó khăn lớn nhất khi

tiếng hành nghiên cứu các câu tiếng Việt, làm thế nào để phát hiện được các từ trong câu tiếng Việt?

1.2.2.3 Câu và các đặc điểm của câu

Trong ngữ pháp tiếng Việt, từ và câu là những đơn vị ngữ pháp rất quan trọng Đối với con người, từ được coi như sẵn có trong kho từ vựng được tích luỹ trong quá trình sống Còn để có thể hiểu, giao tiếp thì con người phải dùng đến câu Trong ngôn ngữ, câu là đơn vị ở bậc cao hơn cả Nói gì, viết gì cũng phải thành câu

Trang 26

Câu có ý nghĩa hoàn chỉnh: Tính hoàn chỉnh về nghĩa của câu là tính hoàn chỉnh của cả một quá trình tư duy, quá trình thông báo diễn ra trong một hoàn cảnh nhất định Trong một câu bao giờ cũng có hai thành phần, một thành phần nêu sự

vật hiện tượng và một thành phan giải thích của sự vật hiện tượng đó

Câu có cẩu tạo đa đạng: Câu có dạng đơn giản như là câu đơn, và còn có

những cấu trúc phức tạp hơn gọi là câu ghép Xét về mặt ngữ nghĩa, câu đơn có nhiều dạng khác nhau, biểu lộ những ý nghĩa, trạng thái, nội đung cần thông báo khác nhau Tính chất đa đạng không trái ngược với tính chất chặt chẽ của câu về mặt ngữ pháp Nói chung, cấu tạo ngữ pháp có thay đổi thì nghĩa cũng có thay đổi

và ngược lại

1.2.3 Đặc trưng cơ bản của tiếng Việt 1.2.3.1 Từ tiếng Việt

Một vấn dé khó khăn đầu tiên trong xử lý tự động tiếng Việt là việc định nghĩa từ trong tiếng Việt vẫn còn nhiều tranh luận Đề thuận tiện cho việc trình bày

về sau tôi theo quan điểm của Đinh Điền sau: Một câu tiếng Việt bao gồm nhiễu từ, mỗi từ bao gồm một hay nhiều tiếng, mỗi tiếng là mỗi chuỗi ký tự liền nhau phân biệt với các tiếng khác bằng một hay nhiều khoảng trắng

Ví dụ:

Từ “học' là một từ gồm một tiếng:

Từ “học sinh’ là một từ gồm hai tiếng:

Cụm từ “khoa học tự nhiên” gồm 2 từ hay 4 tiếng

Phương pháp học dựa vào các luật biến đổi (Transformation based learning)

để thực hiện công việc này và đạt được độ chính xác khoảng 80-85% Trong các hệ

thống tìm kiếm thông tin văn bản trên các tiếng Châu Âu, người ta có thể đơn giản lay xác định các từ nhờ vào các khoảng trắng phân cách từ và chọn các từ đặc trưng

cho nội dung văn bản (dựa vào tần suất xuất hiện của từ) làm chỉ mục mà hiệu quả

tìm kiếm vẫn chấp nhận được Đối với tiếng Việt chúng ta không thể làm tương tự

Trang 27

bởi nếu chúng ta xác định từ chỉ đựa các khoảng trắng phân cách thi chúng ta có thé chỉ nhận được các tiếng vô nghĩa và do đó độ chính xác của hệ thống sẽ rất thấp Theo các nhà ngôn ngữ học thì tiếng Việt có đến 80% là các từ 2 tiếng

Một đặc điểm của tiếng Việt là từ tiếng Việt không có biến thể về hình thái

học do đó công đoạn chuẩn hóa về hình thái học là không hiệu quả đối với tiếng Việt

Dĩ nhiên tiếng Việt cũng có một số hình thức biến thể về hình thái học như trường hợp thêm tiếng “sự' trước một động tir dé biến nó thành danh từ tương đương

Vi du như động từ “lựa chon’ va danh từ “sự lựa chọn" hay việc thêm tiếng

“hóa' sau một danh từ để biến nó thành động từ tương đương như danh từ “tin học`

va động từ “tin học hóa" 123.2 Từ loại

Vấn để xác định từ loại cho từ trong tiếng Việt phức tạp hơn các tiếng châu

Âu do chúng ta không thể dựa vào các đặc tính đặc biệt về hình thái học của từ để xác định loại từ

Vi du: Trong tiếng Anh chúng ta có thể xác định ngay một từ là tính từ nếu

nó có phan cuối là ‘able’ Đối với tiếng Việt từ loại chỉ có thể xác định được tùy vào

ngữ cảnh Ví dụ, chúng ta xem xét các câu sau:

(1) Thành công của chương trình mục tiêu quốc gia xây dựng nông thôn mới đã tạo tiếng vang lớn

(2) Anh ấy rất /hành công trong nghiên cứu khoa học

(3) Kỳ họp tổng kết ngành bảo hiểm xã hội tinh da thanh céng

Trong câu (1) từ “thành công" là một danh từ, trong câu (2) từ “thành công" là

một động từ và trong câu (3) từ “thành công" lại là một tính từ 1.23.3 Cụm danh từ

Cấu trúc của cụm danh từ cũng là một vấn đề còn nhiều tranh luận giữa các

nhà ngôn ngữ học Chúng tôi trình bày theo quan điểm phù hợp với việc tin học hoá

như sau:

Trang 28

Một cụm danh từ tiếng Việt gồm ba phần: Phần chính mang ý nghĩa chính của cụm danh từ, phần phụ trước gồm các chỉ định từ và phần phụ sau gồm các từ bổ nghĩa cho phần chính

Ví đụ: “Tắt cả các cuốn sách tin học” Phần phu trước: Tất cả các;

Phân chính: cuốn sách;

Phần phu sau: tin học

Phần chính là một danh từ, phần phu trước thường là các chỉ định từ, phan phu sau thi rất phức tạp về từ loại, nó có thể là đanh từ, tính từ, động từ

1.3 TIEU KET CHUONG 1

Chương này trình bày khái niệm và các bước đề xử lý ngôn ngữ tự nhiên, các kỹ thuật và các bài toán liên quan đến xử lý ngôn ngữ tự nhiên Ngoài ra, chương

này còn tìm hiểu về sự hình thành, phát triển và một số đặc điểm nổi bật của tiếng

Việt Qua đó cho thấy ở mỗi giai đoạn lịch sử, do nhiều yếu tố khác nhau mà tiếng Việt cũng có sự thích nghi cho phù hợp Trải qua một quá trình phát triển lâu dài và bên vững, tiếng Việt đồng thời cũng có nhiều sự thay đổi và ngày càng phúc tạp hơn Đây cũng là một khó khăn lớn dối với người sử dụng tiếng Việt nói chung và xử lý tiếng Việt nói riêng

Trang 29

2 MỘT SÓ KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ

2.1 KHÁI QUÁT VỀ TÁCH TỪ

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các tử trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép, có trong câu Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc

ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là

phải xác định được đâu là từ trong câu Vấn đề này tưởng chừng đơn giản khi đối với con người nhưng đối với máy tính thì đây là bài toán rất khó giải quyết

Tiếng Việt là một ngôn ngữ độc lập, không biến hình, các ký tự được dựa trên

hệ chữ Latinh (Alphabetie) Cũng giống như với các ngôn ngữ khác nhau như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt không sử dụng ký tự “khoảng

trắng” (dấu cách) dé phân biệt giữa các từ Một từ tiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách nhau bởi các khoảng trắng Từ là

đơn vị cơ bản để phân tích cấu trúc của ngôn ngữ Vì thế cũng giống như trong tiếng Trung và các nước châu Á khác tách từ là một vấn đề cần được xem xét trong xử lý ngôn ngữ tự nhiên Bài toán tách từ đã được đặt ra từ lâu và được giải quyết tốt trong tiếng Việt với hiệu suất cao

Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập như tiếng Trung Quốc, tiếng Nhật, tiếng Thái và tiếng Việt Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là khoảng trắng như trong ngôn ngữ tiếng Anh mà có sự liên hệ chặt chẽ giữa các

tiếng với nhau, một từ có thể được tạo bởi một hay nhiều tiếng Vì vậy đối với các

ngôn ngữ thuộc vùng Đông A, van dé cia bài toán tách từ là khử được sự nhập nhang trong ranh giới giữa các từ

Trang 30

2.2 CAC HUONG TIEP CAN VỚI BÀI TOÁN TÁCH TỪ

Các công trình nghiên cứu về lĩnh vực này chủ yếu là thử nghiệm, nỗi bật trong đó là các công trình: Công trình của tác giả Lê Hà An [6], Công trình “Hệ phân tách từ Việt” nằm trong nhóm sản phẩm của đề tài KC01.01/06-10 Chuyển trạng thái hữu

hạn có trọng SỐ, đây có thể được xem là mô hình tách từ đầu tiên dành cho tiếng Việt

Mô hình này là một cải tiến của mô hình WFST (Weighted Finite State Transducer) áp dụng cho tiếng Trung Quốc đề phù hợp hơn với tiếng Việt

Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải bài toán tách từ

Nhìn chung, các hướng tiếp cận đó được chia thành hai hướng: Tiếp cận dựa trên từ,

tiếp cận dựa trên thống kê

2.2.1 Các hướng tiếp cận dựa trên từ

Được chia thành 3 nhóm: Dựa vào thống kê, dựa vào từ điển và nhóm lai, nhằm tách từ trọn vẹn trong câu

Trong hướng tiếp cận dựa vào từ điển, các phân đoạn văn bản được đối sánh

dựa vào từ điển Việc xây dựng từ điển các từ và ngữ tiếng Việt là không khả thi Hai phương pháp tiêu biểu của hướng tiếp cận dựa vào từ điển là Longest Matching và Maximal Matching Hầu hết những nghiên cứu khởi thủy về tách từ đều đựa trên cách tiếp cận này Hướng tiếp cận này có đặc điểm là đơn giản, dé hiểu tuy nhiên hiệu quả mang lại không cao Lý do là bởi nó không xử lý được rất nhiều trường hợp nhập nhằng cũng như không có khả năng phát hiện từ mới trong văn bản Chính vì vậy mà các hệ thống tách từ có chất lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê

Các giải pháp theo hướng tiếp cận đựa vào thống kê cần phải dựa vào thông tin thống kê như term, từ hay tần số ký tự, hay xác suất cùng xuất hiện trong một tập dữ liệu cơ sở Do đó, tính hiệu quả của các giải pháp này chủ yếu dựa vào ngữ liệu huấn

luyện cụ thể được sử dụng Tuy nhiên, đây lại là vấn đề khó khăn đối với bài toán tách

từ tiếng Việt Đinh Điền [5] đã xây dựng ngữ liệu huấn luyện riêng (khoảng I0OMB)

dựa vào các tài nguyên, tin tức và sách điện tử trên Internet, bộ ngữ liệu này khá nhỏ và khơng tồn diện (tức là không đủ rộng, bao gồm đủ các lĩnh vực, chủ đề khác nhau)

Trang 31

Hiện nay, rất nhiều hệ thống phân đoạn từ phổ biến sử đụng hướng dẫn cận lai Hướng tiếp cận lai áp đụng nhiều cách khác nhau đề tận dụng ưu điểm của các giải pháp Ví dụ, nhóm tác giả Linh Giang [3] đã nghiên cứu ứng dụng các mô hình

CRF va SVM để phân đoạn từ tiếng Việt Hoặc như nhóm tác giả Đình Điền [5] đã

sử dụng mô hình MEM sử dụng giải thuật tối ưu GIS dé huấn luyện bộ phận đoạn

theo corpus gán nhãn Trong nghiên cứu đó, tác giả phân tích hai quá trình nhận dạng từ mới và phân đoạn từ đã viết như hai tiến trình đối lập nhau Tuy nhiên, tác giả nhận thấy rằng hai tiến hành đồng thời để nâng cao độ chính xác

2.2.2 Các hướng tiếp cận dựa trên ký tự từ

Các hướng tiếp cận dựa trên ký tự từ (dựa trên “tiếng” trong tiếng tiếng Việt) có thể chia làm 2 nhóm nhỏ: uni-gram và n-gram Các phương pháp này tuy đơn giản nhưng mang lại nhiều kết quả quan trọng được minh chứng thông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [4] xây dựng tập ngữ liệu thô I0MB bằng cách sử đụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các ngữ được phân cách bởi các ký tự phân cách Kết quả thực nghiệm tuy không cao nhưng cũng đã thấy N-gram sẽ trở nên hữu ích nếu ta biết cách sử đụng thông tin này thì liên kết với các nguồn thông tin khác

Trong bài báo gần đây của H Nguyễn et al, để xuất năm 2005 Đây là phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyén, thay vì sử đụng ngữ liệu thô, tác giả sử dụng thông tin thống kê trực tiếp từ Internet và sử dụng giải thuật đi truyền để tìm ra những cách phân đoạn văn bản tối ưu nhất của cùng một văn bản

2.3 NHẠP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIÊNG VIỆT

Nếu chúng ta tiến hành tách từ thủ công, thì việc nhập nhằng rất khó xây ra Do ta đã hiểu được ngữ nghĩa của câu và tách từ đựa trên ngữ nghĩa của từ trong câu Tuy nhiên việc tách từ bằng tay là điều không thể thực hiện được với tập đữ liệu không lỗ Mà máy tính thi không thể hiểu hết ngữ nghĩa của câu, nên việc nhập nhằng xây ra là tất yếu Trong tiếng Việt hiện nay xuất hiện nhiều hiện tượng nhập

Trang 32

nhằng như: Nhập nhằng về phạm vi, ranh giới từ; nhập nhằng do tính đa nghĩa của từ, nhập nhằng ngữ nghĩa khi sử dụng từ đồng âm (đồng tự), nhập nhằng trong cách phân biệt từ loại: nhập nhằng khi sử dụng tiếng Việt không dấu, nhập nhằng trong phân tích cú pháp tiếng Việt Nhập nhằng trong tách từ tiếng Việt có thể chia làm hai loại: Nhập nhằng chồng chéo và nhập nhằng kết hợp

Nhập nhằng chồng chéo:

Chuỗi “a b c” bị nhập nhằng chồng chéo khi mà cả “a b” và “b c” déu xuất hiện trong từ điền

Ví đụ: “Máy bay lượn ba vòng trên không trước khi đáp xuống” Trong chuỗi “máy bay lượn” thì “máy bay” và “ bay lượn” đều có trong từ điền

Nhập nhằng kết hợp:

Chuỗi “a b c” bị nhập nhằng kết hợp khi mà cả “a”,”b”,”a b” đều xuất hiện trong tử điển

Vi du: “Dan ga mới nở hôm qua chết mất hai con” Các từ ”đàn”, “gà”, “đàn gà” đều có nghĩa trong từ điền

Ngoài vấn để nhập nhằng khi tách từ tiếng Việt còn gặp các khó khăn trong việc xác định các từ chưa biết trước (đối với máy tính) như danh từ riêng, từ vay

mượn nước ngoài, từ chỉ số, các câu thành ngữ, từ lây

Mức độ giải quyết tốt hai vấn để trên sẽ quyết định hiệu suất của một phương pháp tách từ và quyết định nó có tốt hay không

2.4 LOẠI BỎ TỪ DỪNG

Từ dừng hay (còn gọi là Stop word) là những từ xuất hiện nhiêu trong tất cả các văn bản thuộc mọi thể loại trong tập dữ liệu, hay những từ chỉ xuất hiện trong một và một vài văn bản Nghĩa là stop word là những từ xuất hiện quá nhiều lần và quá ít lần Chúng không có ý nghĩa và không chứa thông tin đáng giá để chúng ta sử

dụng Ví dụ như các từ: thì, là, mà, và, hoặc, bởi

Trang 33

Trong việc phân loại văn bản thì sự xuất hiện của những từ đó không những không giúp gì trong việc đánh giá phân loại mà còn nhiễn và giảm độ chính xác của quá trình phân loại

2.5 MOT SO PHUONG PHAP TACH TU TIENG VIET

2.5.1 Phương pháp mô hình Markov 4n

Mô hình Markov (Hidden Markov Model - HMM) được giới thiệu vào cuối những năm 1960 [8] Cho đến hiện nay nó có một ứng dụng khá rộng như trong nhận dạng giọng nói, tính toán sinh học và xử lý ngôn ngữ tự nhiên

Mô hình Markov là mô hình máy hữu hạn trạng thái với các tham số biêu diễn xác suất chuyên trạng thái và xác suất sinh đữ liệu quan sát tại mỗi trạng thái

Mô hình Markov ấn là mô hình thống kê trong đó hệ thống được mô hình hóa

được cho là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ấn từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi

người quan sát, vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất Mô hình Markov ân thêm vào các đầu ra, mỗi trạng thái có xác suất phân bổ

trên các biểu hiện đầu ra có thể Vì vay, nhin vào dãy của các biểu hiện được sinh ra

bởi HMM không trực tiếp chỉ ra dãy các trạng thái

Trang 34

- x1: Cac trang thai trong m6 hinh Markov - aij: Các xác suất chuyển tiếp

- bij: Các xác suất đầu ra - vị: Các dữ liệu quan sát

Mô hình Markov ấn thêm vào các đầu ra, mỗi trạng thái có xác suất phân bố

trên các biểu hiện đầu ra có thể Vì vay, nhin vao dãy của các biểu hiện được sinh ra

bởi HMM không trực tiếp chỉ ra dãy các trạng thái Ta có tìm ra được chuỗi các trạng thái mô tả tốt nhất cho chuỗi dữ liệu quan sát được bằng cách tính

PCY | X)=P(Y | X)/ P(X)

Hình 2.2 Đồ thị vô hướng HMM

O đó Y, la trang thai tai thoi diém tht t=n trong chuỗi trạng thái Y, X„ là dữ liệu quan sát được tại thời điểm thứ /=ø trong chuỗi X Do trạng thái hiện tại chỉ

phụ thuộc vào trạng thái ngay trước đó với giả thiết rằng đữ liệu quan sát được tại

thời điểm t chỉ phu thuộc và trạng thái t Ta có thể tính PCY, X)

n

PƯ W = PŒi)P(Y+|Vi)[ |PƠ,IY-¡)*PŒ ,|V,)

t=2

Một số hạn chế của mô hình Markov dé tinh duoc xác suất P(Y,X) thông

thường ta phải liệt kê hết các trường hợp có thê của chuỗi Y và chuỗi X Thực tế thì

chuỗi Y là hữu hạn có thể liệt kê được, còn X (các dữ liệu quan sát) là rất phong

phú Đề giải quyết các vấn để này HMM đưa ra giả thiết về sự độc lập giữa các dữ

liệu quan sát Dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc vao trang thai tai

thời điểm đó Hạn chế thứ hai gặp phải là việc sử dụng xác suất đồng thời P (Y, X)

Trang 35

đôi khi không chính xác vì với một số bài toán thì việc sử dụng xác suất điều kiện

P(Y|X) cho kết quả tốt hơn rất nhiều

2.5.2 Phương pháp chuyền dịch trạng thái hữu hạn có trọng số và mạng Neural Chuyển địch trạng thái hữu hạn có trọng số (Weighted Finite-State Transducer - WFST) [6]

Ý tưởng chính của phương pháp này áp đụng cho tách từ tiếng Việt là các từ sẽ được gán trọng số bằng xác suất xuất hiện của từ đó trong đữ liệu Sau đó duyệt qua các câu, cách duyệt có trọng số lớn nhất sẽ là cách dùng đề tách từ

Trong phương pháp này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản:

Tiêu để, đoạn, câu; chuẩn hoá về chính tả tiếng Việt (cách bỏ dấu, cách viết các ký tự y, 1, trong tiếng Việt) Ví dụ: Vật lý = vật lí, thời kỳ = thời kì)

Sau đỏ câu được chuyển sang tầng WFST Trong tầng này tác giả xử lý thêm

các vấn để liên quan đến đặc thù của tiếng Việt, như: Từ láy, tên riêng, Cuối

Trang 36

2.5.2.1 Tang WFST

Hoạt động của WFST có thể chia thành ba bước sau:

+ Bước 1 Xây dựng từ điển trọng số: Trong mô hình WFST, thì việc phân

đoạn từ có thể được xem như là một sự chuyền dịch trạng thái có xác xuẤt Chúng ta miêu tả từ điển D là một đỗ thị biến đổi trạng thái hữu hạn có trọng số Giả sử :

H là tập các tiếng trong tiếng Việt;

P là tập các loại từ của từ trong tiếng Việt (POS: Part-Of-Speech) Mỗi cung của D có thể là:

Từ một phan tử của H tới một phần tử của H;

Ti phan tử e (xâu rỗng) đến một phần tử của P

Nói cách khác, mỗi từ được miêu tả trong từ điển D là một chuỗi tuần tự các

cung: Bắt đầu bằng một trạng thái ban đầu của D, được gán nhãn bằng một phần tử

Š thuộc H và kết thúc bởi một cung được gán nhãn là một phan từ của e x Nhãn

này biểu thị một chi phí ước lượng (lấy log của xác suất)

Chúng ta biểu điễn câu cần tách là một máy nhận trạng thái hữu hạn không có

trọng số (FSA - Finite State Acceptor) I trén H Gia su đã ton tai mot ham Jd ma đầu

vao la FSA A, va dau ra là một chuyển dịch mà các phân tử trong đó chỉ bao gồm

các phan tu thudc A (goi la D*) Mỗi từ được kết thúc bởi một cung biểu diễn sự

chuyển đổi giữa s và từ loại của chúng Xác suất chuyển đổi được tính bằng cách lay log của xác suất trong một tập mẫu lớn theo công thức:

Cost = - log(N)

Trong do, f: tần số xuất hiện của từ;

N: kích thước tập mẫu

Xác suất này được lưu vào trong từ điển Đối với các trường hợp từ mới chưa gặp tác giả áp dụng xác suất có điều kiện Good-Turning để tính toán trọng số cho các từ mới này

Trang 37

Giả sử ta có XYZ, trong đó XY là từ cơ bản, Z là hậu tố Ta cần tính: cost (XYZ);

Gọi p(Z): xác suất trong trường hợp này của Z (trường hợp Z đứng kề XY);

=> P (unseen(z)) = p[unseen(z)/Z] p(Z)

=> cost (XYZ) = cost (XY) + cost (unseen(Z))

Với cost được tính theo công thức trên

Do đó trong từ điển, đối với các từ tiền tổ và hậu tố (ta tạm gọi là Z) tác giả lưu thêm các xác suất của Z khi Z, đứng liền sau một từ loại nhất định

* Bước 2 Xây dựng các khả năng tách từ:

Bước này thống kê tất cả các khả năng tách từ của một câu Vấn đề ở đây là đề giảm sự bùng nỗ các cách tách từ, thuật toán sẽ loại bỏ ngay những nhánh tách từ nào đó không phù hợp mà chứa từ không xuất hiện trong từ điển, không phải là từ láy, không phải là danh từ riêng thì loại bỏ các nhánh xuất phát từ cách tách tử đó

Thật vậy, giả sử một câu gồm n âm tiết, mà trong tiếng Việt thì một từ có tối đa 4

âm tiết tức là ta sẽ có tối đa 2"! cách tách từ khác nhau Một câu tiếng Việt trung

bình có 24 âm tiết thì lúc đó ta phải giải quyết 8.000.000 trường hợp tách từ có thể

trong một câu

* Bước 3 Lựa chọn khả năng tách từ tối ưu: Sau khi liệt kê tất cả các khả năng tách từ, thuật toán sẽ chọn cách tách tốt nhất, đó là tách đoạn có trọn g số bé nhất

Trang 38

Trọng số theo mỗi cách tách từ được tính là:

“Tốc độ # truyền thông # tin # sẽ # tăng # cao.” (1) = 8.68 +12.31 + 7.33 + 6.09 + 7.43 +6.95 = 48.79 “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” (2) = 8.68 +12.31 + 7.24 + 6.09 + 7.43 +6.95 = 48.70 Do đó, ta có được tách tối ưu là tách đoạn (2) “Tốc độ # truyền # thông tin # sẽ # tăng #cao.”

2.5.2.2 Tang mang Neural

Sau khi cho câu được tách từ qua mô hình WFST Đề xác định kết quả tach tir trên có thực sự hợp lệ hay không, tác giả định nghĩa một ngưỡng gia tri to voi y nghĩa như sau: nếu sự chênh lệch về trọng số (giữa các cách tách từ khác nhau với cách tách từ có trọng số nhỏ nhất) lớn hơn to thì đó là kết quả tách từ có trọng số

nhỏ nhất đó đúng của câu và được chấp nhận Còn nếu sự chênh lệch đó không lớn hon to, thi cach tach từ có trọng số nhỏ nhất đó chưa được xem là kết quả tách từ

đúng của câu

Lúc này, ta sẽ đưa những cách tách từ của câu này qua mô hình mạng Neural

đê xử lý tiếp

Ví dụ: Sau khi qua phần xử lý WFST ta chỉ được ba cách tách từ có trọng số nhỏ nhất nhưng sự chênh lệch trọng số không lớn hơn to:

Học sinh/N học/V sinh học/N:

Học sinh/N học sinh/N học/V; Hoc/V sinh học/N sinh học/N

Thực tế trong tiếng Việt, có những dãy các loại từ không thể tuần tự đứng cạnh nhau theo luật ngữ pháp tiếng Việt Nếu ta muốn lọc lại những trường hợp mập mờ trên bằng luật cú pháp tiếng Việt, ta lại đụng đến vấn đề vô cùng phức tạp là phân tích cú pháp tiếng Việt

Trang 39

Chúng ta xét lại ví dụ ở phần trên, mô hình mạng Neural được để xuất dùng để ước lượng giá 3 dãy từ loại: NNV, NVN, VNN Mô hình này được học bằng

chính các câu mà cách tách từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhất Khi đó tác giả tách từ bằng tay cho các câu nhập nhằng này và sau đó đưa vào

máy học Để thực hiện việc kiểm tra sự hợp lệ của một dãy các từ loại trong một câu, tác giả dử dụng một “ngữ cảnh k” cho mỗi từ có trong câu, ta sử dụng một cửa số trượt có kích thước là k từ và mảng mô tả của nó trượt trên câu cần xét bắt

đầu từ từ đầu tiên đến từ cuối cùng trong câu Thực tế mô hình mạng gồm 6 nút

nhập, 10 nút ấn và một nút xuất

Tầng nhập của mạng được kết nối hoàn toàn với một tầng ân gồm 10 nút với một hàm truyền Những nút ân này lại được kết nối hoàn toàn với một tầng xuất chỉ

gồm 1 nút Nút xuất là một giá trị thực nam giữa 0 1 Biéu thi cho kha năng hợp lệ của một dãy các từ loại đứng liền nhau trong một cửa số trượt Khi cửa số trượt

trượt từ đầu câu đến cuối câu, cộng đồn các kết quả lại với nhau và gán giá trị này vào thành trọng số của câu Hàm truyền được chọn là hàm sigmoid: rh,y=— lre7 Đây là một hàm thông dụng trong các mạng Neural Câu được chọn tức là câu có trọng số lớn nhất * Nhận xét:

Nhược điểm chính của thuật toán là việc đánh trọng số dựa trên tần số xuất

hiện của từ, nên khi tiến hành tách thì không tránh khỏi các nhập nhằng trong tiếng Việt Hơn nữa với những văn bản dài thì phương pháp này còn gặp phải sự bùng nỗ

các khả năng phân đoạn của từng câu

Ưu điểm của phương pháp này là sẽ cho độ chính xác cao nếu ta xây đựng

được một dữ liệu học đầy đủ và chính xác Nó còn có thể kết hợp với các phương

pháp khử nhập nhằng (phương pháp mang Neural) dé cho két quả tách rất cao (có

Trang 40

2.5.3 Phương pháp so khớp cực đại

Phương pháp so khớp cực đại (Maximum Matching) còn gọi là Left Right

Maximum Matching Nội dung thuật toán này dựa trên thuật toán đã được Chih-

Hao Tsai [7] giới thiệu năm 1996

* Tư tưởng của phương pháp so khớp cực đại là duyệt một câu từ trái qua phải

và chọn từ có nhiễu tiếng nhất có mặt trong tử điển tiếng Việt, rồi cứ thể tiếp tục

cho từ kế tiếp cho đến hết câu * Đầu vào: Chuỗi ký tự

* Ddu ra: Chuỗi từ, cụm từ (Từ có chiều dài đài nhất)

2.5.3.1 Thuật toán so khớp cực đại dạng đơn giản

Giả sử chúng ta có một câu S={C 1, C2, C3 ., Cn}, voi Cl, C2, C3 ., Cn la

các tiếng được tách bởi khoảng trắng trong câu

Chúng ta bắt đầu đuyệt từ đầu chuỗi, xác định đâu là từ Đầu tiên chúng ta sé kiểm tra xem C1 có phải là từ có trong từ điển không sau đó kiểm tra tiếp CIC2 có

trong từ điển hay không Tiếp tục như vậy C1C2C3, ., CIC2C3 Cn, với n là số

tiếng lớn nhất của một từ có thể có nghĩa (có trong từ điển tiếng Việt) Sau đó chúng ta chọn từ có nhiều tiếng nhất có mặt trong từ điển và đánh đấu từ đó Sau đó tiếp tục quá trình trên với tất các các tiếng còn lại trong câu và trong toàn bộ văn bản

Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn, khá đơn giản nhưng nó gặp phải rất nhiều nhập nhằng trong tiếng Việt

Ví đụ: Cho câu “ Học sinh học sinh học” Nó sẽ gặp phải lỗi khi tách từ câu sau: “học sinh | học sinh | học”, câu đúng phải là “học sinh| học| sinh học”

2.5.3.2 Thuật toán so khớp cực đại dạng phức tạp

Thuật toán này thực hiện quy trình cũng giống như dạng đơn giản Tuy nhiên, dạng này có thê tránh được một số nhập nhằng gặp phải trong dạng đơn giản Đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giải quyết

Tiêu đề	Tìm hiểu kỹ thuật tách từ và ứng dụng vào tự động phân loại văn bản
Tác giả	Đoàn Văn Đông
Người hướng dẫn	TS. Trần Thanh Lương, PGS. TS. Lê Mạnh Thạnh
Trường học	Đại học Huế
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Thừa Thiên Huế

Định dạng
Số trang	62
Dung lượng	26,79 MB