Ứng dụng NaiveBayes trong phân loại văn bản tiếng Việt

Một phần của tài liệu Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt (Trang 31)

2.2.1.1. Đặc điểm

Trong tất cả các ngơn ngữ, ngƣời ta thƣờng phân chia dịng ngữ lƣu thành các âm tiết. Âm tiết là đơn vị phát âm tối thiểu của lời nĩi. Nghiên cứu âm tiết tức là nghiên cứu sự tổ hợp các âm vị (phơmen) trong dịng lƣu ngữ, ví dụ nhƣ các thực từ.

Một điểm cơ bản nhất của các âm tiết tiếng Việt là ranh giới của âm tiết tiếng Việt trùng với ranh giới của hình vị (moocphem), tức là mỗi âm tiết đều đĩng vai trị là dấu hiệu của một hình vị (moocphem), đơn vị cĩ nghĩa dùng làm thành tố cấu tạo từ. Lời nĩi của con ngƣời là một chuỗi âm thanh đƣợc phát ra kế tiếp nhau trong khơng gian và thời gian . Viê ̣c phân tích chuỡi âm thanh ấy ngƣời ta nhâ ̣n ra đƣợc các đơn vi ̣ của ngƣ̃ âm . Khi mơ ̣t ngƣời phát ngơn "Hà Nội mùa này vắng những cơn mƣa ", chúng ta nghe đƣợc những khúc đoạn tự nhiên trong chuỗi lời nĩi đĩ nhƣ sau:

Hà / Nợi / mùa / này / vắng / những / cơn / mưa

Nhƣ̃ng khúc đoa ̣n âm thanh này khơng thể chia nhỏ hơn đƣợc nƣ̃a dù chúng ta cĩ cố tình phát âm thâ ̣t châ ̣m, thâ ̣t tách ba ̣ch. Điều đó chƣ́ng tỏ rằng,

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

đây là nhƣ̃ng khúc đoa ̣n âm thanh tƣ̣ nhiên nhỏ nhất khi phát âm , và đƣợc gọi là âm tiết . Trong tiếng Viê ̣t , mơ ̣t âm tiết bao giờ cũng đƣợc phát ra với mơ ̣t thanh điê ̣u, và tác h rời với âm tiết khác . Vì vậy, viê ̣c nhâ ̣n ra âm tiết trong tiếng Viê ̣t là dễ dàng hơn nhiều so với các ngơn ngƣ̃ Ấn Âu . Trên chƣ̃ viết , mỡi âm tiết tiếng Viê ̣t đƣợc ghi thành mơ ̣t "chƣ̃".

Đặc điểm thứ hai của âm tiết tiếng Việt là mỗi âm tiết tiếng Việt đều gắn liền với một trong sáu thanh điệu (khơng, huyền, ngã, hỏi, sắc, nặng) vì tiếng Việt là loại ngơn ngữ cĩ thanh điệu khác với ngơn ngữ khác. Thanh điệu tham gia vào việc cấu tạo từ, làm chức năng phân biệt ý nghĩa của từ và làm

dấu hiệu phân biệt từ. Ví dụ ba, bà, bã, bả, bá, bạ mỗi từ cĩ một nghĩa riêng.

Thanh điệu cĩ chức năng nhƣ một âm vị, nĩ gắn liền với âm tiết và biểu hiện trong tồn âm tiết [2].

Do đĩ đặc điểm trên mà âm tiết cĩ vị trí rất quan trọng trong việc nghiên cứu âm tiếng Việt. Muốn xác định thành phần âm vị của ngơn ngữ, ngƣời ta thƣờng xuất phát từ việc xác định các hình vị rồi từ các moocphem đĩ mà phân tích ra các âm vị. hình vị trong tiếng Việt trùng hợp với các âm tiết; chúng ta xuất phát từ việc phân tích các âm tiết để xác định các âm vị. Nếu nhƣ trong ngơn ngữ Ấn – Âu, âm tiết chỉ là vấn đề thuộc hàng thứ yếu so với âm vị và hình vị thì trong tiếng Việt, âm tiết là vấn đề hàng đầu của âm vị học.

2.2.1.2. Cấu trúc âm tiết

Mỡi âm tiết tiếng Viê ̣t là mơ ̣t khới hoàn chỉnh trong phát âm . Trên thƣ̣c

tế khơng ai phát âm tách nhỏ cái khới đó ra đƣợc trƣ̀ nhƣ̃ng ngƣời nói lắp .

Trong ngƣ̃ cảm của ngƣời Viê ̣t , âm tiết tuy đƣợc phát âm liền mơ ̣t hơi , nhƣng khơng phải là mơ ̣t khới bất biến mà có cấu ta ̣o lắp ghép . Khới lắp ghép ấy có thể tháo rời tƣ̀ng bơ ̣ phâ ̣n của âm tiết này để hoán vi ̣ với bơ ̣ phâ ̣n tƣơng ƣ́ng của ở âm tiết khác. Ví dụ:

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

tiền đâu ---> đầu tiên đảo trâ ̣t tƣ̣ âm tiết và hoán vi ̣ thanh điê ̣u "`" hiê ̣n đa ̣i ---> hại điện hốn vị phần sau "iên" cho "ai"

nhỉ đay ---> nhảy đi thanh điê ̣u giƣ̃ nguyên vi ̣ trí cùng với phần đầu "nh"

và "đ"

Mỗi âm tiết tiếng Việt cĩ 3 bộ phận: phụ âm đầu, vần và thanh điệu, ví dụ: Thanh điệu: khơng (zero), huyền ( `), hỏi (?), ngã (~), sắc ( ′ ), nặng (.)

t Âm đầu

Vần

o a n

Âm đệm Âm chính Âm cuối

Âm đầu là một trong các phụ âm và bởi vậy cịn gọi là phụ âm đầu

Âm đê ̣m là yếu tố đứng ở vị trí thứ hai , sau âm đầu , là âm vị bán nguyên âm /u/ (xem Bảng âm vi ̣ nguyên âm ) và âm vị "zero" (âm vi ̣ trớng ). Âm đê ̣m "zero" cĩ thể tồn tại cùng tất cả các âm đầu, khơng có ngoa ̣i lê ̣

Âm chínhđƣ́ng ở vi ̣ trí thƣ́ ba trong âm tiết , là hạt nhân, là đỉnh của âm

tiết, nĩ mang âm sắc chủ yếu của âm tiết . Âm chính trong tiếng Viê ̣t do

nguyên âm đảm nhiê ̣m . Nguyên âm của tiếng Viê ̣t chỉ có chƣ́c năng làm âm chính và nĩ khơ ng bao giờ vắng mă ̣t trong âm tiết . Vì mang âm sắc chủ yếu của âm tiết nên âm chính là âm mang thanh điệu. Ví dụ: a, ơ, ê.

Âm cuớicĩ vị trí cuối cùng của âm tiết , nĩ cĩ chức năng kết thúc một âm tiết. Âm cuới là bán nguyên âm /u/ (ngắn) cĩ âm sắc trầm chỉ đƣợc phân bớ sau các nguyên âm bởng và trung hoà, trƣ̀ nguyên âm "ơ" ngắn, ví dụ trong níu, áo, bêu dếu, cầu cƣ́u... Bánnguyên âm cuối /i/ (i ngắn) cĩ âm sắc bổng chỉ đƣợc phân bớ sau các nguyên âm trầm và

trunghồ, ví dụ trong tơi, chơi, túi, gƣ̉i, lấy...

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Thanh điê ̣u là một yếu tố thể hiện độ cao và sự chuyển biến của độ cao trong mỡi âm tiết. Mỡi âm tiết tiếng Viê ̣t nhất thiết phải đƣợc thể hiê ̣n với mơ ̣t thanh điê ̣u. Thanh điê ̣u có chƣ́c năng phân biê ̣t với âm thanh, phân biê ̣t nghĩa của từ.

Cĩ nhiều ý kiến khác nhau về vị trí của thanh điệu trong âm tiết. Nhƣng ý kiến cho rằng thanh điệu nằm trong cả quá trình phát âm của âm tiết (nằm trên toàn bơ ̣ âm tiết) là đáng tin cậy nhất về vị trí của thanh điệu.

2.2.2. Rút trích đặc trưng

2.2.2.1 Giảm chiều đặc trưng

Dữ liệu trong thế giới thực (real world data), chẳng hạn nhƣ tín hiệu tiếng nĩi, ảnh kỹ thuật số, ảnh scan MRI, thƣờng cĩ số chiều đặc trƣng rất lớn. Để xử lý các dữ liệu này một cách đầy đủ, sẽ rất phức tạp và tốn thời gian. Do vậy, trong thực tế, ta cĩ thể giảm chiều đặc trƣng xuống một mức cĩ thể, sau đĩ sẽ tính tốn trên số chiều đặc trƣng đã đƣợc giảm. Lý tƣởng nhất, cần biểu diễn các chiều tƣơng ứng với chiều nội tại của dữ liệu. Chiều nội tại của dữ liệu là số lƣợng đặc trƣng tối thiểu nhất để cĩ thể mơ tả đƣợc thuộc tính của dữ liệu. Giảm chiều trở thành một bài tốn ứng dụng trong nhiều lĩnh vực, những bài tốn phức tạp trở nên đơn giản và dễ ứng dụng hơn trong cuộc sống.

Trong máy học và thống kê, giảm chiều hoặc giảm chiều là quá trình làm giảm số lƣợng các biến ngẫu nhiên đƣợc xem xét, và cĩ thể đƣợc chia thành hai phần chính: lựa chọn đặc trƣng (Feature selection) và trích rút đặc trƣng (Feature extraction).

- Lựa chọn đặc trƣng: Là cách tìm một tập hợp con của các biến ban đầu (cịn gọi là tính năng hoặc các thuộc tính). Trong một số trƣờng hợp, phân tích dữ liệu nhƣ hồi quy hoặc phân loại cĩ thể đƣợc thực hiện trong khơng gian đã đƣợc giảm chiều chính xác hơn trong khơng gian ban đầu.

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

- Trích rút đặc trƣng: Trích rút đặc trƣng biến đổi các dữ liệu trong khơng gian cĩ số chiều lớn (high dimensional space) tới một khơng gian cĩ số chiều ít hơn. Việc chuyển đổi dữ liệu này cĩ thể sử dụng phƣơng pháp tuyến tính, nhƣ phân tích thành phần chính (PCA), hoặc cĩ thể sử dụng những kỹ thuật giảm chiều phi tuyến tính. Đối với dữ liệu đa chiều, biểu diễn tensor cĩ thể đƣợc sử dụng thơng qua phƣơng pháp học trong khơng gian con đa tuyến (multilinear subspace).

Hình 2.2. Trực quan hĩa dữ liệu giảm chiều

Đối với dạng dữ liệu văn bản, số lƣợng đặc trƣng trở nên hàng nghìn, hàng trăm nghìn đặc trƣng. Để xử lý các đặc trƣng này, thƣờng mất khá nhiều thời gian trong việc trích rút đặc trƣng, và tính tốn các đặc trƣng. Do đĩ rất khĩ khăn khi xây dựng thành những hệ thống xử lý văn bản ứng dụng trong thực tế.

Các phƣơng pháp giảm chiều trong văn bản hiện nay: - Loại bỏ các từ dừng (stop words):

Loại bỏ từ dừng là phƣơng pháp sử dụng tập các từ dừng (đã đƣợc xây dựng thủ cơng) từ đĩ đối sánh với văn bản và loại bỏ chúng ra khỏi văn bản nếu thấy chúng xuất hiện tại văn bản cần xử lý.

2D - Coordinates Data - base Excel Preprp - cessing Dimension - reduction Raw data Features Attributess Visualiation

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Stopwords

a It these

about Its they

again Itself this

all Just those

almost Kg through

although Km thus

always Made to

among May upon

an Mg using

another Might various

any Ml very

are Mn was

as Most we

at Mostly were

Hình 2.3. Danh sách một số từ dừng

- Chỉ số ngữ nghĩa ẩn (Latent Semantic Indexing):

LSI dựa trên giả định rằng cĩ một số cấu trúc ngữ nghĩa tiềm ẩn cơ bản trong ma trận tần suất từ văn bản, nĩ quy định một số lƣợng các từ sử dụng trong văn bản và các câu truy vấn, hay cịn đƣợc gọi là đồng nghĩa hoặc đa nghĩa. Ý tƣởng chính là nếu hai tài liệu cĩ véc tơ đại diện cho cùng một chủ đề, chúng sẽ chia sẻ với nhau nhiều từ kết hợp với một từ khĩa, và ta cĩ thể cĩ những cấu trúc ngữ nghĩa rất gần sau khi đã giảm chiều qua SVD (Singular Value Decomposition). Nhƣ vậy LSI/SVD sẽ ngắt các mối quan hệ ban đầu của dữ liệu đƣa vào các thành phần độc lập tuyến tính. Các véc tơ thuật ngữ ban đầu đƣợc biểu diễn bởi các véc tơ đơn bên trái và các véc tơ tài liệu bằng các véc tơ đơn bên phải [5].

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Hình 2.4. Chỉ số ngữ nghĩa ẩn

- Sử dụng từ loại danh từ

Một số nghiên cứu trong xử lý tiếng nĩi và văn bản đã chỉ ra rằng, giảm chiều trong văn bản bằng cách chỉ giữ lại những từ mang thơng tin của văn bản (hay cịn gọi là từ chủ đề) mang lại sự đơn giản hơn nhiều trong quá trình xử lý. Các thực nghiệm đã chứng minh với cách tiếp cận này, sẽ giảm đƣợc tới 50% thời gian cho xử lý dữ liệu nhiều chiều trên văn bản.

2.2.2.2 Giảm chiều đặc trưng bằng mơ hình chủ đề

Các tri thức hiện nay vẫn đang đƣợc số hĩa và lƣu trữ trong các trang tin tức, blog bài báo khoa học, các trang web và các mạng xã hội,.. quá nhiều thơng tin lƣu trữ, do đĩ sẽ rất khĩ khăn để tìm kiếm và tổ chức dữ liệu, cũng nhƣ định nghĩa (define) một dữ liệu cụ thể. Do vậy, chúng ta cần những cơng cụ tính tốn mới giúp tổ chức, tìm kiếm và hiểu (understand) những lƣợng lớn thơng tin. Giả sử khi gõ vào ơ tìm kiếm một từ khĩa, kết quả trả về sẽ là một tập hợp tài liệu liên quan thơng tin tới từ khĩa đĩ.

Trong học máy và xử lý ngơn ngữ tự nhiên, một mơ hình chủ đề là một loại mơ hình thống kê để phát hiện ra các "chủ đề" trừu tƣợng xảy ra trong một bộ sƣu tập các tài liệu. Giả sử, cho rằng một tài liệu nĩi về một chủ đề cụ thể, ngƣời ta sẽ kỳ vọng từ đặc biệt để xuất hiện trong các tài liệu nhiều hơn hoặc ít hơn: "dog" và "bone" sẽ xuất hiện thƣờng xuyên hơn trong các tài liệu về những con chĩ, "cat" và "meow" sẽ xuất hiện trong các tài liệu về những con mèo, và "the" và "is" sẽ xuất hiện nhƣ nhau trong cả hai. Một tài liệu

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

thƣờng liên quan đến nhiều chủ đề trong tỷ lệ khác nhau; do đĩ, trong một tài liệu là 10% về mèo và 90% về chĩ, cĩ lẽ sẽ từ con chĩ hơn khoảng 9 lần so với từ con mèo. Một mơ hình chủ đề sử dụng mơ hình tốn học, cho phép kiểm tra một tập tài liệu và phát hiện, dựa trên số liệu thống kê của các từ trong mỗi tài liệu, dựa vào đĩ cĩ thể dự đốn đƣợc chủ đề của văn bản là gì [11].

Hình 2.5 dƣới đây mơ tả việc sắp xếp một văn bản vào chủ đề phù hợp. Cột bên trái (topics) là các từ đƣợc tách ra và tính tốn giá trị trọng số. Cột bên phải là vấn đề gán văn bản vào chủ đề phù hợp dựa trên tỉ lệ, trong bƣớc này cĩ thể sử dụng các thuật tốn so khớp (match) hoặc mơ hình học để phân vào đúng lớp chủ đề dựa trên giá trị các từ đã đƣợc tính tốn tại cột phía trái.

Hình 2.5. Mơ tả việc sắp xếp một văn bản vào chủ đề phù hợp

Hình 2.6 dƣới đây là mơ tả một cách suy diễn chủ đề dựa trên các thuật ngữ đƣợc trích rút từ trong tập các văn bản dựa trên xác suất. Biểu đồ phía trái thể hiện tỉ lệ của văn bản đang xét tại Hình 2.2, so khớp với 100 chủ đề dựa trên mơ hình LDA với 17,000 bài báo từ tạp chí khoa học (Science journal). Cột bên phải là danh sách các từ trong bài báo đang xét đƣợc tìm thấy nằm trong một số các chủ đề nhƣ Di truyền (Genetics), tiến hĩa (evolution), Triệu chứng bệnh (Disease) và Máy vi tính (Computers)

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Hình 2.6. Mơ tả một cách suy diễn chủ đề dựa trên các thuật ngữ

Khái niệm mơ hình chủ đề đƣợc Griffiths và Steyvers đƣa ra lần đầu tiên vào những năm 2002, 2003. Tiếp theo vào năm 2007, Griffiths và các cộng sự đã sinh ra một mơ hình xác suất cho văn bản dựa trên mơ hình phân phối ẩn Dirichlet (LDA). Nĩ đƣợc mơ tả là một loại mơ hình thống kê để phát hiện ra các "chủ đề" trừu tƣợng xảy ra trong một bộ sƣu tập các tài liệu. Khi cho rằng một tài liệu nĩi về một chủ đề cụ thể, ngƣời ta sẽ mong đợi từ đặc biệt để xuất hiện trong các tài liệu nhiều hơn hoặc ít hơn: Một tài liệu thƣờng liên quan đến nhiều chủ đề trong tỷ lệ khác nhau [11];

Bảng 2.1. Các từ chủ đề trong tập mơ tả của Andrews năm 2009.

Theatre Stage Arts Play Dance Opera Cast Music Band Rock Song Record Pop dance League Cup Season Team Game Match Division Prison Years Sentence Jail Home Prisoner serving Rate Cent Inflation Recession Recovery Economy cut Pub Guinness Beer Drink Bar Dringking Alcohol Market Stock Exchange Demand Share Group news Railway Train Station Steam Rail Engine track

Với bảng trên, mỗi cột mơ tả cho một chủ đề riêng biệt. Các nghiên cứu trƣớc xây dựng mơ hình các từ chủ đề dựa trên Bayes hay mơ hình Markov ẩn.

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

* Xây dựng mơ hình chủ đề dựa trên phân phối ẩn Dirichlet

Các chủ đề tiêu chuẩn mơ tả trong nghiên cứu Griffiths và Steyvers (2002, 2003); Griffiths et al. (2007) đã đƣa tới một mơ hình xác suất sinh ra từ việc khai phá những quy luật tiềm ẩn trong các văn bản dựa trên Phân phối ẩn Dirichlet (LDA) nhƣ là mơ hình Blei, Ng, và Jordan (2003). Nĩ quy định rằng mỗi từ trong một kho dữ liệu văn bản đƣợc rút ra từ một bản phân phối ẩn

∅1 … ∅𝑘 … ∅𝐾 =° ∅ với mỗi ∅𝑘là một phân bố xác suất trên từ loại V trong một từ vựng cố định. Những phân tán đĩ đƣợc gọi là những chủ đề. Nhƣ vậy, mỗi chủ đề là một cụm các thuật ngữ cĩ liên quan tƣơng ứng với một chủ đề

Một phần của tài liệu Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt (Trang 31)

Tải bản đầy đủ (PDF)

(70 trang)