Mục tiêu của luận văn này là hiện thực các phương pháp phân loại cho kết quả cao trên tiếng Anh cho tiếng Việt để so sánh nhằm tìm ra phương pháp nào cho kết quả tốt nhất trên một tập dữ
TỔNG QUAN
Ngày nay, Internet đóng một vai trò quan trọng trong việc lưu trữ và truyền tải thông tin của nhân loại Song song đó, quá trình xuất bản tài liệu dưới dạng số và phổ biến chúng thông qua Word Wide Web (thường gọi tắt là Web) đang diễn ra mạnh mẽ đã tạo nên sự bùng nổ thông tin trên Internet Một ví dụ điển hình cho hình thức này đó là xuất bản báo điện tử, một loại hình báo chí được thực hiện trên hệ thống máy tính hay trên mạng Internet Với những ưu điểm của mình như: sự phong phú, cập nhật tin tức thường xuyên trong mọi lĩnh vực từ: chính trị, xã hội, kinh tế, văn hoá, giải trí, thể thao, công nghệ nên các báo điện tử đã thu hút hàng triệu lượt truy cập mỗi ngày
Với tốc độ cập nhật tin tức nhanh chóng, nên số lượng tin tức được đăng sau một khoảng thời gian là rất lớn Vì thế, một loại báo điện tử trở nên thịnh hành thời gian gần đây là báo tổng hợp tin tức từ các báo điện tử khác Loại báo điện tử này có khả năng tổng hợp các tin tức mới được cập nhật từ nhiều nguồn báo điện tử khác nhau, sau đó máy móc và phần mềm tự động phân loại, tổ chức và sắp xếp tin tức theo mục mà không cần con người biên tập Một yêu cầu lớn đặt ra là làm thế nào để phân loại tin tức một cách tự động, vì số lượng tin tức cần phân loại là rất lớn Do đó, bài toán phân loại tin tức tự động trên báo điện tử là vấn đề đang được quan tâm Để máy tính có thể giúp được con người trong việc phân loại tin tức thì nó phải hiểu được nội dung mà tin tức đề cập đến Điều này thúc đẩy nhiều kỹ thuật và ứng dụng ra đời trong đó xử lý ngôn ngữ tự nhiên (Nature Language Processing) giúp cho máy tính phần nào hiểu được ngôn ngữ con người Hướng tiếp cận nhằm hiểu một cách đầy đủ ngữ nghĩa của một mẫu tin tức trên Web đòi hỏi phân tích ngôn từ và văn phạm được sử dụng trong mẫu tin tức đó phải thật chuẩn xác Nhưng đối với
2 một nơi được cho là khá tự do và hỗn độn trong truyền tải thông tin như Internet thì điều này là không khả thi
Một hướng tiếp cận khác hợp lý hơn là thay vì bắt buộc máy phải hiểu rõ nội dung của mẫu tin dưới dạng ngôn ngữ của con người thì ta chỉ cần yêu cầu chúng nắm bắt được các nội dung chính quan trọng mà mẫu tin đó thể hiện Ví dụ các mẫu tin tức liên quan đến chủ đề “Âm nhạc” thì tần suất xuất hiện của các từ như
“liveshow”, “âm nhạc”, “ca sĩ”, “ca khúc”… thường nhiều hơn trong các mẫu tin tức liên quan đến “Thể thao” Hay các từ “cổ phiếu”, “vn-index”, “niêm yết”, “trái phiếu”… xuất hiện nhiều hơn trong các mẫu tin về “Chứng khoán” so với chủ đề về
“Ẩm thực” Khai thác được thông tin này thì máy có thể hiểu được mẫu tin đang đề cập đến chủ đề nào, nên nó có thể phân loại được các mẫu tin tức
1 2 Bài toán và phạm vi
Về bản chất, các mẫu tin tức trên báo điện tử là các văn bản nhưng được lưu trữ dưới dạng số Do đó, bài toán phân loại tin tức trên báo điện tử chính là bài toán phân loại văn bản Trong bài toán phân loại văn bản, người ta chia theo hai hướng: phân loại văn bản đơn nhãn (văn bản chỉ thuộc về một chủ đề) và phân loại văn bản đa nhãn (văn bản có thể thuộc về nhiều hơn một chủ đề) Một ví dụ về văn bản đa nhãn như một bài báo đề cập đến “sự kiện khai trương của một chuỗi nhà hàng khách sạn với các món ăn đặc sản miền tây” có thể được phân loại vào cả hai chủ đề “Kinh doanh” và “Ẩm thực” Trong luận văn này, chúng tôi chỉ giải quyết bài toán phân loại văn bản đơn nhãn cho tiếng Việt theo phương pháp học có giám sát Để dễ dàng hơn trong việc trình bày, từ phần này trở về sau chúng tôi sử dụng thuật ngữ “phân loại văn bản” thay cho “phân loại tin tức” và “các văn bản” thay cho
1 3 Các công trình liên quan
Trong bài toán phân loại văn bản, theo nghiên cứu của Sebastiani (2002) có hai hướng tiếp cận truyền thống: một là hướng tiếp cận được sử dụng phổ biến vào đầu những năm 80, đó là có sự trợ giúp của con người trong việc xây dựng hệ thống chuyên gia với các luật được xác định bằng tay Các luật là các biểu thức luận lý bằng cách kết hợp các từ trong văn bản với các toán tự luận lý như AND, OR, NOT và mỗi một luật tương ứng với một loại chủ đề Hai là đến những năm 90 thì hướng tiếp cận
3 học máy (machine learning) trở nên chiếm ưu thế hơn, hệ thống được cung cấp với một tập các văn bản đã được gán chủ đề hoặc chưa gán chủ đề Tập các văn bản này được sử dụng như là tập huấn luyện (training set) và sau đó một bộ phân loại được xây dựng tự động dựa trên tập huấn luyện này
Tiếng Anh là ngôn ngữ hiện đang được sử dụng khá thông dụng trên thế giới, nên các kỹ thuật phân loại cho văn bản tiếng Anh cũng được nghiên cứu khá nhiều
Theo hướng tiếp cận học máy, nhiều kỹ thuật đang được sử dụng và tỏ ra có hiệu quả khá cao chẳng hạn như: Nạve Bayes (NB), K-Nearest Neighbor (KNN), Support
Vector Machine (SVM), Decision Tree (DT), Neural Network (NN), AdaBoost.MH, Genetic algorithms … các công trình nghiên cứu như Sebastiani (2002), Villena- Román và CS 1 (2011) đã tổng hợp và so sánh hiệu quả của các kỹ thuật này trên cùng một tập dữ liệu như tập dữ liệu chuẩn Reuters-21578, kết quả thực nghiệm cho thấy kỹ thuật SVM và AdaBoost.MH cho hiệu suất cao nhất
Mỗi một kỹ thuật đều có những ưu điểm và khuyết điểm riêng như theo
Sebastiani (2002) thì ưu điểm của hướng tiếp cận dựa trên luật là kết quả phân loại con người có thể dễ dàng hiểu được, nhưng kiến thức chuyên gia về lãnh vực đó được yêu cầu Và nó có nhược điểm là nếu số lượng chủ đề lên đến hàng trăm, hoặc thậm chí hàng ngàn thì hướng tiếp cận này không phù hợp Trong khi đó, ưu điểm của hướng tiếp cận học máy chỉ cần kiến thức miền (domain knowledge) để gán chủ đề cho các văn bản trong tập huấn luyện, nhưng trong hầu hết các trường hợp thì con người không thể hiểu được Vì vậy, rất khó để xác định nguyên nhân phân loại sai và tinh chỉnh hệ thống
Do đó, trong những năm gần đây các nhà nghiên cứu đã tìm cách kết hợp các kỹ thuật để bổ sung khuyết điểm cho nhau nhằm nâng cao kết quả phân loại như nghiên cứu của Villena-Román và CS (2011) đề xuất một hướng tiếp cận lai, đó là kết hợp giải thuật học máy dựa trên kỹ thuật KNN với hệ thống chuyên gia dựa trên luật Trong đó, hệ thống chuyên gia được dùng hậu xử lý và cải thiện kết quả được cung cấp bởi bộ phân loại KNN bằng cách lọc các văn bản false positive (các văn bản này thực chất không thuộc chủ đề c nhưng lại được phân loại thuộc chủ đề c) và giải quyết các văn bản false negatives (các văn bản thuộc chủ đề c nhưng bị phân loại không thuộc chủ đề c)
1 Cụm từ những Cộng sự được chúng tôi viết tắt thành CS
4 Sự kết hợp giữa kỹ thuật KNN với hệ thống chuyên gia dựa trên luật đạt được hai lợi ích: một là bộ phân loại không yêu cầu một chuyên gia để huấn luyện mà nó chỉ cần huấn luyện một tập các văn bản đã được gán chủ đề Hai là bộ phân loại dễ dàng được tinh chỉnh bằng cách thêm các luật cụ thể cho các chủ đề bị đụng độ (the conflicting categories) Do đó, độ chính xác của nó cũng đạt được như trong hệ thống chuyên gia, kết quả đánh giá trên tập dữ liệu Reuters-21578 cho thấy hướng tiếp cận này đạt được độ chính xác ít nhất cũng có thể so sánh được với kỹ thuật SVM và AdaBoost.MH
Yuan và CS (2008) đề xuất giải quyết bài toán phân loại văn bản đa chủ đề bằng cách kết hợp kỹ thuật SVM và kỹ thuật KNN Vì theo các tác giả thì hai kỹ thuật này được dùng phổ biến và đạt hiệu suất cao về cả lý thuyết và thực tế Thông thường trong phân loại văn bản, hướng tiếp cận phổ biến của kỹ thuật SVM cho bài toán đa chủ đề là một đấu một (1-vs-1) và một đấu tất cả (rest) Cả hai hướng tiếp cận trên đều tốn nhiều thời gian và có nhiều trường hợp không thể phân tách được Do đó, để giải quyết vấn đề này các tác giả đã tích hợp phương pháp học tiến hóa (incremental learning method) vào trong bộ phân loại kết hợp SVM và KNN
CƠ SỞ LÝ THUYẾT
2 1 Các đặc điểm cơ bản của tiếng Việt
Theo nghiên cứu của Dinh và CS (2001), tiếng Việt là ngôn ngữ đơn lập (isolating language), nó không giống như các ngôn ngữ đơn lập khác như tiếng Trung, tiếng Thái, tiếng Việt được viết dưới dạng các ký tự Latin mở rộng Vì thế, cách xử lý của các ngôn ngữ khác không thể áp dụng một cách máy móc cho tiếng Việt được
Trong ngôn ngữ học, từ (word) là đơn vị cơ bản Do đó, để xử lý tiếng Việt, việc đầu tiên nhất mà ta phải làm đó là xác định biên giới từ, mà hiện nay vẫn là vấn đề cần phải nghiên cứu nhiều hơn
Tiếng (syllable) hay còn gọi là hình vị (morpheme) là đơn vị nhỏ nhất mà chỉ có một cách để phát âm theo nghiên cứu của Nguyen và CS (2006) Trong văn viết, chúng thường được định giới bởi khoảng trắng Trong văn nói, mỗi tiếng gồm có 5 thành phần (Bảng 2.1): phụ âm đầu (first consonant), nguyên âm hai (secondary vowel), nguyên âm chính (main vowel), phụ âm cuối (last consonant) và dấu (a tone mark)
Phụ âm hai Nguyên âm chính Phụ âm cuối
Bảng 2.1: Cấu trúc của một tiếng trong tiếng Việt
Ví dụ, tiếng “tuần” có dấu (huyền), phụ âm đầu (t), nguyên âm hai (u), nguyên âm chính (â) và phụ âm cuối (n) Tuy nhiên, ngoại trừ nguyên âm chính bắt buộc phải có trong tất cả các tiếng, còn các thành phần khác có thể có hoặc không Ví dụ, tiếng
“anh” không có dấu, không có nguyên âm hai và không có phụ âm đầu Hoặc tiếng
“hoa” có nguyên âm hai (o) nhưng không có phụ âm cuối
Có nhiều định nghĩa khác nhau cho từ nhưng theo Dinh và CS (2001) thì tất cả các nhà ngôn ngữ học đều cho rằng từ có những đặc điểm sau:
- Từ phải là nguyên (integral) về mặt hình thức, ngữ nghĩa và độc lập về mặt ngữ pháp
- Từ phải được cấu tạo từ tiếng
- Từ bao gồm các từ đơn giản (1-tiếng như “đi”, “ngồi”, “đứng”) và các từ phức (n-tiếng với n < 5 như “học hành”, “khập khà khập khiểng”, “xanh xanh”)
2 2 So sánh, đối chiếu giữa tiếng Anh và tiếng Việt
Bảng 2.2: So sánh đặc điểm tiếng Việt và tiếng Anh
Theo nghiên cứu của Nguyen và CS (2006) thì trong tiếng Anh “từ là một nhóm các ký tự mang nghĩa được phân tách bởi khoảng trắng trong câu” Trong khi đó, từ trong tiếng Việt được cấu tạo từ tiếng và không thể sử dụng khoảng trắng để định giới giữa các từ Hơn nữa, tiếng Anh có sử dụng tiền tố (prefixes) và phụ tố
(affixes), còn tiếng Việt không sử dụng các thành phần này tiếng Việt tiếng Anh Đơn vị cơ bản là tiếng (syllable) Đơn vị cơ bản là từ (word)
Từ được xây dựng từ các tiếng Từ được xây dựng từ sự kết hợp các ký tự với nhau và có nghĩa
Biên giới từ được xác định dựa vào cách kết hợp các tiếng trong một ngữ cảnh cụ thể
Biên giới từ được xác định dựa vào khoảng trắng hoặc ký tự phân cách
Từ không biến đổi hình thái Từ biến đổi hình thái
Ví dụ: She->Her, He->Him, I->me Nghĩa của từ được biểu diễn bởi một từ riêng biệt và là duy nhất
Sử dụng tiền tố và phụ tố để biểu diễn nghĩa của từ Ví dụ: employ, employed, employable …
12 Một khác biệt nữa giữa tiếng Anh và tiếng Việt, là trong tiếng Anh từ có thể biến đổi hình thái, nghĩa là từ có thể thay đổi hình thức nhưng mang cùng một nghĩa
Ví dụ, từ “tôi” trong tiếng Anh có thể là “I” hoặc “Me” Dựa vào các đặc điểm khác biệt đã nêu ở trên, kết hợp với nghiên cứu của Nguyen và CS (2006), chúng tôi tổng hợp một vài đặc điểm khác biệt chính giữa tiếng Việt và tiếng Anh như trong Bảng 2.2
Học máy (machine learning) là một lĩnh vực của ngành Khoa học Máy tính, cụ thể hơn là của trí tuệ nhân tạo mà nghiên cứu những kỹ thuật, cụ thể hơn là các giải thuật cần thiết, giúp máy tính có thể “học” được những kinh nghiệm cho trước để từ đó áp dụng cho những tình huống tương tự của cùng một bài toán Nói cách khác là xây dựng những chương trình có thể tự động học và cải thiện hiệu quả thông qua kinh nghiệm Điều này rất giống với quá trình học của con người Con người cũng cần phải học hỏi qua những tình huống cho trước để rồi áp dụng vào một tình huống khác
Việc học bao gồm các yếu tố sau:
- Nhiệm vụ (task): cho biết học để làm gì
- Độ đo hiệu quả (performance measure): để đánh giá kết quả của việc học
- Tập kinh nghiệm (experience): là những bài huấn luyện cho quá trình học, còn gọi là tập huấn luyện (trainning data)
- Tập kiểm tra (testing data): dữ liệu để kiểm tra việc học có hiệu quả hay không, tập này thường được gọi là tập chuẩn vàng (gold data)
- Các đặc trưng để học (learning features): những đặc trưng dùng cho việc học Tập hợp các đặc trưng của một nhiệm vụ được gọi là vector đặc trưng của nhiệm vụ đó
Có thể lấy một ví dụ như việc học máy cách phân biệt thư điện tử có phải là thư rác hay không như sau:
- Nhiệm vụ: phân loại thư rác
- Độ đo hiệu quả: tỉ lệ số thư điện tử được nhận diện đúng là thư rác trên tổng số thư điện tử nhận dạng được, ngoài ra còn có tỉ lệ số thư điện tử nhận diện đúng là thư rác trên tổng số thư điện tử là thư rác có sẵn của tập kiểm tra
13 - Tập kinh nghiệm: chứa những tập có dữ liệu đã phân loại sẵn là thư rác hay không
- Tập kiểm tra: chứa những tập dữ liệu để kiểm tra việc nhận diện có hiệu quả hay không
- Các đặc trưng để học: số lượng những từ được nghi ngờ là của thư rác thường có như “quảng cáo”, “liên hệ ngay”… Ứng dụng của học máy rất đa dạng, và được áp dụng rộng rãi như trong xử lý ảnh và thị giác máy tính, xử lý ngôn ngữ tự nhiên, khai phá dữ liệu, nhận dạng chữ viết, giọng nói hay dùng để dịch thuật…
Một ví dụ khá điển hình là Google dịch (Google Translate), một công cụ dịch thuật khác với các công cụ dịch thông thường ở điểm nó có phân tích cú pháp của câu để từ đó cho biết ý nghĩa của câu hay đoạn văn Google dịch lại sử dụng học máy để dịch Cụ thể hơn là Goolge sẽ thu thập ý các câu cần dịch bằng tiếng Anh và những câu dịch chuẩn tương ứng trong tiếng Việt, sau đó qua các bước học máy phức tạp thì sẽ cho người dùng sử dụng
Có nhiều giải thuật học máy được đề xuất như: Decision tree, Neural Networks, Nạve Bayes, K Nearest Neighbors, Support Vector Machine … nhưng tổng quát ta có thể phân loại các giải thuật học máy thành từng nhóm như sau:
- Học máy có giám sát (supervised learning) Tập dữ liệu huấn luyện chứa đầy đủ vector mang giá trị của các đặc trưng và cho biết trước cả câu trả lời chính xác mong muốn Các giá trị của từng đặc trưng của vector có thể là giá trị liên tục (continuous) hoặc rời rạc (discrete) hay nhãn (chủ đề) của đối tượng đầu vào mà nó biểu diễn Nhiệm vụ chính là xây dựng mô hình học hợp lý của việc tổng quát hóa dữ liệu
PHƯƠNG PHÁP ĐỀ XUẤT
Mô hình tổng quát cho bài toán phân loại văn bản tiếng Việt được biểu diễn như trong Hình 3.1 Mô hình này được xây dựng dựa trên nghiên cứu của Hoang và CS (2007), cùng với một số điều chỉnh trong bước tiền xử lý văn bản và biểu diễn vector cho văn bản Hệ thống phân loại này gồm bốn bước chính là tiền xử lý văn bản, biểu diễn văn bản thành vector, chọn đặc trưng và xây dựng bộ phân loại dựa trên giải thuật học máy
Hình 3.1: Mô hình tổng quát cho phân loại văn bản tiếng Việt
Tiền xử lý Biểu diễn vector
Bộ phân loại Văn bản mới
Hoang và CS (2007) sử dụng phương pháp học máy có giám sát để phân loại văn bản tiếng Việt Các tác giả đã hiện thực 2 hướng tiếp cận khác nhau cho bài toán phân loại văn bản tiếng Việt là: hướng tiếp cận bag of words (BOW), tức xem văn bản là một túi các từ, không quan tâm đến thứ tự xuất hiện của các từ trong văn bản
Và hướng tiếp cận mô hình ngôn ngữ thống kê N-Gram, quan tâm đến thứ tự xuất hiện của các từ trong văn bản
Trong hướng tiếp cận BOW, các tác giả sử dụng hai phương pháp học máy khác nhau là KNN và SVM Theo như báo cáo, giải thuật học máy SVM cho phân loại đa chủ đề (SVM-Multi) có hiệu suất cao nhất với độ đo F1 ~ 0.96 (Bảng 3.1)
Dựa trên kết quả nghiên cứu này, chúng tôi cũng sử dụng phương pháp SVM cho phân loại đa chủ đề Để hiểu rõ hơn, chúng tôi xin mô tả lại các yếu tố quan trọng trong mô hình ở Hình 3.1
KNN 0.5758 0.5758 0.5758 SVM-Binary 0.9993 0.8972 0.9455 SVM-Multi 0.9761 0.9484 0.9621
Bảng 3.1: Kết quả phân loại của các giải thuật học máy theo Hoang và CS (2007)
Tiền xử lý văn bản
Giống như văn bản tiếng Anh, tiền xử lý cho văn bản tiếng Việt cũng gồm các bước nhỏ như token hóa, loại bỏ từ dừng nhưng không có bước trả về từ gốc vì từ trong tiếng Việt không thay đổi hình thái như đã chỉ ra trong phần 2.2
- Token hóa: do đặc điểm của tiếng Việt khác với tiếng Anh là không thể dùng khoảng trắng hay ký tự phân cách để tách từ, mà tách từ trong tiếng Việt dựa vào cách kết hợp các tiếng với nhau trong một ngữ cảnh cụ thể Ví dụ trong văn bản có câu “Một luật gia cầm cự với tình hình hiện nay” có thể được hiểu theo nhiều nghĩa khác nhau dựa vào cách kết hợp các tiếng
Cách 1: Một luật_gia cầm_cự với tình_hình hiện_nay
Cách 2: Một luật gia_cầm cự với tình_hình hiện_nay
29 Ký hiệu “_” để cho biết là các tiếng được liên kết với nhau thành một từ Trong ví dụ trên, ta thấy có nhiều hơn một cách để hiểu Nếu ta chọn cách 1 thì văn bản này được phân loại vào chủ đề “Chính trị - Xã hội”, ngược lại nếu ta chọn cách 2 thì văn bản này được phân loại vào chủ đề “Sức khỏe” Trong bước này, chúng tôi sử dụng công cụ tách từ VnTokenizer của Le và CS (2008) thay cho công cụ tách từ mà các tác giả sử dụng vì yếu tố bản quyền
- Loại bỏ từ dừng: theo các tác giả thì tất cả các từ và số được xem là các đặc trưng của văn bản và chúng thường được gọi là các token Một tập các đặc trưng được rút trích bằng cách loại bỏ những từ mà không mang thông tin gì cho việc phân loại văn bản Do đó, một danh sách từ dừng, gồm khoảng 900 từ được tác giả thu thập bằng tay, được dùng để loại bỏ các từ này khỏi văn bản Ngoài ra, chúng tôi cũng loại bỏ các số và ngày-tháng-năm trong các văn bản, vì các token này có khả năng gây nhiễu trong quá trình chọn đặc trưng
Biểu diễn vector cho văn bản
Sau bước tiền xử lý, văn bản được chuyển thành một danh sách các đặc trưng, các đặc trưng này được so trùng với từ điển từ (term dictionary) Từ điển từ là một danh sách các đặc trưng không trùng nhau trong tập văn bản huấn luyện sau khi được tiền xử lý, và nó được xây dựng để lưu các giá trị cần thiết như số văn bản có chứa đặc trưng đang xét, nghịch đảo tần suất văn bản… để phục vụ cho việc đánh trọng số cho các đặc trưng Để tính trọng số các tác giả sử dụng phương pháp tính trọng số chuẩn TF-IDF, nên trọng số của đặc trưng 𝑎 𝑖𝑗 được tính theo công thức (3.1)
() 3.2 Với, 𝑡𝑓 𝑖𝑗 (term frequency) là tần suất xuất hiện của đặc trưng j trong văn bản i, và idf (inverse document frequency) là nghịch đảo tần suất văn bản, được tính theo công thức idf = log(N/n j ) Trong đó, N là số lượng văn bản trong tập huấn luyện, n j là số văn bản trong tập huấn luyện có chứa đặc trưng j
Trong công thức trên, giá trị idf = 0 nếu N = n j Kết quả là trọng số của đặc trưng a ij = 0, với giá trị này thì đặc trưng j không đóng góp thông tin gì vào việc phân loại văn bản i giống như từ dừng, nhưng về bản chất thì đặc trưng j không phải là từ dừng nên nó vẫn đóng góp một chút thông tin nào đó vào việc phân loại 4 Do đó, để
4 http://boston.lti.cs.cmu.edu/classes/15-493/
30 ngăn chặn tình huống này, chúng tôi cộng thêm 1 vào giá trị idf, vì vậy công thức để tính idf là idf = 1 + log(N/n j )
Trong bước này, các tác giả hiện thực sáu phương pháp chọn đặc trưng mà cho kết quả tốt nhất trên văn bản tiếng Anh Để đánh giá xem phương pháp nào là tốt nhất cho tiếng Việt, các tác giả sử dụng phương pháp SVM để đánh giá hiệu suất của sáu phương pháp chọn đặc trưng (Bảng 3.2) Theo kết quả đánh giá thì phương pháp
OCFS của Yan và CS (2005) cho hiệu suất cao nhất với độ đo F1 ~ 0.95 Vì thế, chúng tôi cũng sử dụng phương pháp này trong bước chọn đặc trưng trong mô hình tổng quát ở Hình 3.1
CHI 0.948 0.928 0.938 GSS 0.948 0.918 0.933 IG 0.946 0.895 0.919 OR 0.829 0.784 0.806 MI 0.753 0.699 0.725
Bảng 3.2: Kết quả đánh giá của các phương pháp chọn đặc trưng theo Hoang và CS (2007) Ý tưởng chính của phương pháp OCFS như sau:
Bước 1: Tính centroid 𝑚 𝑖 i = 1, 2…, c cho mỗi chủ đề trong tập huấn luyện
Với, 𝑛 𝑖 là số lượng văn bản thuộc chủ đề 𝑐, 𝑥 𝑙 là trọng số của đặc trưng 𝑙 thuộc chủ đề 𝑐
Bước 2: Tính centroid m cho tất các các chủ đề trong tập huấn luyện
(3.4) Với, 𝑛 là số lượng văn bản trong tập huấn luyện, 𝑥 𝑙 là trọng số của đặc trưng 𝑙 trong tập huấn luyện
31 Bước 3: Tính tỉ số cho mỗi đặc trưng l bởi công thức
Với, 𝑛 𝑖 là số lượng văn bản thuộc chủ đề i, n là số lượng văn bản trong tập huấn luyện, 𝑚 𝑖 𝑙 là giá trị của đặc trưng l trong centroid m i và 𝑚 𝑙 là giá trị của đặc trưng l trong centroid m
Bước 4: Chọn K đặc trưng có tỉ số cao nhất
Như đã diễn giải ở trên, trong các phương pháp phân loại mà tác giả hiện thực, phương pháp SVM cho kết quả phân loại cao nhất Vì thế, ngoài sử dụng phương pháp SVM chúng tôi sử dụng thêm hai phương pháp học máy khác là phương pháp KNN có cải tiến của Jiang và CS (2012), mà được đánh giá là cho kết quả cao hơn SVM trên tập dữ liệu chuẩn Reuters-21578
ĐÁNH GIÁ PHƯƠNG PHÁP
No Chủ đề Tập huấn luyện Tập kiểm tra 1 Chính trị - Xã hội 5,219 7,567
Bảng 4.1: Tập dữ liệu Level 1 gồm 10 chủ đề
Chúng tôi sử dụng tập dữ liệu được cung cấp từ công trình nghiên cứu của Hoang và CS (2007) Tập dữ liệu được các tác giả xây dựng bằng cách thu thập các mẫu tin tức trên 4 trang báo trực tuyến tiếng Việt lớn: báo VnExpress 5 , báo TuoiTre Online 6 , báo ThanhNien Online 7 và báo Nguoi Lao Dong Online 8 Sau đó, các mẫu tin được xử lý tự động như loại bỏ các tag HTML, chuẩn hóa chính tả Cuối cùng, 5 học viên cao học khoa Ngôn ngữ học thuộc trường đại học Xã hội và Nhân văn kiểm tra và gán nhãn lại các mẫu tin bị phân loại chủ đề sai
40 No Chủ đề Tập huấn luyện Tập kiểm tra
23 Sân khấu điện ảnh 1,117 1,030 24 Sản phẩm tin học mới 770 595
Bảng 4.2: Tập dữ liệu Level 2 gồm 27 chủ đề
Tập dữ liệu này gồm 110,583 mẫu tin được chia làm 2 Level với sự phân bố như Bảng 4.1 và Bảng 4.2 Ở Bảng 4.1, tập dữ liệu Level 1 gồm 10 chủ đề với 33,759 văn bản trong tập huấn luyện và 50,373 văn bản trong tập kiểm tra Tương tự, tập dữ
41 liệu Level 2 ở Bảng 4.2 gồm 27 chủ đề, các chủ đề này là chủ đề con của tập dữ liệu ở Level 1, với 14,375 văn bản dùng để huấn luyện và 12,076 văn bản dùng để kiểm tra
Chúng tôi sử dụng cả hai độ đo macro-F1 và micro-F1 đã trình bày ở phần 2.6, để đánh giá các phương pháp phân loại đề xuất ở chương 3 cho hai tập dữ liệu Level 1 và Level 2, và thu được một số kết quả như sau
Kết quả thí nghiệm của phương pháp SVM Để thực hiện phân loại văn bản bằng kỹ thuật SVM, Hoang và CS (2007) sử dụng phần mềm LIBSVM 9 , thực hiện phân loại đa chủ đề theo chiến lược “một đấu một” (OAO) như đã trình bày ở phần 2.4 Số lượng đặc trưng của văn bản được chọn để học và phân loại văn bản theo các tác giả là 2,500 đặc trưng, và các tham số học cho bộ phân loại SVM là kernel-function = linear, SVM-type = C-SVM, C = 10 và các tham số khác để mặc định Vì thế, chúng tôi cũng cài đặt các tham số như các tác giả đề xuất
Mô hình gốc Mô hình hiện thực lại
Bảng 4.3: Kết quả của SVM được hiện thực lại theo Hoang và CS (2007) Ở Bảng 4.3, kết quả phân loại bên tay trái là theo nghiên cứu của các tác giả, còn kết quả bên tay phải là mô hình hiện thực lại kèm theo một số điều chỉnh như đã mô tả ở phần 3.1 Để đánh giá bộ phân loại SVM, các tác giả chỉ sử dụng độ đo macro-F1 và theo kết quả thì ta thấy có một sự bất thường, đó là độ đo macro-F1 ở Level 1 (~ 0.93) thấp hơn Level 2 (~ 0.96) Vì xét về mức độ khó của tập dữ liệu thì tập dữ liệu ở Level 2 có độ khó cao hơn tập Level 1, do nhiều văn bản trong tập Level
9 www.csie.ntu.edu.tw/~cjlin/libsvm
42 2 thuộc các chủ đề khác nhau nhưng chúng lại cùng chung nhiều từ khóa dẫn đến gây nhập nhằng khó phân loại
Do đó, kết quả phân loại ở Level 1 thường cao hơn kết quả phân loại ở Level 2, nhưng kết quả mà các tác giả đạt được không phản ánh được điều này Trong khi đó, kết quả của mô hình hiện thực lại thì đạt được sự chênh lệnh này, cụ thể macro-
F1 là ~ 0.87 ở Level 1 cao hơn macro-F1 là ~ 0.86 ở Level 2 So sánh hiệu suất giữa hai mô hình thì kết quả của mô hình hiện thực lại cho kết quả thấp hơn mô hình gốc
Theo đánh giá của chúng tôi, những điều chỉnh của chúng tôi ở phần 3.1, cụ thể đó là ở bước tiền xử lý, đã dẫn đến sự chênh lệch này
Hình 4.1: 56 đặc trưng trong 2,500 đặc trưng của mô hình gốc không có trong từ điển từ dịch_cúm đội_bóng bài_hát người_sử_dụng gd-đt vượt_qua wto chương_trình_học khách_du_lịch dầu_ăn h5n1 bệnh_cúm xách_tay ac_milan diễn_ra trong_khi
0 đính_kèm phòng_khách đạt_được kẻ_tấn_công bài_thi hành_lá trong_vòng ấn_độ bạn_tình bỏ_lỡ singapore hóoc gỡ_hoà đông_á p.4 vn tie-break hcm độ_cao champions_league
0-1 wimbledon tuỳ_theo toà_nhà tạo_ra chuyến_bay kem_dưỡng_da khởi_chiếu thày_trò bản_tin australia world_cup_2006 chelsea rau_mùi v-league_2005 hlv_mourinho
43 Trong đó, nguyên nhân chính là do chúng tôi sử dụng công cụ tách từ
VnTokenizer, việc sử dụng công cụ tách từ khác nhau dẫn đến hàng loạt các thay đổi như: thứ nhất, các đặc trưng trong từ điển từ khi sử dụng công cụ tách từ khác nhau cho kết quả khác nhau, đặc trưng đang xét có trong từ điển từ này nhưng không có trong từ điển từ kia, số lượng đặc trưng trong từ điển từ này ít hoặc nhiều hơn từ điển từ kia
Thứ hai, do kết quả tách từ khác nhau thì khi tính trọng số cho đặc trưng trong văn bản sẽ khác nhau, kéo theo số lượng đặc trưng được chọn cũng khác nhau (cùng phương pháp chọn đặc trưng), vì các đặc trưng được chọn dựa trên trọng số của chúng, trong trường hợp này là 2,500 đặc trưng, và điều tất yếu là kết quả phân loại sẽ chênh lệch nhau, trong trường hợp này là kết quả thấp hơn
Dựa trên kết quả so sánh giữa 2,500 đặc trưng mà mô hình gốc thu được với
2,500 đặc trưng do mô hình hiện thực lại xuất ra, chúng tôi nhận thấy có 2,050 đặc trưng là giống nhau, còn 450 đặc trưng khác nhau, trong 450 đặc trưng đó có 56 đặc trưng là không có trong từ điển từ (Hình 4.1) Sự khác biệt chính của VnTokenizer so với công cụ tách từ mà các tác giả sử dụng được thể hiện qua các từ được in nghiêng trong Hình 4.1
Trong đó, tất cả các dấu phân cách câu như dấu “.” được tách thành một token nên sẽ không tồn tại một đặc trưng nào có dấu “.” kèm theo ở cuối đặc trưng như
“vn.”, “h5n1.”… và tất cả các tỉ số như “0-1”, “1-1” được VnTokenizer tách thành
“0”, “-“, “1”, “1”, “-“, “1” và tất nhiên là các token này sẽ được loại bỏ cùng với các từ dừng như đã nêu ở phần 3.2 Cuối cùng, một khác biệt nữa giữa VnTokenizer và công cụ tách từ mà các tác giả sử dụng là không tồn tại một đặc trưng nào mà kết hợp cả từ và số như “world_cup_2006”, “v-league_2005” khi sử dụng VnTokenizer
Kết quả thí nghiệm của ba phương pháp khi sử dụng TF-IDF
TỔNG KẾT
Trong luận án này, chúng tôi đã hiện thực phương pháp lai và phương pháp
KNN có cải tiến cho phân loại văn bản tiếng Việt Đối với phương pháp lai, chúng tôi đã thực hiện một số điều chỉnh trong quá trình xây dựng mô hình phân loại để phù hợp cho bài toán phân loại văn bản
Bên cạnh đó, chúng tôi cũng thực hiện so sánh và đánh giá hiệu suất của hai phương pháp trên với phương pháp SVM dựa trên nghiên cứu của Hoang và CS (2007) Kết quả thực nghiệm cho thấy hiệu suất cuối cùng của phương pháp lai cho kết quả tốt nhất trên cả hai tập dữ liệu, với độ đo micro-F1 trên Level 1 là 0.8952 và micro-F1 trên Level 2 là 0.8949
Ngoài ra, chúng tôi cũng thực hiện một phương pháp đánh trọng số cải tiến của phương pháp đánh trọng số TF-IDF, là TF-IDF-CF dựa trên nghiên cứu của Liu và Yang (2012) cho các phương pháp phân loại trên Với phương pháp đánh trọng số này, hiệu suất tăng lên khá cao trên tất cả các phương pháp phân loại Kết quả thực nghiệm cho thấy hiệu suất của phương pháp lai tăng ~ 9%, SVM tăng ~ 8% và phương pháp KNN có cải tiến tăng ~ 8% trên tập dữ liệu Level 2 Bên cạnh đó, phương pháp SVM sử dụng TF-IDF-CF cũng cho kết quả cao hơn SVM sử dụng TF-IDF trong mô hình gốc trên tập dữ liệu Level 1 là ~ 4% với độ đo macro-F1
5 2 Hướng phát triển Đối với hướng tiếp cận “bag of words”, chúng tôi nhận thấy rằng việc biểu diễn văn bản theo hướng tiếp cận này có một số hạn chế như: mất sự tương quan (correlation) giữa các từ cận kề nhau, thiếu mối quan hệ ngữ nghĩa (semantic relationship) giữa các từ với nhau trong một văn bản và đặc biệt hướng tiếp cận này phụ thuộc vào công cụ tách từ như kết quả mà chúng tôi đã chỉ ra trong phần 4.2 Bên
49 cạnh đó, nhiều văn bản thuộc các chủ đề khác nhau nhưng cùng chung nhiều từ khóa gây nhập nhằng khó phân loại Do đó, trong tương lai chúng tôi sẽ nghiên cứu để giải quyết các hạn chế đã nêu ở trên