Clustering và vấn đề cải tiến mô hình ngôn ngữ trong lĩnh vực xử lý văn bản tiếng anh

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HOÀNG PHÚC NGUYÊN Clustering vấn đề cải tiến mô hình ngôn ngữ lónh vực xử lý văn tiếng Anh Chuyên ngành : Công Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2003 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCK KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : phó giáo sư, tiến só Phan Thị Tươi Cán chấm nhận xét : tiến só Cao Hoàng Trụ Cán chấm nhận xét : tiến só Nguyễn Xuân Dũng Luận văn thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCK KHOA, ngày 08 tháng 01 năm 2004 Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : NGUYỄN HOÀNG PHÚC NGUYÊN Ngày, tháng, năm sinh : Ngày 20 tháng 12 năm 1978 Công Nghệ Thông Tin Chuyên ngành : I- TÊN ĐỀ TÀI : Phái : Nam Nơi sinh : An Giang MSHV : CNTT12-019 Clustering vấn đề cải tiến mô hình ngôn ngữ lónh vực xử lý văn tiếng Anh II- NHIỆM VỤ VÀ NỘI DUNG : Phân tích xác định vấn đề : nghiên cứu giải thuật clustering có sẵn lý thuyết giải thuật clustering, để từ xây dựng giải thuật clustering hoàn toàn tự động, nhằm nâng cao hiệu mô hình ngôn ngữ, thông qua việc xây dựng mô hình ngôn ngữ bi-gram dựa tập cluster Phương pháp luận : xây dựng giải thuật clustering dựa lý thuyết giải thuật clustering, xác định mô hình ngôn ngữ Hiện thực : minh hoạ chương trình III- NGÀY GIAO NHIỆM VỤ : ngày 01 tháng 07 năm 2003 IV- NGÀY HOÀN THÀNH NHIỆM VỤ : ngày 08 tháng 01 năm 2004 V- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : Phó giáo sư, tiến só Phan Thị Tươi CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH Phó giáo sư,Ts Phan Thị Tươi ï Ts Dương Tuấn Anh BỘ MÔN QUẢN LÝ NGÀNH Nội dung đề cương luận văn thạc só Hội Đồng Chuyên Ngành thông qua Ngày PHÒNG ĐÀO TẠO SĐH tháng năm KHOA QUẢN LÝ NGÀNH Lời cảm ơn -o0o - Qua tháng tìm tòi, nghiên cứu, bước phân tích thực giải thuật clustering để xây dựng nên mô hình ngôn ngữ bigram dựa cluster, cuối hoàn thành luận văn tốt nghiệp Tôi xin gởi lời cảm ơn chân thành đến tất thầy cô giảng dạy sau đại học trường Đại học Báck Khoa thành phố Hồ Chí Minh dạy dỗ nhiệt tình tháng ngày học tập nghiên cứu Những kiến thức thầy cô cung cấp tảng cho trình nghiên cứu thực luận văn Tôi xin gởi lời cảm ơn chân thành đến cô Phan Thị Tươi, hẳn luận văn khó hoàn thành thiếu hướng dẫn nhiệt tình cô Và xin gởi lời cám ơn đến thầy Dương Tuấn Anh tận tình dẫn cách trình bày luận văn Cuối cùng, xin gởi lời cảm ơn thương yêu đến toàn thể gia đình ông bà, cha mẹ hy sinh, quan tâm, khuyến khích hỗ trợ mạnh mẽ suốt đời Nguyễn Hoàng Phúc Nguyên Tóm tắt o0o Một công dụng thường thấy mô hình ngôn ngữ dự đoán xác suất chuỗi từ thuộc ngôn ngữ tự nhiên Tuy nhiên, thường gặp nhiều hạn chế liệu mẫu không đầy đủ số lượng thông số cần tính toán lớn Giải thuật clustering khắc phục nhược điểm trên, giảm thiểu số lượng thông số cần tính toán mô hình ngôn ngữ không đòi hỏi số lượng lớn liệu mẫu Do đó, giải pháp hiệu để giải vấn đề nêu xây dựng mô hình ngôn ngữ dựa tập cluster kết giải thuật clustering Mặc dù, tồn nhiều giải thuật clustering giải thuật Brown, giải thuật clustering từ Pereira, chúng chưa tạo tập cluster tốt nhằm để nâng cao hiệu mô hình ngôn ngữ, thông qua việc làm giảm thông số perplexity Trong luận văn này, xin trình bày giải thuật clustering phân chia đối tượng liệu vào nhóm hay gọi cluster, dựa đặc điểm thuộc tính gần giống chúng từ loại, ngữ nghóa, xác suất phân bố, vai trò ngữ pháp từ xung quanh Từ đó, giải thuật đề tài xây dựng mô hình ngôn ngữ bigram dựa tập cluster, cải thiện hiệu mô hình bigram truyền thống Markov Giải thuật clustering đề tài thao tác corpus Wall Street Journal, thu thập hầu hết thông tin ngôn ngữ cú pháp, ngữ nghóa, ngữ cảnh xung quanh xác suất phân bố, để tạo nên tập cluster kết tốt Trước tiên, giải thuật dựa vào thông tin cú pháp, để tạo nên tập tập cluster bản, tập cluster danh từ, tập cluster động từ, tập cluster tính từ, … Tiếp theo, giải thuật sử dụng hàm mục tiêu agglomerative clustering có cấu trúc để kết hợp cặp cluster giống tập cluster bản, vào từ xung quanh, ngữ nghóa thônh tin chung chúng Hơn nữa, giải thuật đề tài sử dụng tự điển điện tử WordNet, để kiểm tra giống ngữ nghóa đưa thêm vào cluster từ đồng nghóa Từ đó, đề tài xây dựng mô hình ngôn ngữ bi-gram dựa tập cluster Abstract o0o One of the goals of statistical language models is to learn the joint probability function of sequences of words in a natural language However, statistical language models frequently suffer from lacking of training data and the large number of free parameters This problem can be alleviated by clustering algorithm, because it reduces the number of free parameters that need to be trained and needs a suitable amount of data only Therefore, one available approach to solve the above-mentioned problem is to construct a cluster-based language model Although there are many existing clustering algorithms, such as Brown clustering, word clustering of Pereira, etc, these algorithms cannot create a set of good clusters to significantly improve the performance of a language model on the criterion of perplexity reduction In this thesis, I would like to present a clustering algorithm that is used to classify words into clusters or groups, using their linguistic similarities such as lexicon, meaning, distribution probability, grammar role, and neighboring context This clustering algorithm is used to construct the cluster based bi-gram language model, improving the performance of the bi-gram one of Markov The clustering algorithm of this thesis processes Wall Street Journal corpus, collecting all of linguistic information of English words such as lexicon, meaning, neighboring context and distribution probability in order to create the good set of clusters First, basing on lexicon, it clusters words into basic clusters such as noun clusters, verb clusters, etc Next, it uses an agglomerative hierarchical clustering that has similarity function using neighboring context, meaning similarity, and mutual information to decide on merging a pair of most similar clusters in each basic cluster Furthermore, it uses WordNet dictionary to check meaning similarity and adds a lot of synonyms to clusters That helps to build cluster-based bi-gram language model better than bi-gram model Mục lục GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên MỤC LỤC MỤC LỤC CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đề tài nghiên cứu 1.2 Giới thiệu giải thuật clustering 1.3 Quá trình generalization 1.4 Giới thiệu mô hình ngôn ngữ 1.5 Ứng dụng giải thuật clustering việc cải tiến mô hình ngôn ngữ thông qua generalization 1.6 Lý thực đề tài 10 1.7 Những đóng góp đề taøi 10 1.8 Sơ lược cấu trúc luận văn 11 1.9 Qui ước thuật ngữ ký hiệu 12 1.10 Keát luaän 13 CHƯƠNG TỔNG THUẬT VỀ CÁC CÔNG TRÌNH ĐÃ CÓ TRÊN THẾ GIỚI LIÊN QUAN ĐẾN ĐỀ TÀI 14 2.1 Đặt vấn đề 14 2.2 Các giải thuật clustering xử lý liệu số có liên quan đến không gian hình học 14 2.2.1 Các giải thuật partitional clustering dùng trọng tâm, phần tử trọng tâm 14 2.2.2 Các giải thuật clustering có thứ bậc 15 2.2.3 Những hạn chế giải thuật 15 2.3 Các giải thuật clustering xử lý ngôn ngữ tự nhiên 18 2.3.1 Giải thuật HAC đại học Bar-IIan 18 2.3.2 Giaûi thuật clustering cải thiện mô hình ngôn ngữ bi-gram John W Miller Fil Alleva, nhân viên công ty Microsoft Mỹ 18 2.3.3 Giải thuật Brown et al 1992 19 2.3.4 Giải thuật word clustering cho mô hình bigram trigram 20 2.3.5 Giải thuật word clustering Pereira, Tishby, Lee 21 2.3.6 Giải thuật word clustering Hang Li, phòng thí nghiệm NEC 22 2.3.7 Giải thuật clustering CIAULA cho động từ 23 2.3.8 Giải thuật clustering cho tính từ 24 2.3.9 Giải thuật word clustering sử dụng thẻ có cấu trúc 25 2.4 Kết luận 25 CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP 27 3.1 Đặt vấn ñeà 27 3.2 Cơ sở toán học 27 Muïc luïc GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên 3.3 Mô hình Markov (n-gram) 32 3.4 Perplexity Thông số đánh giá chất lượng mô hình ngôn ngữ 33 3.5 Một số điểm ngữ pháp tiếng Anh 34 3.5.1 Câu đơn 35 3.5.2 Câu ghép 35 3.5.3 Danh từ 35 3.5.4 Động từ 36 3.5.5 Tính từ 36 3.5.6 Giới từ, mạo từ, phó từ 36 3.6 Corpus 37 3.7 Tự điển điện tử WordNet 41 3.8 Phương pháp mô hình hoá đối tượng ngôn ngữ cluster 42 3.9 Phương pháp xác định ngữ nghóa từ 43 3.10 Phương pháp phân loại K nearest neighbor 44 3.11 Giải thuật clustering 44 3.11.1 Khái niệm 44 3.11.2 Đặc điểm 45 3.11.3 Clustering có thức bậc 49 3.11.4 Clustering phaúng 50 3.12 Kết luận 52 CHƯƠNG THIẾT KẾ VÀ HIỆN THỰC ĐỀ TÀI 53 4.1 Mô hình tổng quát giải thuật clustering theo hướng phát triển đề tài 53 4.1.1 Ý tưởng tổng quaùt 53 4.1.2 Mô hình thiết kế tổng quát giải thuật 55 4.2 Các tiêu chuẩn hàm mục tiêu sim(w1,w2) dùng để đánh giá giống từ 57 4.3 Các tiêu chuẩn hàm mục tiêu sim(c1,c2) dùng để đánh giá giống caùc cluster 63 4.4 Mô hình thực giải thuật clustering theo hướng phát triển đề taøi 64 4.4.1 Giải thuật phân tích cú pháp, từ vựng, ngữ nghóa xác suất phân bố từ:Tokenization 64 4.4.2 Giaûi thuaät word clustering 66 4.4.3 Khả học hỏi, tích lũy kinh nghiệm giải thuật clustering 71 4.5 Độ phức tạp giải thuật 72 4.6 Mô hình ngôn ngữ cluster-based bigram sau áp dụng giải thuật clustering 73 Muïc luïc GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên 4.7 Chương trình thực 74 4.7.1 Đặt vấn đề 74 4.7.2 Cấu trúc class 75 4.7.3 Dữ lieäu 76 4.7.4 Giao dieän 77 4.7.5 Kết luận 81 4.8 Moät số kết thực thi giải thuật clustering 81 4.9 Kết luận 82 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 83 5.1 Đánh giá luận vaên 83 5.2 Hướng phát triển đề tài 83 5.3 Kết luận 84 REFERENCE 85 Chương : Phát biểu vấn đề GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đề tài nghiên cứu Đề tài nghiên cứu “Clustering vấn đề cải tiến mô hình ngôn ngữ lónh vực xử lý văn tiếng Anh” Mục tiêu đề tài nghiên cứu giải thuật clustering có sẵn lý thuyết giải thuật clustering, để từ xây dựng giải thuật clustering hoàn toàn tự động, nhằm nâng cao hiệu mô hình ngôn ngữ, thông qua việc thực trình generalization văn bản, tài liệu tiếng Anh Mô hình ngôn ngữ mà đề tài chọn mô hình ngôn ngữ bigram Markov, từ xây dựng thành mô hình cluster-based bigram có nhiều ưu điểm mô hình bigram thông thường 1.2 Giới thiệu giải thuật clustering Giải thuật clustering phân chia đối tượng liệu có đặc điểm thuộc tính gần giống vào nhóm hay gọi cluster Sự phân chia thành tập cluster diễn cách tự nhiên theo đặc điểm ngôn ngữ liệu mẫu Dựa vào đặc điểm cấu trúc, ta có hai loại clustering: clustering có thức bậc clustering không thứ bậc hay gọi clustering phẳng Clustering phẳng cho kết tập cluster mối quan hệ chúng không xác định trước Trong đó, clustering có thứ bậc hệ thống cấp bậc cluster với nút có nút mẹ Và đối tượng ngôn ngữ đơn tập cluster Đối tượng ngôn ngữ từ, câu hay cluster Ngoài ra, clustering phân biệt phép gán đối tượng vào cluster theo hai loại cứng mềm Phép gán cứng gán đối tượng vào cluster Phép gán mềm qui định mức độ mối quan hệ đối tượng cluster, khả đối tượng thuộc nhiều cluster Theo đó, tồn xác suất cho biết đối tượng xi thuộc cluster cj: P(cj | xi) Vấn đề đặt tiêu chuẩn để xác định độ tương tự đối tượng ngôn ngữ hay cluster để tiến hành kết hợp cluster thành cluster định tách cluster thành nhiều cluster khác Một yếu tố để giải vấn đề phải xác định thành phần đại diện cho cluster, từ sử dụng thành phần đại diện để xác định phụ thuộc đối tượng ngôn ngữ vào cluster Thành phần đại diện cho cluster xác định theo nhiều cách khác Theo single-link clustering hay complete-link clustering, tất Chương : Thiết kế & thực 76 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên 4.7.3 Dữ liệu Đề tài sử dụng XML để lưu trữ thông tin từ sau trình Tokenization Theo dạng sau NN 3 3 3 3 Theo dạng lưu trữ trên, từ tạo thành nút có nút “lexicon” chứa từ loại, nút “count” chứa số lần xuất từ corpus, nút “meaning” chứa nghóa từ lấy WordNet, nút “neighbor” từ xuất lân cận, đó, có hai nút “left” “right” chứa từ bên trái phải từ, đồng thời chứa số lần xuất với từ xét Sau trình clustering kết thức, đề tài lưu trữ lại cluster, dạng XML nhö sau Chương : Thiết kế & thực 77 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyeân NN,JJ Person 1346 Moãi cluster có thuộc tính chung tổng hợp từ từ thành viên danh sách từ thuộc cluster Việc lưu trữ cluster dạng XML, cho phép giải thuật học hỏi thêm sau xử lý thêm corpus, cung cấp thêm thông tin, chỉnh sửa lại tập cluster có sẵn cho tốt Kỹ thuật XML cho phép chương trình tham khảo đến từ hay cluster lưu trữ với thời gian nhanh tốn nhiều nhớ trình thực thi giải thuật 4.7.4 Giao diện Có phần chính: Phần thứ cung cấp giao diện nhập corpus, trình bày corpus Phần xem Input chương trình Ta có hình vẽ minh họa Chương : Thiết kế & thực 78 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên Hình 4.7: view trình bày Wall Street Journal corpus Phần thứ hai trình bày trình clustering corpus Ta có hình vẽ minh họa Chương : Thiết kế & thực 79 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên Hình 4.8: view trình bày tập wordtoken Chương : Thiết kế & thực 80 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên Hình 4.9: view trình bày tập cluster Chương : Thiết kế & thực 81 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên Phần thứ ba phần đánh giá so sánh hai mô hình bigram clusterbased bigram Hình 4.10: view so sánh bigram cluster-based bigram 4.7.5 Kết luận Chương trình thực ngôn ngữ Visual C++, dựa phương pháp lập trình hướng đối tượng ngôn ngữ XML, đồng thời có giải thuật phân tích cú pháp hợp lý, dạng lưu trữ XML đơn giản, hiệu Từ đó, tốc độ thực thi giải thuật clustering cải thiện đáng kể thời gian chấp nhận được, cho dù trình xử lý corpus clustering phức tạp nhiều so với giải thuật nghiên cứu 4.8 Một số kết thực thi giải thuật clustering Đề tài tiến hành tính thông số perplexity mô hình cluster-based bigram mô hình bigram khoảng 100 câu tiếng Anh ngẫu nhiên corpus có dung lượng 0,5 Mbytes, Mbytes, Mbytes Sau đó, đề tài tính trung bình thông số perplexity tương ứng với mô hình kích thước corpus Chương : Thiết kế & thực 82 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên Sau số kết tính toán thông số perplexity mô hình cluster-based bigram đề tài sau trình thực thi giải thuật đồng thời so sánh với thông số perplexity mô hình bigram thông thường Bảng 6: bảng so sánh thông số perplexity mô hình cluster-based bigram vaø bigram Corpus (Mbytes) Bigram 0,5 5328,3 4315,5 2576,3 Cluster-based bigram 4578,9 3674,6 2034,2 Improvement(%) 14 14,8 21 4.9 Kết luận Đây chương quan trọng nhất, trình bày cách vận dụng sở lý thuyết liên quan đến lónh vực ngôn ngữ học, xác suất thống kê, xử lý ngôn ngữ tự nhiên, để phát triển, thực giải thuật clustering mô hình ngôn ngữ cluster-based bigram Ngoài ra, giải thuật hoạt động tập liệu lớn nội dung liệu đa dạng, không cần phụ thuộc vào không gian hình học, đáp ứng yêu cầu xử lý văn bản, tài liệu tiếng Anh Bên cạnh đó, giải thuật quan tâm đến độ tương tự hai cluster đồng thời xét đến tính kết nối đồng cluster chứa hai cluster Điều khắc phục hạn chế giải thuật clustering trước quan tâm đến hai đặc điểm Từ đó, giải thuật sinh tập cluster kết có tính đồng cao, tức đối tượng ngôn ngữ cluster gần giống nhất, có phân biệt rõ ràng với đối tượng nằm cluster khác Hơn nữa, việc sử dụng nhiều tiêu chuẩn có kèm theo độ ưu tiên để đánh giá giống từ cluster làm tăng thêm chất lượng tập cluster kết Như biết, chất lượng tập cluster đóng vai trò quan trọng việc nâng cao hiệu mô hình ngôn ngữ góp phần quan trọng tạo nên mô hình ngôn ngữ cluster-based bigram Chương : Kết luận 83 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Đánh giá luận văn Đề tài xây dựng giải thuật clustering thao tác corpus tiếng Anh, đạt mục tiêu nâng cao hiệu mô hình ngôn ngữ n-gram cách xây dựng mô hình ngôn ngữ cluster-based bigram Hơn nữa, giải thuật clustering đề tài có tính học hỏi, tích lũy kinh nghiệm Tức với số lượng corpus lớn tập cluster kết có chất lượng tốt hiểu mô hình cluster-based bigram nâng cao Và khai thác phân bố tự nhiên từ corpus, mà cú pháp ngữ nghóa từ Việc giải thuật sử dụng tự điển WordNet để cung cấp thêm lượng lớn từ đồng nghóa vào cluster làm tăng thêm chất lượng cho cluster Ngoài ra, giải thuật clustering đề tài tiến hành cluster đối tượng ngôn ngữ từ với tốc độ độ phức tạp chấp nhận Tuy nhiên, giải thuật clustering đề tài có sử dụng đặc điểm ngữ nghóa từ, đơn giản thao tác ngữ nghóa từ riêng lẻ Do vậy, tiêu chuẩn ngữ nghóa hàm mục tiêu giải thuật đơn giản, chưa thể xây dựng thành tập cluster ngữ nghóa Giải thuật clustering mà đề tài xây dựng dành cho Anh ngữ, dựa corpus tiếng Anh xác định cú pháp Và điều kiện khách quan không cho phép nên đề tài không thu thập số lượng corpus đủ lớn để thực trình thống kê đánh giá 5.2 Hướng phát triển đề tài Đề tài có hai hướng để phát triển Hướng thứ phát triển đề tài để xây dựng tập cluster ngữ nghóa dựa lý thuyết sở tri thức, đồ thị ngữ nghóa mạng ngữ nghóa Hướng khai thác mạnh vào khía cạnh ngữ nghóa từ để hình thành nên mạng ngữ nghóa có tính học hỏi cao Không những, đòi hỏi khả phân tích ngữ nghóa giải thuật clustering, mà đòi hỏi cách tổ chức, xếp liệu mạng ngữ nghóa nhằm để tăng cường khả học hỏi, truy vấn Từ đó, giải thuật clustering tảng Concept Clustering Knowledge Graphs (CCKGs), thực chất đồ thị khái niệm biểu diễn cluster ngữ nghóa Ngoài ra, bên cạnh việc hướng đến việc xây dựng tập cluster ngữ nghóa, giải thuật clustering hoàn thiện khả phân tích đặc điểm hình Chương : Kết luận 84 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên thái học từ công thức chuyển từ danh từ số thành số nhiều, cách thức chuyển đổi động từ, hay trình biến tố thêm tiền tố hậu tố vào từ gốc Để từ đó, giải thuật sử dụng đặc điểm trình xác định giống từ corpus [1][34] [36] Hướng thứ hai phát triển giải thuật clustering đề tài để tiến hành xử lý corpus tiếng Việt Quá trình clustering tiếng Việt phức tạp nhiều so với clustering tiếng Anh, tiếng Việt ngôn ngữ phụ thuộc nhiều vào ngữ cảnh, nghóa từ thay đổi nhiều theo ngữ cảnh khác phân bố từ thường không tuân theo qui luật định Tuy nhiên, trình clustering tiếng Việt thành công có ý nghóa lớn việc xử lý ngôn ngữ tiếng Việt máy tính 5.3 Kết luận Chương xem xét, đánh giá lại đề tài, để nhận biết ưu khuyết điểm giải thuật clustering, đồng thời đưa hướng phát triển đề tài Với số ưu điểm giải thuật clustering đề tài khai thác tốt đặc điểm từ corpus, xây dựng mô hình ngôn ngữ cluster-based bigram, mà không cần số lượng lớn corpus giải thuật clustering khác Tuy nhiên, số điểm hạn chế cần khắc phục phát triển Reference 85 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên REFERENCE [1] Christopher D Manning – Hinrich Schutze (2001) Foundations of Statistical Natural Language processing [2] Fernando Pereira, Naftali Tishby, Lillian Lee (1993) Distributional clustering English words [3] K Krishna, Raghu Krishnapuram A Clustering Algorithm for Asymmetrically Related Data with Applications to Text Mining [4] King-Ip Lin, Ravikumar Kondadadi A word-based soft clustering algorithm for documents [5] Lillian Lee, Fernando Pereira Distributional Similarity Models:Clustering vs.Nearest Neighbors [6] Yiling Yang, Xudong Guan, Jinyuan You CLOPE: A Fast and Effective Clustering Algorithm for Transactional Data [7] Jonathan David Bobaljik Clustering Theories [8] Sudipto Guha*, Rajeev Rastogi, Kyuseok Shim CURE: An Efficient Clustering Algorithm for Large Databases [9] Sun Kim BAG: A Graph Theoretic Sequence Clustering Algorithm [10] Roberto Basili (*),Maria Teresa Pazienza (*),Paola Velardi (**) Hierarchical clustering of verbs [11] Jimmy Wang A Multi-span language modeling framework for speech recognition [12] Jean-Claude Junqua, Lorenzo Vassallo Context Modeling and Clustering in Continuous Speech Recognition Reference 86 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên [13] Dr Jan Haji Introduction to Natural Language Processing Language Modeling (and the Noisy Channel) [14] C David Page Jr., Alan M Frisch Generalization and Learnability: A study of Constrained Atoms [15] Aurora Pons-Porrata, José Ruiz-Shulcloper, José F Martínez-Trinidad Refunion-generalization-conceptual Clustering algorithm [16] Lori LAMEL, Renato DE MORI Speech recognition of European languages [17] John W Miller, Fil Alleva Evaluation of a Language Model using a Clustered Model Backoff [18] Daniel Gildea, Thomas Hofmann Topic-based language models using EM [19] Sudipto, Rajeev, Kyuseok Shim Rock : A Robust Clustering Algorithm for Categorical Attributes [20] Peter F Brown, Vincent J Della Pietra, Peter V deSouza, Jenifer C Lai, Robert L Mercer Class-based n-gram models of natural language [21] Joerg P Ueberla (1994) An Extended Clustering algorihm for Statistical Language Models [22] George Karypis, Eui-Hong Han, Vipin Kumar Chameleon: A Hiearchical Clustering Algorithm Using Dynamic Modeling [23] David Carter (1994) Improving language models by clustering training sentences [24] Ido Dagan Similarity-based Estimation of Word Cooccurence Probabilities [25] Hang Li Word Clustering and Disambiguation Based on Co-occurrence Data [26] John George Gavin Mcmahon Statistical Language Processing based on Self-Organizing Word Classification Reference 87 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên [27] Philip Resnik Disambiguating Noun groupings With Respect to WordNet senses [28] Wide R Hogenhout and Yuji Matsumoto A Premilinary Study of Word Clustering Based on Syntactic Behavior [29] Yael Karov, Shimon Edelman Learning Similarity –based Word sense Disambiguation [30] Sven Martin, Jorg Liermann, Hermann Ney (2000) Algorithm for Bigram and Trigram Word Clustering [31] K Smaiti, A.Brun, I Zitouni, J P Haton Automatic and Manual Clustering For Large Vocabulary Speech Reconigtion [32] B Suhm, A Waibel Towards better language models for spontaneous speech [33] Ye-Yi Wang, John Lafferty, Alex Waibel Word Clustering With Parallel Spoken Language Corpora [34] Rajeev Agarwal Evaluation of Semantic Clusters [35] J.P Ueberla Domain Adaptation with Clustered Language Models [36] Caroline Barriere, Fred Popowich Concept Clustering and knowledge intergration form a children’s dictionary [37] Daniel Fasulo An Analysis of Recent Work on Clustering Algorithms [38] Karl-Heinrich Anders and Monika Sester Parameter-free cluster detection in spatial databases and its application to typification [39] Weixu, Alex Rudnicky Language Modeling for Dialog System [40] John Hankins (2003) Wordnet-Question answering system Reference 88 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên [41] Alfred V Aho, Johne Hopcroft, Jeffrev D Ullman Data structure and algorithms [42] Lillian Lee, Fernando Pereira Distributional Similarity Models: Clustering vs Nearest Neighbors [43] J McMahon*, F.J Smith (1994) Structural tags, Annealing and Automatic Word Classification [44] Sun Kim BAG: A Graph Theoretic Sequence Clustering Algorithm (An Extended Abstract) [45] Pierre P Senellart, Vincent D Blondel Automatic discovery of similar words [46] Radu Florian, Richard Wicentowski Unsupervised Italian Word Sense Disambiguation using WordNets and Unlabeled Corpora [47] Zhexue A fast clustering algorihtm to cluster very large categorical data sets in data mining [48] Akira Ushioda Hierarchical Clustering of Words and Application to NLP tasks [49] Jianfeng Gao, Joshua T Goodman, Jiangbo Miao The use of Clustering techniques for Language Modeling – Application to Asian Language [50] Mitchell P Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz Building a large annotated corpus of English: the Penn Treebank [51] Xiaobin Li, Stan Szpakowicz, Stan Matwin A Wordnet-based Algorithm for Word Sense Disambiguation [52] Ann Bies, Mark Fegurson, Karen Katz, Robert MacIntyre Bracketing Guidelines for Treebank II Style Penn Treebank project [53] George A Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller Introduction to WordNet: An On-line Lexical Database Reference 89 GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên [54] Egidio Terra, C L A Clarke Frequency Estimates for Statistical Word Similarity Measures [55] Tomek Strzalkowski and Barbara Vauthey Information retrieval using robust natural language processing [56] Hang Li A Probabilistic Approach to Lexical Semantic Knowledge Acquisition and Structural Disambiguation [57] L G Alexander Longman English Gramar [58] Hà Văn Bửu Văn Phạm Anh Văn- Sentences câu [59] K Smaili N-classes statistical language modeling [60] Mirjam Sepesy, Bogomir Horvat Statistical Language Modeling Based on Classes [61] Philip R Clarkson Adaptation of Statistical Language Models for Automatic Speech Recognition [62] Kuang-hua Chen, Hsin-Hsi Chen Corpus-Based Analyses of Adjectives: Automatic Clustering [63] Yaakov, Yaari_Bar-Ilan University Segmentation of Expository Texts by Hierarchical Agglomerative Clustering Tóm tắt lý lịch trích ngang : Họ tên : Nguyễn Hoàng Phúc Nguyên Ngày, tháng, năm sinh : 20/12/1978 Nơi sinh : An Giang Địa liên laic : 164A / 15B, Nguyễn Văn Trỗi, P8, Quận Phú Nhuận, Tp Hồ Chí Minh QUÁ TRÌNH ĐÀO TẠO 09 / 1996 - 03 / 1998 : sinh viên đại học Đại Cương, thuộc đại học quốc gia Tp Hồ Chí Minh 03 / 1998 - 03/ 2001 : sinh viên khoa Công Nghệ Thông Tin, trường đại học Bách Khoa, Tp Hồ Chí Minh 09/2001 - 12/2003 : học viên cao học ngành Công Nghệ Thông Tin, trường đại học Bách Khoa Tp Hồ Chí Minh QUÁ TRÌNH CÔNG TÁC 03/2000 - 03/2001 : làm việc bán thời gian cho công ty SDS Việt Nam, với vị trí kỹ sư phần mềm 03/2001 - 12/2002 : kỹ sư phần mềm công ty Vandaele IT Services 01/2003 - : technical leader công ty Tích Hợp (Elisoft) ... CNTT12-019 Clustering vấn đề cải tiến mô hình ngôn ngữ lónh vực xử lý văn tiếng Anh II- NHIỆM VỤ VÀ NỘI DUNG : Phân tích xác định vấn đề : nghiên cứu giải thuật clustering có sẵn lý thuyết giải thuật clustering, ... cho việc xử lý văn bản, tài liệu tiếng Anh Chính thế, việc sử dụng giải thuật clustering nghiên cứu để xây dựng tập cluster hiệu việc cải tiến mô hình ngôn ngữ trình xử lý văn tiếng Anh khó,... biểu vấn đề GVHD: PGS, TS Phan Thị Tươi HV: Nguyễn Hoàng Phúc Nguyên CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đề tài nghiên cứu Đề tài nghiên cứu ? ?Clustering vấn đề cải tiến mô hình ngôn ngữ lónh vực xử lý văn

Định dạng
Số trang	96
Dung lượng	715,26 KB