Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,76 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG………… Luận văn Khai phá liệu văn tiếng Việt với đồ tự tổ chức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trong suốt khóa học 2005 – 2009 trƣờng Đại Học Dân Lập Hải Phòng với giúp đỡ quý thầy cô giáo viên hƣớng dẫn mặt, từ nhiều phía thời gian thực đề tài, nên đề tài em đƣợc hoàn thành thời gian quy định Em xin gửi lời cảm ơn chân thành tới thầy giáo hƣớng dẫn Th.s Nguyễn Trịnh Đông tận tình hƣớng dẫn, giúp đỡ, tạo điều kiện để em hồn thành khóa luận Em xin gửi lời cảm ơn chân thành tới Bộ môn Công Nghệ Thông Tin tồn thể thầy khoa nhƣ tồn thể thầy trƣờng giảng dạy kiến thức chuyên môn làm sở để em thực tốt luận văn tốt nghiệp tạo điều kiện thuận lợi để em hoàn thành khóa học Em xin chân thành cảm ơn ! Hải Phòng, ngày 28 tháng năm 2009 Sinh Viên Vũ Thị Thắm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC GIỚI THIỆU CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 1.TIẾNG VIỆT 1.1 Giới thiệu đặc trƣng ngữ pháp tiếng Việt 1.2 Khó khăn việc nhận dạng từ Tiếng Việt NHỮNG PHƢƠNG PHÁP PHÂN TÍCH, KHAI PHÁ DỮ LIỆU 2.1 Hiển thị trực quan liệu đa chiều 2.2 Các phƣơng pháp gom nhóm liệu Các phƣơng pháp chiếu KHAI PHÁ DỮ LIỆU VĂN BẢN TIẾNG VIỆT 3.1.Những chức hệ thống khai phá liệu văn 3.2.Nhu cầu thông tin vấn đề liên quan đến văn 10 3.3.Khai phá liệu văn với đồ biểu diễn trực quan 11 CHƢƠNG 2: BẢN ĐỒ TỰ TỔ CHỨC – SOM 12 2.1 Nội dung thuật toán 12 2.2 Những tính chất đặc biệt 15 2.3 Đặc điểm toán học 16 2.4 Topology qui luật học 17 2.5 Lân cận nhân 19 2.6 Lỗi lƣợng tử hóa trung bình 20 Chƣơng 3: ỨNG DỤNG SOM TRONG KHAI PHÁ DỮ LIỆU VĂN BẢN TIẾNG VIỆT 21 BIỂU DIỄN VĂN BẢN TIẾNG VIỆT 21 1 Mơ hình biểu diễn văn 21 1.2 Mô hình khơng gian vector (Vector Space Model- VSM) 21 1.3.Trọng số từ vựng 22 1.4 Phƣơng pháp chiếu ngẫu nhiên 23 BẢN ĐỒ VĂN BẢN TIẾNG VIỆT 28 2.1 Mơ hình tổng qt 28 2.2 Tiền xử lý 29 2.3 Mã hóa văn 31 2.4 Xây dựng đồ 32 PHƢƠNG PHÁP PHÂN TÍCH NGỮ ĐOẠN 37 3.1 Cơ sở phân tích ngữ đoạn 37 3.2 Thuật toán xác định trung tâm ngữ đoạn 39 3.3 Minh họa thuật toán 41 CHƢƠNG 4: QUẢN LÝ VÀ KHAI THÁC TRI THỨC TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC 43 4.1 GOM NHÓM TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC 43 4.1.1 Những khoảng cách tiêu chuẩn dùng gom nhóm 43 4.1.2 Gom nhóm SOM 45 4.1.3 Thuật tốn gom nhóm 45 4.2 GÁN NHÃN BẢN ĐỒ 45 4.3 CƠ CHẾ TRÌNH BÀY BẢN ĐỒ VĂN BẢN 46 Chƣơng 5: KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com GIỚI THIỆU Thuật toán SOM biểu tƣợng lớp mạng neural học không giám sát Trong đó, sơ khai SOM đƣợc phát minh giáo sƣ Teuvo Kohonen trung tâm nghiên cứu mạng Neural- Network (1981-1982) Ông ứng dụng SOM vào nhiều chƣơng trình phiên cách nhanh chóng hiệu Trọng tâm SOM đƣa hiển thị liệu cụm liệu cách rõ ràng lên mảng hai chiều Nếu biến ghi liệu vector biến đƣợc mơ tả nhƣ liệu thống kê, đƣợc sử dụng độc lập mức xám mã màu riêng Dùng SOM khai phá để tìm đƣợc mối quan hệ hữu ích, phụ thuộc lẫn biến cấu trúc liệu Lĩnh vực khai phá liệu văn đạt mục tiêu chính: chứng minh đƣợc lý thuyết thực nghiệm đồ văn tự tổ chức cơng cụ trọng tâm có nhiều triển vọng, việc xây dựng đồ nhƣ hoàn toàn tự động Tuy nhiên, thành giai đoạn sơ khai, tồn đọng nhiều vấn đề giải cách bao quát đƣợc, đặc biệt quan trọng vấn đề chọn lựa đặc trƣng cho nội dung văn trình xây dựng đồ, nhƣ việc đánh giá chất lƣợng đồ kết Đó điều đáng phải suy nghĩ Tính cấp thiết đề tài nằm mối quan tâm - cịn chƣa đầy đủ khơng thể bao qt đƣợc mơ hình có - ứng dụng vào Tiếng Việt Trong giai đoạn tiền xử lý, bao hàm trọng tâm phƣơng pháp chọn lựa đặc trƣng cho văn bản, thật định chất lƣợng đồ nhiều yếu tố khác Sự triển khai lĩnh vực khai phá liệu văn ngôn ngữ đặc thù dƣờng nhƣ đề tài vơ tận Đề tài nghiên cứu khía cạnh tổng qt mơ hình khai phá liệu văn với thuật tốn đồ tự tổ chức, sau triển khai với ngữ liệu văn Tiếng Việt Nội dung cụ thể đề tài bao gồm việc trình bày tổng quan lĩnh vực nghiên cứu có liên quan, thu thập, tổ chức ngữ liệu văn tiền xử lý; xây dựng nghiên cứu thuật toán chọn lựa đặc trƣng: xác định ngữ đoạn, xác định cụm từ, xác định từ vựng theo số hữu ích từ vị Rosengren, xác định từ khóa theo quan điểm Guiraud; nghiên cứu phƣơng pháp mã hóa văn dựa từ vựng, cụm từ, ngữ đoạn;nghiên cứu thuật toán đồ tự tổ chức (Self Organizing Map), thuật toán chiếu ngẫu nhiên; đánh giá đồ văn theo phƣơng pháp khác Ngồi ra, đề tài cịn triển khai hai vấn đề quan trọng, sở việc khám phá quản lý tri thức đồ: gom nhóm đồ gán nhãn đồ Ứng dụng ngữ đoạn việc gán nhãn đơn vị đồ vùng văn Những vấn đề đƣợc số tác giả nƣớc nghiên cứu bƣớc đầu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 1.TIẾNG VIỆT 1.1 Giới thiệu đặc trƣng ngữ pháp tiếng Việt Khi sâu tìm hiểu tiếng Việt, ta thấy có nhiều khác biệt so với ngôn ngữ khác nhƣ tiếng Anh, tiếng Pháp, … tất khía cạnh: âm tiết, từ, câu quy tắc liên kết thành phần lại với Những khác biệt cho ta sở để xây dựng cải tiến cho chƣơng trình kiểm lỗi tả tiếng Việt Đặc trƣng bật tiếng Việt thuộc dịng Nam Á loại hình ngơn ngữ đơn lập, khơng biến hình Trong tiếng Việt quan hệ từ đƣợc biểu thị phụ tố chứa thân từ mà phƣơng tiện nằm từ nhƣ trật tự từ, hƣ từ Chính đặc điểm bao quát ngữ pháp tiếng Việt ngữ âm, ngữ pháp ngữ nghĩa Trong tiếng Việt, có đơn vị cấu tạo nên là: - Tiếng - Từ - Câu Mỗi đơn vị lại có đặc trƣng bật riêng biệt mà ta tìm hiểu sau đây: 1.1.1 Tiếng Về giá trị ngữ âm tiếng âm tiết Khi nói phát âm thành âm tiết Về mặt cấu tạo tiếng gồm có phụ âm đầu, vần, phụ âm cuối dấu Bảng 2.1.1: Bảng thành phần âm tiết Phụ âm đầu b c d đ g h k l m n q r s t v x ch gh gi kh ng nh ph qu th tr ngh Nguyên âm a â ă e ê i o ô u ƣ y ao au ây eo ia iu iê oa oi oe oă oo ôi ua uy ui uâ uô uê uơ ƣa ƣi ƣơ ƣu yê iêu oai oao oay oeo uôi uây uyê ƣơi ƣơu uya uyu uêu yêu Phụ âm cuối c p t m n ch ng nh Dấu huyền, hỏi, ngã, sắc, nặng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Về mặt giá trị ngữ nghĩa tiếng đơn vị nhỏ có nghĩa Về mặt giá trị ngữ pháp, tiếng đơn vị ngữ pháp để cấu tạo nên từ tiếng Việt 1.1.2 Từ Từ đơn vị cấu tạo nên câu tiếng Việt Từ tiếng Việt có đặc trƣng bật đa âm tiết, cụ thể từ có nhiều âm tiết khác biệt so với tiếng Anh, từ âm tiết Từ tiếng Việt có số đặc trƣng đƣợc thống Thứ nhất, mặt hình thức, từ khối thống cấu tạo (về tả, ngữ âm, ) Thứ hai, mặt nội dung, từ có nghĩa hồn chỉnh Và thứ ba, khả từ có khả hoạt động tự độc lập ngữ pháp Từ có hai dạng cấu tạo chủ yếu từ đơn từ ghép Từ đơn có cấu tạo có tiếng (âm tiết) cấu tạo Từ ghép có hai dạng cấu tạo láy ghép Trong đó: Láy: Đó đặt tiếng kế cận cho có quan hệ phối hợp ngữ âm phối hợp tạo nên nghĩa từ láy (ví dụ: long lanh, lờ mờ, ) Ghép: Đó đặt tiếng kế cận cho có quan hệ ngữ nghĩa Sự phối hợp tạo nên nghĩa từ ghép Về mặt phân loại, từ có dạng chính: Danh từ: Là từ vật hay việc thực thể có thuộc tính Có tiểu loại danh từ chung danh từ riêng Trong đó: Danh từ riêng danh từ tên riêng ngƣời, vật, địa điểm Danh từ chung danh từ đơn vị, vật, khái niệm trừu tƣợng Động từ: thực từ trạng thái vận động ngƣời, vật, hay việc Nó gồm có dạng phân loại dạng độc lập dạng không độc lập Dạng độc lập dạng động từ mà thân mang nghĩa Ví dụ: cắt, giặt, Dạng không độc lập dạng động từ trống nghĩa, biểu thị tình thái vận động, tự thân khơng mang nghĩa trọn vẹn Ví dụ: nên, cần, dám, Tính từ: Là từ thể đặc trƣng tính chất vật, việc Đại từ: Là lớp từ có tính chất trung gian thực từ hƣ từ Có dạng sau: - Đại từ nhân xƣng - Đại từ định - Đại từ thay LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ từ: Là hƣ từ, có chức dẫn suất, sở biểu hình thái Trạng từ: Là từ nơi chốn, trạng thái Trợ từ: Là từ có chức gia tăng sắc thái ý nghĩa, có dạng sau: Trợ từ tình thái Trợ từ nhấn mạnh Cảm từ: từ biểu thị tình cảm, cảm xúc Số từ: Là từ biểu ý nghĩa số lƣợng Gồm có dạng: - Số từ xác định - Số từ không xác định 1.1.3 Câu Trong ngơn ngữ nói chung tiếng Việt nói riêng, câu đơn vị bậc cao Hai đặc điểm bật câu có nghĩa hồn chỉnh có cấu tạo phong phú đa dạng 1.2 Khó khăn việc nhận dạng từ Tiếng Việt - Một phần tiếng Việt Nam giống với tiếng Trung Quốc tiếng Nhật, nên khó định nghĩa cách xác, gây lên khác từ điển, góp phần làm cho việc nhận ranh giới từ khó - Phần lớn vốn từ Tiếng Việt có từ tiếng Trung Quốc, đơn vị ghép lại với tạo thành đơn vị từ Tiếng Việt Ví dụ: “cơng nhân”,”thƣơng nhân” “nhân” (là từ trung Quốc) - Có lớp từ đặc biệt Tiếng Việt, từ láy Thơng thƣờng từ láy có hai âm tiết, có chí khơng có âm tiết có nghĩa, âm tiết lại biến đổi âm âm tiết Kiểu thông dụng đặc biết tính từ, thực tế hầu hết tính từ dạng từ láy NHỮNG PHƢƠNG PHÁP PHÂN TÍCH, KHAI PHÁ DỮ LIỆU Những phƣơng pháp thƣờng dùng phân tích, khai phá liệu tập liệu nhiều chiều phƣơng pháp xử lý liệu đầu vào đƣợc biểu diễn dƣới dạng vector mà khơng cần có giả thiết phân bố liệu Điều giả định khơng có thêm thơng tin bên khác đƣợc dùng Vấn đề đƣợc giải dựa cấu trúc thật liệu khơng phải giả thuyết có trƣớc cấu trúc lớp Mặc dù q trình phân tích diễn theo chế độ khơng kiểm sốt nhƣng nhãn lớp đƣợc dùng sau để giúp cho việc diễn dịch ý nghĩa kết không ảnh hƣởng đến cấu trúc đƣợc tìm thấy Những vector tập liệu đầu vào đƣợc ký hiệu xk, k =1,….N, xk є Rn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong thống kê, thành phần vector thƣờng đƣợc gọi quan sát (observation) ghi nhận biến số Trong nhận dạng mẫu, ngƣời ta thƣờng gọi thành phần vector đặc trƣng Các phƣơng pháp đƣợc giới thiệu sau có điểm chung làm sáng tỏ cấu trúc bên tập liệu cho trƣớc Trong ứng dụng thực tiễn, việc lựa chọn tiền xử lý liệu thực cịn có tầm quan trọng nhiều việc lựa chọn phƣơng pháp phân tích liệu Các vấn đề sau giữ vai trò then chốt việc áp dụng phƣơng pháp vào tập liệu nhiều chiều: loại cấu trúc đƣợc rút từ tập liệu, làm để mô tả cấu trúc, làm để thu giảm số chiều liệu nhƣ giảm số lƣợng liệu 2.1 Hiển thị trực quan liệu đa chiều Một số phƣơng pháp đồ họa đƣợc đƣa để hiển thị trực quan liệu nhiều chiều cách để tạo cho chiều chi phối số khía cạnh hiển thị, sau tích hợp kết vào hình ảnh Các phƣơng pháp dùng để hiển thị trực quan cho loại vector liệu nhiều chiều nào, thân liệu vector mang ý nghĩa mơ tả tập liệu Hạn chế việc áp dụng phƣơng pháp khai thác liệu chúng không thu giảm số lƣợng liệu 2.2 Các phƣơng pháp gom nhóm liệu Mục đích phƣơng pháp gom nhóm thu giảm số lƣợng liệu cách phân loại nhóm mục liệu tƣơng tự lại với Cách gom nhóm nhƣ phản ánh q trình ngƣời xử lý thơng tin, lý để sử dụng thuật giải gom nhóm chúng đƣợc cung cấp cơng cụ tự động trợ giúp cho việc gom nhóm phân loại Các phƣơng pháp dùng để giảm thiểu hóa tối đa yếu tố ngƣời trình xử lý Các phƣơng pháp gom nhóm chia thành hai loại: gom nhóm phân cấp gom nhóm phân hoạch - Gom nhóm phân cấp thực việc trộn nhóm nhỏ thành nhóm lớn phân tách nhóm lớn thành nhóm nhỏ Các phƣơng pháp gom nhóm loại khác biệt nguyên tắc thực việc trộn tách nhóm Kết cuối thuật giải dạng biểu diễn nhóm - Gom nhóm phân hoạch nhắm đến phân rã trực tiếp tập liệu thành tập nhóm rời Hàm tiêu chuẩn nhấn mạnh đến cấu trúc cục LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com cấu trúc toàn cục liệu Thơng thƣờng, tiêu chuẩn tồn cục u cầu tối thiểu hóa số độ đo khác biệt nhóm Một số phƣơng pháp gom nhóm phân hoạch phổ biến K- trung bình Trong gom nhóm K- trung bình, hàm tiêu chuẩn khoảng cách bình phƣơng trung bình mục liệu xk đến trung tâm nhóm gần || xk - mc(k) ||2 (1) Ek= k Trong đó, c( xk ) số trung tâm nhóm gần xk Một thuật giải có để tối thiểu hóa hàm giá thành bắt đầu cách khởi tạo tập K trung tâm nhóm, ký hiệu mi , i=1,….K Vị trí mi đƣợc điều chỉnh q trình lặp: lần gán mẫu liệu vào nhóm gần nhất, tính tốn lại trung tâm nhóm cho lần lặp Vịng lặp kết thúc E không thay đổi Trong thuật giải lặp, nhóm chọn ngẫu nhiên đƣợc đánh giá lần lƣợt, trung tâm điểm gần đƣợc cập nhật Phƣơng trình dùng phƣơng pháp lƣợng tử hóa vector Trong lƣợng tử hóa vector, mục đích tối thiểu hóa lỗi lƣợng tử hóa bình phƣơng trung bình, khoảng cách mẫu x biểu diễn mc(x) Thuật giải để tối thiểu hóa phƣơng trình tổng qt hóa thuật giải tối thiểu hóa lỗi lƣợng tử hóa trung bình không gian chiều Một vấn đề phƣơng pháp gom nhóm tỏ thích hợp với số kiểu nhóm đó, thuật giải gán liệu vào nhóm kiểu nhƣ liệu khơng thực có nhóm nhƣ Tuy nhiên, mục đích khơng phải tập liệu mà phải rút đƣợc cấu trúc nhóm liệu tập liệu Điều then chốt phân tích xem tập liệu có bộc lộ khuynh hƣớng gom nhóm liệu hay khơng Các kết phân tích nhóm sau cần đƣợc kiểm tra tính đắn Một vấn đề tiềm tàng khác việc chọn số lƣợng nhóm: loại nhóm khác xuất K thay đổi Sự khởi tạo nhóm có tính định Một số nhóm trống trung tâm chúng đƣợc khởi tạo khác xa với phân bố liệu Các phƣơng pháp chiếu Gom nhóm làm giảm số lƣợng liệu cách nhóm chúng lại với Một phƣơng pháp khác đƣợc dùng để giảm số chiều liệu Các phƣơng pháp đƣợc gọi phƣơng pháp chiếu Mục đích phép chiếu biểu diễn mục liệu đầu vào khơng gian chiều hơn, theo cách thức cho số tính chất cấu trúc tập liệu đƣợc giữ lại nguyên vẹn đến mức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tính chất nhiều chiều tập liệu lớn thu giảm mạng neuron Các mạng neuron chấp nhận liệu đầu vào đƣợc biểu diễn số lƣợng nhỏ biến số, thay dùng nhiều chiều cho mục liệu Các neuron tìm cách tái cấu trúc liệu đầu vào đến mức có thể, biểu diễn mục liệu cấu trúc lên mạng neuron đƣợc xem nhƣ biểu diễn giảm chiều liệu KHAI PHÁ DỮ LIỆU VĂN BẢN TIÊNG VIỆT 3.1.Những chức hệ thống khai phá liệu văn Các chức mục đích hệ thống khai phá liệu văn Nội dung phạm vi đề tài LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 36 PHƢƠNG PHÁP PHÂN TÍCH NGỮ ĐOẠN Để tìm kiếm số vốn ngữ đoạn đặc trƣng cho văn ngữ liệu cần xác định dạng trung tâm ngữ đoạn phổ quát 3.1 Cơ sở phân tích ngữ đoạn 3.1 Cấu trúc Đề - Thuyết Mathesius (trƣờng phái Prague, 1929) cho ngữ pháp truyền thống phân tích hình thức khơng phân tích ngữ nghĩa Do vậy, trƣờng phái đƣa khái niệm ngữ pháp chức Mathesius chia câu thành Đề Thuyết Đề đƣợc nói đến, Thuyết nói Đề Lý thuyết có triển vọng việc phân tích ngữ pháp tiếng Việt C Thompson (1965) phát câu tiếng Việt đƣợc xây dựng cấu trúc Đề -Thuyết Trong tiếng Việt khơng có chủ ngữ ngữ pháp mà có logic tƣơng ứng với Sở Đề câu 3.1.2 Những phƣơng tiện đánh dấu phân chia Đề -Thuyết Quan hệ Đề - Thuyết đa dạng Đó mối quan hệ logic, mối quan hệ nghĩa, đƣợc đánh dấu phƣơng tiện ngữ pháp nhƣng qui chế hóa vào khn mẫu cứng nhắc “Thì” “là”: để dánh dấu chỗ câu phân chia thành hai phần Đề Thuyết, tiếng Việt dùng hai tiểu tố: “thì ” “là” Đây hai công cụ quan trọng cú pháp Tiếng Việt Biên giới Đề Thuyết câu chỗ có hai tiểu tố trên, hiểu ngầm hai tiểu tố mà cấu trúc cú pháp câu không bị phá vỡ hay biến đổi, ý niệm câu đƣợc giữ nguyên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 37 3.1.3 Trắc nghiệm lƣợc bỏ- mở rộng văn cảnh Trung tâm ngữ đoạn yêu tố nhât có quan hệ ngữ pháp ngữ nghĩa vƣợt biên giới ngữ đoạn Do vậy, đƣờng trực tiếp để xác định trung tâm ngữ đoạn tìm xem yếu tố có đƣợc quan hệ nhƣ Để thực điều này, phải thử lƣợc bỏ thành phần ngữ đoạn, tìm kiếm phân bỗ ngữ đoạn sau thao tác lƣợc bỏ văn cảnh khác Trung tâm ngữ đoạn thành phần khơng thể lƣợc bỏ đƣợc 3.1.4 Mơ hình phân tích ngữ đoạn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 38 3.2 Thuật toán xác định trung tâm ngữ đoạn Thuật toán xác định trung tâm ngữ đoạn dựa trắc nghiệm lƣợc bỏ mở rộng văn cảnh đƣợc trình bày sau nhằm tìm dạng trung tâm ngữ đoạn có kết cấu từ hai từ vựng trở nên Phƣơng pháp cho kết phụ thuộc vào khối lƣợng ngữ liệu văn cảnh diện Đầu vào: Tập hợp câu toàn ngữ liệu văn Các câu đƣợc phân rã sơ dựa dấu phẩy (,) ngăn cách ngữ đoạn lớn Tập hợp tất dạng ngữ đoạn đƣợc phân rã liệu đầu vào cho thuật toán Đầu ra: Tập hợp S tất dạng trung tâm ngữ đoạn Bước 1: S={} Bước 2: Dùng tiểu tố “thì ” “là” phân tích thành hai phần Đề Thuyết tất dạng ngữ đoạn Gọi R tập hợp tất dạng ngữ đoạn đầu vào cịn lại chƣa phân tích đƣợc Gọi D tập hợp tất dạng ngữ đoạn làm Đề phân tích đƣợc, danh ngữ kết cấu có chức tƣơng đƣơng danh ngữ Gọi T tập hợp tất dạng ngữ đoạn làm Thuyết phân tích đƣợc Gọi C=R + T Bước 3:Với dạng ngữ đoạn s є D, Thực hiện: B3.a Mở rộng văn cảnh cho dạng ngữ đoạn s’, với s’ đƣợc dẫn xuất từ s cách lƣợc bỏ từ cuối cấu trúc Mở rộng văn cảnh cho s’ có nghĩa tìm phân bố s’ tất văn cảnh ngữ liệu B3.b Nếu số lƣợng văn cảnh chứa s’ tìm đƣợc lớn ngƣỡng (trong đề tài sử dụng ngƣỡng 10) coi nhƣ s’ dạng trung tâm ngữ đoạn S=S+{s’} Dừng bƣớc s hành, quay trở lại bƣớc với s khác B3.c Quay lại bƣớc 3.a, s’ khơng cịn đƣợc cấu trúc từ trở lên dừng bƣớc s hành Quay trở lại bƣớc s khác Bước 4: Dùng dạng trung tâm ngữ đoạn S để phân rã dạng ngữ đoạn tập C c є C, phân rã c thành dạng ngữ đoạn dựa dạng trung tâm ngữ đoạn có S Sự phân rã c thực nhƣ sau: c đƣợc xem nhƣ chứa dạng trung tâm ngữ đoạn biết chƣa biết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 39 Những dạng ngữ đoạn thành phần kết cấu c nhận diện đƣợc dạng trung tâm ngữ đoạn biết S sử dụng thao tác bƣớc dạng ngữ đoạn thành phần chƣa biết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 40 3.3 Minh họa thuật toán Bước 1: Đầu vào thuật toán 84,343 dạng ngữ đoạn thu đƣợc từ phân rã sơ câu 5,325 văn tồn văn Thuật tốn tiến hành tìm kiếm dạng trung tâm ngữ đoạn dạng ngữ đoạn Bước 2:Tập D gồm dạng ngữ đoạn làm Đề Bước 3: ví dụ chọn dạng ngữ đoạn s D “xây dựng chủ nghĩa xã hội”, dạng ngữ đoạn làm Đề phân tích từ câu nhƣ: “Xây dựng chủ nghĩa xã hội đấu tranh cách mạng phức tạp” “Xây dựng chủ nghĩa xã hội xây dựng sống ấm no hạnh phúc cho nhân dân” … Bước 3a: s’= “xây dựng chủ nghĩa xã ” Bước 3b: khơng tìm văn cảnh chứa s’ Bước 3c: quay lại bƣớc 3a Bước 3a: s’= ” Xây dựng chủ nghĩa” Bước 3b: tìm văn cảnh chứa s’, Ví dụ: “Nhân dân Liên xơ vừa xây dựng chủ nghĩa cộng sản nƣớc mình” Số văn cảnh chứa s’ tìm đƣợc ngƣỡng 10, s’ dạng trung tâm ngữ đoạn Bước 3c: quay lại bƣớc 3a Bước 3a: s’=”Xây dựng chủ” Bước 3b: tìm văn cảnh chứa s’, ví dụ: “ Xây dựng chủ trƣơng chung” Số văn cảnh chứa s’ tìm đƣợc ngƣỡng 10, s’ dạng trung tâm ngữ đoạn Bước 3c: dừng bƣớc s Thực bƣớc s khác … Bước 4: giả sử S có dạng trung tâm ngữ đoạn ” xây dựng” Dùng dạng trung tâm ngữ đoạn để phân rã dạng ngữ đoạn khác C Ví dụ: c= “ Xây dựng xã hội mới” có chứa dạng trung tâm ngữ đoạn biết “xây dựng ” dạng ngữ đoạn chƣa nhận diện đƣợc “ xã hội mới” LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 41 Bước 3a: s’= “xã hội”, Bước 3b: tìm 3, 101 văn cảnh chứa s’ Ví dụ: “lịch sử phát triển xã hội” Số văn cảnh chứa s’ tìm đƣợc nhiều ngƣỡng 10, s’ dạng trung tâm ngữ đoạn Bước 3c: dừng bƣớc s LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 42 CHƢƠNG 4: QUẢN LÝ VÀ KHAI THÁC TRI THỨC TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC 4.1 GOM NHÓM TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC Khi số lƣợng đơn vị đồ SOM lớn, tiến trình gom nhóm đồ đƣợc thực nhằm phục vụ mục đích khai thác sau Nhƣ trình bày phần trƣớc, SOM tỏ đặc biệt thích hợp cho mục đích xây dựng đồ đặc tính trội việc trình bày liệu SOM tạo tập hợp vector nguyên mẫu biểu diễn tập liệu thực phép chiếu bảo toàn topo cho mẫu không gian đầu vào nchiều lên bảng chiều hơn, thông thƣờng đồ 2- chiều Bản đồ mặt phằng hiển thị thích hợp để trình bày đặc trƣng khác SOM, chẳng hạn cho cấu trúc nhóm Tuy nhiên, hiển thị trực quan nhƣ đƣợc dùng để cảm nhận thông tin định tính Để tạo thơng tin tóm lƣợc- mơ tả định lƣợng đặc tính liệu- đơn vị đồ cần đƣợc gom nhóm để xử lý cách có hiệu Ở khơng ngồi mục đích tìm kiếm cách gom nhóm tốt cho liệu mà thực gom nhóm có thể, để làm bộc lộ đặc trƣng cấu trúc liệu, để phục vụ cho mục đích Khai phá liệu văn 4.1.1 Những khoảng cách tiêu chuẩn dùng gom nhóm Những khoảng cách bên nhóm - Khoảng cách trung bình: ||xi - xj|| i, j Sa= || xi - xj || Nk ( Nk 1) - Khoảng cách lân cận gần nhất: i Snn= i{|| xi xj ||} Nk - Khoảng cách tâm: Sc= i || xi ck || Nk Những khoảng cách nhóm: o Liên kết đơn: ds= i,j {|| xi-xj||} LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 43 o Liên kết hoàn toàn: dco= max i,j {|| xi-xj||} o kết trung bình: da= i, j || xi xj || NkNl o Liên kết tâm: dce= || ck-cj|| Các thuật toán gom nhóm: Những thuật tốn gom nhóm đƣợc phân thành hai loại chính: gom nhóm phân cấp gom nhóm phân hoạch Những thuật tốn gom nhóm phân cấp lại đƣợc chia thành hai loại: gom nhóm tích hợp ( agglomerative algorithms) gom nhóm chia nhỏ (divisive algorithms) Những thuật tốn gom nhóm tích tụ thƣờng bao gồm bƣớc sau: Khởi tạo: gán vector cho nhóm Tính tốn khoảng cách tất nhóm Trộm hai nhóm gần lại Trở lại bƣớc cịn nhóm Nói cách khác, mục liệu đƣợc trộn với để hình thành nên phân cấp nhóm Cây phân cấp nhóm dùng để diễn giải cho cấu trúc liệu xác định số lƣợng nhóm Những thuật tốn gom nhóm phân hoạch chia tập liệu thành số nhóm tìm cách tối thiểu hóa số tiêu chuẩn hàm lỗi Thuật toán dựa bƣớc sau: Xác định số lƣợng nhóm Khởi tạo trung tâm nhóm Tính tốn ( cập nhật ) trung tâm nhóm Nếu tình trạng phân hoạch khơng cịn thay đổi thêm đƣợc dừng; ngƣợc lại, trở bƣớc Nếu khơng tìm thấy trƣớc số lƣợng nhóm, thuật tốn phân hoạch đƣa giả sử số lƣợng nhóm này, thƣờng từ nhóm đến N nhóm, với N LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 44 số lƣợng mẫu tập liệu Trong trƣờng hợp thuật tốn lặp lặp lại để tìm số lƣợng nhóm tốt cho gom nhóm phân hoạch 4.1.2 Gom nhóm SOM Giả sử ban đầu đơn vị đồ nhóm Áp dụng thuật tốn gom nhóm tích tụ với phép trộn đƣợc xác định hai tiêu chuẩn sau: A Chỉ số Davies- Bouldin: tính số cho hai nhóm quan tâm, số lớn tiến hành trộn hai nhóm Chỉ số Davies-Bouldin đƣợc tính nhƣ sau: C số lƣợng nhóm B Khoảng cách hai nhóm: khoảng cách ds(Qk,Ql) lớn tổng khoảng cách trung bình Snn(Qk) + Snn(Ql) điểm hai nhóm tiến hành trộn hai nhóm 4.1.3 Thuật tốn gom nhóm 4.2 GÁN NHÃN BẢN ĐỒ Khám phá tri thức đồ văn chất trình khai thác nhãn đƣợc gán cho đơn vị vùng đồ Các nhãn đồ mô tả nội dung đƣợc xây dựng cấp độ khái quát cao, sở nhãn văn Giả sử văn đƣợc kết hợp với tập hợp nhãn, nhãn tƣơng ứng với từ khóa văn Phƣơng pháp LabelSOM để gán nhãn cho đơn vị đồ, phƣơng pháp phân tích thành phẩn vector tham chiếu chọn làm nhãn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 45 từ tƣơng ứng với thành phần vector tham chiếu có độ lệch nhỏ theo định nghĩa Phƣơng pháp gán nhãn cho đơn vị vùng đồ văn mơ hình WEBSOM dựa việc chọn lựa từ vựng theo độ đo tỉ lệ tần số xuất Việc ứng dụng ngữ đoạn vào gán nhãn đồ đƣợc nhiều tác giả tiên liệu thời gian dài, xuất phát từ nghiên cứu vấn đề khám phá phát cụm từ văn (Turney, 1999) rõ việc ứng dụng ngữ đoạn năm lĩnh vực quan trọng, có lĩnh vực gán nhãn cho đồ văn (Feldman, 1998) đƣa phƣơng pháp gán nhãn cách phát sinh tự động số ngữ đoạn dựa từ khóa từ vựng diện văn theo số qui tắc cú pháp đơn giản Thuật toán: Gọi tập hợp văn ngữ liệu K0 Đối với đơn vị đồ ( hay vùng đồ) i, gọi tập hợp văn khối ngữ liệu Ki Áp dụng thuật toán phân tích ngữ đoạn để tìm dạng trung tâm ngữ đoạn K0 ( Thông thƣờng không cần thực bƣớc sử dụng lại kết có từ giai đoạn mã hóa văn bản, mã hóa đƣợc dựa ngữ đoạn) s, Tính giá trị đại lƣợng Z s K1 so với K0 Nếu Z >2.58, s trung tâm ngữ đoạn khóa K1 Sử dụng s làm nhãn i Quay lại bƣớc 2, thực gán nhãn cho đơn vị (vùng) đồ khác Thuật toán dừng gán nhãn cho tất đơn vị (vùng) đồ 4.3 CƠ CHẾ TRÌNH BÀY BẢN ĐỒ VĂN BẢN Đề tài dùng kỹ thuật web để trình bày đồ văn mục đích minh họa Việc xây dựng phƣơng pháp đồ họa hiệu để trình bày đồ khơng nằm phạm vi đề tài Bản đồ đƣợc trình bày theo hai dạng: cách nhìn bao quát ghi nhận đơn vị đồ có phân bố liệu, đồ đƣợc gom nhóm thành vùng lớn nhỏ khác Trình bày đồ theo cấu trúc phân cấp chủ đề- nội dung: - Cấp 0: đồ - Cấp 1: vùng đồ, - Cấp 2: đơn vị đồ, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 46 - Cấp 3: văn Ở cấp trình bày, hiển thị tập nhãn phản ánh chủ đề nhóm liệu thuộc cấp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 47 Chƣơng 5: KẾT LUẬN Khai phá liệu văn với đồ tự tổ chức SOM thực thực tiễn để giải vấn đề có liên quan đến ngữ liệu văn lớn Mô hình tổng quát đƣợc xác lập nghiên cứu nhƣng cần phải có đóng góp để phù hợp với ngôn ngữ riêng biệt, đặc biệt Tiếng Việt, ngôn ngữ đơn lập khác loại hình với tiếng châu Âu đƣợc nghiên cứu nhiều lĩnh vực Đề tài nghiên cứu triển khai thực nghiệm tồn mơ hình Khai phá liệu văn bản, bao gồm tất giai đoạn có liên quan: tiền xử lý –bao hàm năm phƣơng pháp lựa chọn đặc trƣng, mã hóa văn bản, giảm chiều vector văn bản, thuật toán đồ tự tổ chức SOM, gom nhóm đồ, gán nhãn vùng đơn vị đồ, chế hiển thị đồ Các kết đạt đƣợc cho phép kết luận tính khả thi mơ hình Khai phá liệu văn với đồ tự tổ chức tiếng Việt Từ kết đề tài, hướng nghiên cứu sau tiếp tục: Khám phá quản lý tri thức đồ văn Kết hợp sử dụng đồ với hệ thống tìm kiếm thơng tin IR chế tìm kiếm sàng lọc xếp kết tìm kiếm Xây dựng kĩ thuật đồ họa cao cấp thuật tốn để tơ màu trình bày trực quan đồ có hiệu Nghiên cứu phƣơng pháp gom nhóm đồ bảng phân ngành chủ đề giải vấn đề phân nghành văn Sử dụng đồ văn nhƣ lọc chủ đề để phân loại văn chúng xuất hiện, phát chủ đề hình thành kho liệu Đặc biệt, bộc lọc sử dụng mục đích an ninh để theo dõi thông tin thu thập ( Thƣ điện tử, Fax, …) thông tin nhạy cảm bi sàng lọc đƣợc cảnh báo tự động cho hệ thống theo dõi, phân loại, thông báo cho hệ thống truy tìm nguồn gốc khác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 48 TÀI LIỆU THAM KHẢO A.Sách [1].Cao Xuân Hạo, Tiếng Việt: vấn đề ngữ âm, ngữ pháp, ngữ pháp, ngữ nghĩa, NXB Giáo dục, 1998.752 trang [2].Cao Xuân Hạo,Tiếng Việt: sơ thảo ngữ pháp chức năng, 1, NXB khoa học xã hội, 1991 254 trang [3].Nguyễn Đức Dân, Đặng Thái Minh, thống kê ngôn ngữ học: số ứng dụng, NXB Giáo dục, 1999 220 trang B Luận văn [4] Nguyễn Thị Thanh Hà, Nguyễn Trung Hiếu.Hệ thống tìm kiếm tiếng Việt Giáo viên hƣớng dẫn: Thạc Sĩ Trần Thái Minh [5] Võ Hồ Bảo Khanh, Xây dựng ngữ liệu Tiếng Việt.Giáo viên hƣớng dẫn: Tiến sĩ Hồ Quốc Bảo [6].Nguyễn Đức Cƣờng,Tổng quan khai khoáng liệu,Trƣờng ĐH Bách Khoa Tp Hồ Chí minh, Khoa Cơng Nghệ Thông Tin [7] Nguyễn Thị Phƣơng Thảo,Ứng dụng Data Mining phân tích liệu thống kê.Giáo viên Hƣớng Dẫn: Thạc sĩ Nguyễn Trọng Tuấn [8].Hoàng Hải Xanh,Các Kỹ thuật phân cụm liệu Data Mining;Giáo viên hƣớng dẫn: Hoàng Xuân Huấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 ... mục liệu cấu trúc lên mạng neuron đƣợc xem nhƣ biểu diễn giảm chiều liệu KHAI PHÁ DỮ LIỆU VĂN BẢN TIÊNG VIỆT 3.1.Những chức hệ thống khai phá liệu văn Các chức mục đích hệ thống khai phá liệu văn. .. LÝ VÀ KHAI THÁC TRI THỨC TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC 4.1 GOM NHÓM TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC Khi số lƣợng đơn vị đồ SOM lớn, tiến trình gom nhóm đồ đƣợc thực nhằm phục vụ mục đích khai. .. thuật toán đồ tự tổ chức SOM, gom nhóm đồ, gán nhãn vùng đơn vị đồ, chế hiển thị đồ Các kết đạt đƣợc cho phép kết luận tính khả thi mơ hình Khai phá liệu văn với đồ tự tổ chức tiếng Việt Từ kết