Nghiên cứu và đề xuất một kiến trúc khung cho xử lý tài liệu tiếng Việt

9 26 0
Nghiên cứu và đề xuất một kiến trúc khung cho xử lý tài liệu tiếng Việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong bài báo này muốn trình bày một quan điểm tổng thể về các đối tượng liên quan đến hệ thống xử lý tài liệu, một kiến trúc phần mềm khung cho việc xử lý tài liệu từ đó đề nghị một giải pháp xây dựng một hệ thống xử lý văn bản tiếng Việt.

Nghiên cứu đề xuất kiến trúc khung cho xử lý tài liệu tiếng Việt Hồ Bảo Quốc, Hồ Tú Bảo, Đinh Điền Tóm tắt : Trong báo chúng tơi muốn trình bày quan điểm tổng thể đối tượng liên quan đến hệ thống xử lý tài liệu, kiến trúc phần mềm khung cho việc xử lý tài liệu từ đề nghị giải pháp xây dựng hệ thống xử lý văn tiếng Việt Giới thiệu Trước hết xin xác đinh rõ nghĩa thuật ngữ xử lý tài liệu (Text processing) ngữ cảnh xử lý liên quan đến việc phân tích nội dung tài liệu (content analyse) không đề cập đến việc soạn thảo, hiệu đính thể tài liệu Các ứng dụng liên quan đến phân tích nội dung tài liệu : xác định ranh giới đối tượng tài liệu : từ, ngữ, đoạn, câu đến việc gán nhãn ngữ pháp (từ gốc, từ loại) hay nhãn ngữ nghĩa cho đối tượng rút trich thông tin từ nội dung tài liệu để phục vụ cho lớp ứng dụng khác : lập mục, tìm kiếm, phân lớp Các ứng dụng thao tác tài liệu hay tập tài liệu, gọi kho tài liệu (corpus) sử dụng số tài nguyên ngôn ngữ học các danh sách cho trước (Gazetteers), danh mục từ (lexicons), hay ontologies Nếu ứng dụng phát triển cách rời rạc, thao tác kho tài liệu với định dạng khác dẫn đến hệ khơng thể tích hợp trao đổi kết với nhau, mà yêu cầu thiếu xử lý tài liệu : kết ứng dụng đầu vào cho ứng dụng khác để hình thành ứng dụng hồn chỉnh Ví dụ : cần có ứng dụng rút trích thực thể định danh (bài toán NER : Named Entity Recognition), phải thực việc : xác định ranh giới từ (Word Segmentation), gán nhãn từ loại cho từ (POS Tagging), rút trích cụm từ (chunking) Nếu tốn (con) cài đặt theo cách khác nhau, thao tác định dạng tài liệu khác khó để kết nối chúng lại với Chính lý nhìn tốn xử lý tài liệu mức độ tổng quát hơn, xác định rõ đối tượng liệu xử lý tham gia vào tốn từ đưa khung phần mềm (Software Framework/Software Architecture) thống để tích hợp chúng lại với thể hồn chỉnh dễ dàng cho việc phát triển, tích hợp tiến hóa hệ thống xử lý tài liệu Trong báo chúng tơi cố gắng trình bày lại cách tổng qt đối tượng toán xử lý tài liệu, nghiên cứu khung phần mềm cho xử lý tài liệu phát triển sử dụng 10 năm giới từ đề xuất khung phần mềm cho xử lý tài liệu tiếng Việt phù hợp với yêu cầu đặt cho phần xử lý tài liệu đề tài KC01 mã số KC.01.01.04/06-10 mà thực Các đối tượng (tài nguyên) toán xử lý tài liệu Theo quan điểm nhóm phát triển GATE [1], mà nhận thấy hợp lý, đối tượng liên quan đến xử lý tài liệu chia thành loại sau : đối tượng liệu, đối tượng xử lý đối tượng thể - - - Các đối tượng liệu : tài liệu cần xử lý, chúng tài liệu đơn lẻ tập tài liệu, chúng có loại định dạng khác Các tài nguyên ngôn ngữ : danh sách (Gazetteers), từ vựng (lexicons) hay tài nguyên có cấu trúc phức tạp ontologies Các đối tượng xử lý : đơn thể chương trình cài đặt thuật tốn xử lý tài liệu : xác định ranh giới từ (Word Segmentation), gán nhãn từ loại(POS Tagger), xác định cụm từ (Chunker), phân tích (Parser) Các đối tượng thể hiện: giao diện (Interface) để thể tương tác, kết việc thực đối tượng xử lý đối tượng liệu Ví dụ: giao diện thể toán phân đoạn từ gồm việc tương tác để xác định tham số, thể kết Các ứng dụng (application) tổ hợp đối tượng với theo nghĩa : đối tượng xử lý thao tác đối tượng liệu theo cấu trúc điều khiển xác định trước tương tác hay thể thông qua đối tượng thể Sau chi tiết vào thuộc tính loại đối tượng nêu 2.1 Đối tượng liệu Như trình bày trên, đối tượng liệu kho tài liệu (corpus) hay tài nguyên ngôn ngữ : danh sách (Gazeteers), từ vựng (lexicons) hay cấu trúc phức tạp ontology Mỗi đối tượng liệu bao gồm tối thiểu thuộc tính sau : - Tên : Tên đối tượng - Vị trí lưu trữ đĩa : đường dẫn vật lý đến tập tin hay thư mục - Định dạng : text, doc, pdf, xml - Tính chất : xử lý tạm thời nhớ hay xử lý lưu trữ thường trực thiết bị lưu trữ - Loại : kho nhữ liệu, danh mục từ, ontologies - Bộ nhãn (Annotation Set) : Các thành phần đối tượng liệu từ (word), cụm từ (chunk), đoạn (paragraph), câu (sentence) gán nhãn theo nhãn Mỗi nhãn (Annotation) nhãn có đặc tính (feature) đặc tính có giá trị tương ứng Ví dụ : giả sử xét nhãn “từ” , nhãn có đặc tính : vị trí (tương đối tài liệu mà từ xuất hiện), từ gốc, thân từ, từ loại từ… 2.2 Đối tượng xử lý Mỗi đối tượng xử lý đơn thể chương trình cài đặt thuật tốn theo tiêu chí chung để dễ dàng gắn thêm (plugin) vào hệ thống Thường chúng có tính chất như: - Các thơng số mơi trường Các tham biến chương trình Các thơng số chương trình thực thi (tên chương trình, đường dẫn…) Các đối tượng xử lý thao tác đối tượng liệu, cụ thể với nhãn nhãn đặc tính nhãn Vi dụ với vài tốn xác định ranh giới từ việc gán nhãn “từ” cho từ câu, gán giá trị cho đặc tính vị trí cuản nhãn “từ” từ Sau tốn gán nhãn từ loại gán thêm giá trị cho đặc tính “từ loại” từ xác định ranh giới bước trước 2.3 Đối tượng thể Là giao diện cài đặt sẳn phù hợp cho toán cụ thể, giao diện thao tác với nhãn (Annotation Set), với nhãn đặc tính nhãn để thể kết giao diện thân thiện với người dung Hay nói cách khác chúng phân tích tài liệu gán nhãn để thể lên giao diện Tóm lại, nhìn tổng quát sau : Các đối tượng kho tài liệu bao gồm hay nhiều tài liệu, tài liệu có nội dung nội dung phân tích gán nhãn (annotate) theo hay nhiều nhãn (annotation set) khác Mỗi nhãn (annotation) nhãn gồm đặc trưng(feature), đặc trưng gán giá trị (value) Các đối tượng xữ lý thao tác nhãn (Annotation Set) thành phần đối tượng liệu để gán giá trị cho đặc trưng nhãn nhãn Do tổng quát hóa toán xử lý tài liệu toán gán nhãn (Annotate) thành phần đối tượng liệu Các đối tượng thể dựa vào liệu gán nhãn để thể lên giao diện thân thiện với người dùng Ngay có góc nhìn mang tính tổng qt việc thiết kế khung phần mềm để tích hợp đối tượng lại với cần phải xem xét đến thành phần : - Các phân tích loại tài liệu khác để làm việc với nhiều loại tài liệu khác Quản lý lưu trữ tài liệu nhớ đía trình thao tác Quản lý nhãn, nhãn đặc trưng nhãn Quản lý việc tích họp đối tượng xử lý Quản lý thể Tât cơng việc đòi hỏi đầu tư cơng sức kinh phí lớn xuất phát từ số khơng Do khơng nên xuất phát từ số không mà nên tận dụng khung phần mềm có sẳn, đề nghị Trong phần sau trình bày chi tiết khung phần mềm mã nguồn mở GATE đại học Sheffield, Anh Quốc mà chúng tơi hy vọng tận dụng để đề xuất cho hệ thống xử lý tài liệu tiếng Việt đề tài Kiến trúc tổng quát cho công nghệ ngôn ngữ GATE (General Architecture for Text Enginering) 3.1 Giới thiệu GATE GATE kiến trúc phần mềm tổng quát cho công nghệ tài liệu nhóm giáo sư Cunninggham đại học Sheffield Anh quốc phát triển từ năm 1997 [1] GATE dựa quan điểm đối tượng liên quan đến xử lý tài liệu nêu phần GATE cung cấp khung đầy đủ công cụ : quản lý đối tượng liệu (trong GATE gọi Language Resources), đối tượng xử lý (trong GATE gọi Process Resources) đối tượng thể (Visual Resources) GATE cho pháp làm việc với loại tài liệu khác : text, pdf, xml …Các đối tượng xử lý thiết kế đặc dạng công cụ gắn vào (plugin) cho phép dễ phát triển thêm tích hợp vào cơng cụ cho sẳn GATE cho phép kết nối với công cụ khác : máy học (machine learning), truy tìm thơng tin (information retrieval)…GATE cung cấp giao diện đồ họa (GUI) cho phép người dung tương tác với hệ thống Các thư viện GATE cung cấp khả lập trình API linh hoạt cho việc phát triển tài nguyên xử lý ứng dụng GATE phát triển bắng ngôn ngữ lập trình Java 3.2 Kiến trúc chung GATE Kiến trúc chung GATE mơ tả sơ đồ sau Hình Kiến trúc tổng quát GATE GATE gồm lớp (Layer) sau : Lớp quản lý loại tài liệu (Document Format Layer) Lớp quản lý lưu trữ (DataStore Layer) Lớp quản lý kho tài liệu (Corpus Layer): Kho tài liệu qaurn lý nhiều mức khác : a Kho tài liệu -Ỉ tài liệu : kho tài liệu bao gồm hay nhiều tài liệu b Nội dung tài liệu -Ỉ nhãn: nội dung tài liệu liên kết với hay nhiều nhãn c Nhãn -Ỉ đặc trưng nhãn : nhãn có hay nhiều đặc trưng Đặc trưng Æ giá trị : đặc trưng gán giá trị cụ thể Lớp quản lý đối tượng liệu đặc biệt (Language Resources Layer) : a Ontology b Ontology tổ chức theo Protégé c WordNet d Các danh sách (Gazetteers) Lớp đối tượng xử lý (Processing Resource Layer) : a Gán nhãn từ loại (POS) b Nhận dạng thực thể định danh (NE) Lớp giao diện (IDE GUI Layer) : giao diện cho phép người dung thao tác trực tiếp Lớp ứng dụng (Application Layer) : ứng dụng mà nhóm phát triển xây dựng gồm úng dụng (ANNIE OBIE) Trên kiến trúc chung GATE trên, nhóm làm xử lý tài liệu tiếng Việt hồn tồn phát triển đói tượng xử lý cho tiếng Việt : Xác định ranh giói từ, gán nhãn từ loại, xác định cụm tuwd, phân tích cú pháp cho tiếng Việt để gắn thêm vào lớp đối tượng xử lý GATE Tiếp theo hoàn tồn xây dựng ứng dụng cho tìm kiếm, phân loại tài liệu theo kiểu ứng dụng ANNIE va OBIE GATE [2] Dĩ nhiên GATE hạn chế giao diện thể chưa ổn định, định dạng kết xuất phức tạp (do phải phục vụ cho nhiều mục tiêu khác nhau), quản lý lưu trữ chưa tốt 3.3 Một ví dụ minh họa Trong ví dụ minh họa chúng tơi sử dụng GATE để tiến hành công việc sau: xác định ranh giới câu, xác định ranh giới từ, xác định từ gốc (stemming) gán nhãn từ loại cho từ kho tài liệu gồm văn thông qua tương tác với giao diện đồ họa GATE Cửa sổ bên trái GATE phần chứa tài nguyên ứng dụng GATE, cửa sổ nội dung văn phân tích gán nhãn cửa sổ bên phải nhãn Trong cửa sổ bên trái, thấy mục : a Language Resources : kho tài liệu cần phân tích, ví dụ corpus có tên “tét” gồm tài liệu có tên “GATE document ….” b Processing Resources : cơng cụ (chương trình) cần nạp vào nhớ để thực thi, thí dụ gồm bốn chương trình i Phân đoạn câu (ANNIE Sentence Splitter) ii Phân đoạn từ (ANNIE English Tokenisez) iii Xác định gốc từ (Stemmer) : cơng cụ gắn vào nhóm khác phát triển (Snowball) theo dạng plugin gắn vào dễ dàng với khung GATE iv Gán nhãn từ loại (ANNIE POS Tagger) c Application : cho phép xây dựng ứng dụng kiêu ống dẫn (PipeLine) từ cơng cụ load vào nhớ Nói cách khác xác định cấu trúc điều khiển việc thực công cụ để đạt kết mong muốn Trong cửa sổ bên trái nhãn (Annotation Set) sử dụng ứng dụng Ở cửa sổ kết tài liệu sau phân tích chọn nhãn (annotation) token cho từ “congestive” để thấy đặc trưng giá trị tương ứng gán cho chúng (trong cửa sổ nhỏ màu xanh nước biển) a b c d e f Vị trí từ đă xác đinh (thơng qua vệt sáng tơ từ – highlighted) Từ loại (categogy) : JJ – tính từ Loại từ (kind) từ (word) (chứ số (number),,,) Lối viết (Orthograph) chữ in thường (lowercase) Từ gốc (stem) “congest” Chuổi khí tự từ (string) “congestive” Hình Giao diện đồ họa GATE Đây ví dụ minh họa qua giao diện đồ họa để dễ trình bày, tất cơng việc lập trình thành chương trình dễ dàng dựa vào thư viện GATE 4 Một đề nghị cho hệ phần mềm xử lý tài liệu tiếng Việt Chúng ta không nên số khơng để có khung phần mềm cho xử lý tài liệu tiếng Việt tương tự GATE Quan điểm thừa kế tất thừa kế từ GATE khung phần mềm tổng quát tương tự để phát triển hệ thống phần mềm xử lý tiếng Việt Làm đở tốn công sức cho việc tạo khung quản lý chung lớp quản lý dạng tài liệu, quản lý lưu trữ, quản lý thành phần phức tạp kho ngữ liệu, nội dung tài liệu, nhãn đặc trưng nhãn Cụ thể, theo quan điểm chúng tơi, thừa kế lớp từ – GATE, phát triển tài nguyên xử lý cho tiếng Việt dạng plugin vào GATE để bổ sung vào lớp thứ GATE Chúng ta tận dụng viết lớp thứ để có giao diện tiếng Việt hợp lý phát triển ứng dụng lớp thứ như: phân loại văn tiếng Việt, tìm kiếm thong tin văn tiếng Việt Để làm điều đó, tiến hành bước sau: Nghiên cứu nắm bắt chi tiết kỹ thuật GATE Phát triển công cụ theo dạng plugin thêm vào GATE : a Công cụ phân đoạn từ b Công cụ gán nhãn từ loại c Công cụ trích cụm từ d Cơng cụ phân tích câu Phát triển giao diện riêng cho hệ thống xử lý văn barnt iếng Việt Thay đổi hay viết thành phần mà GATE chưa đáp ứng nhu cầu dạng kết xuất, giao tiếp với ứng dụng khác Dĩ nhiên khơng hồn tồn sử dụng GATE hộp đen, mà phải hiểu rõ GATE để khai thác, thừa kế điểm mạnh khắc phục điểm yếu chưa phù hợp với mong muốn Kết luận Qua phần trình bày chúng tơi mong muốn trình bày cách nhìn tổng thể, thống đối tượng toán xử lý tài liệu, nêu lên cần thiết nên có khung phần mềm tổng quát cho tốn Chúng tơi trình bày khung phần mềm xử lý tài liệu nhiều nhóm nghiên cứu giới sử dụng minh họa, từ đề xuất giải pháp tận dụng hệ phần mềm khung cho việc phát triển hệ phần mềm xử lý văn tiếng Việt, với mong muốn có chuẩn cơng cụ chung cho việc xử lý văn tiếng Việt chuẩn phù hợp với mà cộng đồng nghiên cứu giới thực Tài liệu tham khảo [1] H Cunningham, D Maynard, K Bontcheva, V Tablan GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02) Philadelphia, July 2002 [2] Y Li, K Bontcheva, and H Cunningham SVM Based Learning System For Information Extraction J Winkler, M Niranjan and N Lawerence (Eds.): Deterministic and Statistical Methods in Machine Learning, LNAI 3635, Springer Verlag, pp 319-339 2005 ... quản lý kho tài liệu (Corpus Layer): Kho tài liệu qaurn lý nhiều mức khác : a Kho tài liệu -Ỉ tài liệu : kho tài liệu bao gồm hay nhiều tài liệu b Nội dung tài liệu -Ỉ nhãn: nội dung tài liệu. .. chương trình dễ dàng dựa vào thư viện GATE 4 Một đề nghị cho hệ phần mềm xử lý tài liệu tiếng Việt Chúng ta không nên số khơng để có khung phần mềm cho xử lý tài liệu tiếng Việt tương tự GATE Quan... hợp lý, đối tượng liên quan đến xử lý tài liệu chia thành loại sau : đối tượng liệu, đối tượng xử lý đối tượng thể - - - Các đối tượng liệu : tài liệu cần xử lý, chúng tài liệu đơn lẻ tập tài liệu,

Ngày đăng: 10/01/2020, 19:52

Tài liệu cùng người dùng

Tài liệu liên quan