Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
849,08 KB
Nội dung
TRƯỜNG ĐẠI HỌC VINH 005.74 KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC ĐỀ TÀI: XÂY DỰNG KHO NGỮ LIỆU TỪ INTERNET Sinh viên thực hiện: Nguyễn Thị Thoan MSSV : 1051070423 Lớp : 51K1 -CNTT Giáo viên hƣớng dẫn: ThS Nguyễn Thị Uyên Nghệ An, tháng 12 năm 2014 Lời nói đầu Trong xử lý ngơn ngữ tự nhiên kho ngữ liệu có nhiều ứng dụng như: ứng dụng ngôn ngữ học – thống kê, ứng dụng ngôn ngữ học so sánh, ứng dụng giảng dạy ngoại ngữ, ứng dụng việc nghiên cứu dịch thuật, cơng cụ cho tốn phân tích từ loại, phân tích cú pháp, tách từ, gán nhãn từ loại…Nên em chọn đề tài “Xây dựng kho ngữ liệu tự động từ internet” Do tầm hiểu biết em hạn chế, đề tài đồ án tốt nghiệp em cịn nhiều sai sót Em mong góp ý chân thành thầy bạn để kịp thời sửa chữa thực tốt Em xin gửi lời cảm ơn chân thành đến Ths Nguyễn Thị Uyên thầy cô tổ Khoa học máy tính giúp đỡ em trình thực đề tài Em xin cảm ơn ban chủ nhiệm khoa thầy cô khoa tạo cho em môi trường thực tập tốt nhất, với trang thiết bị đại Đợt thực tập sở lần giúp chúng em tổng hợp lại kiến thức học năm qua Em xin chân thành cảm ơn! Mục lục Lời nói đầu Mục lục Chương I Tổng quan kho ngữ liệu 1.1 Khái niệm kho ngữ liệu 1.1.1 Khái niệm 1.1.2 Các loại corpus 1.1.3 Ứng dụng corpus 1.2 Xây dựng kho ngữ liệu văn 1.2.1 Các phương pháp xây dựng kho ngữ liệu 1.2.2 Lựa chọn phương pháp xây dựng kho ngữ liệu 1.3 Tìm hiểu chuẩn hóa kho ngữ liệu 10 1.3.1 Chú giải ngôn ngữ 10 1.3.2 Phân tích cú pháp 11 1.3.3 Ví dụ chuẩn hóa 11 Chương II Ứng dụng ngôn ngữ Java 14 2.1 Giới thiệu 14 2.2 Lập trình Java 15 2.2.1 Các từ khóa, kiểu liệu, biến, hằng, tốn tử 16 2.2.2 Các kiểu cấu trúc Java 21 2.2.3 Xử lý chuỗi 23 Chương III Chương trình minh họa 29 3.1 Bài toán 29 3.2 Thuật toán 29 3.3 Cài đặt thuật toán 30 3.3.1 Minh họa chương trình 30 3.3.2 Kết 33 Kết luận hướng phát triển Tài liệu tham khảo CHƢƠNG I TỔNG QUAN VỀ KHO NGỮ LIỆU 1.1 Kho ngữ liệu văn 1.1.1 Khái niệm kho ngữ liệu Một kho ngữ liệu (corpus text corpus) hiểu tập hợp đủ lớn văn có cấu trúc qua chế biến, thường lưu trữ dạng điện tử Kho ngữ liệu sử dụng cho việc phân tích thống kê, xác định tính đắn giả thuyết, kiểm tra cố tính hợp lệ quy tắc ngơn ngữ bối cảnh đặc thù Một kho ngữ liệu chứa văn thứ tiếng đơn lẻ – gọi kho ngữ liệu đơn ngữ (monolingual corpus), văn nhiều thứ tiếng – gọi kho ngữ liệu đa ngữ (multilingual corpus) Nội dung kho ngữ liệu lấy từ nhiều lĩnh vực kinh tế, trị, xã hội, thể thao v.v Đa số, kho ngữ liệu có nguồn gốc từ tạp chí, báo, sách giáo khoa, báo điện tử, web…Những năm gần liệu từ Web nguồn tài nguyên ngôn ngữ khổng lồ, việc thu thập liệu từ Web lại có ưu điểm cho phép cập nhập ngữ liệu thường xuyên, phát tượng ngôn ngữ đa dạng phong phú cách khách quan so với cách thu thập liệu truyền thống Các corpus tài nguyên quan trọng NLP (Natural Langguage Processing) Từ corpus, ta rút liệu quan trọng sau: Từ corpus, ta chiết suất cách tự động qui tắc ngữ pháp Từ corpus tính tốn xác suất, tần suất xuất từ Một corpus phải đảm bảo: Tính đại diện: Các thành phần corpus phải có tính đa dạng phong phú Kích thước: Kích thước corpus lớn đánh giá cao Ví dụ số kho ngữ liệu thơ: Văn hóa (baodatviet.vn): “Thế khơng phải Xem hết phim hoạt hình ngắn vịng chưa đến phút, khán giả nhận câu chuyện hồn tồn trái ngược Một ơng thầy đồ tham ăn tục uống, muốn ăn chặn phần thịt, cá trò nên khéo léo bảo phụ huynh dọn cơm xuống gian phịng học, nơi có hai thầy trò Đến bữa, đứa trẻ vừa bưng bát cơm, thầy nhanh tay nhanh đũa gắp hết thịt cá, bỏ miếng xương vào bát học trò, dặn trị ăn xong nhặt xương cho gọn khơng cha mẹ lại trách thầy trị ta ăn thiếu vệ sinh.….” (118 từ) Chính trị (baovanhoa.vn): “Bộ trưởng Bộ Công thương chia sẻ công tác điều hành, kiểm soát giá số mặt hàng thiết yếu xăng, dầu điện; công tác quản lý thị trường, chống buôn lậu qua biên giới, chống gian lận thương mại nước; hiệu quy hoạch xây dựng chợ, trung tâm thương mại; điều kiện, trang thiết bị làm việc ngành quản lý thị trường; sách để tăng sức cạnh tranh sản phẩm Việt Nam, mặt hàng xuất chủ lực gạo; việc quy hoạch, quản lý lĩnh vực phân phối bán lẻ; Bộ trưởng Bộ Công thương trả lời chất vấn công tác tham mưu Bộ cho Chính phủ chế, sách; phối hợp Bộ Công thương Bộ NN&PTNT việc phát triển công nghiệp chế biến, thu mua loại nơng sản ban hành sách hỗ trợ khuyến khích nơng dân tự nghiên cứu chế tạo thiết bị sản xuất…” (177 từ) Thể thao (24h.com.vn): “VFF nỗ lực đưa vé đến tay giới hâm mộ qua nhiều kênh lẫn tổ chức nhiều trị chơi trúng thưởng hấp dẫn khơng đốn biết khán giả có lấp đầy 40.000 chỗ ngồi sân quốc gia Nhìn vào hai trận giao hữu cuối làm nóng cho AFF Cup, sân Mỹ Đình trống vắng lạnh lẽo với trận không 5.000 người ngồi lưa thưa gió….” (75 từ) Giải trí (vietnamnet.vn): “Những tên lựa chọn từ hai danh sách gợi ý, gồm 40 ca sĩ lựa chọn dựa vào số tương tác người nghe nhạc trực tuyến lượt nghe, lượt thích… Đáng ý, hai hạng mục có khác biệt lớn tiêu chí đề cử.Cụ thể, hạng mục Nghệ sĩ năm, tên đề cử phải đảm bảo tiêu chí khơng dính scandal vịng năm qua Tuy nhiên, với hạng mục Nghệ sĩ năm, tiêu chí “khơng scandal” lại khơng áp dụng Chính điều làm nổ tranh cãi BTC báo giới …”(124 từ) Kinh tế (baodatviet.vn): “Theo phía doanh nghiệp, việc đặt điều kiện có doanh nghiệp thủy sản có hợp đồng với nhà nhập Nga chẳng khác “rào cản” cho doanh nghiệp, phía chịu thiệt người tiêu dùng Nga Theo đó, Cục quản lý chất lượng nông làm sản thủy sản (Nafiqad) kiến nghị phía Nga xem xét bỏ điều kiện doanh nghiệp chế biến thủy sản Việt Nam phải có hợp đồng với nhà nhập Liên bang Nga đủ điều kiện xuất thủy sản vào Nga Liên minh Hải quan….”(101 từ) Thế giới (baodatviet.vn): “Bộ Hải dương Thủy sản Hàn Quốc ngày 20/11 tuyên bố nước gia tăng nỗ lực để trừng trị thẳng tay hành động đánh bắt cá bất hợp pháp tàu thuyền Trung Quốc, đồng thời tịch thu loại bỏ tàu Trung Quốc đánh bắt cá trái phép vùng biển đặc quyền kinh tế Hàn Quốc Theo định trên, Hàn Quốc trước hết gia tăng số lượng tàu tuần tra có từ 34 lên 50 chiếc, đưa vào sử dụng tàu công suất lớn máy bay để thành lập lực lượng đặc nhiệm.…”(112 từ) Pháp luật (vietnamnet.vn): “Phó Thủ tướng yêu cầu TKV thực nghiêm nội dung báo cáo đánh giá tác động môi trường cam kết bảo vệ môi trường; thường xun có báo cáo cơng tác bảo vệ mơi trường gửi quan thẩm quyền, phối hợp chặt chẽ với quyền địa phương để giải khó khăn, vướng mắc hoạt động dự án nhằm hạn chế tác động có hại đến mơi trường xung quanh.Đối với hồ bùn đỏ, Phó Thủ tướng yêu cầu TKV rà sốt, bổ sung quy trình vận hành, phương án ứng phó, phịng ngừa cố; tăng cường cơng tác quan trắc, giám sát an tồn hồ đập Hồ bùn đỏ nhà máy Alumin Tân Rai nhà máy Alumin Nhân Cơ vào vận hành năm 2015….”(143 từ) Khoa học (vietnamnet.vn): “Giải sản phẩm Công nghệ thông tin (CNTT) Triển vọng năm trao cho sản phẩm “Mạng quản lý tích hợp, dịch vụ hạ tầng mạng chuyên nghiệp” Công ty Cổ phần Công nghệ Nguồn mở Thế hệ mới.Giải sản phẩm CNTT Thành công trao cho Sản phẩm “Chip vi điều khiển 8-bit thương mại Việt Nam SG8V1” Trung tâm Nghiên cứu Đào tạo Thiết kế Vi mạch (ICDREC) - Đại học Quốc gia TPHCM….”(85 từ) Giáo dục (24h.com): “Trường ĐH Công nghiệp thực phẩm TPHCM dù chưa phát vụ việc có thi hộ đề phịng kiểm sốt thơng tin SV thẻ từ Ths Phạm Thái Sơn - Phó Trưởng phịng Đào tạo nhà trường cho biết: “Đầu năm học nhà trường kiểm tra tương đôi kỹ làm thẻ SV không nhận ảnh SV tự chụp mà trường chụp lưu hồ sơ Thẻ SV thẻ từ có liên kết với ngân hàng với nhiều chức như: Rút tiền, dùng vào trường thư viện… Đặc biệt, thi, SV bắt buộc phải mang theo thẻ SV để đối chiếu với liệu có sẵn Trong q trình làm thi, phát hay nghi ngờ thi hộ, trường kiểm tra thơng tin thí sinh ngay…” (147 từ) ……… 1.1.2 Các loại corpus Dựa vào mục đích cách xây dựng corpus chia thành loại sau : Corpus thô (raw corpus) tập hợp liệu mà chưa qua chuẩn hóa hay gán nhãn từ loại Corpus gán nhãn (tag corpus) liệu corpus xử lý phân tích từ, phân tích cú pháp, gắn nhãn từ loại, … Parallel Corpus (kho ngữ liệu song song): tập văn băn (tài liệu) nhiều ngôn ngữ khác nhau, có ngơn ngữ nguồn (hoặc nhiều) ngơn ngữ đích (được dịch từ ngơn ngữ nguồn) 1.1.3 Ứng dụng kho ngữ liệu Ứng dụng ngôn ngữ học – thống kê Ngôn ngữ học - thống kê ứng dụng phương pháp xác suất - thống kê vào việc thống kê, đo, đếm đối tượng ngành ngôn ngữ học Ứng dụng ngôn ngữ học so sánh Ngôn ngữ học so sánh so sánh điểm tương đồng, khác biệt ngôn ngữ Để so sánh cần có liệu ngơn ngữ mà cần so sánh việc thu thập, tổng hợp liệu từ nguồn khác cần thiết Ứng dụng giảng dạy ngoại ngữ Kho ngữ liệu song ngữ đóng vai trị quan trọng việc làm nguồn ngữ liệu tài liệu sư phạm phong phú, làm giàu thêm kiến thức họ cơng cụ hữu ích việc thiết kế giáo trình, sử dụng việc dạy học ngoại ngữ Ứng dụng việc nghiên cứu dịch thuật Kho ngữ liệu song song giúp phiên dịch để tìm tương đương ngơn ngữ nguồn đích Chúng cung cấp thơng tin tần số từ, sử dụng cụ thể từ vựng cú pháp Giúp phiên dịch để phát triển dịch thuật có hệ thống từ hay cụm từ hay câu khơng có tương đương trực tiếp ngơn ngữ đích 1.2 Xây dựng kho ngữ liệu 1.2.1 Các phƣơng pháp xây dựng kho ngữ liệu Dựa vào số kho ngữ liệu có cho thấy việc xây dựng kho ngữ liệu thưc thông qua hai phương pháp chính: Phƣơng pháp thứ nhất: Bằng cách xây dựng thủ công bán thủ công phương pháp thực qua hai bước chính: Bước 1: Thu thập kho văn thô, nguồn gốc thu thập liệu từ tạp chí, sách báo, báo điện tử, sách giáo khoa… Bước 2: Chú giải ngôn ngữ: cơng việc thực thủ cơng sử dụng công cụ tồn Phƣơng pháp thứ hai: Bằng cách xây dựng tự động từ internet thực qua năm bước chính: Bước 1: Lựa chọn danh sách từ hạt giống có tần suất xuất trung bình Bước 2: Thu thập liệu từ web cách sử dụng từ hạt giống để tạo truy vấn thơng qua cổng tìm kiếm Yahoo va Google tải trang kết Bước 3: Làm văn bản, loại bỏ thông tin quảng cáo thông tin nhiễu khác Bước 4: Loại bỏ văn trùng lặp Bước 5: Chú giải ngơn ngữ chuẩn hóa 1.2.2 Lựa chọn phƣơng pháp xây dựng kho ngữ liệu Hiện việc thực xây dựng kho ngữ liệu theo phương pháp thủ công bán thủ công tốn nhiều thời gian công sức không mang lại kết tốt Kho ngữ liệu xây dựng phương pháp thủ cơng bán thủ cơng có kích thước khoảng vài trăm megabyte Trong đó, với phát triển internet, thông tin, văn bản, ngôn ngữ internet tăng lên với cấp số nhân Nên lấy liệu Web tạo thành corpus, tạo corpus với kích thước gấp hàng chục, hàng trăm lần corpus xây dựng phương pháp thủ công bán thủ cơng Như trình bày phương pháp xây dựng kho ngữ liệu cách xây dựng tự động từ internet thực qua năm bước chính: Bước 1: Lựa chọn danh sách từ hạt giống có tần suất xuất trung bình Bước 2: Thu thập liệu từ web cách sử dụng từ hạt giống để tạo truy vấn thơng qua cổng tìm kiếm Yahoo va Google tải trang kết Bước 3: Làm văn bản, loại bỏ thông tin quảng cáo thông tin nhiễu khác Bước 4: Loại bỏ văn trùng lặp Bước 5: Chú giải ngôn ngữ chuẩn hóa 1.3 Tìm hiểu chuẩn hóa kho ngữ liệu 1.3.1 Chú giải ngơn ngữ Q trình phân tích giải câu kho ngữ liệu gồm ba bước: Tách từ, gán nhãn từ loại phân tích cú pháp Quy trình thực phân tích giải cho ngơn ngữ tương tự nhau, bước (tầng) ngôn ngữ cần kiến thức có đặc trưng riêng Ranh giới từ ngôn ngữ khác nhau, tập nhãn từ loại, nhãn chức khác ngơn ngữ, chúng ánh xạ sang Bài toán tách từ gán nhãn từ loại có q trình nghiên cứu lâu dài Trong việc gán nhãn từ loại Internet có sẵn số hệ mã nguồn mở, nên tùy biến phát triển để dùng cho ngơn ngữ Dựa vào điều kiện cụ thể mà lựa chọn cơng cụ gán nhãn tự động thích hợp Ví dụ với việc gán nhãn từ loại, có sẵn chương trình gán nhãn từ loại sử dụng làm công cụ Hoặc chấp nhận việc phải gán nhãn từ đầu (bằng tay hoàn toàn) cho phần ngữ liệu thơ, sau huấn luyện hệ gán nhãn từ loại dựa phần dùng làm công cụ xử lý phần cịn lại kho ngữ liệu thơ Việc lặp lại q trình làm việc Việc gán nhãn tay sử dụng cơng cụ hỗ trợ người gán nhãn, có hai nội dung hỗ trợ soạn thảo cú pháp (giao diện) gán nhãn trước, sau người gán nhãn sửa lại 1.3.2 Chuẩn hoá kho ngữ liệu Nghiên cứu XLNNTN cần phải xây dựng tài nguyên ngôn ngữ khổng lồ, tốn nhiều cơng sức Lợi ích việc chia sẻ tài nguyên lớn Tuy nhiên, việc chuẩn hóa kho ngữ liệu khơng phải dễ dàng, tuỳ tiện, mà đòi hỏi phải theo nguyên tắc, chuẩn mực định Sự tương đồng khả tương tác kho ngữ liệu cần cho việc chia sẻ, trao đổi so sánh nguồn ngôn ngữ với Để cung cấp sở hạ tầng cho việc phát triển sử dụng nguồn ngơn ngữ, tổ chức quốc tế chuẩn hóa thành lập tiểu ban SC thuộc Ủy ban kỹ thuật 37 (TC 37) dành cho việc quản lý tài nguyên ngôn ngữ Mục tiêu ISO/TC 37/SC chuẩn bị tiêu chuẩn tài liệu hướng dẫn quản lý hiệu nguồn tài nguyên ngôn ngữ ứng dụng xã hội thông tin đa ngôn ngữ Để đạt mục tiêu này, ủy ban kỹ thuật phát triển nguyên tắc phương pháp để thiết lập, mã hóa, xử lý quản lý nguồn tài nguyên ngôn ngữ kho ngữ liệu văn bản, kho ngữ liệu từ vựng, từ điển, Trong đó, vấn đề chuẩn hố mơ hình giải vấn đề quan trọng, để mở rộng đến mức tối đa phạm vi sử dụng khai thác tài nguyên đặc biệt máy tính Một số mơ hình giải kho ngữ liệu phát triển tiểu ban kỷ thuật ISO/TC 37/SC như: Mô hình giải hình thái cú pháp (MAF – Morphosyntactic Annotation Frameword), mơ hình giải cú pháp (SynAF – Syntactic Annotation Frameword), mơ hình giải ngơn ngữ (LAF – Linguistic Annotation Frameword), mơ hình giải ngữ nghĩa (SemAF – Semantic Annotation Frameword) 1.3.3 Ví dụ chuẩn hóa Chuẩn hóa kho ngữ liệu vấn đề quan trọng, nhằm mở rộng hết mức tối đa phạm vi sử dụng khai thác tài nguyên kho ngữ liệu Một cách chuẩn hóa kho ngữ liệu làm thủ công, bán thủ công Sau xây dựng kho ngữ liệu ta thực giải ngôn ngữ cách loại bỏ ký tự đặc biệt như: @, !, #, $, %, loại bỏ dấu như: ?, /, , ”, |, [, ], ( ,)…, loại bỏ dấu cách trống, dấu xuống dòng thừa, loại bỏ hết chữ tiếng anh chữ viết tắt tệp thu thập ta thu tệp dược giải Trong phiên Word 2007 loại bỏ ký tự cách tự ðộng, làm sau: Bước : Nhấn tổ hợp phím Ctrl + H để hộp thoại Find and Replace Bước : 10 default: ; } Cấu trúc lặp: o Dạng 1: While(…) While(điều_kiện_lặp) { ; } o Dạng 2: do{…} while { ; }while(điều_kiện); o Dạng 3: for(…) for(khởi tạo biến đếm;điều kiện lặp;tăng biến) { ; } 2.2.3 Xử lý chuỗi Chuỗi (string) tập ký tự đứng liền giới hạn dấu ngoặc kép “Hello world” Ví dụ: Đoạn chương trình dùng để khởi tạo chuỗi string.Có cách khởi tạo ứng với string str1,str2,str3 21 Một số phương thức xử lý chuỗi: - Phương thức "lenght ()" Trả độ dài chuỗi Ví dụ: Output: - Phương thức “toUpperCase ()”: Đổi toàn ký tự chuỗi thành chữ hoa Ví dụ: Output: 22 - Phương thức "toLowerCase()" để viết thường đối tượng String Ví dụ: Output: 2.3 Cài đặt viết chƣơng trình Việc cài đặt Java công cụ phát triển Netbean IDE (là môi trường phát triển – công cụ dành cho lập trình viên để viết, biên dịch, gỡ lỗi (debug) triển khai (deploy) chương trình) giống việc cài đặt chương trình khác, nên tơi khơng trình bày Sao cài đặt xong, biểu tượng NetBean xuất Desktop.Màn hình chương trình Netbean: 23 2.7 Hình chương Để tạo project mới, task chọn: File ->New Project nhấn tổ hợp phím Ctrl + Shift + N, tiếptheo chọn mục Java, khung bên phải bạn chọn mục JavaApplication nhấn Next Hộp thoại hiển thị với mục: - Project Name: mặc định JavaApplication1 đặt lại tên Project - Project Location: nơi dẫn đến source lưu trữ Project - Use Dedicated Folder for Storing Libraries: sử dụng muốn lưu trữ thư viện - Create Main Class: khởi tạo hàm chính, mục măc định check - Set as Main Project: thiết lập Project thành Project - Kết thúc click vào Finish Sau hoàn thành bước trên, thư mục Project xuất giao diện: 24 2.8 Hình chương IDE tạo thư mục cho Project "Demo", thư mục Source Packages thư mục tất file java Khi viết chương trình IDE tạo đoạn code viết sẳn cho class Main sau: public class Main: nghĩa khai báo lớp Main 25 public static void main(String[] args): đầu vào chương trình java, chạy chương trình trình xử lý Java kiểm xem lớp có hàm Main hay chưa, có chạy kiện hàm Main trước, cịn khơng báo lỗi Ví dụ chạy chương trình đàu tiên, cần gõ code vào hàm void main, để chạy chương trình chọn phải chuột vào class Main cửa số bên trái chọn Run file sử dụng tổ hợp phím Shift + F6, kết sau: Kết luận: Trong chương trình bày lịch sử ngơn ngữ Java, từ khóa, kiểu liệu, biến, kiểu cấu trúc, hàm xử lý chuỗi Java Hướng dẫn cài đặt phần mềm cách viết chương trình Java 26 CHƢƠNG III CHƢƠNG TRÌNH MINH HỌA 3.1 Bài toán Hiện việc thực xây dựng kho ngữ liệu theo phương pháp thủ công bán thủ công tốn nhiều thời gian công sức không mang lại kết tốt Kho ngữ liệu xây dựng phương pháp thủ công bán thủ công có kích thước khoảng vài trăm megabyte Trong đó, với phát triển internet, thơng tin, văn bản, ngôn ngữ internet tăng lên với cấp số nhân Nên lấy liệu Web tạo thành corpus, tạo corpus với kích thước gấp hàng chục, hàng trăm lần corpus xây dựng phương pháp thủ công bán thủ cơng Bài tốn đặt là: Lựa chọn danh sách hạt giống 27 Lấy nội dung trang web cách tự động dựa vào danh sách hạt giống Loại bỏ thông tin quảng cáo thẻ html văn tải Nội dung trang web lấy không trùng lặp với Chuẩn hóa giải ngơn ngữ 3.2 Thuật tốn 3.1 Hình chương 3.3 Cài đặt thuật tốn 3.3.1 Minh họa chƣơng trình Thƣ viện cần sử dụng: Lớp BufferedReader: dùng để đọc liệu dòng từ file Java BufferedReader cung cấp hàm readLine() để đọc liệu từ file BufferedReader cần dùng InputStream mà cụ thể dùng FileInputStream để mở file đọc liệu 28 Lớp URLConnection: lớp trừu tượng biểu diễn liên kết tới tài nguyên xác định URL Một chương trình sử dụng lớp URLConnection trực bước sau: Xây dựng đối tượng URL Gọi phương thức openConnection() đối tượng URL để tìm kiếm đối tượng URLConnection cho URL Cấu hình đối tượng URL Đọc trường header Nhận luồng nhập đọc liệu Nhận luồng xuất ghi liệu Đóng liên kết Lớp URL: dùng để định vị tìm kiếm liệu Có sáu trường thơng tin lớp URL: giao thức, port, file, mục tham chiếu tài liệu o Phương thức getProtocol() trả xâu ký tự biểu diễn phần giao thức URL o Phương thức getHost() trả xâu ký tự biểu diễn phần hostname URL o Phương thức getPort() trả số nguyên kiểu int biểu diễn số hiệu cổng có URL o Phương thức getDefautlPort() trả số hiệu cổng mặc định cho giao thức URL o Phương thức getFile() trả xâu ký tự chứa phần đường dẫn URL; Java không phân chia URL thành phần đường dẫn phần tệp tin riêng biệt o Phương thức getRef()trả phần định danh đoạn URL Lớp FileNotFoundException: lớp dùng để xử lý ngoại lệ, mở file để đọc liệu file khơng tồn lớp FileNotFoundException xử lý Lớp IOException: lớp dùng để xử lý ngoại lệ, đọc liệu file có lỗi đọc lớp IOException xử lý Lớp InputStream: lớp trừu tượng dùng để lớp xử lý nhập byte liệu kế thừa InputStream có hàm sau: 29 available trả số lượng byte đọc từ inputStream read đọc byte liệu từ inputstream mark đánh dấu vị trí inputstream skip không đọc n byte liệu từ inputstream reset khởi động lại việc đọc từ vị trí phương thức mark close đóng input stream giải phóng tồn tài nguyên hệ thống liên quan đến stream Lớp InputStreamReader: lớp cầu nối dòng vật lý dòng ký tự InputStreamReader đọc byte vật lý chuyển thành ký tự Lớp ObjectOutputStream: Là interface DataOutput interfaces cho việc xuất đối tượng Lớp FileOutputStream: Lớp cho phép ghi kết xuất luồng tập tin Các đối tượng lớp tạo sử dụng đối tượng chuỗi tên tập tin, tập tin, FileDesciptor làm tham số Lớp lớp lớp OutputStream cung cấp phương thức finalize(): đóng dịng file getFD(): lấy file descriptor kết nối với file thực mà đối tượng FileOutputStream sử dụng Cấu trúc câu lệnh: o Bước 1: Xây dựng đối tượng URL URL u=new URL("http://www.dantri.com.vn/van-hoa/dan-ca-vi-giam-nghetinh-chinh-thuc-duoc-unesco-cong-nhan-1000775.htm"); Protocol name: http URL: http://www.dantri.com.vn/van-hoa/dan-ca-vi-giam-nghe-tinh-chinh-thucduoc-unesco-cong-nhan-1000775.htm Host name: www.dantri.com.vn Resource part: /van-hoa/dan-ca-vi-giam-nghe-tinh-chinh-thuc-duoc-unescocong-nhan-1000775.htm Qerry: null Post: -1 o Bước 2: Gọi phương thức openConnection() lớp URL để tìm kiếm đối tượng URL Connection cho đối tượng URL URLConnection connetion=u.openConnection(); 30 Phương thức openConnection() mở socket tới URL xác định trả đối tượng URL Một đối tượng URLConnection biểu diễn liên kết mở tới tài nguyên mạng Nếu lời gọi phương thức thất bại đưa ngoại lệ IOException.Phương thức openConnection() giống phương thức getContent() lớp URL Phương thức URL.getContent() gọi phương thức getContent() tải đối tượng chọn URL URLConnection o Bước 3: Gọi phương thức getInputStream() InputStream inputstream=connetion.getInputStream(); Phương thức kết nối tới tài nguyên tham chiếu URL, thực chế bắt tay cần thiết client server, trả luồng nhập InputStream Sử dụng luồng để đọc liệu Dữ liệu nhận từ luồng liệu thô tệp tin mà URL tham chiếu (mã ASCII đọc tệp văn bản, mã HTML đọc tài liệu HTML, ảnh nhị phân ta đọc file ảnh) Nó khơng có thơng tin header thơng tin có liên quan đến giao thức o Bước 4: Đọc từ luồng nhập BufferedReader br = new BufferedReader(new InputStreamReader(inputstream)); String line=br.readLine(); while(line!=null) { content=content+line; line=br.readLine(); } }catch(Exception e) { e.printStackTrace(); } Ghi liệu: System.out.println(content); Mở file ghi vào file: FileOutputStream fo = new FileOutputStream("C:\\datn.txt"); try (ObjectOutputStream fout = new ObjectOutputStream(fo)) { fout.writeObject(content); 31 3.3.2 Kết Bằng cách xây dựng kho ngữ liệu thủ công xây dựng kho ngữ liệu gồm chủ đề khác nhau: trị, văn hóa, kinh tế, thể thao, sức khỏe Tuy nhiên dung lượng kho ngữ liệu xây dựng thủ công bé tốn nhiều công sức Xây dựng kho ngữ liệu cách lấy tự động từ internet phương pháp tốt Kết luận: Trong chương tơi trình bày tốn, thuật tốn chương trình minh họa, cách cài đặt thuật toán kết đạt 32 Kết luận hƣớng phát triển i Những kết đạt Tìm hiểu tổng quan kho ngữ liệu tiếng Việt Tìm hiểu số phương pháp xây dựng kho ngữ liệu tiếng Việt Tìm hiểu số phương pháp chuẩn hóa kho ngữ liệu tiếng Việt Xây dựng chương trình minh họa sử dụng phương pháp trích lọc liệu từ internet ii Hạn chế đề tài Chưa tìm hiểu sâu phương pháp chuẩn hóa kho ngữ liệu Chương trình minh họa cịn chậm chưa đạt yêu cầu Kho ngữ liệu xây dựn có kích thước bé chưa phong phú iii Hướng khắc phục phát triển đề tài Tìm hiểu sâu phương pháp chuẩn hóa kho ngữ liệu Tìm hiểu ứng dụng thực tiễn kho ngữ liệu tiếng Việt Tìm hiểu phương pháp để cải tiến tốc độ chương trình minh họa đồ án nhanh hiệu tốt Xây dựng kho ngữ liệu phong phú theo chủ đề khác Cải tiến thời gian xử lý chương trình nhanh 33 Tài liệu tham khảo [1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu Văn Tăng, Xây dựng sơ đồ mã hóa cơng cụ trợ giúp gán nhãn tiếng Việt, Proceedings of ICT.rda'08 Hanoi Aug 8-9, 2008 [2] Lê H.Phương, Ng.T.M Huyền, Nguyễn Phương Thái, Phan thị Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí Tin học Điều khiển học, Tập 26 số 2, 2010 [3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tự động văn phạm CFG từ VietTreebank cho phân tích câu tiếng Việt, Tạp chí Khoa học Công nghệ trường đại học, Số 80, 2011 [4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27 số 3, 2011 [5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề phân tích tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học viện CNBCVT, Hà nội 16-9, 2011 [6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from web pages, Tạp chí Khoa học Công nghệ, Viện Khoa Học Việt Nam, Tập 51, Số 1, 2013 [1] Manning, C and Schuetze, H Foundations of Statistical Natural Language Processing MIT Press 1999 [2] Daniel Jurafsky and James H Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition 2nd Edition 2007 [3] J Allen, Natural Langauge Understanding (2nd Edition).The Bẹnamin/Cummings Publishing Company, 1995 34 [4] Roland Hauser, Foundations of Computational Linguistics (2nd Edition) Springer 2001 35 ... thống từ hay cụm từ hay câu khơng có tương đương trực tiếp ngơn ngữ đích 1.2 Xây dựng kho ngữ liệu 1.2.1 Các phƣơng pháp xây dựng kho ngữ liệu Dựa vào số kho ngữ liệu có cho thấy việc xây dựng kho. .. khác khơng ”(170 từ) Kết luận: 11 Trong chương tơi trình bày tổng quan kho ngữ liệu, số ví dụ kho ngữ liệu, loại kho ngữ liệu, cách xây dựng kho ngữ liệu, tìm hiểu chuẩn hóa kho ngữ liệu CHƢƠNG II... 3.3.2 Kết Bằng cách xây dựng kho ngữ liệu thủ công xây dựng kho ngữ liệu gồm chủ đề khác nhau: trị, văn hóa, kinh tế, thể thao, sức khỏe Tuy nhiên dung lượng kho ngữ liệu xây dựng thủ công bé tốn