Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
1,66 MB
Nội dung
1 đại học quốc gia hà nội tr-ờng đại học công nghệ trần thị lan h-ơng NGHIấN CU PHN LP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYấN V MễI TRNG luận văn thạc sĩ công nghệ thông tin Hà nội - 2012 đại học quốc gia hà nội Tr-ờng đại học công nghệ trần thị lan h-¬ng NGHIÊN CỨU PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUN VÀ MƠI TRƯỜNG Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin MÃ số luận văn thạc sĩ công nghệ thông tin Ng-ời h-ớng dẫn khoa học: PGS.TS Đỗ Trung TuÊn Hµ néi - 2012 MỤC L Mục lục Danh mục bảng Danh mục hình MỞ ĐẦU Chương 1: KHÁI QUÁT VỀ PHÂN LỚP TOÁN K LÁNG GIỀNG GẦ 1.1 Khai phá liệu văn 1.2 Khái niệm khai phá văn 1.2.1 Một số khái niệm sử dụng luận 1.2.2 Các phương pháp đánh trọng số cho t 1.3 Một số phương pháp biểu diễn văn bả 1.3.1 Mơ hình Boolean 1.3.2 Mơ hình khơng gian vector 1.3.3 Mơ hình xác suất 1.3.4 Mơ hình LSI 1.4 Phương pháp lựa chọn từ biểu d 1.4.1 Loại bỏ từ dừng 1.4.2 Thu gọn đặc trưng biểu diễn 1.5 Độ liên quan văn 1.6 Phân lớp văn 1.7 Thuật toán K láng giềng gần (KN 1.8 Kết chương Chương 2: BÀI TOÁN PHÂN LỚP TỰ Đ TIẾNG VIỆT VỀ TÀI NGUY 2.1 Một số đặc điểm tiếng Việt 2.1.1 Âm tiết 2.1.2 Từ 2.1.3 Câu 2.1.4 Các đặc điểm tả văn tiếng 2.2 Phương pháp tách từ tiếng Việt 2.2.1 Phương pháp So khớp tối đa 2.2.2 Phương pháp Giải thuật học cải biến 2.2.3 Phương pháp đối sánh thuật ngữ dài 2.3 Một số thông tin chuyên ngành Tài n 2.3.1 Tài nguyên đất 2.3.2 Tài nguyên nước 2.3.3 Tài nguyên khoáng sản 2.3.4 Tài nguyên biển 2.3.5 Khí tượng thủy văn 2.3.6 Môi trường 2.3.7 Đo đạc đồ 2.4 Bài toán phân lớp tự động văn b tài nguyên mơi trường 2.5 Mơ hình tiếp cận tốn 2.5.1 Tiền xử lý văn 2.5.2 Lựa chọn đặc trưng theo chủ đề văn 2.5.3 Xử lý tập mẫu 2.5.4 Biểu diễn văn mơ hình ve 2.5.5 Phép tính độ liên quan hai vect 2.5.6 Phân lớp văn tiếng việt tài ng 2.6 Kết chương Chương 3: THIẾT KẾ XÂY DỰNG HỆ 3.1 Thiết kế tổng thể 3.2 Thiết kế chi tiết 3.3 Sơ đồ khung cảnh mức hệ thố 3.4 Sơ đồ khung cảnh mức chức n 3.5 Sơ đồ khung cảnh mức chức 3.6 Sơ đồ khung cảnh mức chức 3.7 Chức quản lý từ điển, từ dừng 3.8 Chức quản lý chủ đề 3.9 Thiết kế sở liệu 3.10 Kết chương Chương 4: CÀI ĐẶT MƠ HÌNH VÀ KI 4.1 Cài đặt chương trình 4.1.1 Lựa chọn cơng nghệ mơi trường 4.1.2 Giao diện chương trình phân lớp văn tài nguyên môi trường 4.2 Cơ sở liệu 4.3 Kết 4.3.1 Kết tách từ 4.3.2 Kết phân lớp văn 4.4 Kết chương KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TR DANH MỤC TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC CÁC BẢNG Bảng 1.1 Các đại lượng TPc, TNc, FNc, FPc Bảng 3.1 Bảng thiết kế sở liệu Bảng 4.1 Thông tin mô tả số thông số tập liệu huấn luyện Bảng 4.2 Trích kết kiểm thử phân lớp văn báo chí tiếng Việt tài ngun mơi trường Hình 1.1 Hình 1.2 Hình 1.3 Hình 1.4 Hình 1.5 Hình 1.6 Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 Hình 2.5 Hình 3.1 Hình 3.2 Hình 3.3 Hình 3.4 Hình 3.5 Hình 3.6 Hình 3.7.a Hình 3.7.b Hình 3.8 Hình 4.1 Hình 4.2 loại bỏ từ dừng MỞ ĐẦU Phân lớp văn toán khai phá liệu văn Bài toán phân lớp văn việc gán tên chủ đề (tên lớp/nhãn lớp) xác định trước, vào văn dựa nội dung chúng Phân lớp văn công việc sử dụng để hỗ trợ trình tìm kiếm thơng tin, chiết lọc thơng tin, lọc văn tự động dẫn đường cho văn tới chủ đề xác định trước Phân lớp văn thực thủ cơng tự động sử dụng kỹ thuật học máy có giám sát Các hệ thống phân lớp ứng dụng việc phân loại tài liệu thư viện điện tử, phân loại văn báo chí trang tin điện tử,… hệ thống tốt, cho kết khả quan, giúp ích nhiều cho người Đề tài "Nghiên cứu phân lớp tự động văn báo chí tiếng Việt tài ngun mơi trường", học viên vận dụng kiến thức kỹ thuật khai phá văn bản, kỹ thuật phân lớp văn nói riêng, kiến thức cơng nghệ thơng tin nói chung, xây dựng phân lớp văn báo chí tiếng Việt tài ngun mơi trường Mong muốn ứng dụng hệ thống phân lớp vào phục vụ nghiên cứu khoa học công tác quản lý, phân loại tài liệu văn thông tin chuyên ngành tài nguyên môi trường, tài nguyên mơi trường vấn đề nóng bỏng Việt Nam mà giới quan tâm Nội dung phạm vi đề tài: Trình bày khái niệm khai phá liệu, khai phá văn bản, số kỹ thuật khai phá văn phân lớp văn Nghiên cứu số đặc điểm đặc trưng ngôn ngữ tiếng Việt, phương pháp tách từ tiếng Việt loại bỏ từ dừng Nghiên cứu chủ đề thông tin chuyên ngành tài ngun mơi trường Nghiên cứu, sử dụng thuật tốn KAN xây dựng phân lớp văn báo chí tiếng việt tài nguyên môi trường vào chủ đề chuyên ngành 10 Đầu vào phân lớp văn báo chí tiếng Việt tài nguyên môi trường dạng tệp tin.doc,.txt, phông chữ Unicode Đầu kết phân lớp văn báo chí tiếng Việt vào chủ đề thông tin chuyên ngành: Tài nguyên đất; tài nguyên nước; tài ngun khống sản; tài ngun biển; khí tượng thuỷ văn; môi trường; đo đạc đồ Bố cục luận văn bao gồm: Chương 1: Khái quát phân lớp văn thuật toán KNN Chương trình bày khái quát khai phá văn bản, Phân lớp văn bản, thuật toán KNN Chương 2: Bài tốn phân lớp văn báo chí tiếng Việt tài ngun mơi trường Chương trình bày đặc điểm tiếng Việt, kỹ thuật tách từ văn tiếng Việt, tìm hiểu thơng tin chun ngành tài nguyên môi trường, nêu mô tả toán ứng dụng, … Chương 3: Thiết kế xây dựng hệ thống phân lớp văn tiếng Việt tài ngun mơi trường: Trình bày thiết kế xây dựng hệ thống Chương 4: Cài đặt mơ hình kiểm thử kết quả: Trình bày số giao diện chương trình, kết kiểm thử Kết luận định hướng phát triển 43 Khánh thành nhà máy nước Thủ Đức công suất… 44 Khởi đọng tổ máy số thủy điện Sê Rê Pốc 45 Kon Tum nước sinh hoạt nhiễm bẩn 46 Phú n cơng trình cấp nước sinh hoạt xã Đức Bình Đơng ngừng hoạt động 47 Phú Yên nghịch lý nước 74 TT Tên báo 48 Quy hoạch xây dựng nước cấp thiết khơng thể trì hỗn 49 Quảng ngãi thiếu nước sinh hoạt trầm trọng 50 Sinh xong chưa sinh cha 51 Sóc trăng bảo vệ nguồn tài nguyên nước 52 Sơn Thượng (Quảng Ngãi) hàng trăm hộ dân thiếu nước sinh hoạt 53 Sắp có đồ quản lý tài nguyên nước lưu vực sông đáy 54 Thiếu nước nghiêm trọng hồ thủy điện 55 Hà nam nỗ lực giảm thiểu Asen nước 56 Trà vinh 1200 giếng khoan nguy gây ô nhiễm nguồn nước ngầm 57 Bàn giao sở liệu thông tin địa lý đồ địa hình tỷ lệ 58 Bộ quốc phịng tổng kết cơng tác tham gia phân giới cắm mốc Việt Nam… 59 Chuyện kể người phân giới cắm mốc 60 Chỉnh lý bổ sung nội dung Attats địa lý Việt Nam 61 Cục trưởng cục đo đạc đồ Việt Nam Nguyễn Tuấn Hùng 62 Cục đo đạc đồ Việt Nam tổng kết công tác năm 2008 chương trình cơng tác năm 2009 63 Hành trình khảo sát cắm mốc biên giới 75 Tên báo TT 64 Họp nhóm cơng tác liên hợp tỉnh biên giới với tỉnh Vân Nam 65 Hội thảo phân giới biên giới Việt Nam Campuchia 66 Khởi công xây dựng cột mốc biên giới 211 Sơn La Hủa Phăn 67 Lễ tuyên bố nghị định thư phân giới cắm mốc biên giới đất liền Việt Nam Trung Quốc hiệp định liên quan thức có hiệu lực 68 Sẽ xây 120 mốc biên giới Việt Lào vào cuối năm 2010 69 Thiết lập hệ thống hải đồ đồ xác 70 Thương mại hóa thơng tin đo đạc đồ theo lộ trinh 71 Thứ trưởng ngoại giao Hồ Xuân Sơn làm việc với ủy ban nhân dân tỉnh nghệ an công tác biên giơi 72 Thứ Hiển trưởng cần đẩy hoàn thành dự án đo đạc đồ 73 Thứ Hiển làm việc với cục đo đạc trưởng đồ Việt Nam 74 Thứ trưởng Nguyễn Thái Lai làm việc với viện khoa học đo đạc đồ veeff kế hoạch năm… 75 Thừa Thiên Huế xây tôn tạo 39 cột mốc 76 Bất cập quản lý khai thác khoáng sản 77 Bộ trưởng Phạm Khôi Nguyên xây dựng đội hình mạnh kinh tế địa chất 76 TT Tên báo 78 Cát tặc lộng hành sông đồng nai 79 Cơ ngăn chặn nạn đào ruộng tìm đá quý huyện Yên bình 80 Hà giang bất cập quản lý khoáng sản vàng 81 Hải Dương khai thác cát bất chấp lệnh cấm 82 Lào cai lại sập lò vàng thổ phỉ người tích 83 Lào cai trữ lượng quạng mỏ đồng Sin quyền có 100 triệu 84 Nạn khai thác quạng trái phép nóng lên xã thị 85 Phó thủ tướng hồng Trung hải u cầu xử lý nghiêm vụ cướp than mỏ than Mạo Khê 86 Quy hoạch khu vực quạng sắt Hà Giang 87 Quảng Ngãi từ 110 ngừng khai thác sa khống sơng Tang 88 Thừa Thiên Huế… 89 Yên bái cấp phép hoạt động khoáng sản điểm quặng chì 90 Đừng nghĩ có lấy 91 Bình Thuận thêm vụ bê bối môi trường khai thác cát đen 92 Xẻ thịt rừng phịng hộ đơng trường sơn để tìm vàng 93 3000 tỉ đồng nâng cấp đê biển cà mau 94 Bình thuận biện pháp cấp bách bảo vệ khu bảo tồn biển cau 77 Tên báo TT 95 Bình thuận phát triển hợp tác khai thác xa bờ làm dịch vụ biển 96 Bình định viện Hải dương học mua cá mập 97 Bộ trưởng Phạm Khôi Nguyên tăng cường quản lý tổng thống biển đảo 98 Cần ngăn chặn nạn nghêu tặc ven biển Bạc liêu 99 Cồn cỏ khu bảo tồn biển thứ tư Việt Nam 100 Cộng đồng dân cư Thừa thiên Huế tham gia quản lý khai thác môi trường tự nhiên ven biển 101 Hải phòng quản lý vùng bờ manh mún rời rạc 102 Hấp dẫn tuần du lịch biển cồn vành Thái Bình 103 Khu vực Cái mép Thị Vải trở thành khu cảng trọng điểm 104 Kinh tế hóa hoạt động quản lý tài nguyên biển 105 Người giữ biển thầm lặng 106 Nâng cao ý thức cộng ngư dân bảo vệ rùa biển 107 Phát triển kinh tế biển luật pháp hành động 108 Quan lại xưa 109 Phú quốc hướng tới thành phố du lịch sinh thái biển đảo 110 Quảng Ngãi khai thác đá san hô phá vỡ môi trường thủy sinh 78 TT Tên báo 111 An lão Hải phịng xây dựng mơ hình thu gom xừ lý rác thải nông thôn hiệu 112 Biogas VACVINA với chiến chống biến đổi khí hậu 113 Bình dương phát 40000m nước thải nguy hại có nguy tràn mơi trường 114 Bình thuận thú săn lộc vừng tàn phá môi trường 115 Bắc giang rác thải tồn đọng thôn Nợm xã Dĩnh Kế 116 Bắt tang CTTNHH Thanh Bình đổ chất thải gây ô nhiễm môi trường 117 Càng chữa ngập 118 Công ty luyện đồng Lào cai lúng túng xử lý chất thải nguy hại 119 Công ty than Hịn gai trì sản lượng an tồn sản xuất bảo vệ môi trường 120 Công ty TNHH Hà Nguyệt xả thẳng nước thải chưa qua xử lý sông đuống 121 Cùng sống xanh thân thiện với môi trường 122 Dự án xây dựng thành phố có lượng khí thải thấp 123 Hà Nội vệ sinh môi trường cải tạo cảnh quan xử lý cấp bách nhiễm nước sơng Tơ lịch 124 Hịa Bình tuổi trẻ huyện Tân Lạc nêu cao ý thức bảo vệ môi trường 125 Hướng tới đại lễ kỷ niệm 1000 năm Thăng Long Hà Nội 126 Hải Phòng công ty môi trường xả nước rác biển 79 TT Tên báo 127 Hội nông dân tỉnh Quảng Bình nâng cao nhận thức kiến thức bảo vệ mơi trường nơng thơn 128 Hội đồng đội huyện Đơng Hịa Phú n thành lập CLB Dịng sơng q em để bảo vệ môi trường 129 Khu liên hiệp xử lý chất thải rắn xã Nghi Yên huyện Nghi Lộc Nghệ An dang dở 130 Kinh tế phát triển theo chiều rộng hậu với môi trường khủng khiếp 131 Lập nhóm chun gia phủ đa dạng sinh học 132 Môi trường giao thông nông thơn 133 Mơi trường xanh hồn hảo 134 Nguồn lợi thủy sản vườn quốc gia Cà Mau bị hủy diệt khai thác 135 Nhiều doanh nghiệp Đồng Nai rút khỏi danh sách đen gây ô nhiễm môi trường 136 Nhóm đối thoại Việt Mỹ chất độc da cam dioxin cơng bố chương trình hành động giai đoạn 2010 137 Thống khởi kiện Vedan 138 Thành phố Cần Thơ nước sinh hoạt xả thẳng xuống sông 139 40 tỷ địng cải tạo mơi trường hồ Đầm Khê 140 Brazin 1000 người tích lũ lụt 141 Bão lốc xốy hồnh hành Mexico 80 Tên báo TT 142 Bắc Bộ Trung Bộ tiếp tục giảm nhiệt nắng nóng 143 Bắc Trung gay gắt 40 độ C 144 Châu Á 60 triệu người đói băng tan 145 Các tỉnh phía Bắc từ chiều tối thời tiết dịu mát 146 Các tỉnh phía đơng Bắc Bộ cần đề phịng tố lốc gió giật 147 Dập tắt đám cháy rừng Thanh Hóa 148 Hà Nội lốc xốy người tử vong 149 Mưa lốc làm 86 nhà tốc mái Bắc cạn 150 Phía tây đơng bắc ngày nắng Tây nguyên nam chiều đêm có mưa 151 Thanh Hóa lại xảy động đất huyện Quan Sơn 152 Thừa Thien Huế lốc xoáy làm tốc mái gần 200 nhà dân 153 TP HCM xuất sương mù 154 TP HCM có đợt triều cường cuối tháng 155 TP HCM sống chung với sạt lở ... vào phân lớp văn báo chí tiếng Việt tài nguyên môi trường dạng tệp tin.doc,.txt, phông chữ Unicode Đầu kết phân lớp văn báo chí tiếng Việt vào chủ đề thông tin chuyên ngành: Tài nguyên đất; tài. .. văn bản, toán nghiên cứu luận văn Về ngôn ngữ tiếng Việt phức tạp, cần có nghiên cứu vận dụng, phù hợp, mang lại hiệu áp dụng 27 Chương BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI... văn nói riêng, đặc biệt kỹ thuật phân lớp văn tiếng Việt, để xây dựng phân lớp tự động văn báo chí tiếng việt tài nguyên môi trường vào bảy chủ đề nêu trên, theo yêu cầu toán đặt Thuật toán phân