1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm và xếp hạng văn bản

20 137 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 330,68 KB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA LÊ TRỌNG HIẾU PHÂN CỤM XẾP HẠNG VĂN BẢN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT ĐÀ NẴNG – 2018 Cơng trình đƣợc hồn thành TRƢỜNG ĐẠI HỌC BÁCH KHOA Ngƣời hƣớng dẫn khoa học: TS Trƣơng Ngọc Châu Phản biện 1: TS Huỳnh Hữu Hưng Phản biện 2: TS Trần Thiên Thành Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành khoa học máy tính họp Trường Đại học Bách khoa vào ngày 16 tháng năm 2018 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu, Đại học Đà Nẵng - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa 1 MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Ngày nay, với phát triển vượt bậc công nghệ thông tin, số lượng tài liệu điện tử người tạo ngày phong phú đa dạng Cơ sở liệu văn (text database) phát triển nhanh chóng thu hút quan tâm nghiên cứu gia tăng nhanh chóng số lượng thơng tin dạng số, ví dụ loại tài liệu điện tử, email, thư điện tử, trang web…Có thể thấy hầu hết thơng tin phủ, ngành công nghiệp, kinh doanh, trường học … số hóa lưu trữ dạng sở liệu Chính vậy, nhu cầu khai thác tri trức kho tài liệu lớn, nhu cầu thường ngày thiết thực người sử dụng Tuy nhiên, có thực tế diễn phổ biến có lượng liệu lớn tri thức mà có thật Các cơng cụ kỹ thuật phân tích liệu truyền thống cho việc trích lọc thơng tin hữu ích cho trình nghiên cứu, kinh doanh, sản xuất … khơng hiệu cho tập liệu lớn đa dạng mặt cấu trúc Vì thế, làm phát triển khuynh hướng kỹ thuật kỹ thuật khai phá liệu (data mining) Một nội dung khai phá liệu phổ biến khai phá liệu web Kĩ thuật khai phá liệu web trích xuất nhiều thơng tin hữu ích phục vụ cho nhiều mục đích khác người sử dụng như: Phát triển kinh doanh, nghiên cứu khoa học, tìm kiếm tri thức … Vấn đề đặt người ngày cần có nhiều tri thức với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu văn khổng lồ có Ví dụ, đọc viết đó, người sử dụng cần hệ thống giúp họ tìm kiếm viết tương tự viết họ đọc … Từ thực tế nêu trên, chọn đề tài “Phân cụm xếp hạng văn bản” để làm luận văn tốt nghiệp Luận văn minh họa làm để khai phá liệu, phân cụm xếp hạng văn MỤC TIÊU NGHIÊN CỨU Trên sở lý thuyết khai phá liệu, xếp hạng phân cụm văn bản, bước đầu xây dựng ứng dụng phân cụm xếp hạng văn phục vụ cho người sử dụng, cụ thể: 2.1 Về lý thuyết - Tìm hiểu khai phá liệu, khai phá văn khai phá liệu web - Nghiên cứu phương pháp, kĩ thuật phân cụm xếp hạng văn 2.2 Về thực tiễn Kết nghiên cứu sử dụng cho việc phân cụm xếp hạng văn phục vụ nhu cầu người dùng ĐỐI TƢỢNG PHẠM VI NGHIÊN CỨU 3.1 Đối tƣợng nghiên cứu - Kỹ thuật khai phá liệu, khai phá văn - Phương pháp xếp hạng phân cụm văn 3.2 Phạm vi nghiên cứu: - Dữ liệu văn - Ngơn ngữ lập trình Python PHƢƠNG PHÁP NGHIÊN CỨU 4.1 Phƣơng pháp lý thuyết - Tìm hiểu kiến thức khai phá liệu - Tìm hiểu phương pháp khai thác liệu văn internet - Tìm hiểu phương pháp phân cụm xếp hạng văn - Các tài liệu liên quan đến lập trình 4.2 Phƣơng pháp thực nghiệm - Tiến hành phân tích xây dựng ứng dựng mơ cho lý thuyết nghiên cứu - Kiểm thử tính hiệu ứng dụng Ý NGHĨA ĐỀ TÀI NGHIÊN CỨU 5.1 Ý nghĩa khoa học - Đề xuất giải pháp trích xuất thơng tin, phân cụm xếp hạng văn - Đề xuất kỹ thuật, đánh giá độ ổn định khả phân cụm xếp hạng văn 5.2 Ý nghĩa thực tiễn - Kết nghiên cứu xây dựng ứng dụng phân cụm xếp hạng văn theo yêu cầu - Kết nghiên cứu sử dụng để phục vụ việc phân cụm xếp hạng văn CẤU TRÚC LUẬN VĂN Luận văn gồm có 03 chương, với nội dung sau: Chƣơng 1: Tổng quan khai phá liệu Chương trình bày tổng quan khai phá liệu, kỹ thuật khai phá tính ứng dụng lĩnh vực đời sống Đặc biệt liệu văn 4 Chƣơng 2: Phƣơng pháp phân cụm xếp hạng văn Chương trình bày số phương pháp, thuật tốn phân cụm xếp hạng văn Chƣơng 3: Cài đặt thực nghiệm đánh giá kết Trên sở tìm hiểu phân tích phương pháp, thuật tốn liên quan Chương xây dựng hệ thống thử nghiệm thi hành mơ hình nói thực nghiệm với sở liệu văn cụ thể 5 CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU KHÁM PHÁ TRI THỨC 1.1.1 Khái niệm khai phá liệu Khai phá liệu (KPDL) lĩnh vực nghiên cứu, nhằm tự động khai thác thơng tin, tri thức hữu ích, tiềm ẩn từ sở liệu (CSDL) lớn cho đơn vị, tổ chức, doanh nghiệp,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các kết nghiên cứu khoa học ứng dụng thành công KDD cho thấy KPDL lĩnh vực phát triển bền vững, mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẳn so với cơng cụ tìm kiếm phân tích liệu truyền thống Hiện nay, KPDL ứng dụng ngày rộng rãi lĩnh vực thương mại, tài chính, y học, viễn thơng, tin – sinh học,… Các kỹ thuật áp dụng lĩnh vực KPDL phần lớn thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống kê tính tốn hiệu cao, Như ta khái quát hóa khái niệm KPDL trình tìm kiếm, phát tri thức mới, hữu ích, tiềm ẩn CSDL lớn KDD mục tiêu KPDL, hai khái niệm KPDL KDD nhà khoa học hai lĩnh vực xem tương đương với Thế phân chia cách chi tiết KPDL bước q trình KDD 1.1.2 Quá trình khám phá tri thức Quá trình khám phá tri thức chia thành giai đoạn sau: Trích chọn liệu: Đây bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu không đầy đủ, nhiễu, không quán, ), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, ) Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hóa Biến đổi liệu: Đây bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ trình khai phá bước sau Khai phá liệu: Đây bước áp dụng kỹ thuật phân tích (như kỹ thuật học máy) nhằm để khai thác liệu, trích chọn mẫu thơng tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian tồn q trình KDD Đánh giá biểu diễn tri thức: Những mẫu thông tin mối liên hệ liệu khám phá bước biến đổi biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định 1.1.3 Các kỹ thuật khai phá liệu Khai phá liệu dự đoán: Nhiệm vụ khai phá liệu dự đoán đưa dự đoán dựa vào suy diễn liệu thời Nó sử dụng biến hay trường sở liệu để dự đốn giá trị khơng biết hay giá trị tương lai Bao gồm kĩ thuật: phân loại (classification), hồi quy (regression), Phân lớp: Mục tiêu phương pháp phân loại liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân loại liệu thường gồm bước: xây dựng mơ hình sử dụng mơ hình để phân loại liệu • Bước 1: Xây dựng mơ hình dựa việc phân tích mẫu liệu cho trước Mỗi mẫu thuộc lớp, xác định thuộc tính gọi thuộc tính lớp Các mẫu liệu gọi tập liệu huấn luyện Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp gọi học có giám sát • Bước 2: Sử dụng mơ hình để phân loại liệu Trước hết phải tính độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đốn nhãn lớp cho mẫu liệu khác tương lai Hay nói cách khác, phân loại học hàm ánh xạ mục liệu vào số lớp cho trước Hồi quy: Phương pháp hồi qui khác với phân loại liệu chỗ, hồi qui dùng để dự đốn giá trị liên tục phân loại liệu dùng để dự đốn giá trị rời rạc Hồi quy học hàm ánh xạ mục liệu vào biến dự báo giá trị thực Các ứng dụng hồi quy có nhiều, ví dụ đánh giá xác suất bệnh nhân chết dựa tập kết xét nghiệm chẩn đoán, dự báo nhu cầu người tiêu dùng sản phẩm dựa hoạt động quảng cáo tiêu dùng Khai phá liệu mơ tả: Kỹ thuật có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Bao gồm kỹ thuật: phân cụm (clustering), phân tích luật kết hợp (association rules) Phân cụm: Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học khơng giám sát Không giống phân loại liệu, phân cụm liệu khơng đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân loại liệu học ví dụ (learning by example) Trong phương pháp bạn biết kết cụm thu bắt đầu q trình Vì vậy, thơng thường cần có chun gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web, … Ngồi phân cụm liệu sử dụng bước tiền xử lí cho thuật toán khai phá liệu khác Luật kết hợp: Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Khai phá luật kết hợp thực qua bước: • Bước 1: tìm tất tập mục phổ biến, tập mục phổ biến xác định qua tính độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu • Bước 2: sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Phương pháp sử dụng hiệu lĩnh vực marketing có chủ đích, phân tích định, quản lí kinh doanh, 1.1.4 Các ứng dụng khai phá liệu KPDL lĩnh vực quan tâm ứng dụng rộng rãi Một số ứng dụng điển hình KPDL liệt kê sau: Phân tích liệu hỗ trợ định: Điều trị y học, khai phá văn bản, khai phá web, tin-sinh học, tài thị trường chứng khốn, bảo hiểm, Thương mại: Phân tích liệu bán hàng thị trường, phân tích đầu tư, phát gian lận, chứng thực hóa khách hàng, dự báo xu hướng phát triển, Thông tin sản xuất: Điều khiển, lập kế hoạch, hệ thống quản lý, phân tích thử nghiệm, Thông tin khoa học: Dự báo thời tiết, động đất, tin - sinh học, 1.2 KHAI PHÁ VĂN BẢN 1.2.1 Khái niệm Khai phá liệu dạng văn (Text Mining): khai phá liệu loại liệu text q trình phát tri thức mới, có giá trị, tiềm ẩn tập hợp văn 1.2.2 Các kỹ thuật khai phá văn 1.3 KHAI PHÁ DỮ LIỆU WEB 1.3.1 Khai phá liệu web 1.3.2 Lợi ích khai phá liệu web 1.3.3 Khó khăn 1.3.4 Thuận lợi 1.3.5 Các kiểu liệu web 1.4 CÁC THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU 1.4.1 Các vấn đề Cơ sở liệu 1.4.2 Một số vấn đề khác 10 1.5 PHÂN CỤM DỮ LIỆU 1.5.1 Giới thiệu tốn Phân cụm liệu (PCDL) hay gọi phân tích cụm, phân tích đoạn, phân tích phân loại, q trình nhóm tập đối tượng thực thể hay trừu tượng thành lớp đối tượng tương tự Một cụm tập hợp đối tượng liệu mà chúng giống phần tử khác cụm khác phần tử cụm khác nhiều 1.5.2 Một số độ đo 1.5.3 Một số phƣơng pháp phân cụm liệu 1.4 KẾT LUẬN CHƢƠNG Chương trình bày kiến thức khai phá liệu khám phá tri thức CSDL, kỹ thuật áp dụng khai phá liệu ứng dụng khai phá liệu Một số phương pháp phân cụm liệu phổ biến phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, nêu vắn tắt Hơn nữa, tổng kết số thuật tốn phân cụm điển hình như: K-means, K-Medoids, CURE, DBSCAN, OPTICS 11 CHƢƠNG HƢƠNG PHÁP PHÂN CỤM XẾP HẠNG VĂN BẢN 2.1 GIỚI THIỆU BÀI TOÁN Hiện nay, sở liệu văn (text database) phát triển bùng nổ thu hút quan tâm nghiên cứu gia tăng nhanh chóng số lượng thơng tin dạng số, ví dụ loại tài liệu điện tử, email, thư điện tử, trang web…Có thể thấy hầu hết thơng tin phủ, ngành công nghiệp, kinh doanh, trường học…đều số hóa lưu trữ dạng sở liệu Vấn đề đặt để tìm kiếm khai thác tri thức từ nguồn liệu Việc tìm hiểu khai thác hiệu thông tin tạo tiền đề cho nhiều ứng dụng khác như: hệ thống tư vấn, hệ thống tìm kiếm thơng tin, tiếp thị trực tuyến, điều tra tội phạm, … Vì vậy, việc khai phá liệu văn để áp dụng vào thực tiễn ngày trở cần thiết quan trọng cho đông đảo người sử dụng Bài toán đặt văn kho liệu khổng lồ phân vào cụm, cụm chứa văn có đặc trưng giống ví dụ nhóm văn khoa học, nhóm văn hành chính, nhóm văn giáo dục – đào tạo … Bài tốn phát biểu cách tổng qt sau: Từ kho liệu văn bản, hệ thống phải tự động lập nhóm văn cho văn thuộc nhóm phải có giống theo tiêu chuẩn đánh giá 2.2 LỰA CHỌN GIẢI PHÁP PHÂN CỤM XẾP HẠNG 2.2.1 Support Vector Machine (SVM) SVM phương pháp tiếp cận phân loại hiệu Vapnik giới thiệu năm 1995 để giải vấn đề nhận dạng mẫu 12 lớp sử dụng nguyên lý Cực tiểu hóa Rủi ro có Cấu trúc (Structural Risk Minimization) 2.2.2 Phƣơng pháp K-Neaest Neighbor (KNN) K-nearest neighbor thuật tốn học có giám sát (supervised-learning) điển hình Machine Learning KNN phương pháp truyền thống tiếng theo hướng tiếp cận thống kê nghiên cứu nhiều năm qua KNN đánh giá phương pháp tốt sử dụng từ thời kỳ đầu nghiên cứu phân loại văn 2.2.3 Phân loại Naïve Bayse (NB) NB phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học Được sử dụng lần lĩnh vực phân loại Maron vào năm 1961 [Maron, 1961] sau trở nên phổ biến dùng nhiều lĩnh vực cơng cụ tìm kiếm, lọc mail 2.2.4 Centroid- based vector Là phương pháp phân loại đơn giản, dễ cài đặt tốc độ nhanh có độ phức tạp tuyến tính O(n) 2.2.5 Linear Least Square Fit (LLSF) Linear Least Square Fit cách tiếp cận ánh xạ phát triển Yang Chute vào năm 1992 Đầu tiên, LLSF Yang Chute thử nghiệm lĩnh vực xác định từ đồng nghĩa sau sử dụng phân loại vào năm 1994 Các thử nghiệm Ỵang cho thấy hiệu suất phân loại LLSF ngang với phương pháp kNN kinh điển 2.2.6 Sử dụng thuật toán K-Means 13 2.2.6.1 Thuật toán K-mean K-Means thuật toán quan trọng sử dụng phổ biến kỹ thuật phân cụm Tư tưởng thuật tốn KMeans tìm cách phân nhóm đối tượng (objects) cho vào K cụm (K số cụm xác đinh trước, K nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm (centroid ) nhỏ 2.6.2.2 Ví dụ minh họa thuật toán K-Mean 2.3 KẾT LUẬN CHƢƠNG Chương nêu số thuật toán dùng việc khai phá liệu văn Các thuật toán phân loại nêu Chương từ thuật toán phân loại lớp (SVM) đến thuật tốn phân loại đa lớp (kNN) có điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng Ngồi thuật tốn kNN, NB, LLSF phải sử dụng ước lượng tham số ngưỡng tối ưu thuật tốn SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10000 chiều) 2000 NB, 2415 cho kNN LLSF Thời gian huấn luyện khác phương pháp, SVM phương pháp có thời gian huấn luyện lâu kNN, NB, LLSF Centroid phương pháp có tốc độ (thời gian huấn luyện, phân loại) nhanh cài đặt dễ dàng Trong chương giới thiệu cách dùng thuật toán K-means để phân cụm liệu, từ ứng dụng vào việc phân cụm xếp hạng văn 14 CHƢƠNG THỰC NGHIỆM ĐÁNH GIÁ 3.1 HƢỚNG TIẾP CẬN THỰC NGHIỆM Sau tìm hiểu phương pháp phân cụm xếp hạng văn bản, tác giả đề xuất mơ hình thực nghiệm Mục tiêu thực nghiệm kiểm tra tính khả thi mơ hình, mơ hình đề xuất dựa tìm hiểu phân tích nghiên cứu liên quan Thực nghiệm tiến hành theo pha mơ hình, dựa vào kết thực nghiệm mà Tôi rút nhận xét, đánh giá bổ sung cho mơ hình hồn chỉnh Sau Tơi cải thiện lại mơ hình đề xuất kết chưa tốt, với cố gắng nâng cao kết pha Các kết thực nghiệm giúp đề tài có cải thiện tốt cho hệ thống Hệ thống cần áp dụng vào thực tiễn không dừng lại lý thuyết 3.2 TIẾN HÀNH THỰC NGHIỆM 3.2.1 Môi trƣờng thực nghiệm 3.2.2 Thành phần - NumPy: thư viện cần thiết lập trình Python - NLTK (natural language toolkit): thư viện viết Python, giúp cho việc xử lý ngôn ngữ tự nhiên dễ dàng nhanh chóng - Module phân loại văn bản: biểu diễn vector văn tính tóan độ tương đồng, so sánh phân loại văn - Module học máy: lưu trữ văn theo thể loại phân loại trước để phục vụ trình rút trích đặc trưng Chương trình Demo viết ngơn ngữ lập trình 15 Python, lưu trữ liệu tập tin txt, csv 3.2.3 Kết thực nghiệm 3.2.3.1 Tạo tập tin liệu đầu vào Bước 1: Cài đặt thư viện Bước 2: Lấy liệu đầu vào, tải số loại từ tập huấn luyện 3.2.3.2 Tiền xử lý văn Bước tiến hành bỏ bớt liệu trùng lắp, không cần thiết, tinh chỉnh lại cấu trúc liệu mã hóa chúng để tiện cho q trình xử lý Thơng thường tệp liệu có chiều (n) lớn sinh lượng liệu khổng lồ (vd: với n chiều ta có 2n tổ hợp) Do đó, bước quan trọng để giúp giảm đáng kể hao tổn tài nguyên trình xử lý tri thức Bằng cách chia liệu đầu vào thành nhiều phần, tức mảng nhiều chiều Sau đó, đánh số phần mảng, thực việc lấy liệu mảng cần lấy thông tin với nội dung chuẩn hóa Điều cần thiết để xử lý làm liệu 3.2.3.3 Tìm đặc trưng cho thể loại Dựa vào đối tượng khía cạnh đối tượng dẫn tới mức khía cạnh phát xác đặc trưng cho tồn đối tượng 3.2.3.4 Phân cụm văn - Vector hóa văn - TF-IDF - Từ điển key words stop words 3.2.3.5 Trực quan hóa kết 16 3.3 ĐÁNH GIÁ KẾT QUẢ Tác giả cài đặt thuật tốn K-means xây dựng chương trình demo phân cụm xếp hạng văn tương đối xác Tuy nhiên liệu chương trình nhỏ, mẫu tri thức chưa thật hữu ích, việc đánh giá hiệu chương trình chưa đạt độ xác cao Tuy nhiên, theo ý kiến chủ quan, kết chương trình đạt mục tiêu đề ban đầu, bước đầu phân cụm văn theo nhóm chủ đề Mặc dù vậy, chương trình cần phải phát triển, cải tiến để áp dụng, triển khai vào thực tế 3.4 KẾT LUẬN CHƢƠNG Trên sở tìm hiểu phân tích thuật tốn có liên quan, đặc biệt thuật toán K- means Chương kết cài đặt thử nghiệm thuật toán phân cụm K-means cho việc phân cụm xếp hạng văn mà sở lý thuyết trình bày Chương Chương trình cài đặt viết ngơn ngữ lập trình Python Chương trình thử nghiệm hoạt động tốt theo thuật toán K-means cho kết phân cụm tương đối hợp lý 17 KẾT LUẬN NỘI DUNG NGHIÊN CỨU KẾT QUẢ ĐÃ ĐẠT ĐƢỢC CỦA LUẬN VĂN Luận văn thu số kết định sau: - Khái quát kiến thức khai phá liệu khám phá tri thức ứng dụng khai phá liệu xã hội - Nêu số phương pháp, thuật tốn phân cụm liệu điển hình - Trình bày chi tiết thuật tốn phân cụm liệu K-means - Luận văn nghiên cứu việc phân cụm xếp hạng văn dựa nội dung văn - Luận văn cài đặt thành cơng chương trình đạt kết ban đầu Tuy nhiên kết đạt nhiều hạn chế HƢỚNG NGHIÊN CỨU TIẾP THEO Trên sở kết nghiên cứu trình bày luận văn, tơi thấy số vấn đề cần tiếp tục nghiên cứu để có kết tốt như: - Nghiên cứu cải tiến nâng cao hiệu thuật tốn để chương trình làm việc với tập liệu lớn - Tìm hiểu số thuật tốn khác để áp dụng vào phân nhóm tài liệu theo chủ đề Trong q trình làm luận văn, tơi cố gắng nghiên cứu tìm hiểu kiến thức để thực tốt đề tài Tuy nhiên thời gian nghiên cứu trình độ thân hạn chế nên khơng thể tránh khỏi thiếu sót Tơi mong nhận góp ý thầy giáo, 18 bạn bè đồng nghiệp quan tâm đến đề tài đưa để nội dung nghiên cứu hoàn thiện ... Luận văn minh họa làm để khai phá liệu, phân cụm xếp hạng văn MỤC TIÊU NGHIÊN CỨU Trên sở lý thuyết khai phá liệu, xếp hạng phân cụm văn bản, bước đầu xây dựng ứng dụng phân cụm xếp hạng văn phục... xuất thơng tin, phân cụm xếp hạng văn - Đề xuất kỹ thuật, đánh giá độ ổn định khả phân cụm xếp hạng văn 5.2 Ý nghĩa thực tiễn - Kết nghiên cứu xây dựng ứng dụng phân cụm xếp hạng văn theo yêu cầu... Một số phương pháp phân cụm liệu phổ biến phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, nêu vắn tắt Hơn nữa, tổng kết số thuật tốn phân cụm điển hình như: K-means,

Ngày đăng: 07/08/2018, 10:09

TỪ KHÓA LIÊN QUAN

w