Nghiên cứu ứng dụng các kỹ thuật của big data trong hệ thống phát hiện sao chép

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LÊ NGỌC QUYỀN NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT CỦA BIG DATA TRONG HỆ THỐNG PHÁT HIỆN SAO CHÉP Chun ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2016 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: PGS.TS VÕ TRUNG HÙNG Phản biện 1: TS Phạm Minh Tuấn Phản biện 2: TS Lê Xuân Việt Luận văn bảo vệ Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật Đại học Đà Nẵng vào ngày 25 tháng năm 2016 Có thể tìm hiểu luận văn tại: Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển vượt bậc ngành CNTT nói chung hệ thống mạng Internet nói riêng, việc người tạo tài liệu mới, chia sẻ tìm kiếm thơng tin trở nên dễ dàng phổ biến Chính điều tạo mặt trái làm ảnh hưởng tiêu cực đến việc bảo đảm quyền tác giả, tác phẩm số cơng trình nghiên cứu việc chép báo, tài liệu nghiên cứu, báo cáo thực tập, khóa luận tốt nghiệp, luận văn,… công khai phát tán, chỉnh sửa không đồng ý tác giả Nhận thấy vấn đề nghiêm trọng việc chia sẻ thông tin nên điều không giải quyết, làm cho tác giả khơng muốn chia sẻ tài liệu làm giảm hội cho người muốn sử dụng truy cập thông tin có giá trị Những nghiên cứu phát chép trùng khớp chuỗi văn cho đời nhiều cơng cụ hiệu sử dụng trực tuyến Plagiarism Checker Software, Turnitin, … Tuy nhiên, ngày có nhiều nguồn liệu lấy từ nhiều nguồn khác âm thanh, đoạn phim, hình ảnh, nguồn liệu đầu vào đa dạng tập hợp liệu lớn phức tạp công cụ, ứng dụng xử lý liệu truyền thống đảm đương Mặt khác, mà nguồn tài liệu ngày dồi dào, kho tài liệu trở nên đồ sộ khiến cho việc lưu trữ trở nên khó khăn, hệ thống máy tính khơng thể lưu trữ đủ mà việc lưu trữ phải phân tán, chia nhỏ để lưu trữ nhiều hệ thống máy tính khác Điều làm cho cơng cụ xử lý liệu truyền thống khơng hoạt động hiệu quả, vấn đề quản lý liệu, việc đọc ghi liệu trở thành vấn đề mà hướng tiếp cận xử lý liệu phải tập trung giải Dữ liệu nói chung liệu dạng văn điện tử tăng lên nhanh chóng Theo thống kê sau năm, liệu tăng lên gấp đôi so với liệu năm trước Số lượng nội dung kỹ thuật số web đạt xấp xỉ năm trăm tỷ gigabyte số dự kiến tăng gấp đơi vòng năm Sự bùng nổ mạng di động, điện toán đám mây công nghệ làm tăng gần khơng thể kiểm sốt nguồn thơng tin giới Sự cần thiết việc quản lý cách hiệu nguồn liệu ngày tăng theo cấp số nhân nhiều nhà khoa học quan tâm thực Dữ liệu không cần phải xử lý phân tích nhanh, mà yêu cầu khác cần phải quan tâm đầu tư bảo đảm liệu lưu cách đảm bảo để không bị liệu Đồng thời, cần có chế để tránh trùng lặp hay sap chép lẫn tài liệu Điều đặc biệt quan trọng vấn đề quyền, quyền tác giả ngày thực thi cách nghiệm túc Các kỹ thuật big data phát triển nhằm mục đích giải vấn đề cách tổ chức xử lý liệu kho liệu ngày trở nên lớn Tuy nhiên, phải đối mặt với vấn đề lưu trữ phân tích liệu nhằm đáp ứng yêu cầu người sử dụng Vấn đề mà phải đối mặt là: khả lưu trữ ổ đĩa cứng tăng mạnh năm qua, tốc độ truy cập - tốc độ liệu đọc từ ổ đĩa không bắt kịp Phải thời gian lâu để đọc tất liệu ổ đĩa thời gian để ghi liệu chí chậm Cách rõ ràng đơn giản để giảm thời gian xử lý liệu cần phải đọc ghi liệu từ nhiều đĩa lúc Bên cạnh việc thu giảm thời gian xử lý, làm việc song song giúp tiết kiệm chi phí đầu tư nguồn lực cho máy tính có khơng gian lưu trữ khả xử lý lớn, cách tận dụng nhiều máy tính có khả lưu trữ lực xử lý thấp Xử lý phân tích liệu thời gian tối thiểu vô quan trọng khoa học xử lý liệu nói riêng khoa học máy tính ngày nói chung Các cơng cụ quản lý liệu truyền thống hệ quản trị CSDL quan hệ (RDBMS), khơng chứng minh khả xử lý chúng việc xử lý tình trạng bùng nổ liệu Để theo kịp với quy mô tăng trưởng cách bùng nổ liệu, đặc biệt hệ liệu lớn, kho liệu phân tán có quy mơ lớn phương tiện cần thiết để tổ chức, lưu trữ đáp ứng khả mở rộng khối lượng liệu tăng Những khó khăn động lực để thực luận văn với đề tài “Nguyên cứu ứng dụng kỹ thuật Big data hệ thống phát chép”, nhằm mục đích nghiên cứu xây dựng công cụ phát chép thực với kho tài liệu tiếng Việt Luận văn cung cấp cách nhìn tổng quan phương pháp việc xử lý tập liệu lớn, cách sử dụng kỹ thuật MapReduce Luận văn tập trung vào nghiên cứu khung thức Hadoop hệ thống tập tin phân bố Hadoop (Hadoop Distributed File System), sử dụng thuật toán MapReduce để quản lý số lượng liệu lớn khả mở rộng cao, cách phân chia tập liệu lớn nhiều máy chủ chế xử lý song song phần sau kết hợp kết xử lý phần lại với để sản sinh câu trả lời cuối Trong đó, luận văn áp dụng kỹ thuật, khung thức giải thuật nghiên cứu vào việc giải toán xây dựng hệ thống phát chép kỹ thuật big data, mà cụ thể thuật tốn MapReduce khung thức Hadoop Mục đích nghiên cứu Mục đích nghiên cứu đề tài xây dựng ứng dụng sử dụng phương pháp MapReduce để xử lý liệu kho liệu lớn, để so khớp phát nội dung giống tài liệu văn Đối tƣợng phạm vi nghiên cứu - Đối tƣợng nghiên cứu Đối tượng nghiên cứu đề tài cấu trúc tài liệu dạng văn bản, phương pháp kỹ thuật tách câu Tiếng Việt, thuật tốn tìm kiếm so khớp mẫu, kỹ thuật xử lý lĩnh vực big data để xử lý việc tìm kiếm, so trùng, phát chép kho liệu lớn phân bố - Phạm vi nghiên cứu Trong khuôn khổ luận văn, giới hạn việc nghiên cứu phương pháp, kỹ thuật có liên quan đến việc tách câu, tách từ tiếng Việt, nghiên cứu giải thuật xử lý big data triển khai thử nghiệm kho liệu mẫu Luận văn chưa thực kho liệu thực tế quy mô lớn Phƣơng pháp nghiên cứu Về phương pháp nghiên cứu, sử dụng hai phương pháp nghiên cứu lý thuyết nghiên cứu thực nghiệm Phương pháp nghiên cứu tài liệu: Với phương pháp này, nghiên cứu ứng dụng kỹ thuật cách biễu diễn liệu big data, kỹ thuật tách câu, tách từ tiếng Việt, thuật tốn tìm kiếm, so khớp, phát chép, nghiên cứu tài liệu liên quan đến big data giải thuật kỹ thuật xử lý liệu big data Phương pháp thực nghiệm: Với phương pháp này, ứng dụng kỹ thuật xử lý big data vào hệ thông phát chép, nghiên cứu ngôn ngữ lập trình phù hợp (ngơn ngữ java) thực kỹ thuật ngơn ngữ lập trình Chúng tơi xây dựng chương trình chạy thử nghiệm Ý nghĩa đề tài Về khoa học: Kết nghiên cứu đề tài góp phần mở hướng nghiên cứu ứng dụng mới, việc ứng dụng kỹ thuật xử lý big data vào toán so trùng phát chép Về thực tiễn: Đề tài góp phần nâng cao chất lượng quản lý, nâng cao chất lượng đào tạo góp phần hạn chế vấn đề vi phạm quyền, vấn đề chép lẫn tài liệu Cấu trúc luận văn Cấu trúc luận văn bao gồm có chương: Chương 1: Nghiên cứu tổng quan Chương 2: Phân tích ứng dụng đề xuất giải pháp Chương 3: Phát triển ứng dụng CHƢƠNG NGHIÊN CỨU TỔNG QUAN Chương trình bày kết nghiên cứu nội dung tổng quan liệu lớn (big data); đặc điểm câu, từ văn tiếng Việt; phương pháp tách câu, tách từ văn tiếng Việt; giải thuật so khớp mẫu; phần cuối chương giới thiệu số ứng dụng tương tự lĩnh vực so sánh trùng khớp tính tốn độ tương tự văn nhằm mục đích hỗ trợ việc phát chép tài liệu văn 1.1 DỮ LIỆU LỚN 1.1.1 Khái niệm Big Data Dữ liệu lớn (Big Data) thuật ngữ định nghĩa cách lỏng lẻo dùng để mô tả liệu lớn phức tạp mà ứng dụng xử lý liệu truyền thống không xử lý Bao gồm cách thức phân tích, thu thập, giám sát liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan hóa, truy vấn tính riêng tư Thuật ngữ thường đơn giản sử dụng để phân tích dự đốn số phương pháp tiên tiến khác để trích xuất giá trị từ liệu, mà đề cập đến kích thước liệu Dữ liệu lớn, tên gọi nó, có kích thước q lớn, thay đổi nhanh thường lưu trữ tập trung, thường không phù hợp với cấu trúc kiến trúc sở liệu 1.1.2 Quy mô liệu Đến đây, chắn có câu hỏi “Vậy liệu lớn đến cỡ coi big data?” Câu trả lời tuỳ vào liệu mà xử lý Có liệu kích thước nhỏ mà lại “lớn", có liệu kích thước lớn mà lại “nhỏ" Ví dụ, hệ thống hoạt động vòng 10 năm tạo tập tin nhật ký (tập tin log), tập tin đơn tập tin văn ghi lại thao tác người dùng chẳng hạn Tổng dung lượng chúng vài trăm gigabyte (kích thước nhỏ) lại “lớn" để tiến hành phân tích, coi ngưồn big data Ngược lại, có hàng ngàn tập tin video, tập tin kích thước khoảng vài chục GB Như vậy, tổng cộng nguồn liệu lên đến hàng chục hàng trăm tetrabyte (kích thước lớn), lại nhỏ tiến hành phân tích khơng phải big data Sau vài ví dụ big data giới: Công ty Google tăng từ việc xử lý khoảng 100 TB liệu ngày với MapReduce vào năm 2004 đến xử lý 20 PB ngày với MapReduce vào năm 2008 Vào tháng tư năm 2009, công ty bán hàng trực tuyến eBay sở hữu hai kho liệu khổng lồ: kho với khoảng PB liệu người dùng, kho khoảng 6,5 PB liệu người dùng với 170 ngàn tỷ hồ sơ ngày tăng lên nhanh chóng với thêm 150 tỷ hồ sơ ngày 1.1.3 Các vấn đề cần phải giải big data Thực tế kho liệu lớn chúng tăng trưởng cách nhanh chóng theo cấp số mũ Các nguồn liệu không xuất phát từ người (như nguồn thu thập từ mạng xã hội) mà từ máy tính (các loại thơng tin nhật ký tạo máy tính) vệ tinh (nguồn liệu thu thập từ vệ tinh) tạo liên tục dẫn đến vấn đề làm giải nguồn liệu lớn tăng trưởng liên tục Hai yếu tố cần quan tâm để giải vấn đề là: - Xử lý liệu nhanh - Nguồn lưu trữ liệu đáng tin cậy 1.2 ĐẶC ĐIỂM CỦA TỪ, CÂU TRONG VĂN BẢN TIẾNG VIỆT VÀ BÀI TOÁN TÁCH TỪ, CÂU 1.2.1 Từ văn tiếng Việt Từ đơn vị sẵn có ngơn ngữ Từ đơn vị nhỏ nhất, cấu tạo ổn định, mang nghĩa hoàn chỉnh, đựợc dùng để cấu thành Câu Từ làm tên gọi vật (danh từ), hoạt động (động từ), trạng thái, tính chất (tính từ), Từ cơng cụ biểu thị khái niệm người thực 1.2.2 Câu văn tiếng Việt Câu tập hợp từ, ngữ kết hợp với theo quan hệ cú pháp xác định, tạo q trình tư duy, giao tiếp, có giá trị thơng báo, gắn liền với mục đích giao tiếp định Nói đến cấu trúc câu nói đến thành phần tạo câu với chức năng, mối quan hệ qua lại phân bố chúng tổ chức nội câu Dựa vào vai trò tạo câu, thành phần câu chia thành ba loại lớn: thành phần nòng cốt, thành phần phụ thành phần biệt lập 1.2.3 Bài toán tách câu Để tách văn thành đơn vị câu độc lập thường dựa vào dấu hiệu kết thúc câu (dấu chấm “.”, dấu chấm than “!” dấu chấm hỏi “?”, …) Nhưng có câu mà dấu hiệu kết thúc câu chưa phải kết thúc câu, ngoại lệ 1.2.4 Bài toán tách từ Văn tiếng Việt đặt dấu cách âm tiết khơng phải từ Một từ có một, hai nhiều âm tiết nên có 10 ví dụ chuỗi cần xét chuỗi nhị phân trường hợp xấu mẫu thử đểu số kết thúc số Khi đó, cần phải thực n-m+1 phép so sánh Mặt khác thường m nhỏ so với n, số phép so sánh ký tự xấp xỉ m * n Thuật tốn Knuth–Morris–Pratt khơng dùng nhiều m+n phép so sánh ký tự, từ ta dễ nhận thấy thuật tốn dùng phép tốn so sánh Brute–Force Tuy nhiên ứng dụng thực tế thuật tốn Knuth–Morris–Pratt nhanh khơng đáng kể so với thuật tốn Brute–Force Thuật tốn Boyer–Moore khơng dùng nhiều m+n phép so sánh ký tự Thuật tốn tuyến tính trường hợp cách cài đặt với thuật toán Knuth–Morris–Pratt, thơng thường Boyer– Moore khơng tuyến tính Trong thực tế, ký tự văn không xuất mẫu phép so sánh dẫn đến mẫu dịch sang phải m ký tự, văn lớn mẫu thử không dài thuật tốn phải dùng n/m bước Còn thuật tốn Rabin–Krap gần tuyến tính Số phép so sánh theo thuật toán m+n, thuật toán tìm vị trí văn có giá trị mảng băm với mẫu 1.5 MỘT SỐ ỨNG DỤNG ĐÃ CĨ Trong phần này, chúng tơi thực việc khảo sát qua cơng cụ, hệ thống có chức tính độ tương tự tài liệu phát chép tài liệu Các cơng cụ có chức tương tự với hệ thống mà luận văn xây dựng - Phần mềm Plagiarism Checker 11 - Công cụ Turnitin.com - Công cụ Scanmyessay.com - Công cụ Ithenticate.com - Công cụ Copyscape.com - Cơng cụ Plagspotter.com 12 CHƢƠNG PHÂN TÍCH ỨNG DỤNG VÀ ĐỀ XUẤT GIẢI PHÁP Chương tập trung phân tích mơ hình ứng dụng phát chép tài liệu kho liệu, cách sử dụng kỹ thuật xử lý liệu big data Để làm tăng hiệu cho hệ thống phát chép kho liệu lớn, giải pháp đề xuất sau: Xây dựng mô hình đặc trưng cho văn tập liệu đầu vào, dựa phương pháp tách từ tách câu tiếng Việt; ứng dụng thuật tốn tìm kiếm so khớp mẫu tìm hiểu Chương 1; áp dụng chúng vào mô hình đặc trưng cơng cụ xử lý big data 2.1 MƠ HÌNH ỨNG DỤNG PHÁT HIỆN SAO CHÉP Hình 2.1 trình bày mơ hình ứng dụng phát chép tài liệu cách áp dụng kỹ thuật big data Trong đó, khối chức mà cần phải giải là: Tài liệu cần kiểm tra Hệ thống phát chép kỹ thuật Big Data - Những chép từ tài liệu kho -Vị trí -Tên tài liệu Kho tài liệu có sẵn N-Grams Bộ sưu tập tài liệu có Hình 2.1 Mơ hình ứng dụng phát chép 13 - Hệ thống quản lý kho liệu big data: Để thao tác với kho liệu big data, cần phải có hệ thống quản lý tương ứng Trong lĩnh vực big data, liệu thường lưu trữ máy (thậm chí máy chủ) mà phải phân tán nhiều máy tính khác Trong luận văn này, chúng tơi tìm hiểu vận dụng hệ thống quản lý tập tin phân tán Hadoop để quản lý kho liệu hệ thống - Giải thuật song song thực việc phát so trùng mẫu: Với hệ thống tập tin phân tán tổ chức, cần sử dụng giải thuật song song để thực thi hệ thống phân tán Với giải thuật xử lý song song, thu kết khoản thời gian nhanh Giải thuật xứ lý song song đề xuất luận văn giải thuật MapReduce Chi tiết giải thuật chúng tơi trình bày phần sau - Ngồi hai khối chức nêu trên, luận văn phải áp dụng số vấn đề tìm hiểu Chương vào ứng dụng phát chép tài liệu cách thức phân tích từ, câu; mơ phương pháp đánh giá trọng số độ tương tự câu, văn Để tính trọng số độ tương tự văn bản, luận văn sử dụng số Jaccard Trong phần sau, tìm hiểu vận dụng hệ thống, giải thuật nêu vào ứng dụng 2.2 HỆ THỐNG QUẢN LÝ TẬP TIN PHÂN TÁN HADOOP Khi kích thước tập liệu vượt khả lưu trữ máy tính, tất yếu dẫn đến nhu cầu hân chia liệu lên nhiều máy tính Các hệ thống tập tin quản lý việc lưu trữ liệu mạng nhiều máy tính gọi hệ thống tập tin phân tán Do hoạt động môi trường liên mạng, nên hệ hống tập tin phân tán 14 phức tạp nhiều so với hệ thống tập tin cục Ví dụ hệ hống tập tin phân tán phải quản lý tình trạng hoạt động (live/dead) máy chủ tham gia vào hệ thống quản lý tập tin Hadoop mang đến cho hệ thống tập tin phân tán HDFS (viết tắt từ Hadoop Distributed File System) với nỗ lực tạo tảng lưu trữ liệu đáp ứng cho khối lượng liệu lớn chi phí rẻ Trong phần này, giới thiệu kiến trúc HDFS cách vận dụng 2.2.1 Giới thiệu HDFS đời nhu cầu lưu trữ liệu Nutch, dự án máy tìm kiếm (Search Engine) nguồn mở HDFS kế thừa mục tiêu chung hệ thống tập tin phân tán trước độ tin cậy, khả mở rộng hiệu suất hoạt động Tuy nhiên, HDFS đời nhu cầu lưu trữ liệu Nutch, dự án Search Engine nguồn mở, phát triển để đáp ứng đòi hỏi lưu trữ xử lý hệ thống xử lý liệu lớn với đặc thù riêng Do đó, nhà phát triển HDFS xem xét lại kiến trúc phân tán trước nhận khác biệt mục tiêu HDFS so với hệ thống tập tin phân tán truyền thống 2.2.2 Kiến trúc HDFS HDFS lưu trữ tập tin liệu ứng dụng tập tin chứa siêu liệu (metadata) hệ thống cách riêng biệt Siêu liệu hay định nghĩa tập tin lưu trữ máy chủ chuyên dụng gọi NameNode liệu ứng dụng lưu trữ máy chủ gọi DataNode Tất máy chủ kết nối cách đầy đủ giao tiếp với cách sử dụng giao thức dựa giao thức TCP 15 Các NameNode độc lập không cần phải phối hợp với Để đảm bảo liệu bền vững, nội dung tập tin nhân rộng nhiều DataNode khác Bên cạnh việc đảm bảo liệu có độ bền cao, chiến lược có thêm lợi băng thơng truyền liệu nhân lên, tạo có nhiều hội việc định vị tính tốn cho nơi gần liệu cần thiết 2.2.3 Quá trình đọc ghi tập tin HDFS Hình 2.3 Quá trình đọc tập tin HDFS Hình 2.4 Quá trình ghi tập tin HDFS 16 Hình 2.3 hình 2.4 miêu tả rõ trình client đọc ghi tập tin HDFS Quá trình đọc ghi tập tin diễn theo trình tự có chế giám sát thơng qua tín hiệu bắt tay cách chặc chẽ Thao tác không thành công thực lại chuyển đổi qua node khác để đảm bảo liệu chắn không mát 2.3 GIẢI THUẬT XỬ LÝ SONG SONG MAPREDUCE 2.3.1 Giới thiệu MapReduce MapReduce mơ hình lập trình dùng để biểu diễn tính tốn phân bố lượng lớn liệu khung thức thực thi cho việc xử lý liệu quy mô lớn cụm máy chủ MapReduce phát triển Google xây dựng nguyên tắc tiếng xử lý song song phân tán MapReduce áp dụng rộng rãi thông qua việc thực dạng nguồn mở hệ thống Hadoop 2.3.2 Kiến trúc MapReduce Kiến trúc MapReduce trình bày hình 2-4 Trong đó, MapReduce gồm có thành phần sau: - Client Program (chương trình khách): chương trình Hadoop MapReduce mà client sử dụng tiến hành chạy công việc MapReduce (MapReduce job) 17 Hình 2.6 Các thành phần xử lý MapReduce - JobTracker: Có chức tiếp nhận điều phối cơng việc (job); có vai trò não Hadoop MapReduce - TaskTracker: Có chức tiếp nhận task từ JobTracker để thực - HDFS: Là hệ thống quản lý tập tin phân tán dùng cho việc chia sẻ tập tin 2.4 PHÂN TÍCH CÂU DỰA TRÊN N-GRAM N-gram chuỗi tuần từ gồm có n phần tử từ chuỗi văn cho trước Một n-gram kết hợp chữ Tuy nhiên, phần tử câu hỏi có âm vị, âm tiết, ký tự, từ cụm sở tuỳ theo ứng dụng Các n-gram thường thu thập từ tập văn mẫu chuẩn N-gram mô hình thống kê, dựa mơ hình Markov để tính tốn xác suất chuỗi n-gram x1x2…xn cách tính tốn xác suất phần xi Xác suất phần tính việc giả định xi phụ thuộc vào xj với j < i Do đó, mơ hình n-gram tập trung vào việc học xác suất P(xi|x1x2…xi-1) 18 2.5 PHƢƠNG PHÁP ĐỀ XUẤT Như khảo sát chương trước, có nhiều phương pháp tính độ tương tự văn Tuy nhiên, tất số phương pháp thực cách sử dụng thuật tốn MapReduce Đối với cơng việc luận văn chúng tôi, chủ yếu tập trung vào việc phát tương tự mặt cú pháp cặp tài liệu kho tài liệu lớn Độ tương tự tài liệu mà luận văn sử dụng dựa hệ số Jaccard ( ( ) ) ( ) ( 2.1) 19 CHƢƠNG PHÁT TRIỂN ỨNG DỤNG Trong chương này, chúng tơi trình bày chi tiết phần sau: 3.1 XÂY DỰNG GIAO DIỆN CHƢƠNG TRÌNH CLIENT Hình 3.1 bên trình bày giao diện chương trình phát chép tài liệu mà luận án xây dựng Trong đó, người dùng đơn thiết lập đường dẫn đến tài liệu cần kiểm tra; chọn chế độ phân tích câu (n-gram) nguồn liệu (chế độ chạy) chạy máy đơn (máy cục bộ) chạy cụm gồm nhiều máy tính kết nối với hệ thống Hadoop Hình 3.1 Giao diện chương trình Sau nhấn nút “Kiểm tra”, chương trình thực thi trả kết minh hoạ hình 3.2 bên 20 Hình 3.2 Kết kiểm tra chép tài liệu 3.2 CÀI ĐẶT HADOOP 3.3 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 3.3.1 Kết thực nghiệm dựa số token đƣợc sinh Một số kết thực nghiệm sau: Hình 3.3 So sánh số lượng token sinh theo giá trị n phân tích n-gram 21 3.3.2 Kết thực nghiệm dựa thời gian xử lý a Chế độ chạy độc lập (Standalone Mode) Hình 3.4 So sánh thời gian xử lý theo giá trị n phân tích n-gram với chế độ chạy standalone b Chế độ chạy theo cụm (Cluster Mode) Hình 3.5 So sánh thời gian xử lý theo giá trị n phân tích n-gram với chế độ chạy theo cụm 22 3.3.3 Đánh giá hệ thống Từ kết thực nghiệm nêu trên, nhận thấy mà liệu tương đối nhỏ hệ thống chạy máy tính đơn (standalone system) hoạt động tốt hệ thống MapReduce chạy theo cụm Tuy nhiên, kích thước liệu lớn dần lên hệ thống máy đơn lại cho hiệu suất kèm, thời gian xử lý tăng lên nhanh Trong đó, với hệ thống MapReduce lại có thay đổi thời gian xử lý Hệ thống MapReduce tỏ hiệu kích thước liệu lớn Điều phù hợp với ngữ cảnh toán đặt xử lý liệu môi trường big data Trong kết thực nghiệm này, chủ yếu đánh giá mặt hiệu suất làm việc hệ thống ứng dụng kỹ thuật MapReduce vào việc giải toán lĩnh vực big data, mà cụ thể toán phát chép tài liệu, văn điện tử Việc đánh giá chủ yếu dựa việc so sánh trường hợp sử dụng kỹ thuật big data MapReduce với trường hợp không sử dụng MapReduce làm việc tập liệu khác nhau, từ kích thước nhỏ đến kích thước lớn Độ xác kết so trùng văn hay phát chép khơng trình bày chi tiết phần Lý độ xác việc so trùng văn hai trường hợp có áp dụng MapReduce khơng có áp dụng MapReduce Vì chúng tơi sử dụng giải thuật so trùng hai trường hợp 23 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Xử lý liệu lớn (big data) xu hướng tất yếu thời đại bùng nổ thông tin Một toán cụ thể đặc trưng big data mà nhiều nghiên cứu phải quan tâm xử lý nay, vấn đề so trùng phát chép tài liệu nguồn liệu đồ sộ Từ vấn đề đặt này, chúng tơi tìm hiểu vận dụng tảng Hadoop việc phân tích xử lý liệu Qua q trình tìm hiểu phân tích, thử nghiệm kiểm chứng thông qua luận án này, nhận thấy Hadoop tảng phù hợp cho vấn đề xử lý big data nói chung vấn đề so trùng, phát chép tài liệu nói riêng Tuy nhiên, để sử dụng cách hiệu quả, cần phải đặt mục tiêu phân tích, xây dựng tốn cách chặt chẽ cần phải có kinh nghiệm việc cài đặt triển khai hệ thống Mục tiêu thông qua luận án phát triển thuật tốn để tính tốn độ tương tự tài liệu Thơng qua đó, nhiều tài liệu so sánh với so sánh với tài liệu mẫu để xác định xem tài liệu mẫu mà so sánh có so trùng (tương tự) với tài liệu có kho hay khơng, từ giúp phát chép tài liệu Thuật toán chương trình cài đặt luận án cho thấy tính hiệu việc áp dụng hệ thống Hadoop cho toán phát chép So với phương pháp tiếp cận khác, việc áp dụng n-gram Hadoop tỏ hiệu nhiều thời gian xử lý Việc hệ thống thực thi hệ liệu phân bố cho thấy tính hiệu tính thời đại Bởi thời đại 24 nay, nguồn liệu vô lớn tất yếu phải triển khai hệ thống phân tán Tuy nhiên, cho giới hạn lĩnh vực nghiên cứu thời gian thực hiện, chưa thực việc nghiên cứu, khảo sát hết ngoại lệ việc xử lý ngôn ngữ tự nhiên tiếng Việt, chẳng hạn stopword áp dụng chương trình chưa đầy đủ, ngoại lệ việc tách từ, tách câu chưa áp dụng Ngồi ra, cài đặt thuật tốn, chúng tơi cho nhiều điểm dư thừa hay phức tạp làm tăng độ phức tạp giải thuật Đây vấn đề mà chúng tơi cần phải cải tiến tương lại Việc cải tiến giải thuật tinh gọn hết múc có ảnh hưởng đến thời gian xử lý chung hệ thống Trong tương lai, triển khai hệ thống phát chép tài liệu hệ thống thực với quy mô lớn không dừng lại liệu thực nghiệm mà luận án trình bày Ngồi ra, chúng tơi hy vọng hệ thống triển khai ứng dụng cách thực tế, góp phần bổ sung thêm cơng cụ hữu tích cho lĩnh vực tìm kiếm phát chép văn nói riêng cho lĩnh vực Cơng nghệ thơng tin nói chung ... biễu diễn liệu big data, kỹ thuật tách câu, tách từ tiếng Việt, thuật tốn tìm kiếm, so khớp, phát chép, nghiên cứu tài liệu liên quan đến big data giải thuật kỹ thuật xử lý liệu big data Phương... lớn Phƣơng pháp nghiên cứu Về phương pháp nghiên cứu, sử dụng hai phương pháp nghiên cứu lý thuyết nghiên cứu thực nghiệm Phương pháp nghiên cứu tài liệu: Với phương pháp này, nghiên cứu ứng dụng... bố - Phạm vi nghiên cứu Trong khuôn khổ luận văn, giới hạn việc nghiên cứu phương pháp, kỹ thuật có liên quan đến việc tách câu, tách từ tiếng Việt, nghiên cứu giải thuật xử lý big data triển khai

Định dạng
Số trang	26
Dung lượng	915,5 KB