Mục tiêu của bài viết là đề xuất mô hình mới cho phép quản lý tập dữ liệu lớn phi cấu trúc, tồn tại dưới dạng các tập tin văn bản, bảng tính. Mô hình đề xuất dựa trên một tập các công nghệ nguồn mở của Big Data theo hướng tích hợp dịch vụ và chuẩn hóa dữ liệu nối kết.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thơng tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00041 MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN Nguyễn Hùng Dũng1, Trương Xuân Việt1, Trương Quốc Định2, Nguyễn Hồng Việt1 Trung tâm Cơng nghệ Phần mềm − Đại học Cần Thơ Khoa Công nghệ Thông tin & Truyền thông − Đại học Cần Thơ hungdung@ctu.edu.vn, txviet@ctu.edu.vn, tqdinh@cit.ctu.edu.vn, nhviet@ctu.edu.vn TÓM TẮT— Mục tiêu viết đề xuất mơ hình cho phép quản lý tập liệu lớn phi cấu trúc, tồn dạng tập tin văn bản, bảng tính Mơ hình đề xuất dựa tập cơng nghệ nguồn mở Big Data theo hướng tích hợp dịch vụ chuẩn hóa liệu nối kết, bao gồm : (1) HDFS (Hadoop Distributed File System) Hadoop dùng quản lý tập tin, (2) Lucene để lập mục nghịch đảo (Inverted Index) cho văn tiếng Việt, Apache Solr hỗ trợ chế quản lý mục nghịch đảo, tìm kiếm tồn văn số chức tìm kiếm nâng cao (3) Bộ trực quan hóa liệu dựa Banana Kết thực nghiệm thực tập liệu tất báo khoa học đăng Tạp chí Khoa học trường Đại học Cần Thơ từ năm 2011 đến 2015 Từ khóa— Big Data, Distributed File System, Inverted Index, Full-text Search, Solr, Lucene I GIỚI THIỆU Tìm kiếm trực quan hoá liệu phi cấu trúc nhu cầu thiết thực đánh chìa khóa hỗ trợ tổ chức định Nhu cầu trả lời câu hỏi phức tạp phạm vi truy vấn SQL phổ biến chủ yếu thực thủ công dựa đoán nhà hoạch định – đốn thường khơng dựa tảng tập liệu đầy đủ Để định ngắn, nhân viên tổng hợp cần phải đọc lại hàng ngàn, chí vài chục ngàn văn để truy vấn thông tin cần thiết Đây công việc thường không thực cách thấu đáo môi trường làm việc văn phòng Truy vấn liệu phi cấu trúc dựa kỹ thuật Big Data, vậy, trở thành phương tiện hữu hiệu giải khó khăn nêu Tuy nhiên, không nhiều nghiên cứu việc phát triển tảng Việt Nam, đặc biệt cho ngôn ngữ tiếng Việt Trong nghiên cứu chúng tơi mong muốn tìm kiếm mơ hình hoàn chỉnh nhằm mục tiêu sau: (1) quản lý tập văn lớn, cho phép dễ dàng truy lục cần thiết, (2) hỗ trợ chế tìm kiếm trực tuyến tồn văn tập liệu tiếng Việt với toán tử Bool (3) trực quan hóa kết tìm kiếm tương thích với đa dạng thiết bị hiển thị Giải pháp này, xây dựng cho phép dễ dàng quản lý truy vấn nhiều câu hỏi liên quan đến điều hành mà nhà quản trị cần biết, vượt qua hạn chế thiếu hụt thông tin Dữ liệu lớn (Big data) công nghệ ưu tiên lựa chọn phù hợp tiêu chí đặc biệt, hệ sinh thái phong phú nguồn mở có sẵn Về lý thuyết, liệu lớn thuật ngữ dùng để mô tả liệu có kích thước lớn, khả phát triển nhanh khó thu thập, lưu trữ, quản lý phân tích với cơng cụ thống kê hay ứng dụng sở liệu truyền thống Các đặc trưng Big Data thể qua thuật ngữ 5V (Volume, Velocity, Variety, Veracity, Value) [3] Các thành phần yếu mơ hình đề xuất dựa nhóm cơng nghệ sau: (1) HDFS – dịch vụ quản lý tập tin Hadoop, (2) Lucene/Solr – dịch vụ cung cấp mục hóa tìm kiếm tồn văn trực tuyến (3) Banana [2] – cơng cụ trực quan hóa dựa tảng Kibana [15] Một thuận lợi nghiên cứu ngôn ngữ tiếng Việt thực thấu đáo thư viện phân tích từ vựng VNTokenizer phát triển Lê Hồng Phương [10] Đặc biệt, Cao Mạnh Đạt [4] phát triển phân tích từ vựng VnAnalyzer dựa VNTokenizer tương thích với Apache Lucene Thư viện ưu tiên lựa chọn phù hợp với giải pháp Apache Solr [11] Như vậy, nói, thành tố quan trọng để phát triển mơ hình theo đề xuất tồn tại, vấn đề đề xuất cách thức bắt tay chúng để đạt mục tiêu nghiên cứu Tập liệu tất báo khoa học đăng Tạp chí Khoa học Đại học Cần Thơ sử dụng để kiểm tra vận hành mơ hình đề xuất Trong đó, nội dung cụ thể liên quan đến hoạt động nghiên cứu khoa học trường Đại học Cần Thơ tìm kiếm dựa câu hỏi truy vấn khác Trên thực tế, tập liệu mở rộng khơng giới hạn để trả lời câu hỏi rộng hoạt động nghiên cứu trường Đại học Cần Thơ Bài báo cấu trúc sau: điểm qua cơng trình nghiên cứu liên quan Phần Trong Phần 3, giới thiệu mơ hình quản lý đề xuất tìm kiếm tài liệu trực quan hóa kết thống kê Hadoop Lucene/Solr Phần chúng tơi trình bày số kết đạt dựa mơ hình đề xuất Phần 3, ứng dụng mơ hình đề xuất tập liệu Tạp chí khoa học Đại học Cần Thơ Cuối cùng, đưa kết luận kết nghiên cứu mơ hình đề xuất II NGHIÊN CỨU LIÊN QUAN Trên thực tế, mơ hình chúng tơi đề xuất khơng q giới Các nghiên cứu tích hợp Hadoop Solr thực khung tích hợp Cloudera [8]; tương tự Hadoop Elastic Search khung tích hợp Hortonworks [9] Alhabashneh cơng đề xuất khung tích hợp ba Hadoop, Solr Tiki, hỗ trợ lập 332 MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN mục ngữ nghĩa cho văn [13] Vấn đề đặt là, giải pháp thương mại hóa, thành tố cấu thành chúng lại chủ yếu dựa mã nguồn mở Hơn nữa, khung tích hợp chưa hỗ trợ phân tích từ vựng ngôn ngữ tiếng Việt Dù không tái sử dụng lại khung tích hợp thương mại hóa, chúng tơi nhận thấy cách tiếp cận hợp lý hữu hiệu cho mục tiêu xây dựng quản lý hỗ trợ tìm kiếm tài liệu cục tổ chức, nhiên việc tìm kiếm văn tiếng Việt chưa hỗ trợ Trong Cloudera [8], trực quan hóa dựa ZoomData, Hortonworks [9] sử dụng Kibana cho khung tích hợp họ Sau đánh giá lựa chọn trực quan, nhận thấy Banana − phiên mở rộng Kibana [15] − lựa chọn phù hợp với tìm kiếm Solr Trong nghiên cứu này, lập mục Lucene đóng vai trị chủ đạo Lucene thư viện mã nguồn mở, phát triển Dough Cutting Thư viện cung cấp hàm hỗ trợ cho việc đánh mục tìm kiếm thơng qua hàm API Lucene lập mục hỗ trợ thư viện tìm kiếm loại liệu văn đa dạng: doc, pdf, html, v.v Lucene ban đầu viết hoàn tồn Java, sau phát triển nhiều ngôn ngữ khác C/C++ (CLucene), NET (Lucene.NET), Perl (Plucene), Ruby (Ferret) đặc biệt PHP (Zend Framework) Để tiến hành đánh mục Lucene, trước hết phải chuyển liệu thành dạng văn túy (plain text) tập tin txt chẳng hạn Lucene phân chia liệu thành chuỗi ký tự thơng qua việc lựa chọn tốn tử thực thi chúng Sau liệu phân tích, sẵn sàng cho việc lập mục Lucene chứa liệu theo cấu trúc mục nghịch đảo (Inverted Index) Nguyên tắc thay phải tìm kiếm từ chứa tài liệu với cấu trúc tối ưu hóa việc tìm câu trả lời “tài liệu chứa từ khóa này” Trong Hortonworks [9], q trình xây dựng mục nghịch đảo (Inverted index) cho văn thực dựa chế ánh xạ/rút gọn (map/reduce) bên Hadoop Cơ chế dựa thư viện Lucene thực bên ngồi Solr, Solr đóng vai trị hỗ trợ tìm kiếm tồn văn dựa tập mục xây dựng sẵn Chúng nhận thấy mục Lucene tích hợp sẵn Solr, dịch chuyển trình mục hóa vào Solr, thay sử dụng map/reduce bên Hadoop Cách làm đơn giản hóa mơ hình giúp tinh giảm phần kích thước lưu trữ, chúng tơi sử dụng dịch vụ HDFS Hadoop để quản lý hệ thống văn III ĐỀ XUẤT MƠ HÌNH QUẢN LÝ, TÌM KIẾM TỒN VĂN VÀ TRỰC QUAN HĨA KẾT QUẢ Trong viết này, chúng tơi đề xuất mơ hình để quản lý tìm kiếm văn với ba thành phần: (1) Hệ lưu trữ phân phối tập tin dựa HDFS, (2) Hệ mục tìm kiếm văn tiếng Việt dựa Lucene/Solr (3) Bộ trực quan hóa liệu Dưới mơ hình diễn giải thành phần mơ hình mà đề xuất sau: APACHE HADOOP Data source Chuẩn hóa metadata tập tin văn đầu vào Data source n CORE … HDFS HDFS HDFS HttpFS APACHE SOLR LUCENE Inverted Index VN ANALYZER Visualization Search Engine Search Engine … Search Engine n Hình Mơ hình quản lý, tìm kiếm tồn văn trực quan hóa kết Trong mơ hình trên, liệu đầu vào (Data source 1, 2…) mơ hình tập tin văn dạng doc, docx, pdf, xsl… liệu đầu kết tìm kiếm theo từ khóa người dùng, thống kê trực quan hóa kết Chuẩn hóa metadata: trước nạp tài liệu vào HDFS, chúng tơi tiến hành chuẩn hóa metadata tất tập tin mà sử dụng để thực nghiệm theo trường (fields) sau: - tacgia: Các tác giả tham gia nghiên cứu khoành thực nghiệm tất 1.584 tập tin văn tạp chí trường Đại học Cần Thơ từ năm 2011 đến 2015 (Nguồn: http://sj.ctu.edu.vn/ql/docgia/) Người dùng nhập từ khóa tìm kiếm thơng tin, hệ thống xử lý trả kết tìm thấy Đồng thời hệ thống kết xuất biểu đồ theo kết tìm kiếm tương ứng Hệ thống thử nghiệm cài đặt theo kiến trúc sau: 334 MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN Hình Kiến trúc hệ thống mơ hình thử nghiệm Sau tài liệu đưa lên Solr, tất đánh mục Khi người dùng tìm kiếm theo tiêu chí đó, liệu mô tả Solr với tham số liệt kê theo bảng sau: Bảng Mô tả tham số lưu trữ thông tin Solr Tham số Mơ tả QTime Thể thời gian tìm kiếm q Trình bày câu truy vấn rows Số lượng văn hiển thị numFound Số lượng văn tìm thấy docs Liệt kê trường: giá trị định nghĩa lược đồ (schema.xml) Tập liệu "TẠP CHÍ KHOA HỌC ĐHCT" mà chúng tơi tạo chứa tổng cộng 1.584 báo NCKH trường Đại học Cần Thơ từ năm 2011 đến năm 2015, tất đánh mục định nghĩa trường (fields) file schema.xml Để thể kết tìm kiếm cách trực quan hơn, chúng tơi tích hợp vào hệ thống giao diện người dùng thân thiện Cách hiển thị kết thông qua giao diện giúp người sử dụng có nhìn tổng thể so sánh kết mà họ tìm kiếm Dưới chúng tơi trình bày số kết thực nghiệm điển hình việc tìm kiếm, thống kê trực quan hóa kết theo từ khóa mơ hình đề xuất sau: (1) Tìm kiếm thống kê báo NCKH Trường Đại học Cần Thơ năm (2011-2015) Trường'donvi' định nghĩa khoa/đơn vị mà tác giả báo NCKH cơng tác, để tìm kiếm báo NCKH theo đơn vị thuộc Trường Đại học Cần Thơ, sử dụng truy vấn: donvi:*_ctu Kết câu truy vấn hiển thị Hình 3, ứng dụng tìm thấy có 1.298 báo NCKH chấp nhận từ ngày 01/01/2011 đến ngày 31/12/2015 Khung 'Tác giả' cho thấy biểu đồ thống kê theo số lượng đóng góp tác giả cho tạp chí Chúng ta thay đổi cách hiển thị danh sách tác giả (tăng dần hay giảm dần số lượng báo, số lượng tác giả, màu sắc biểu đồ, ) cách nhấn chuột trái vào biểu tượng Khung "Khoa – Đơn vị" cho thấy khoa Nông nghiệp – Sinh học ứng dụng (nnshud_ctu) có nhiều báo NCKH (285 bài), khoa Thủy sản (ts_ctu) 206 bài, khoa Mơi trường – Tài ngun thiên nhiên (mttntn_ctu) có 135 bài, Qua kết thống kê, dễ dàng nhận chênh lệch số lượng báo NCKH khoa lớn Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Nguyễn Hoàng Việt 335 Hình Thống kê báo NCKH Trường Đại học Cần Thơ theo tác giả theo khoa/đơn vị (2) Tìm kiếm thống kê báo NCKH theo tên tác giả Tên tác giả truy vấn theo cấu trúc tacgia: "" tìm kiếm tồn văn với từ khóa "" Dưới ví dụ minh họa hiển thị kết tìm thấy tất báo NCKH tác giả trực quan hóa kết theo hai dạng biểu đồ hình trịn cột: Hình Thống kê NCKH theo tên tác giả 336 MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN Để xem thống kê rõ mối tương quan tác giả, ví dụ hai tác giả khác nghiên cứu đơn vị nào, người dùng nhấn chuột vào tên tác giả tương ứng biểu đồ hình tròn khung 'Tác giả' để tạo thêm lọc kết thống kê sau: Hình Tương quan hai tác giả Từ kết thống kê Hình thấy hai tác giả "Võ Quang Minh" "Lê Quang Trí" tham gia nghiên cứu với tác giả Phạm Thanh Vũ (3 báo NCKH), Lê Thị Linh (2 bài), Võ Phước Khải (1 bài) (3) Tìm kiếm thống kê kết theo cụm từ Việc dùng cụm từ tìm kiếm “Ứng dụng công nghệ cao nông nghiệp, thủy sản môi trường”, “Quản lý sử dụng bền vững tài nguyên thiên nhiên”, “Kỹ thuật công nghệ công nghệ thông tin – truyền thông”, quan sát kết thống kê điều thực Hình Ứng dụng cơng nghệ cao nông nghiệp, thủy sản môi trường Tổng cộng tìm kiếm 23 liên quan đến vấn đề ứng dụng công nghệ cao nông nghiệp, thủy sản mơi trường Từ dự đốn việc Ứng dụng công nghệ cao vào lĩnh vực nông nghiệp, thủy sản môi trường quan tâm Có thể loại bớt kết thống kê năm trước (ví dụ khơng thống kê năm 2011) cách sử dụng câu truy vấn: ("nông nghiệp" OR "thủy sản" OR "môi trường") AND "nano" tuade:"2011*" Các kết đây, cho thấy việc tìm kiếm đa dạng phong phú với việc kết hợp thêm từ khóa để tìm kiếm: Hình 7, với việc sử dụng từ khóa tìm kiếm: "tài ngun thiên nhiên" AND "quản lý" AND "sử dụng" AND "bền vững" cho thấy vấn đề quan tâm đến việc quản lý sử dụng bền vững tài nguyên thiên nhiên nào? Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Nguyễn Hồng Việt 337 Hình 8: Quản lý sử dụng bền vững tài nguyên thiên nhiên Hình Quản lý sử dụng bền vững tài nguyên thiên nhiên Có tổng cộng 55 báo NCKH liên quan đến vấn đề quản lý sử dụng bền vững tài nguyên thiên nhiên Khoa Môi trường – Tài nguyên thiên nhiên Đại học Cần Thơ (mttntn_ctu) đóng góp 27 bài, Khoa kinh tế - Quản trị kinh doanh (ktqtkd_ctu) với bài, Viện nghiên cứu phát triển đồng sông Cửu Long (vncptdbscl_ctu) bài, Khá nhiều khoa/đơn vị khác tham gia NCKH vấn đề này, cộng với việc tăng mạnh số lượng báo NCKH năm gần (2013, 2014, 2015) nên tạm kết luận, quản lý sử dụng bền vững tài nguyên thiên nhiên trọng phát triển, phù hợp với mục tiêu năm 2050 Việt Nam quốc gia khai thác, sử dụng tài nguyên hợp lý, hiệu bền vững Để thấy tầm quan trọng 'gen' lĩnh vực nông nghiệp, thủy sản mơi trường, chúng tơi tiến thành tìm kiếm báo NCKH liên quan đến vấn đề Hình 8, minh họa kết trực quan hóa kết tìm kiếm: Hình Thống kê NCKH lĩnh vực nông nghiệp, thủy sản môi trường liên quan đến gen 338 MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN Kết có 142 báo NCKH liên quan tìm thấy, chứng tỏ vấn đề có nhiều tác giả quan tâm Đây định hướng nghiên cứu chủ đạo Trường Ngoài nghiên cứu nông nghiệp, thủy sản môi trường có góp phần khơng nhỏ cơng nghệ thơng tin Hình 9, trình bày kết tìm kiếm trực quan hóa việc ứng dụng cơng nghệ thơng tin vào nghiên cứu lĩnh vực Hình Sử dụng công nghệ thông tin lĩnh vực nông nghiệp, thủy sản mơi trường Cuối cùng, chúng tơi trình bày kết tìm kiếm theo cụm từ khóa "kỹ thuật công nghệ" "công nghệ thông tin" Đây định hướng nghiên cứu khoa học ưu tiên Trường Đại học Cần Thơ Hình 10 Kỹ thuật cơng nghệ cơng nghệ thơng tin – truyền thơng Có 12 báo NCKH liên quan đến Kỹ thuật công nghệ Công nghệ thông tin – truyền thông Những báo NCKH nghiên cứu đơn vị Kỹ thuật công nghệ Khoa Kỹ thuật Công nghệ Cao đẳng Cần Thơ (cntt_cdct), Khoa Cơng nghệ (cn_ctu), có trường Chính trị Thành phố Cần Thơ (ct_ct) tham gia nghiên cứu V KẾT LUẬN VÀ ĐỀ XUẤT Trong viết này, chúng tơi đề xuất mơ hình quản lý, tìm kiếm tài liệu trực quan hóa kết thống kê dựa hai tảng Hadoop Solr kết hợp số thư viện Lucene, phân tích tiếng Việt cơng cụ trực quan hóa liệu Banana Mơ hình đề xuất bao gồm thành phần: (1) Hệ lưu trữ phân phối tập tin dựa HDFS, (2) Hệ mục tìm kiếm văn dựa Lucene/Solr, văn tiếng Việt chúng tơi thay phân tích VnAnalyzer (3) Bộ trực quan hóa liệu để thống kê hiển thị biểu đồ cơng cụ trực quan Banana Mơ hình vừa đáp ứng nhu cầu tổng hợp quản lý tập trung nguồn liệu phân tán tổ chức, Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Nguyễn Hoàng Việt 339 vừa hỗ trợ hiệu cho việc lập mục, tìm kiếm hướng nguồn liệu Các yếu tố liên quan đến cân tải, tốc độ xử lý nhanh trọng mơ hình thể hai thành phần (1) (2) mơ hình, dựa chế đa nút Hadoop Solr Cuối cùng, chúng tơi cài đặt, tích hợp thành cơng ứng dụng mơ hình phân tích xu hướng nghiên cứu khoa học Trường Đại học Cần Thơ với kết xuất đầu kết tìm kiếm biểu đồ cho thấy xu hướng nghiên cứu khoa học liên quan đến định hướng nghiên cứu khoa học ưu tiên Trường Đại học Cần Thơ Đây công việc chưa đề cập nghiên cứu liên quan Kết có ý nghĩa thiết thực việc tìm kiếm, thống kê, kết xuất liệu tổ chức liệu dạng có cấu trúc trước Trong thực nghiệm, sử dụng 1.584 tập tin văn tạp chí Trường Đại học Cần Thơ (http://sj.ctu.edu.vn/ql/docgia/) Tất tập tin này, metadata chưa chuẩn hóa nên việc tìm kiếm kết xuất liệu gặp nhiều khó khăn Vì vậy, chúng tơi đề xuất tập tin báo trước cơng bố cần chuẩn hóa metadata theo chuẩn chung để tìm kiếm, thống kê kết xuất kết dễ dàng Ngồi ra, chúng tơi đề xuất ứng dụng mơ hình vào việc phân tích liệu NCKH cho Trường Đại học Cần Thơ, điều giúp cho nhà quản lý có thêm thơng tin để định hướng việc quy hoạch xét duyệt đề tài NCKH theo định hướng chung Trường VI TÀI LIỆU THAM KHẢO [1] A Hemanth, Dr R V Krishnaiah, 2013 The Hadoop Distributed Filesystem: Balancing Portability International Journal of Computer Engineering & Applications, Vol III, Issue III ISSN: 2321-3469 [2] Banana for Solr, 2015 [Online] Available from: https://github.com/lucidworks/banana [3] Bernard Marr, 2015 Why only one of the Vs of big data really matters [Online] Available from: http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters [4] Cao Mạnh Đạt, 2013 Bộ phân tích từ vựng tiếng Việt cho Lucene [Online] Địa chỉ: https://caomanhdat.wordpress.com/2013/06/26/bo-phan-tich-tu-vung-tieng-viet-cho-lucene/ [5] Doug Cutting, 2013 Apache Lucene: Then and Now By Doug Cutting [Online] Available from: http://www.meetup.com/frFR/Hadoop-DC/events/140608632 [6] Hao Wu, Guoliang Li, and Lizhu Zhou, 2013 Ginix: Generalized Inverted Index for Keyword Search Tsinghua Science and Technology, Volume 18, Number 1, February 2013 ISSN 1007-0214 10/12 pp77-87 [7] Jeffrey Dean and Sanjay Ghemawat, 2008 MapReduce: Simplified Data Processingon Large Clusters Magazine: Communications of the ACM - 50th anniversary issue: 1958 - 2008, Volume 51 Issue 1, January 2008, Pages 107-113 [8] Khung tích hợp Cloudera, 2015 [Online] Địa chỉ: http://www.cloudera.com [9] Khung tích hợp Hortonworks, 2014 [Online] Địa chỉ: http://hortonworks.com [10] Le-Hong, P., T M H Nguyen, A Roussanaly, and T V Ho, 2008 A hybrid approach to word segmentation of Vietnamese texts Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, Springer, LNCS 5196, pp 240-249, 2008 [11] Lucene, 2015 [Online] Available from: http://lucene.apache.org/solr/index.html [12] Marcus Fontoura, Maxim Gurevich, Vanja Josifovski, Sergei Vassilvitskii, 2011 Efficiently Encoding Term Co-occurrences in Inverted Indexes CIKM '11 Proceedings of the 20th ACM international conference on Information and knowledge management ISBN: 978-1-4503-0717-8, Pages 307-316 [13] O.Alhabashneh, R Iqbal, N Shah, S Amin, A James, 2011 Towards the Development of an Integrated Framework for Enhancing Enterprise Search Using Latent Semantic Indexing In ICCS 2011, LNAI 6828, pp 346–352, 2011, Springer-Verlag Berlin Heidelberg 2011 DOI: 10.1007/978-3-642-22688-5_29 ISBN: 978-3-642-22687-8 [14] Trương Quốc Định, Nguyễn Quang Dũng, 2012 Một giải pháp tóm tắt văn tiếng Việt tự động Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông - Hà Nội, 03-04/12/2012 [15] Kibana analytics and search dashboard for Elasticsearch, 2016 [Online] https://www.elastic.co/products/kibana MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN Nguyen Hung Dung, Truong Xuan Viet, Truong Quoc Dinh, Nguyen Hoang Viet ABSTRACT— The article objective is proposing a new model for managing large unstructured data set existed in the text files, spreadsheets form The proposed model is based on the open source set of Big Data with service integration and link data normalization, including: (1) HDFS (Hadoop Distributed File System) used in the file management, (2) Lucene set up inverted index for the Vietnamese text, Apache Solr supported inverted indexes management mechanisms, full-text search and some of advanced search functions and (3) the data visualization based on Banana The experimental results are performed on the data set of the scientific journals published on Can Tho University journals of science from 2011 to 2015 Keywords— Big Data, Distributed File System, Inverted Index, Full-text Search, Solr, Lucene ... giả trực quan hóa kết theo hai dạng biểu đồ hình trịn cột: Hình Thống kê NCKH theo tên tác giả 336 MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN. .. gen 338 MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN Kết có 142 báo NCKH liên quan tìm thấy, chứng tỏ vấn đề có nhiều tác giả quan tâm Đây...332 MƠ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TỒN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN mục ngữ nghĩa cho văn [13] Vấn đề đặt là, giải pháp thương