1. Trang chủ
  2. » Công Nghệ Thông Tin

Xây dựng mô hình phân tán cho phân lớp khối lượng lớn văn bản theo chủ đề

7 19 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 674,7 KB

Nội dung

Bài viết nghiên cứu và chọn một phương pháp tiếp cận truyền thống theo phương pháp SVM để từ đó đề xuất mô hình nhằm giải quyết nhu cầu xử lý khối lượng dữ liệu lớn hiện nay. Mời các bạn cùng tham khảo bài viết để nắm chi tiết hơn nội dung.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.000104 XÂY DỰNG MƠ HÌNH PHÂN TÁN CHO PHÂN LỚP KHỐI LƯỢNG LỚN VĂN BẢN THEO CHỦ ĐỀ Nguyễn Hồ Duy Trí, Nguyễn Trung Quân, Nguyễn Văn Tiến, Ngô Thanh Hùng Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh trinhd@uit.edu.vn, 12520683@gm.uit.edu.vn, tiennv@uit.edu.vn, hungnt@uit.edu.vn TĨM TẮT— Sự xuất trang mạng xã hội làm cho số lượng người sử dụng lượng thông tin trao đổi mạng internet trở nên lớn không ngừng gia tăng Phần lớn người sử dụng mạng xã hội, blog thường bày tỏ cách chân thật kiến thức, ý kiến, quan điểm, cảm xúc… Việc phân tích chủ đề từ trao đổi, tài liệu mạng xã hội nhằm nắm bắt, quản lý trích xuất thơng tin vơ quan trọng có ý nghĩa lớn giáo dục, kinh tế, trị, xã hội, tâm lý học Tuy nhiên để có thơng tin hữu ích phải giải vấn đề phức tạp hai giai đoạn: thu thập liệu từ trang mạng xã hội phân tích thông tin từ nguồn liệu lớn Thông thường tốn phân tích thơng tin, cụ thể phân lớp viết theo chủ đề, toán xử lý, phân loại văn truyền thống áp dụng cho liệu mạng xã hội gặp phải khó khăn dung lượng liệu cần xử lý, lên đến hàng TeraByte, ZettaByte Để lưu trữ xử lý lượng liệu cần sử dụng cơng nghệ tính tốn phân tán Cluster Computing, phổ biến mơ hình MapReduce Từ khóa— text classification, distributed model, classification by topic, big data, spark I GIỚI THIỆU Phân lớp văn toán cổ điển khai thác liệu Nội dung tốn phân lớp tìm chủ đề thích hợp (tên/nhãn lớp) tập hữu hạn chủ đề xác định trước Tiêu chí lựa chọn chủ đề phù hợp cho văn dựa độ tương đồng ngữ nghĩa chúng với văn tập ngữ liệu huấn luyện Việc tự động phân lớp văn vào chủ đề giúp cho việc tổ chức xếp, lưu trữ truy vấn tài liệu dễ dàng sau Bên cạnh đó, phân lớp văn cịn sử dụng để hỗ trợ trình tìm kiếm, chiết lọc thơng tin Ngồi ra, với bùng nổ mạng xã hội, việc chia sẻ thông điệp chứa đựng vơ vàn thơng tin hữu ích Giải tốn phân lớp chủ đề tập thơng điệp khổng lồ mang lại nhiều ý nghĩa như: tìm xu hướng, chủ đề chung cộng đồng, phát người dẫn dắt ý tưởng (key player), đánh giá mức độ hữu ích văn bản, phát đạo văn hay lựa chọn văn làm đại diện cho tập ngữ liệu Xa nữa, biết quan tâm tác giả thông điệp đến chủ đề nào, ta phân tích, nắm bắt „tâm lý‟ người dùng, từ dễ dàng gợi ý tài liệu, sản phẩm… tương đồng với chủ đề phù hợp với thị hiếu, từ định hướng tốt cho truyền thông marketing đại Trên giới, đặc biệt tiếng Anh, có nhiều cơng trình nghiên cứu đạt kết khả quan Tuy nhiên, nghiên cứu ứng dụng ngơn ngữ tiếng Việt cịn nhiều hạn chế gặp phải khơng khó khăn ngữ pháp, nhập nhằng ngữ nghĩa trình tách câu, tách từ Có thể liệt kê số nghiên cứu với hướng tiếp cận khác toán phân lớp văn sau: phân loại với máy học vector hỗ trợ (SVM) [1], cách tiếp cận sử dụng lý thuyết tập thô [2], cách tiếp cận thống kê hình vị [3], cách tiếp cận sử dụng phương pháp học không giám sát đánh mục [4], cách tiếp cận theo luật kết hợp [5] Những nghiên cứu đạt kết tốt, nhiên khó mà so sánh chúng với tập liệu thực nghiệm phương pháp khác biệt Nhưng dù tiếp cận theo hướng phương pháp nêu đa phần sử dụng toàn văn nội dung văn để thực phân lớp, điều đồng nghĩa với việc mơ hình phân lớp ln phải đối phó với lượng lớn đặc trưng Trong bối cảnh thông tin chia sẻ mạng xã hội với khối lượng liệu khổng lồ, không ngừng gia tăng đáng kể hàng ngày việc phải thực phân loại văn với nội dung cực lớn thách thức không nhỏ Trong giới hạn báo, nhóm tác giả khơng thể khảo sát hết hướng tiếp cận nêu mà chọn phương pháp tiếp cận truyền thống theo phương pháp SVM để từ đề xuất mơ hình nhằm giải nhu cầu xử lý khối lượng liệu lớn II MƠ HÌNH PHÂN LỚP THEO TIẾP CẬN TRUYỀN THỐNG BẰNG PHƯƠNG PHÁP SVM Qua khảo sát cơng trình [6][7][8][9], khái qt mơ hình phân lớp theo tiếp cận truyền thống phương pháp SVM Hình Mơ hình gồm bước bản:  Bước 1: Tiền xử lý liệu Tập văn ban đầu xử lý tách câu, tách từ, loại bỏ dấu câu stopword Sau bước này, văn tập hợp từ sàng lọc văn  Bước 2: Vector hóa Nguyễn Hồ Duy Trí, Nguyễn Trung Qn, Nguyễn Văn Tiến, Ngô Thanh Hùng 855 Tập từ thu từ bước tiền xử lý dạng không cấu trúc để xử lý phân lớp phương pháp máy học cần vector hóa chúng Mơ hình túi từ áp dụng, theo mơ hình này, liệu văn khơng có cấu trúc (độ dài khác nhau) biểu diễn thành dạng véc tơ tần số xuất từ văn Từ tần số từ, vector văn tính cơng thức TF*IDF Đây cơng thức giúp đánh giá mức độ quan trọng từ văn bối cảnh tập ngữ liệu TF (term frequency) tần số xuất từ văn IDF (inverse document frequency) tần số nghịch từ tập ngữ liệu Cơng thức sau: Trong đó, số lần xuất từ số lượng tài liệu chứa từ tài liệu , tổng số từ , tổng số tài liệu, Kết bước vector phân bố xác suất tập từ biểu diễn chủ đề văn  Bước 3: Phân lớp văn Tập văn đầu vào sau trải qua bước xử lý đại diện tập vector Chúng đầu vào giải thuật SVM truyền thống Tiền xử lý • Tách câu • Tách từ • Loại bỏ dấu câu, stopword Vector hóa • Mơ hình túi từ • Cơng thức TF*IDF Phân lớp •SVM Hình Mơ hình phân lớp theo phương pháp tiếp cận truyền thống phương pháp SVM III MƠ HÌNH PHÂN TÁN ĐỀ XUẤT A Mơ hình phân tán Apache Spark Để thao tác khối lượng liệu lớn nhóm tác giả chọn thực việc cải tiến mơ hình tính tốn phân tán Một mơ hình xử lý liệu lớn phổ biến MapReduce, thực hai framework mã nguồn mở tiếng Apache Hadoop Apache Spark map(k1,v1) → list(k2,v2) reduce(k2,list(v2)) → list(v3) Hình Quá trình map reduce mơ hình MapReduce Với MapReduce, mơ hình luồng liệu, thích hợp ứng dụng với đa số công cụ xử lý liệu lớn Nhưng có ứng dụng khơng thích hợp áp dụng mơ hình này, ứng dụng có dạng mơ hình lặp Trong mơ hình này, q trình xử lý lặp lặp lại Lúc mơ hình MapReduce bộc lộ hạn chế sau [10]: (1) Thứ nhất, có nhiều giải thuật máy học thực hàm lặp lặp lại tập liệu để tối ưu tham số Mỗi vòng lặp khai báo lần thực trình MapReduce Như vậy, lần thực thi lần truy vấn lại liệu từ đĩa cứng, điều làm cho trình bị chậm nhiều (2) Thứ hai, trình MapReduce thường sử dụng lượng lớn liệu Nếu trình lặp lại nhiều lần lý tưởng nên tải liệu lên nhớ đệm máy truy vấn nhiều lần Tuy nhiên Hadoop phải chịu độ trễ hàng chục giây với lần thực trình MapReduce, vì, thành phần cơng việc đọc liệu từ đĩa thực riêng biệt Chính báo chọn cài đặt xử lý liệu lớn framework Apache Spark [10] Được cải tiến khắc phục khuyết điểm từ mơ hình Hadoop MapReduce, Apache Spark sử dụng đối tượng nhớ đặc biệt gọi RDD (Resilient Distributed Dataset), tập hợp đọc chứa đối tượng liệu phân tán lưu trữ 856 XÂY DỰNG MƠ HÌNH PHÂN TÁN CHO PHÂN LỚP KHỐI LƯỢNG LỚN VĂN BẢN THEO CHỦ ĐỀ nút tính tốn (các máy mạng tính tốn) Tập hợp có khả mở rộng cách mềm dẻo, tự cân khả chịu lỗi, phục hồi có cố xảy giống Hadoop Khi thao tác RDD Spark tải lên nhớ đệm nút tính tốn để sử dụng nhiều lần qua q trình tính tốn song song MapReduce, tốc độ Spark nhanh Hadoop đến gấp 10 lần Hình Các thành phần framework Apache Spark B Tổ chức tập văn tiền xử lý liệu Tập văn thu thập gán nhãn sử dụng cho việc huấn luyện phân lớp lưu trữ dạng thô (plain text) Những tập tin văn thô chứa thư mục tương ứng với chủ đề khác Sau thu thập tổ chức lưu trữ liệu, bước giai đoạn tiền xử lý tách câu, tách từ Không tiếng Anh, khoảng trắng tiếng Việt khơng thể đóng vai trị dấu hiệu phân tách từ Từ tiếng Việt từ đơn hay từ ghép, thêm vào nhập nhằng nghĩa làm cho tốn phân tách từ khó đạt xác tuyệt đối Một cơng cụ tách từ có độ xác cao (theo công bố tác giả khoảng từ 96% đến 98%) thư viện vnTokenizer [11], báo sử dụng công cụ vào trình tiền xử lý tập văn Kết thu sau bước tách từ đầu vào mơ hình xử lý phân tán trình bày Mục C Tập tin văn sau xử lý tách từ lưu trữ phân tán thành phần xử lý mạng tính tốn C Đề xuất mơ hình phân tán nhằm xử lý lượng lớn liệu Để xây dựng phương pháp phân lớp khối lượng văn lớn theo chủ đề, báo áp dụng mơ hình phân tán Apache Spark vào phương pháp phân lớp theo tiếp cận truyền thống phương pháp SVM trình bày Phần II Đầu vào mơ hình phân tán tập từ văn cắt thư viện VnTokenizer Mô hình phân tán bao gồm bước sau: Bước 1: Ở bước đầu tiên, danh sách file đầu vào chia phần ứng với nút tính tốn mạng phân tán Ở nút, ta tiến hành xóa stopword thống kê tần số xuất từ Bước 2: Tập từ qua xử lý bước máy tính trung tâm (driver) thu hồi lại, thống kê tổng số từ Bước 3: Kết thống kê từ bước phân tán trở lại nút tính tốn để tính giá trị TF*IDF từ Bước 4: Sau tính TF*IDF, giải thuật lọc lấy từ có giá trị ngưỡng cài đặt trước Việc lọc nhằm lựa từ đủ tính chất đặc trưng cho chủ đề, loại bỏ từ xuất xuất phổ biến Giá trị ngưỡng tối ưu dần từ thực nghiệm Bước 5: Tiếp theo, tập từ đặc trưng driver tập trung lại phân tán máy trạm để tạo vector đặc trưng cho chủ đề văn Bước 6: Tất vector tập hợp driver phân tán máy trạm để phân lớp SVM Nguyễn Hồ Duy Trí, Nguyễn Trung Qn, Nguyễn Văn Tiến, Ngơ Thanh Hùng 857 Hình Mơ hình phân tán nhằm xử lý lượng lớn liệu IV CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ A Mô tả liệu, môi trường cài đặt Dữ liệu văn thu thập từ trang báo điện tử VnExpress, tổng số văn sử dụng để thử nghiệm 20000 bao gồm thành phần chủ đề mô tả Bảng biểu đồ Hình Bảng Thống kê số tài liệu theo chủ đề Chủ đề Số hóa Cộng đồng Kinh doanh Giải trí Du lịch Thời Thể thao Pháp luật Tổng cộng Số tài liệu 10000 1500 1500 1500 1500 1500 1500 1000 20000 858 XÂY DỰNG MÔ HÌNH PHÂN TÁN CHO PHÂN LỚP KHỐI LƯỢNG LỚN VĂN BẢN THEO CHỦ ĐỀ Hình Trực quan thành phần liệu thử nghiệm theo chủ đề Tập ngữ liệu gán chủ đề (nhãn) lớn là: Số hóa (10000 tài liệu) Các chủ đề khác (10000 tài liệu) Trong trình thực nghiệm, tập ngữ liệu chia thành phần: 70% huấn luyện, 30% thử nghiệm Sau tách câu, tách từ loại bỏ stopword, nhóm tác giả thống kê số TF*IDF từ khóa tập ngữ liệu thu kết tổng quát biểu đồ sau: Hình Biểu đồ phân bố giá trị TF*IDF từ khóa chủ đề Số hóa Hinh Biểu đồ phân bố giá trị TF*IDF từ khóa chủ đề Các chủ đề khác Nguyễn Hồ Duy Trí, Nguyễn Trung Qn, Nguyễn Văn Tiến, Ngơ Thanh Hùng 859 Sau loại bỏ stopword chủ đề số hóa bao gồm 652528 từ khóa, chủ đề Các chủ đề khác bao gồm 506130 từ khóa Từ cơng thức TF*IDF nêu Phần II, ta thấy văn từ xuất nhiều lần giá trị TF lớn, ngược lại, từ giá trị TF lại thấp Đối với toàn tập ngữ liệu, từ khóa xuất nhiều giá trị IDF thấp, cịn xuất giá trị IDF lại cao Để phân lớp hoạt động tốt, ta phải lọc từ khóa đặc trưng cho lớp, không không phổ biến Qua thực nghiệm, nhóm tác giả chọn giá trị TF*IDF khoảng từ 0,007 đến 0,4 Môi trường cài đặt hệ thống phân tán 10 máy ảo có cấu hình bình thường với vi xử lý nhân nhớ RAM 8GB Các máy kết nối với nhau, có máy vừa máy với vai trò xử lý, vừa máy chủ với vai trò quản lý cấp phát tài nguyên, liệu; thu thập, tổng hợp kết quả, xử lý tính tốn cục Các máy chạy hệ điều hành Ubuntu 16.04, cài đặt Apache Spark 1.6.2 B Kết đánh giá Thời gian thực mơ hình phân lớp hệ thống xử lý phân tán gồm 10 đơn vị tính tốn 8.6 tiếng, kết thu trình bày Bảng Bảng Bảng kết Precision Recall F-measure 88,14% 91,99% 90,02% Qua trình thử nghiệm kết trên, đưa vài nhận định sau: (1) Kết thu khả quan việc phân lớp văn theo chủ đề (2) Hệ thống với 10 đơn vị tính tốn q nhỏ, dùng để thực nghiệm khả xử lý khối lượng liệu lớn tăng trưởng theo thời gian, điều mà hệ thống đơn xử lý khó đảm bảo (3) Khối lượng liệu thực nghiệm lớn nhiều so với cơng trình [1] 4162 tài liệu, cơng trình [5] 5000 tài liệu, cơng trình [7] 7842 tài liệu, cơng trình [9] 2000 tài liệu (4) Với khối lượng liệu tương đối lớn, bao quát trường hợp phương pháp lọc bỏ stopword, lọc bỏ từ khóa khơng đủ sức đặc trưng cho chủ đề, làm cho kết xác V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Việc chia sẻ cơng việc nút tính tốn phương pháp phân tán, song song hóa thơng qua mơ hình MapReduce giúp cho việc giảm tải nhớ phải tính tốn với khối lượng liệu lớn, đồng thời giúp cho tốc độ đọc/ghi liệu thu hẹp khoảng cách với tốc độ tính tốn vi xử lý góp phần tăng tốc tồn q trình thực giải thuật Quan trọng nhất, với việc xử lý khối lượng liệu lớn, có nhìn đa chiều, tồn diện tốn, từ kết cải thiện so với tiếp cận truyền thống Trong tương lai, nhóm tác giả tiến hành khảo sát với nhiều cách tiếp cận để cố gắng đạt kết cao VI LỜI CẢM ƠN Nghiên cứu sản phẩm đề tài “Nghiên cứu kỹ thuật xử lý liệu lớn, áp dụng cho việc xác định cá nhân có tầm ảnh hưởng mạng xã hội” mã số D2015-07, thuộc Trường Đại học Công nghệ Thông tin – ĐHQG-HCM TÀI LIỆU THAM KHẢO Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT, Tháng năm 2006 Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda‟04 Hà nội 2004 Nguyễn Linh Giang, Nguyễn Duy Hải, “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Chun san “Các cơng trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thơng, Tạp chí Bưu Viễn thơng, số 1, tháng 7-1999, trang 61-67 1999 Huỳnh Quyết Thắng, Đinh Thị Thu Phương, “Tiếp cận phương pháp học không giám sát học có giám sát với tốn phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mơ hình vectơ”, Kỷ yếu Hội thảo ICT.rda‟04, trang 251-261, Hà Nội 2005 Đỗ Phúc, “Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa”, Tạp chí phát triển KH&CN, tập 9, số 2, pp 23-32, năm 2006 T T Huỳnh S T Trần, “Hệ thống nhận dạng phân loại văn bản”, Đại học Cơng nghệ thơng tin, Hồ Chí Minh, 2007 Trần Đệ Cao; Phạm Khang Nguyên, “Phân loại văn với máy học vector hỗ trợ định”, Tạp chí Khoa học, 21a, trang 52-63, 2012 860 XÂY DỰNG MƠ HÌNH PHÂN TÁN CHO PHÂN LỚP KHỐI LƯỢNG LỚN VĂN BẢN THEO CHỦ ĐỀ T T T Trần, C T Vũ N Tạ, “Xây dựng hệ thống phân loại tài liệu Tiếng Việt”, Khoa Cơng nghệ Thơng tin, Trường ĐH Lạc Hồng, Biên Hịa, 11/2012 Đ Q Trương, “Phân loại văn dựa rút trích tự động tóm tắt văn bản”, Kỷ yếu Hội nghị quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin, Hà Nội, 2015 10 M Zaharia, M Chowdhury, M J Franklin, S Shenker and I Stoica (2010), “Spark: Cluster Computing with Working Sets,” in Proceedings of the 2Nd USENIX Conference on Hot Topics in Cloud Computing, Boston, MA 11 Lê Hồng Phương, Nguyễn Thị Minh Huyền, Azim Roussanaly, Hồ Tường Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, Language and Automata Theory and Applications: Second International Conference, LATA 2008, Tarragona, Spain, March 13-19, 2008 Revised Papers, Springer-Verlag, Berlin, Heidelberg, 2008 [doi>10.1007/978-3-54088282-4_23] BUILDING DISTRIBUTED MODEL FOR CLASSIFICATION MASSIVE TEXT DATA BY TOPIC Nguyen Ho Duy Tri, Nguyen Trung Quan, Le Van Duyet, Ngo Thanh Hung ABSTRACT— The appearance of the social networking sites has attracted users and generated massive amounts of information every day Social network users predominantly express their true emotions, sentiments, opinions and knowledge It is important and necessary to classify social network's posts, conversations into topics for better information retrieval Such rich information can be a useful resource for the economy, education, and psychology To address this problem, we experiment with two stages: collect data from social network sites and examine large data When applying text classification for such an extensive data from social networks, which may be terabytes, it can be difficult to store and analyze it In this paper, we overcome that difficulty with a parallel computing technique based on MapReduce ... 1500 1000 20000 858 XÂY DỰNG MƠ HÌNH PHÂN TÁN CHO PHÂN LỚP KHỐI LƯỢNG LỚN VĂN BẢN THEO CHỦ ĐỀ Hình Trực quan thành phần liệu thử nghiệm theo chủ đề Tập ngữ liệu gán chủ đề (nhãn) lớn là: Số hóa (10000... hình phân tán nhằm xử lý lượng lớn liệu Để xây dựng phương pháp phân lớp khối lượng văn lớn theo chủ đề, báo áp dụng mô hình phân tán Apache Spark vào phương pháp phân lớp theo tiếp cận truyền thống... Distributed Dataset), tập hợp đọc chứa đối tượng liệu phân tán lưu trữ 856 XÂY DỰNG MÔ HÌNH PHÂN TÁN CHO PHÂN LỚP KHỐI LƯỢNG LỚN VĂN BẢN THEO CHỦ ĐỀ nút tính tốn (các máy mạng tính tốn) Tập hợp có

Ngày đăng: 26/11/2020, 00:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w