Tài liệu Xây dựng các kho dữ liệu trong lĩnh vực truyền thông xã hội bằng cách sử dụng các công cụ khai phá văn bản của SPSS pdf

Xây dựng các kho dữ liệu trong lĩnh vực truyền thông xã hội bằng cách sử dụng các công cụ khai phá văn bản của SPSS Giới thiệu Tiền thân của các mạng xã hội được chúng ta biết hiện nay

Trang 1

Xây dựng các kho dữ liệu trong lĩnh vực truyền thông xã hội bằng cách sử dụng các công cụ khai

phá văn bản của SPSS

Giới thiệu

Tiền thân của các mạng xã hội được chúng ta biết hiện nay đã nổi lên vào cuối những năm 1960,

khi các bảng tin là một trong những nền tảng chia sẻ-thông điệp tương tác đầu tiên Chỉ đến gần

đây—vào những năm 1990, khi Craigslist (N.D.: một mạng truyền thông trực tuyến dành cho

quảng cáo) và AOL xuất hiện—cuộc cách mạng xã hội này mới phát triển nhanh chóng Các

mạng xã hội đã cất cánh vào những năm 2000, với Friendster, LinkedIn, MySpace, Flickr,

Vimeo, YouTube, rồi Facebook vào năm 2004 và Twitter vào năm 2006 và gần đây nhất là

Google+ và Pinterest

Các xu hướng kỹ thuật số, đi kèm với việc chọn dùng rộng rãi môi trường truyền thông xã hội,

có tác động trực tiếp đến các doanh nghiệp khi chúng phát triển một chiến lược số dễ thay đổi

cho một môi trường có nhiều thành phần di động Trào lưu mạng xã hội thực sự đang kéo dài

mối quan hệ giữa các doanh nghiệp và khách hàng Trước khi có thương mại điện tử và các môi

trường truyền thông xã hội, những người tiêu dùng đã tiến hành một số nghiên cứu về các sản

phẩm và đã mua hàng có chọn lọc và mối quan hệ đó kết thúc ngay sau khi mua hàng, chỉ đến

khi khách hàng mua sản phẩm tiếp theo thì mối quan hệ mới tiếp tục duy trì Trong cách mua

hàng truyền thống này, xu hướng truyền miệng của các khách hàng vẫn còn bị hạn chế Giờ đây,

khách hàng dễ dàng bày tỏ quan điểm về một sản phẩm nào đó thông qua các mạng xã hội, qua

đó cũng giúp cho doanh nghiệp có thêm lượng khách hàng mới

Các doanh nghiệp biết rằng những người tiêu dùng ngày nay đang tích cực thu thập thông tin

trước khi mua hàng, ở đây họ xem xét ý kiến tán thành hay không tán thành khác và dễ dàng

thực hiện các so sánh về giá cả chỉ bằng một vài thao tác trên thiết bị di động Các doanh nghiệp

cũng biết rằng những người tiêu dùng của mình nhạy cảm hơn và ảnh hưởng từ những người

khác trong mạng xã hội của họ, dẫn đến sự phát triển của một kiểu chương trình tạo ảnh hưởng

trung thành của khách hàng mới nhằm vào việc khuyến khích và khen thưởng các cá nhân,

những người có ảnh hưởng rất mạnh đến thương hiệu doanh nghiệp Các khách hàng đang trở

thành người đại diện mới cho các thương hiệu, bằng cách góp phần điều chỉnh bản sắc thương

hiệu, giúp làm nên sự sống còn cho thương hiệu

Vậy thì các thương hiệu quản lý lượng thông tin tương tác kỹ thuật số này như thế nào? Công

nghệ đã chạy đua để bắt kịp với sự gia tăng của người tiêu dùng xã hội Chính các mạng xã hội

đã cung cấp các công cụ thống kê và luồng dữ liệu đặc trưng của trang web, chẳng hạn như

Facebook Insights, YouTube Insights và các bộ quản lý môi trường truyền thông xã hội như

HootSuite và các cổng thông tin đo lường ảnh hưởng như Klout cung cấp các tùy chọn của bên

thứ ba về số liệu thống kê theo dõi sự gắn bó với thương hiệu Một loạt các công cụ thương mại

để lắng nghe xã hội như Radian6, SM2, Viralheat và Sysomos, cung cấp báo cáo, phân tích văn

bản, sự gắn bó với thương hiệu, phân tích tâm lý người tiêu dùng, thông tin khách đến thăm trang

web và luồng công việc hứa hẹn với thương hiệu Những công cụ này đang được cải thiện theo

Trang 2

phạm vi và tính hữu ích, nhưng nhiều công cụ trong số đó vẫn còn ở trong giai đoạn đầu của quá trình tiến hóa Ví dụ, việc phân tích tâm lý tiêu dùng, vẫn còn lâu mới chính xác và dữ liệu xã hội được cung cấp thông qua các dịch vụ như firehose của Twitter và được cung cấp bởi các công ty đối tác như Gnip và DataSift, vẫn còn rất đắt và bị hạn chế về bản chất của dữ liệu có sẵn Do đó,

có một lý do mạnh mẽ để tăng cường thêm cho các công cụ thương mại bằng việc khai phá văn bản ngay tại chỗ và xây dựng một kho dữ liệu từ môi trường truyền thông xã hội sở hữu độc quyền Các kho dữ liệu từ môi trường truyền thông xã hội lưu trữ thông tin ở mức người tiêu dùng, bắt nguồn từ các tương tác của môi trường truyền thông xã hội và tất cả thông tin số có liên quan đến địa điểm, thiết bị, hành vi di động, thanh toán di động, nền tảng và tốc độ liên quan đến dữ liệu bình luận

Về đầu trang

Khai phá văn bản và các phương pháp ngữ nghĩa

Các mạng truyền thông xã hội đã và đang tạo ra vô số dữ liệu từ người dùng, làm thế nào để các doanh nghiệp có thể chuyển dữ liệu bình luận thô trong các mạng xã hội như Twitter, Facebook, các blog và các diễn đàn thành những hiểu biết kinh doanh? Câu trả lời nằm ở việc áp dụng công nghệ ngữ nghĩa và khai phá văn bản cho các nguồn dữ liệu không có cấu trúc này

Khai phá văn bản đề cập đến các kỹ thuật được sử dụng trong việc trích ra thông tin từ các nguồn văn bản viết khác nhau Tại sao điều này lại quan trọng đến như vậy? Người ta đã ước tính rằng 80% thông tin liên quan đến kinh doanh nằm trong dữ liệu văn bản không có cấu trúc

và nửa cấu trúc Nói cách khác, nếu thiếu ứng dụng cho việc phân tích văn bản để tìm ra nội dung phong phú của dữ liệu được biểu diễn trong 80% đó, thì đã lãng phí tất cả dữ liệu hành vi người tiêu dùng và thông tin kinh doanh nhúng trong đó Thuật ngữ khai phá văn bản, thường được coi là phân tích văn bản, có nhiều mục đích thực tế, chẳng hạn như các ứng dụng lọc thư rác, trích ra thông tin từ các đề xuất và các khuyến nghị trên các trang web thương mại điện tử, lắng nghe xã hội và khai phá dư luận từ các blog và các trang web phê bình, nâng cao dịch vụ khách hàng và hỗ trợ thư điện tử (email), xử lý tự động các tài liệu kinh doanh, khám phá điện tử (e-discovery) trong lĩnh vực pháp lý, đo lường sở thích của người tiêu dùng, phân tích tổn thất, phát hiện gian lận, tội phạm mạng và các ứng dụng an ninh quốc gia

Khai phá văn bản tương tự như khai phá dữ liệu ở chỗ nó được nhằm vào việc xác định các mẫu

dữ liệu đáng chú ý Mặc dù việc khai phá văn bản thủ công (cần nhiều người làm) đã nổi lên trong những năm 1980 Lĩnh vực khai phá văn bản đã trở nên quan trọng trong những năm gần đây để tinh chỉnh các thuật toán kết quả của công cụ tìm kiếm và chọn lọc thông qua các nguồn

dữ liệu để khám phá các thông tin chưa biết Tất cả các kỹ thuật như máy học, thống kê, ngôn ngữ học máy tính và khai phá dữ liệu đều được sử dụng trong quá trình này Mục tiêu của việc khám phá tri thức từ văn bản, ví dụ, là để phát hiện ra các mối quan hệ ngữ nghĩa nằm bên dưới văn bản cũng như nội dung và bối cảnh ngụ ý với NLP (Natural Language Processing - Xử lý ngôn ngữ tự nhiên) Các quá trình này đều nhằm vào việc sử dụng NLP để sao chép lại, rồi điều chỉnh quy mô cho hợp với cùng kiểu phân biệt ngôn ngữ, nhận dạng mẫu và hiểu kết quả, diễn ra khi con người đọc và xử lý văn bản

Trang 3

Các phương pháp khác nhau tồn tại trong lĩnh vực khai phá văn bản Dưới đây giới thiệu một

danh sách các bước tuần tự và phổ biến liên quan đến việc khai phá văn bản

Bước đầu tiên trong bất kỳ nỗ lực khai phá văn bản nào là xác định các nguồn dựa trên-văn bản

cần được phân tích và thu thập tư liệu này thông qua việc lấy ra thông tin hoặc chọn kho văn bản

chuyên đề (corpus) gồm một tập hợp các tệp văn bản và nội dung đang quan tâm Sau đó triển

khai NLP mở rộng, gọi ra "thành phần gắn thẻ tiếng nói" và sắp xếp thứ tự văn bản để phân tích

cú pháp (đó là, biểu tượng hóa (tokenizing) văn bản) và áp dụng nhận dạng thực thể có tên

(Named Entity Recognition) (đó là, nhận biết việc nêu ra các nhãn hàng, các tên người, các địa

điểm, các chữ viết tắt phổ biến và v.v) Một bước Lọc các từ phổ biến (Filter Stopwords) hay

dùng liên quan đến việc loại bỏ các từ phổ biến để tinh lọc nội dung của chủ đề mong muốn Các

thực thể đã xác định mẫu (Pattern Identified Entities) nhận biết các địa chỉ email và các số điện

thoại và Tài liệu cùng tham khảo (Coreference) xác định các cụm danh từ và các đối tượng liên

quan trong văn bản, tiếp theo là Trích ra mối quan hệ, sự vật và sự kiện (Relationship, Fact and

Event Extraction) Các N-Gram thường được sinh ra để tạo các điều kiện dưới dạng một loạt từ

liên tiếp Cuối cùng, một cách tiếp cận được các công cụ lắng nghe và phân loại môi trường

truyền thông xã hội hiện nay sử dụng rộng rãi là phân tích tâm lý tiêu dùng, để trích ra thông tin

về thái độ theo đối tượng hoặc chủ đề nào đó Thông thường, các chức năng lập bản đồ và vẽ đồ

thị khác cung cấp hiển thị trực quan để kiểm tra chính xác hơn nữa

Về đầu trang

Các công cụ khai phá văn bản

Có một số tùy chọn nguồn mở và thương mại cho phần mềm và các ứng dụng khai phá văn bản

IBM cung cấp một loạt các giải pháp khai phá văn bản rộng lớn và mạnh mẽ Một sản phẩm

mạnh, sử dụng các khả năng Big Data của IBM® InfoSphere® BigInsights™, cung cấp một mô

đun phân tích văn bản bổ sung, thực hiện trích ra phân tích văn bản từ cụm BigInsights

InfoSphere Các sản phẩm IBM SPSS® trải rộng theo quy mô và phạm vi Một công cụ, hoạt

động tốt để tìm kiếm một tài liệu và gán nó cho một chủ đề hay chuyên đề là IBM SPSS Modeler

(Trình mô hình hóa SPSS của IBM), cung cấp một giao diện đồ họa để thực hiện phân loại và

phân tích tài liệu văn bản tổng quát Một sản phẩm khác là IBM SPSS Text Analytics for

Surveys (Phân tích văn bản SPSS của IBM dành cho khảo sát điều tra) sử dụng NLP để phân tích

các câu hỏi khảo sát mở trong một tài liệu IBM SPSS Modeler Premium chạy trên cùng một

công cụ như SPSS Text Analytics dành cho khảo sát, nhưng có khả năng mở rộng quy mô cao để

xử lý toàn bộ kho dữ liệu gồm nhiều loại tài liệu (PDF, các trang web, các blog, email, các nguồn

cấp dữ liệu Twitter và nhiều hơn nữa) trong một nhánh công việc, để tạo điều kiện thuận lợi cho

việc tích hợp giữa dữ liệu có cấu trúc và không có cấu trúc Một nút mã nguồn tùy chỉnh liên

quan dành cho Facebook mở rộng các khả năng của SPSS Modeler Premium để đọc dữ liệu trực

tiếp từ một trang Facebook và tích hợp nó với một nguồn cấp dữ liệu Twitter trong SPSS

Modeler để có được phối cảnh nhiều kênh truyền thông xã hội

Trong số các công cụ khai phá văn bản nguồn mở, RapidMiner và R dường như là hai công cụ

phổ biến nhất R có một cơ sở người dùng rộng hơn; một ngôn ngữ lập trình yêu cầu có mã

nguồn trong đó, nó có một lựa chọn lớn về các thuật toán Tuy nhiên, khả năng điều chỉnh quy

mô là một vấn đề với R nên nó không phải là lý tưởng cho các tập dữ liệu lớn (big data) nếu

Trang 4

không có các cách giải quyết RapidMiner có một cơ sở người dùng nhỏ hơn, nhưng nó không đòi hỏi mã nguồn và có một giao diện người dùng (UI) mạnh mẽ Nó cũng có khả năng điều chỉnh quy mô cao và có thể xử lý các cụm và lập trình trong cơ sở dữ liệu IBM cung cấp một

mô đun Jaql R có tích hợp dự án R trong các truy vấn, còn về phần mình dự án R lại cho phép các tác vụ MapReduce chạy tính toán R song song

Về đầu trang

Các kho dữ liệu của môi trường truyền thông xã hội và Big Data

Các tùy chọn NoSQL và SQL

Vài lời ngắn gọn về các tùy chọn NoSQL và SQL (Structured Query Language – Ngôn ngữ truy vấn có cấu trúc) và quá trình lựa chồng công nghệ Khi các nguồn dữ liệu trở nên khó xử lý, như vẫn thường thấy khi làm việc với dữ liệu của môi trường truyền thông xã hội, thì cần đến một sự kết hợp của các tùy chọn NoSQL thương mại (như IBM BigInsights InfoSphere), để tích hợp có hiệu quả với Hadoop và các công cụ nguồn mở có khả năng mở rộng khác Các cơ sở dữ liệu đồ thị và các kho lưu trữ tài liệu và các cặp khóa-giá trị đã có sẵn và sự lựa chọn tối ưu dựa trên trường hợp sử dụng tại công ty Các công ty đã quan tâm đến việc khai phá và phân tích văn bản thường chọn Hadoop và tích hợp với các công cụ nguồn mở khác như Apache Mahout, một công

cụ máy học cung cấp việc phân loại, phân cụm và lọc cộng tác Các bộ dữ liệu và các luồng dữ liệu của Storm quản lý phân tích thời gian thực để kiểm soát độ trễ cao của Hadoop

Khi bắt đầu áp dụng khai phá văn bản, có những thách thức đặc biệt riêng của dữ liệu của môi trường truyền thông xã hội Dữ liệu, do các trang web mạng xã hội, các blog và các diễn đàn tạo

ra, rơi vào thể loại của những thứ thường được gọi là big data Dữ liệu thường không có cấu trúc

và nửa cấu trúc, tạo ra rất nhiều petabyte dữ liệu hàng ngày xung quanh các nhãn hàng lớn và các

cơ sở dữ liệu quan hệ truyền thống không thể mở rộng quy mô có hiệu quả để hỗ trợ phân tích thời gian thực dựa trên dữ liệu đó Vì thế rất cần các giải pháp cơ sở dữ liệu NoSQL và big data

Dữ liệu của môi trường truyền thông xã hội, nếu không được thu thập và lưu trữ thích hợp theo định kỳ đều đặn, về cơ bản dễ mất đi Hầu hết các công cụ nguồn mở lắng nghe mạng xã hội chỉ lưu lịch sử bình luận của môi trường truyền thông xã hội trong một vài ngày Chỉ có Twitter mới đây đã thông báo rằng toàn bộ lịch sử của dữ liệu sẽ có sẵn, nhưng nó sẽ được giới hạn với các bình luận do chủ tài khoản đăng lên Dữ liệu này có sẵn từ một số các nhà cung cấp dữ liệu xã hội lớn hơn đã nói ở trên, chẳng hạn như Gnip và DataSift và thông qua rất nhiều giao diện lập trình ứng dụng (các API) và các giao diện lập trình ứng dụng dựa trên cuộc gọi thông qua các công cụ khác Tuy nhiên, ở nơi dữ liệu có sẵn (đối với Twitter), nó vẫn rất đắt với tất cả mọi người, trừ những doanh nghiệp lớn nhất

Mỗi trang web của môi trường truyền thông xã hội xử lý vấn đề này một cách khác nhau Mỗi trang có thể sử dụng các yêu cầu tìm kiếm và có các đáp ứng theo định dạng JavaScript Object Notation (JSON), có dữ liệu chưa được phân tích cú pháp để đưa ngay vào một cơ sở dữ liệu MySQL hoặc cơ sở dữ liệu NoSQL, tùy thuộc vào khối lượng và tính chất của dữ liệu

Về đầu trang

Trang 5

Các trường hợp sử dụng nghiệp vụ đối với khai phá văn bản

Các doanh nghiệp có các mục tiêu khác nhau khi áp dụng khai phá văn bản:

 Một công ty là Sears, trong Ví dụ 1, có thể quan tâm đến việc theo dõi tâm lý tiêu dùng của khách hàng thông qua các bình luận trên môi trường truyền thông xã hội và các tương tác trực tiếp của người hâm mộ trên trang Facebook sau sự ra mắt của dòng sản phẩm mới Bằng cách này, có thể hiểu tâm lý tiêu dùng cơ bản qua các hình ảnh, các sản phẩm, các nhóm trò chuyện xảy ra xung quanh việc ra mắt sản phẩm Thông tin phản hồi thời gian thực này cho phép cập nhật thông báo nhanh chóng và loại bỏ nội dung không được

ưa chuộng và những người hâm mộ Facebook trở thành một nhóm tiêu điểm thời gian thực, cung cấp thông tin phản hồi ngay lập tức về các tính năng của sản phẩm

 Một công ty giải trí JACT đang kinh doanh về xây dựng các mối quan hệ giữa doanh nghiệp và những game thủ Nó có một lớp phủ trong trò chơi cho phép các game thủ chơi các trò chơi thường xuyên của mình trong khi vẫn hiển thị một loạt nội dung có mục tiêu

và đã lên lịch tới những người chơi Các game thủ kiếm được tiền ảo của JACT và họ có thể đổi lại các BUX JACT này để lấy các phần thưởng, bao gồm các món hàng ảo và có thể tải về được Nhưng người chơi tương tác với JACT trên trang Facebook hay Twitter

và đề cập đến BUX JACT thường xuyên trên các diễn đàn trò chơi Có thể thu được dữ liệu bình luận thô này từ các nguồn khác nhau và có thể lưu các ý kiến và các sở thích ở mức cá nhân Ví dụ, nếu một người chơi rất phấn khích về một trò chơi video cụ thể hoặc các tin ngắn tweet nói về phần thưởng của người chơi, thì mục đích trong trò chơi dựa trên trò chơi và kiểu phần thưởng cụ thể có nhiều khả năng hướng tới làm tăng lòng trung thành với thương hiệu hơn so với những lời chào hàng ngẫu nhiên

 Các siêu thị có thể sử dụng dữ liệu của môi trường truyền thông xã hội để xác định những người mua hàng có giá trị hơn, các ấn tượng về dịch vụ khách hàng, môi trường của cửa hàng, sở thích về sản phẩm, sở thích đóng gói và giá cả Việc hợp nhất kiểu thông tin này với dữ liệu vị trí hoặc do Twitter hoặc do các thiết bị di động cung cấp, các siêu thị có thể tùy chỉnh phù hợp với trải nghiệm mua hàng theo quan điểm địa phương hóa Điều này

có ảnh hưởng đến hàng tồn kho, giá cả, quảng cáo, tặng phiếu mua hàng trực tuyến và trực tiếp qua bưu điện cho cá nhân và nhiều hơn nữa

Ví dụ 1: Dữ liệu của môi trường truyền thông xã hội và khai phá văn bản trong SPSS Modeler Premium

Ví dụ đầu tiên này cho thấy một trường hợp sử dụng SPSS Modeler Premium Trong kịch bản này, công ty cho ra mắt một dòng sản phẩm mới và đang quan tâm theo dõi phản ứng của người tiêu dùng trong dữ liệu của môi trường truyền thông xã hội Nút Facebook của SPSS Modeler Premium được sử dụng để theo dõi dòng sản phẩm Kardashian mới này trên trang Facebook Sears, được thể hiện trong Hình 1

Trang 6

Hình 1 Nhà bán lẻ ra mắt một dòng sản phẩm mới trên Facebook

Bước đầu tiên trong việc theo dõi và phân tích dữ liệu bình luận đòi hỏi người sử dụng ghi rõ tên

người dùng và số các trang tải về và chủ đề cần xem xét trong nút Facebook SPSS Modeler

Premium, như trong Hình 2

Hình 2 Sử dụng SPSS Modeler để trích ra các bình luận trên tường của Facebook để nhận

Trang 7

ra sự phân tích thông tin bình luận phản hồi sau khi ra mắt một dòng sản phẩm mới

Sau đó trích ra dữ liệu bình luận từ trang Facebook Sears và tạo sẵn dữ liệu này để sử dụng trong

SPSS Modeler, như trong Hình 3

Hình 3 Có thể xem dữ liệu bình luận thô trực tiếp thông qua nút Facebook của SPSS Modeler

(Xem ảnh lớn hơn của Hình 3.)

Bước tiếp theo đòi hỏi thêm các bộ lọc và tiến hành trích ra khái niệm, dẫn đến một sự hiển thị

trực quan nhằm mô tả các thể loại nội dung xung quanh nhãn hàng đó Giao diện người dùng đồ

Trang 8

họa thân thiện với người dùng hướng dẫn người dùng qua quá trình này và không cần sử dụng

các API nào để trích ra dữ liệu xã hội từ Twitter hay Facebook Kết quả là một bản đồ khái niệm

dễ hiểu và độ dày của đường nối biểu diễn độ nhạy cho các cụm khái niệm, như trong Hình 4

Hình 4 Bản đồ khái niệm cung cấp hiển thị trực quan các thể loại sức mạnh của khái niệm với nhãn hàng

Ví dụ 2: Ví dụ về sở thích sản phẩm của siêu thị khi sử dụng việc trích xuất và các từ phổ biến

trong SPSS Statistics Base

Quá trình lắp ráp quầy dữ liệu của môi trường truyền thông xã hội tiếp theo mô tả một quá trình

khai phá văn bản thủ công đơn giản Trong ví dụ này, chúng ta đang quan tâm đến việc sử dụng

khai phá văn bản thông qua SPSS Statistics Base (Cơ sở thống kê của SPSS) để lấy ra và lưu trữ

sở thích sản phẩm của từng cá nhân từ dữ liệu của môi trường truyền thông xã hội Ví dụ này bao

gồm một hướng dẫn từng bước để trích ra dữ liệu nhãn hàng của siêu thị từ Twitter và Facebook

Kiến trúc của quá trình được thể hiện trong Hình 5

Trang 9

Hình 5 Kiến trúc quầy dữ liệu của môi trường truyền thông xã hội BrandMeter

Bước đầu tiên là xác định các nhãn hàng quan tâm Một routine (thủ tục) được thiết lập để thu

thập những bình luận liên quan đến nhãn hàng thông qua việc xử lý của API Điều này được thực

hiện bằng các yêu cầu tìm kiếm như những yêu cầu được mô tả trong Hình 6 và các kết quả được

trả về dưới dạng JSON Một thư viện JSON phân tích cú pháp dữ liệu và chia mỗi bản ghi thành

nhiều trường có chứa các thông tin như ID (mã định danh) người dùng, dữ liệu và bình luận

thông báo dạng văn bản chưa qua xử lý Sau đó lưu trữ dữ liệu này trong một cơ sở dữ liệu và tạo

sẵn nó cho việc khai phá văn bản

Trang 10

Hình 6 API ví dụ mẫu để truy cập dữ liệu bình luận thô của Twitter và Facebook

Mục tiêu của bài tập khai phá văn bản đơn giản hóa này là xác định các sở thích sản phẩm của

người tiêu dùng và các mẫu tiêu dùng cụ thể Sau đó lưu trữ thông tin này trong một quầy dữ liệu

môi trường truyền thông xã hội Đối với ví dụ cụ thể này, giả sử bạn muốn xác định tất cả các

khách hàng là những người tiêu dùng ngô Hình 7 cho thấy việc sử dụng chức năng Character

Index (Chỉ mục ký tự) để xác định tất cả các cá thể của từ ngô trong dữ liệu bình luận thô

Tiêu đề	Xây Dựng Các Kho Dữ Liệu Trong Lĩnh Vực Truyền Thông Xã Hội Bằng Cách Sử Dụng Các Công Cụ Khai Phá Văn Bản Của Spss
Trường học	Trường Đại Học Khoa Học Xã Hội Và Nhân Văn
Chuyên ngành	Khoa Học Xã Hội
Thể loại	bài luận
Thành phố	Hà Nội

Định dạng
Số trang	13
Dung lượng	635,39 KB