1. Trang chủ
  2. » Tất cả

Sử dụng ứng dụng r trong việc hỗ trợ người học tìm kiếm thông tin, tài liệu phục vụ học tập và nghiên cứu

5 0 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 378,16 KB

Nội dung

62 SỬ DỤNG ỨNG DỤNG R TRONG VIỆC HỖ TRỢ NGƯỜI HỌC TÌM KIẾM THÔNG TIN, TÀI LIỆU PHỤC VỤ HỌC TẬP VÀ NGHIÊN CỨU Hà Thị Minh Huệ Trường Đại học Kinh tế Quốc dân Tóm tắt Bài viết chia sẻ ứng dụng sử dụng R[.]

SỬ DỤNG ỨNG DỤNG R TRONG VIỆC HỖ TRỢ NGƯỜI HỌC TÌM KIẾM THƠNG TIN, TÀI LIỆU PHỤC VỤ HỌC TẬP VÀ NGHIÊN CỨU Hà Thị Minh Huệ Trường Đại học Kinh tế Quốc dân Tóm tắt: Bài viết chia sẻ ứng dụng sử dụng R với số gói mã lệnh thông dụng để tiếp cận nguồn thông tin, tài liệu dồi trang mạng cách nhanh chóng, hiệu Điều giúp bạn sinh viên nâng cao hiệu tìm kiếm nguồn thơng tin, có thêm liệu để phục vụ học tập, nghiên cứu hay tham gia hoạt động xã hội Bài viết tập trung vào sử dụng R để tự động cào liệu dạng bảng, dạng ký tự chữ viết nhiều trang mạng, từ thu thập nguồn tài liệu, liệu hay thông tin lớn nhiều so với cách thủ công thông thường Từ khóa: trang mạng, đường dẫn, gói mã lệnh, thu thập, liệu Đặt vấn đề Trong thời đại 4.0, với phát triển ngày cao khoa học công nghệ, việc cập nhật hay ứng dụng công cụ công nghệ thông tin, khoa học liệu để hỗ trợ xử lý công việc khác trở nên phổ biến dần trở thành điều kiện tiên để thành công Tất biết công nghệ thông tin, khoa học liệu lĩnh vực phát triển nhanh chóng, mở cho sinh viên đường lập nghiệp thú vị hội học tập nâng cao Không riêng bạn sinh viên theo học ngành này, tất nên trang bị cho kiến thức cơng nghệ thông tin, khoa học liệu để thúc đẩy nâng cao hiệu học tập làm việc Các bạn sinh viên may mắn tiếp cận nguồn thông tin, tài liệu vô hạn trang mạng với vài từ khóa, cú nhấp chuột Tuy vậy, việc sử dụng nhanh chóng hiệu nguồn thông tin, tài liệu lại gây khó khăn cho Hiện nay, R, Python hay số ngơn ngữ lập trình khác sử dụng nhiều việc làm sạch, hình ảnh hóa, phân tích liệu Khơng có vậy, cịn sử dụng chúng để thu thập nguồn tài liệu thơng tin khổng lồ có trang mạng Điều giúp có thêm cơng cụ để học tập nghiên cứu Bài viết chia sẻ vài ứng dụng việc sử dụng R thơng qua số ví dụ cụ thể việc thu thập tài liệu, thông tin trang mạng hay cịn gọi “scraping data”, thơng qua số gói mã lệnh phần mềm R Tác giả khơng trình bày cụ thể cách viết mã, bạn đọc quan tâm tìm đọc [1] tìm hiểu thêm gói mã lệnh theo đường dẫn mục tài liệu tham khảo 62 Nội dung Tác giả sử dụng gói mã sau R: • Rvest gói mã sử dụng để cào liệu từ trang mạng [2] [3] Nếu bạn chưa biết nó, hiểu đơn giản sau: Ở đây, ta cần đường dẫn tới trang mạng, địa khu vực mà ta muốn tìm kiếm thơng tin trang mạng đó, dạng liệu thơng tin mà ta muốn thu thập, ví dụ viết ta thu thập liệu dạng bảng chữ viết • Dplyr gói mã sử dụng để xử lý liệu dạng bảng [4] [5] Ta lập bảng, thêm bớt dòng, cột, xếp hay lọc liệu bảng,… • Stringr gói mã sử dụng để xử lý liệu dạng ký tự chữ viết [5] [6] Ta đếm số ký tự, tìm kiếm vị trí ký tự, nối chuỗi ký tự,… Từng gói lệnh đọc qua làm công việc đơn giản, ta phải kết hợp gói lệnh, ứng dụng uyển chuyển, linh hoạt để mang lại hiệu tối đa Ví dụ, vài dịng mã giúp ta thu bảng gồm tất đường dẫn xuất vùng trang mạng: url %>% read_html() %>% html_element(css_page) %>% html_nodes(“a”) %>% html_attr(“href”) %>% matrix(ncol = 1) %>% as.data.frame() -> links Ở đây, “url” đường dẫn tới trang mạng, “css_page” điểm tới vị trí khu vực ta muốn lấy thông tin, “a”, “href” dấu hiệu nhận biết để tới đường dẫn; sau đó, ta cho đường dẫn vào bảng gồm cột Các ví dụ sau đây, tác giả thực việc thu thập đường dẫn có kiểu thơng tin, liệu mà tác giả quan tâm, sau tự động thu thập liệu đường dẫn lấy Ta xem xét ví dụ 2.1 Tải (download) tài liệu Giả sử tác giả học ôn luyện tiếng Anh muốn làm đọc dạng “multiple choice cloze” Tác giả nhận thấy trang mạng [7]: https://www.intercambioidiomasonline.com/english/multiple-choice-cloze/ Có nhiều luyện phân cấp từ B1 đến C1, đường dẫn, số đường dẫn ví dụ đây: (NEW) C1 MULTIPLE CHOICE: ABLAUT REDUPLICATION C1 MULTIPLE CHOICE: BUSINESS 63 C1 MULTIPLE CHOICE: CELEBRITY LIFESTYLES C1 MULTIPLE CHOICE: CHILDHOOD OBESITY Các đường dẫn mở tập tin dạng pdf ta tải Nếu làm thủ công ta phải vào đường dẫn sau tải về, điều thời gian nhàm chán Nhưng ta sử dụng R để tự động thu thập đường dẫn, sau tải tập tin thư mục mà ta mong muốn nhờ lệnh “download.file” R Ta thu bảng chứa 45 đường dẫn (Urls), sử dụng gói mã dplyr stringr để tạo thêm cột chứa tên tệp (Name_file) vị trí thư mục ta muốn tải (Destination) Bảng chứa thông tin đường dẫn 45 đường dẫn ta thu được, tương ứng ta có thư mục chứa 45 tệp pdf mà tải vị trí ta định Bảng 1: Thơng tin đường dẫn, tên tệp vị trí lưu tệp Đường dẫn b1-reading-part-5_-basketball.pdf (intercambioidiomasonline.com) Tên tệp b1-reading-part-5_-basketball.pdf Địa thư mục /multiple_choice/b1-reading-part-5_-albacete.pdf 2.2 Thu thập liệu dạng bảng (table) Ở ví dụ ta sử dụng thêm lệnh “html_table” để thu nhập bảng số liệu có trang mạng Tương tự bảng số liệu, ta hồn tồn chép thủ cơng, với nhiều bảng số liệu việc chép hồn tồn khơng nên; quan trọng tập hợp nhiều bảng ta có bảng liệu lớn Cũng ví dụ để có thêm tài liệu học tiếng Anh Lần này, ta muốn luyện tập phrasal verb Trên trang mạng [8]: https://www.englishrevealed.co.uk/advanced_vocabulary.php Có tập phrasal verb số đường dẫn đây: Phrasal Verbs (OUT) Phrasal Verbs (OUT) Phrasal Verbs (UP) Phrasal Verbs (UP) Phrasal Verbs (OFF) Phrasal Verbs (OFF) Mỗi tập có đáp án bảng gồm 10 phrasal verbs kèm nghĩa từ kèm, mục đích tác giả lập bảng gộp tất bảng đáp án lại 64 drop out of Bảng 2: Một bảng kết đáp án leave school, college, etc without finishing your studies churn out produce something in large quantities quickly and often carelessly hold out offer a chance, hope or possibility of something take it out on behave in an unpleasant way towards sb because you feel angry bear out show that something is true or that someone is telling the truth eke out get just enough money or food to be able to continue to exist fizzle out gradually become less successful and end in a disappointing way work out at add up to a particular amount grow out of become too tall or too big to wear or use something 10 opt out of decide not to be part of a group or system Hoàn toàn tương tự ta lấy tất 29 đường dẫn tập, tập, ta lấy bảng kết quả, gộp bảng lại, ta thu bảng gồm 290 phrasal verb Bảng abide by Bảng 3: Mười dòng bảng 290 kết to accept and act according to a law, an agreement, etc accede to agree to what people have asked you to account for be the reason why something exists or happens act up (of a thing) fail to function properly adhere to sth continue to behave according to a particular rule or belief amount to sth add up to something, to make something as a total answer for accept responsibility or blame for something arrive at sth decide on or find something, especially after discussion and thought ascribe sth to sb refer to a supposed cause, source, or author 10 ask sb out invite somebody to something, such as dinner or a date 2.3 Thu thập liệu dạng ký tự lập bảng Trong ví dụ tiếp theo, ta xem báo chí nói ĐH Kinh tế Quốc dân, ta lấy báo vietnamnet.vn [9] tìm kiếm với từ khóa “Kinh tế Quốc dân”, sau danh sách báo Mỗi trang kết có 20 đường dẫn 20 báo, ta thử lấy trang kết để có 100 báo Với báo, ta dùng html_text để lấy thơng tin sau: • • • • • Ngày, tháng, năm đăng (Date) Lĩnh vực (Field): Giáo dục, Thời sự, Chính trị, Tiêu đề (Title) Nội dung tóm tắt đầu (Main_content) Đường dẫn báo (URL) Ta thu bảng liệu với thông tin báo nói ĐH Kinh tế Quốc dân, muốn ta đọc lại đầy đủ mà ta thấy quan tâm Chú ý rằng, 65 dạng thông tin động (dynamic) nên lần thực ta thu kết khác báo cập nhật liên tục Bảng ví dụ 100 báo ta thu Ngày đăng Bảng 4: Kết thông tin báo thu thập 21/08/2013 10:00 (GMT+07:00) Lĩnh vực Giáo dục Tiêu đề ĐH Kinh tế Quốc dân tuyển sinh cử nhân quốc tế Là chương trình đào tạo liên kết Việt Nam cho phép sinh viên Nội dung mở đầu lấy Đại học Anh quốc, chương trình Cử nhân Quốc tế Trường Đại học Kinh tế Quốc dân (IBD@NEU) tuyển sinh khóa thứ Đường dẫn ĐH Kinh tế Quốc dân tuyển sinh cử nhân quốc tế (vietnamnet.vn) Kết luận Trong viết tác giả không hướng dẫn chi tiết cách sử dụng R để thực mà chủ yếu nói ý tưởng kết thu qua ví dụ thực tế Bạn đọc quan tâm tham khảo phần mã lệnh tác giả tìm hiểu thêm gói mã sử dụng ví dụ nói riêng ứng dụng khác R nói chung Tác giả trình bày đơn giản để hiểu phần mã mà tác giả viết, phải chút thời gian công sức để tìm tịi thêm kiến thức R Còn nhiều ứng dụng khác việc cào liệu mạng sử dụng R việc khai thác phân tích liệu mà bạn đọc tìm hiểu thêm Ví dụ, vào trang thương mại điên tử Shopee, Lazada để tìm hiểu về: loại mặt hàng, doanh số bán hàng hay thu thập phản hồi khách hàng để phân tích kinh doanh Các kết thu thông tin, tài liệu ban đầu để phục vụ học tập, nghiên cứu, viên ngọc thơ mà biết mài rũa, phân tích sử dụng cách, cịn thu nhũng thành rực rỡ Tác giả hy vọng tất bạn sinh viên trang bị cho cơng cụ hữu ích, để làm việc, học tập sáng tạo, hiệu Tài liệu tham khảo [Trực tuyến] Địa chỉ: https://github.com/hhdsml/scraping_example [Trực tuyến] Địa chỉ: https://rvest.tidyverse.org/ Simon Munzert, Christian Rubba, Peter Meißner, Dominic Nyhuis (2015), Automated Data Collection with R - A Practical Guide to Web Scraping, John Wiley & Sons [Trực tuyến] Địa chỉ: https://dplyr.tidyverse.org/ Garrett Grolemund, Hadley Wickham (2016), R for Data Science, O'Reilly [Trực tuyến] Địa chỉ: https://stringr.tidyverse.org/ [Trực tuyến] Địa chỉ: ttps://www.englishrevealed.co.uk/advanced_vocabulary.php [Trực tuyến] multiple-choice-cloze/ Địa chỉ: https://www.intercambioidiomasonline.com/english/ [Trực tuyến] Địa chỉ: https://vietnamnet.vn/ 66 ... https://www.englishrevealed.co.uk/advanced_vocabulary.php Có tập phrasal verb số đường dẫn đây: Phrasal Verbs (OUT) Phrasal Verbs (OUT) Phrasal Verbs (UP) Phrasal Verbs (UP) Phrasal Verbs (OFF) Phrasal Verbs... thu thông tin, tài liệu ban đầu để phục vụ học tập, nghiên cứu, viên ngọc thơ mà biết mài r? ?a, phân tích sử dụng cách, cịn thu nhũng thành r? ??c r? ?? Tác giả hy vọng tất bạn sinh viên trang bị cho cơng... làm việc, học tập sáng tạo, hiệu Tài liệu tham khảo [Trực tuyến] Địa chỉ: https://github.com/hhdsml/scraping_example [Trực tuyến] Địa chỉ: https://rvest.tidyverse.org/ Simon Munzert, Christian Rubba,

Ngày đăng: 22/02/2023, 20:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w