Big Data là gì? Khái niệm cực kỳ đơn giản

Bigdatauni.com Follow Fanpage Contact Như đã giới thiệu ở bài viết trước “Big Data – thành quả của cách mạng công nghệ 4.0” về nguồn gốc của Big Data, ở bài viết này chúng ta sẽ bàn luận sâu hơn về khái niệm Big Data. Khái niệm về Big Data Big Data, thuật ngữ đơn giản dễ dịch sang bất kỳ thứ tiếng nào không chỉ riêng mỗi tiếng Việt, nó chỉ gồm 2 từ “Big” và “Data”. Thứ nhất về chữ “Data”, chúng tôi đã đề cập ở bài viết trước “Big Data – thành quả của cách mạng công nghệ 4.0”, những loại data có trong thời đại 4.0, bao gồm: các dữ liệu thuộc nhiều định dạng khác nhau như hình ảnh, video, âm nhạc,..trên Internet; các dữ liệu thu thập từ các hệ thống cảm biến có kết nối với hệ thống máy chủ; dữ liệu của khách hàng để lại ở các ứng dụng thông minh, các thiết bị có kết nối mạng; dữ liệu của người dùng để lại trên các platform social media – mạng xã hội như Facebook, Instagram,..; v.v… Do xuất phát từ nhiều nguồn khác nhau nên, “Data” trong “Big Data” sẽ có những cấu trúc sau:
  • Structured data: dữ liệu có cấu trúc như là các số liệu, các code có trong ngôn ngữ lập trình,.. có thể được tìm thấy trong Database (cơ sở dữ liệu) vì nó được cấu trúc để phục vụ cho nhiều mục đích khác nhau. Ví dụ, được sử dụng để truy vấn trong SQL (ngôn ngữ truy vấn có cấu trúc)
  • Unstructured data: dữ liệu là chữ viết, hình ảnh, video, âm thanh,..không có 1 cấu trúc nhất định, không có mối quan hệ cơ sở dữ liệu với nhau và không thể sử dụng cho việc truy vấn ví dụ trong SQL.
  • Ngoài ra còn có một số dữ liệu bán cấu trúc như XML (eXtensible Markup Language – ngôn ngữ miêu tả nhiều loại dữ liệu khác nhau), hay Json (JavaScript Object Notation).

Hình: Các loại hình Data (nguồn hpssociety.info)

Thứ 2 về chữ “Big”. Vì các dữ liệu được cập nhật thông qua các thiết bị kết nối mạng từng giờ từng phút, từng giây và đến từ nhiều nguồn khác nhau nên khối lượng dữ liệu là rất lớn, hiện nay Big Data được đo lường dưới đơn vị từ Terabytes (TB), đến Petabytes (PB) cho đến Exabytes (EB).

Hình: Thống kê 1 phút trên Internet có gì xảy ra. (Nguồn: weforum.org)

Theo Diễn đàn Kinh tế Thế giới, trong 1 phút trên Internet có + 973,000 đăng nhập vô Facebook + 3.7 triệu tìm kiếm trên Google + 187 triệu email được gửi. + 375,000 app trên App Store và Google Play được tải về + 4,3 triệu người xem Youtube + $862,823 người dùng trả cho việc mua sắm trực tuyến Nhiêu đó cũng đủ thấy trong 1 phút thôi dữ liệu có thể thu thập được là rất lớn. Vậy tóm lại “Big Data” là dữ liệu có khối lượng cực kỳ lớn, đa dạng và phức tạp. Để thu thập và khai thác Big Data, chúng ta cần một hệ thống quản lý, xử lý tiên tiến so với các phần mềm xử lý dữ liệu truyền thống thông thường. Theo chuyên gia phân tích dữ liệu Doug Laney thuộc công ty Gartner – công ty nghiên cứu và tư vấn công nghệ thông tin hàng đầu thế giới, đã định nghĩa “Big Data” dưới 3 góc độ.
  • Volume: khối lượng của dữ liệu cực kỳ lớn từ Petabytes đến Exabytes.
  • Velocity: tốc độ xử lý dữ liệu. Đây là thước đo cực kỳ quan trọng, do nguồn dữ liệu trong Big Data cực kỳ đa dạng và phức tạp nhưng luôn phải được xử lý trong thời gian ngắn. Ngày nay, các hệ thống RFID (nhận dạng qua sóng vô tuyến) hay các thiết bị cảm biến có thể xử lý dữ liệu Big Data trong thời gian hợp lý.
  • Variety: sự đa dạng của dữ liệu từ cấu trúc, bán cấu trúc cho đến không mang cấu trúc nào như đã nói ở trên.
Theo SAS – công ty đi đầu trong lĩnh vực phân tích dữ liệu và tư vấn của Mỹ – thêm vào 2 góc độ khác của khái niệm Big Data:
  • Variability: tính thay đổi của dữ liệu qua từng ngày. Ví dụ, dữ liệu Big Data đến từ social media – mạng xã hội, truyền thông – nếu xuất hiện các “trend”, các vấn đề “nóng hổi”, nó sẽ tác động đến dữ liệu Big Data.
  • Complexity: tính phức tạp. Vì Big Data đến từ nhiều nguồn khác nhau, dưới nhiều định dạng khác nhau nên khi lưu trữ, quản lý, xử lý, truyền tải qua các hệ thống sẽ gặp khó khăn.
Theo Oracle – công ty đi đầu trong việc cung cấp các phần mềm công nghệ cho các doanh nghiệp – cũng nhìn Big Data dưới 2 góc độ khác:
  • Value: giá trị của Big Data. Đây là lý do mà các công ty, tổ chức ngày nay đầu tư vào công nghệ để khai thác Big Data, phân tích kết quả có được để được ra những chiến lược cải thiện hoạt động. Big Data không có giá trị nếu được thu thập, xử lý, phân tích đúng cách.
  • Veracity: Tính xác thực. Big Data được thu thập từ nhiều nguồn khác nhau nên tính xác thực của nó cũng là dấu chấm hỏi lớn cho các tổ chức.
Ứng dụng Big Data  

Hình: Ứng dụng của Big Data  (nguồn: infoDiagram.com))

Big Data được sử dụng trong rất nhiều lĩnh vực với mục đích khác nhau. + Kinh doanh, Bán lẻ: hỗ trợ doanh nghiệp nắm bắt hành vi người tiêu dùng, đưa ra các chiến lược sản phẩm, chiến lược R&D,… + Ngân hàng và bảo hiểm: phát hiện, giảm thiểu rủi ro tín dụng, nắm bắt hành vi khách hàng,.. + Telco: cải thiện trải nghiệm của khách hàng, dự báo xu hướng mới, đưa ra các ứng dụng mới,… Ngoài ra, Big Data còn được sử dụng trong các doanh nghiệp có quy trình tự động hóa sản xuất (ví dụ thu thập dữ liệu để phân tích, phát hiện sai sót trong sản xuất,..); trong lĩnh vực năng lượng, tự động hóa và lĩnh vực y tế (dữ liệu bệnh nhân,..), nghiên cứu, tổ chức chính phủ,.. Xem thêm: Big Data – thành quả của cách mạng công nghệ 4.0
error: Content is protected !!