- Structured data: dữ liệu có cấu trúc như là các số liệu, các code có trong ngôn ngữ lập trình,.. có thể được tìm thấy trong Database (cơ sở dữ liệu) vì nó được cấu trúc để phục vụ cho nhiều mục đích khác nhau. Ví dụ, được sử dụng để truy vấn trong SQL (ngôn ngữ truy vấn có cấu trúc)
- Unstructured data: dữ liệu là chữ viết, hình ảnh, video, âm thanh,..không có 1 cấu trúc nhất định, không có mối quan hệ cơ sở dữ liệu với nhau và không thể sử dụng cho việc truy vấn ví dụ trong SQL.
- Ngoài ra còn có một số dữ liệu bán cấu trúc như XML (eXtensible Markup Language – ngôn ngữ miêu tả nhiều loại dữ liệu khác nhau), hay Json (JavaScript Object Notation).
Hình: Các loại hình Data (nguồn hpssociety.info)
Thứ 2 về chữ “Big”. Vì các dữ liệu được cập nhật thông qua các thiết bị kết nối mạng từng giờ từng phút, từng giây và đến từ nhiều nguồn khác nhau nên khối lượng dữ liệu là rất lớn, hiện nay Big Data được đo lường dưới đơn vị từ Terabytes (TB), đến Petabytes (PB) cho đến Exabytes (EB).Hình: Thống kê 1 phút trên Internet có gì xảy ra. (Nguồn: weforum.org)
Theo Diễn đàn Kinh tế Thế giới, trong 1 phút trên Internet có + 973,000 đăng nhập vô Facebook + 3.7 triệu tìm kiếm trên Google + 187 triệu email được gửi. + 375,000 app trên App Store và Google Play được tải về + 4,3 triệu người xem Youtube + $862,823 người dùng trả cho việc mua sắm trực tuyến Nhiêu đó cũng đủ thấy trong 1 phút thôi dữ liệu có thể thu thập được là rất lớn. Vậy tóm lại “Big Data” là dữ liệu có khối lượng cực kỳ lớn, đa dạng và phức tạp. Để thu thập và khai thác Big Data, chúng ta cần một hệ thống quản lý, xử lý tiên tiến so với các phần mềm xử lý dữ liệu truyền thống thông thường. Theo chuyên gia phân tích dữ liệu Doug Laney thuộc công ty Gartner – công ty nghiên cứu và tư vấn công nghệ thông tin hàng đầu thế giới, đã định nghĩa “Big Data” dưới 3 góc độ.- Volume: khối lượng của dữ liệu cực kỳ lớn từ Petabytes đến Exabytes.
- Velocity: tốc độ xử lý dữ liệu. Đây là thước đo cực kỳ quan trọng, do nguồn dữ liệu trong Big Data cực kỳ đa dạng và phức tạp nhưng luôn phải được xử lý trong thời gian ngắn. Ngày nay, các hệ thống RFID (nhận dạng qua sóng vô tuyến) hay các thiết bị cảm biến có thể xử lý dữ liệu Big Data trong thời gian hợp lý.
- Variety: sự đa dạng của dữ liệu từ cấu trúc, bán cấu trúc cho đến không mang cấu trúc nào như đã nói ở trên.
- Variability: tính thay đổi của dữ liệu qua từng ngày. Ví dụ, dữ liệu Big Data đến từ social media – mạng xã hội, truyền thông – nếu xuất hiện các “trend”, các vấn đề “nóng hổi”, nó sẽ tác động đến dữ liệu Big Data.
- Complexity: tính phức tạp. Vì Big Data đến từ nhiều nguồn khác nhau, dưới nhiều định dạng khác nhau nên khi lưu trữ, quản lý, xử lý, truyền tải qua các hệ thống sẽ gặp khó khăn.
- Value: giá trị của Big Data. Đây là lý do mà các công ty, tổ chức ngày nay đầu tư vào công nghệ để khai thác Big Data, phân tích kết quả có được để được ra những chiến lược cải thiện hoạt động. Big Data không có giá trị nếu được thu thập, xử lý, phân tích đúng cách.
- Veracity: Tính xác thực. Big Data được thu thập từ nhiều nguồn khác nhau nên tính xác thực của nó cũng là dấu chấm hỏi lớn cho các tổ chức.
Hình: Ứng dụng của Big Data (nguồn: infoDiagram.com))
Big Data được sử dụng trong rất nhiều lĩnh vực với mục đích khác nhau. + Kinh doanh, Bán lẻ: hỗ trợ doanh nghiệp nắm bắt hành vi người tiêu dùng, đưa ra các chiến lược sản phẩm, chiến lược R&D,… + Ngân hàng và bảo hiểm: phát hiện, giảm thiểu rủi ro tín dụng, nắm bắt hành vi khách hàng,.. + Telco: cải thiện trải nghiệm của khách hàng, dự báo xu hướng mới, đưa ra các ứng dụng mới,… Ngoài ra, Big Data còn được sử dụng trong các doanh nghiệp có quy trình tự động hóa sản xuất (ví dụ thu thập dữ liệu để phân tích, phát hiện sai sót trong sản xuất,..); trong lĩnh vực năng lượng, tự động hóa và lĩnh vực y tế (dữ liệu bệnh nhân,..), nghiên cứu, tổ chức chính phủ,.. Xem thêm: Big Data – thành quả của cách mạng công nghệ 4.0