Statistics hay thống kê chắc có lẽ không còn xa lạ đối với những ai đang học, nghiên cứu, đang hoạt động, làm việc ở các ngành nghề, lĩnh vực có liên quan đến dữ liệu ví dụ Data analytics, Data science. Statistics được nhiều chuyên gia cho rằng là kiến thức nền tảng, cơ sở để chúng ta có thể bắt đầu tìm hiểu được, học được, trích xuất được những thông tin hữu ích, có giá trị từ bộ dữ liệu.
Statistics chính là một phần của khoa học dữ liệu. Kiến thức thống kê hỗ trợ các nhà phân tích trong việc sử dụng những phương pháp thích hợp để thu thập dữ liệu, phân tích chính xác và trình bày kết quả một cách hiệu quả. Thống kê là một quá trình quan trọng không thể thiếu khi chúng ta thực hiện các dự án nghiên cứu trong kinh tế, cũng như ở các lĩnh vực khác từ khoa học, sinh học, cho đến y học, v.v. Thống kê là một ngành khoa học có ý nghĩa, hữu ích với phạm vi ứng dụng rộng rãi bởi các doanh nghiệp, tổ chức khu vực chính phủ và đến tổ chức xã hội.
Statistics mặc dù đã ra đời từ lâu nhưng ngày nay mới nhận được nhiều sự quan tâm bởi hầu hết các công ty, tổ chức. Nguyên nhân chính là sự phát triển của khoa học công nghệ từ Big Data đến I.o.T (Internet of Things), xu hướng ứng dụng phổ biến những thành tựu AI (trí tuệ nhân tạo), và Machine Learning (học máy) vào hoạt động kinh doanh, vào đời sống, xã hội hàng ngày của con người, v.v đang gia tăng không ngừng. Đặc biệt là định hướng dữ liệu đã dần trở thành chiến lược cốt lõi, khi nhiều công ty dựa vào dữ liệu để ra quyết định, coi dữ liệu là tài sản quan trọng nhất của mình. Statistics giúp các nhà phân tích có cái nhìn chi tiết, sâu sắc về dữ liệu, cũng như các biến, các đối tượng có trong dữ liệu, hỗ trợ nhiều trong việc ra quyết định và dự báo trong tương lai.
Trong bài viết lần này về chủ đề Statistics, phần 1 BigDataUni sẽ giới thiệu tổng quan về khái niệm Statistics là gì, lợi ích, ứng dụng của nó.
Statistics là gì?
Statistics tiếp cận chúng ta ở hầu hết mọi khía cạnh hàng ngày trong cuộc sống từ lúc chúng ta đang ở nhà cho đến lúc chúng ta đi làm, mọi số liệu, thông tin xung quanh ví dụ chỉ số giá tiêu dùng (CPI) của cả nước, tỷ lệ thất nghiệp hiện nay, lượng người dùng Social media,… chúng ta biết được đều dựa vào thống kê và có được từ một khối lượng lớn dữ liệu đã qua quá trình thu thập, xử lý, và phân tích.
Đầu tiên, Statistics được hiểu đơn giản với định nghĩa gần giống với Data mining, chính là quá trình thu thập, phân tích, khám phá những xu hướng, quy luật vận động, các mối quan hệ của những đối tượng nghiên cứu, v.v. Trực quan hóa dữ liệu, trình bày các kết quả phân tích sao cho người dùng, người đọc, người xem dễ dàng hiểu được cũng là một phần quan trọng của Statistics.
Thống kê chuyển đổi dữ liệu thành thông tin hữu ích có thể sử dụng được cho mọi người. Một khối lượng lớn dữ liệu bao gồm rất nhiều các số liệu khác nhau sẽ rất khó để mọi người có thể nắm được ý nghĩa trực tiếp từ dữ liệu, và thống kê sẽ cung cấp một tập hợp các công cụ định lượng, những phương pháp toán học phân tích dữ liệu để hỗ trợ chúng ta đưa ra các kết luận chắc chắn về dữ liệu thay vì các phán đoán không có căn cứ.
Sử dụng thống kê, chúng ta có thể hiểu sâu hơn và chi tiết hơn về cách chính xác dữ liệu được cấu trúc, hình thành như thế nào và dựa vào đó làm thế nào chúng ta có thể áp dụng một cách tối ưu các công cụ, kỹ thuật khác trong lĩnh vực Data science như Data mining, Predictive analytics, Machine Learning để thêm được nhiều thông tin hữu ích, đạt được nhiều giá trị hơn từ bộ dữ liệu.
Số liệu thống kê chính là một thông tin hữu ích nào đó mà chúng ta có được. Ví dụ số vụ tai nạn giao thông trong dịp lễ 30/4, 1/5 vừa qua là 135 vụ, làm chết 94 người, bị thương 96 người, đây là số liệu thống kê. Nếu bạn nhìn vào một phần dữ liệu nào đó của một tập dữ liệu, thì đây cũng gọi là số liệu thống kê. Ví dụ trong tập dữ liệu khách hàng giao dịch, bạn chỉ quan tâm đến số lượng khách hàng nam mua sản phẩm A ở một độ tuổi bất kỳ.
Chúng ta cùng nhìn qua một số khái niệm về Statistics từ một số giáo trình thống kê tiêu chuẩn quốc tế:
Theo “Statistics: The Art and Science of Learning from Data” (4th Global Edition 2018) của nhà xuất bản Pearson: “Thống kê là nghệ thuật và khoa học của thiết kế các nghiên cứu và phân tích dữ liệu mà những nghiên cứu đó tạo ra. Mục tiêu cuối cùng của nó là chuyển dữ liệu thành kiến thức và hiểu biết về thế giới xung quanh chúng ta. Thống kê là nghệ thuật và khoa học học hỏi từ dữ liệu liên quan đến việc thu thập, phân loại, tóm tắt, tổ chức, phân tích, trình bày và giải thích thông tin, dữ liệu.”
Bổ sung thêm cho khái niệm về Statistics của Pearson, thì trong tài liệu “Basic Statistics for Business and Economics” (9th Edition 2019) của nhà xuất bản Mc Graw Hill thì “Thống kê là khoa học của việc thu thập, tổ chức, trình bày, phân tích và diễn giải dữ liệu để giúp đưa ra quyết định hiệu quả hơn.”
Tương tự như khái niệm về Statistics trong “Statistics for Business and Economics” (13th Edition 2017) của Cengage Learning: “Theo nghĩa rộng hơn, thống kê là nghệ thuật và khoa học của việc thu thập, phân tích, trình bày và giải thích dữ liệu. Riêng trong kinh doanh và kinh tế, thông tin được cung cấp bằng cách thu thập, phân tích, trình bày và giải thích dữ liệu giúp nhà quản lý và người ra quyết định hiểu rõ hơn về môi trường kinh doanh và kinh tế và do đó cho phép họ đưa ra quyết định sáng suốt hơn và tốt hơn.”
Còn trong giáo trình “Nguyên lý thống kê kinh tế” của Đại học Kinh tế thành phố Hồ Chí Minh:
“Thống kê là các số liệu được thu thập để phản ánh các hiện tượng kinh tế – xã hội, tự nhiên, kỹ thuật. Thống kê chính là hệ thống các phương pháp dùng để thu thập, xử lý và phân tích các con số (mặt lượng) của những hiện tượng để tìm hiểu bản chất và tính quy luật vốn có của chúng (mặt chất) trong điều kiện thời gian và không gian cụ thể.”
Thống kê được chia làm 2 loại:
Descriptive Statistics (thống kê mô tả): Thống kê mô tả đề cập đến các phương pháp tổ chức tóm tắt, sắp xếp, đơn giản hóa, trình bày thông tin, dữ liệu được thu thập (trong đó dữ liệu tạo thành mẫu hoặc tổng thể). Các bản tóm tắt, mô tả dữ liệu thường bao gồm các bảng, biểu đồ và chỉ tiêu đo lường khuynh hướng tập trung, khuynh hướng phân tán của dữ liệu.
Inferential Statistics (thống kê suy luận): Thống kê suy luận bao gồm các phương pháp như ước lượng, đưa ra các giả thuyết và kiểm định, phân tích mối tương quan, liên hệ giữa các đối tượng nghiên cứu, đưa ra các dự báo, trên cơ sở phân tích dữ liệu mẫu để tìm ra những hiểu biết, đặc điểm về tổng thể.
Lợi ích, ứng dụng của Statistics?
Trước tiên như đã nói, thống kê là một cách để hiểu dữ liệu được thu thập về con người chúng ta và thế giới xung quanh. Tất cả dữ liệu sẽ là vô nghĩa nếu không có cách nào để giải thích, diễn giải nó, đây là lý do tại sao thống kê lại xuất hiện.
Theo Jim Frost, một chuyên gia trong lĩnh vực thống kê đến từ công ty Minitab chuyên cung cấp các phần mềm phân tích, thống kê dữ liệu, cho rằng có 2 nguyên nhân mà chúng ta phải nên học Statistics. Thứ nhất, thống kê là “bản đồ” hướng dẫn chúng ta cách học từ dữ liệu và xác định, tìm kiếm các vấn đề phổ biến có thể dẫn đến những kết luận không chính xác. Thứ hai, do tầm quan trọng ngày càng tăng của các quyết định và ý kiến dựa trên dữ liệu, thống kê chính là cơ sở dùng để đánh giá chất lượng của các kết quả phân tích (số liệu, thông tin) mà chúng ta nhận được. Thống kê cung cấp một loạt kiến thức và quy trình cho phép chúng ta học hỏi từ dữ liệu một cách đáng tin cậy bằng cách đánh giá các tuyên bố, kết luận dựa trên những phương pháp định lượng và giúp phân biệt giữa kết luận nào là hợp lý và kết luận nào không rõ ràng.
Ngoài ra theo Jim Frost, với kiến thức vững chắc về Statistics, một nhà phân tích có thể tránh được những lỗi, cạm bẫy phổ biến khi họ làm việc với dữ liệu ví dụ tránh việc chọn mẫu theo hướng thiên vị, chủ quan; quy chụp tính chất của một tổng thể nghiên cứu này với tổng thể nghiên cứu khác; đánh giá chủ quan, hời hợt mối quan hệ giữa những đối tượng nghiên cứu như hiện tượng A xảy ra trước hiện tượng B, và A tương quan với B nên khẳng định ngay giữa A và B có mối quan hệ nhân quả; chọn sai phương pháp mô tả, phân tích dữ liệu như ưu tiên sử dụng trung bình mẫu (mean) để mô tả khuynh hướng tập trung của dữ liệu thay vì dùng trung vị (median), hay sử dụng hồi quy tuyến tính trên các biến dữ liệu có mối quan hệ phi tuyến; hoặc đưa ra các giả thuyết không hợp lý về đối tượng nghiên cứu.
Statistics sẽ là nền tảng của những kết quả phân tích, kết quả dự báo có độ chính xác cao nếu các nhà phân tích sử dụng các quy trình thống kê một cách hợp lý, đảm bảo rằng tất cả các khía cạnh của một nghiên cứu tuân theo các phương pháp thích hợp. Statistic được vận hành dưới một quy trình phức tạp không hề ngắn gọn, đơn giản, nó bắt đầu từ thiết kế mô hình nghiên cứu, lựa chọn và đo lường các biến, áp dụng kỹ thuật lấy mẫu và xác định cỡ mẫu, làm sạch dữ liệu và xác định loại phân tích thích hợp, v.v.
Tóm lại, một số các chức năng của thống kê
(1) Thống kê giúp cung cấp sự hiểu biết tốt hơn và mô tả chính xác về một hiện tượng tự nhiên, giải thích mối liên hệ của các đối tượng có trong nghiên cứu.
(2) Thống kê giúp lập kế hoạch phù hợp và hiệu quả của một cuộc điều tra, thống kê trong bất kỳ lĩnh vực nghiên cứu nào.
(3) Thống kê giúp thu thập dữ liệu định lượng một cách thích hợp.
(4) Thống kê giúp trình bày dữ liệu phức tạp dưới dạng bảng, sơ đồ và đồ họa phù hợp để dễ hiểu và rõ ràng về dữ liệu.
(5) Số liệu thống kê giúp hiểu được bản chất và mô hình biến đổi của một hiện tượng để có thể hỗ trợ đưa ra dự báo trong tương lai.
(6) Thống kê giúp rút ra các suy luận, kết luận hợp lý thông qua việc ứng dụng các định lý, phương pháp và kỹ thuật được sử dụng trong thu thập và phân loại dữ liệu, phân tích và giải thích dữ liệu, đánh giá, tính toán độ tin cậy.
(7) Các công cụ thống kê có thể so sánh các bộ dữ liệu với nhau (datasets) để xem chúng giống nhau, mức độ tương thích như thế nào, và đặc điểm của dữ liệu ra sao.
Theo “Statistics: The Art and Science of Learning from Data” (4th Global Edition 2018) của nhà xuất bản Pearson thì có 3 nguyên nhân chính cần sử dụng các phương pháp thống kê:
- Thiết kế: nêu mục tiêu và / hoặc câu hỏi nghiên cứu quan tâm và lập kế hoạch làm thế nào để có được dữ liệu sẽ giải quyết chúng
- Mô tả: khám phám các mẫu dữ liệu, tóm tắt các thông tin có được từ dữ liệu, phân tích, mô tả, và trình bày dữ liệu thu được dưới các biểu đồ, đồ thị
- Suy luận: đưa ra quyết định và dự đoán dựa trên dữ liệu để trả lời các câu hỏi nghiên cứu, sử dụng dữ liệu mẫu để đưa ra ước lượng, kết luận, dự đoán, và khái quát, xác định các quy luật, trạng thái của đối tượng nghiên cứu trong một tập hợp dữ liệu lớn hơn.
Theo “Basic Statistics for Business and Economics” (9th Edition 2019) của nhà xuất bản Mc Graw Hill có nêu ra 3 lý do cần phải học Statistics:
(1) Dữ liệu sau khi được thu thập, cần được áp dụng kiến thức thống kê để chuyển đổi thành các thông tin hữu ích.
(2) Các kỹ thuật thống kê được sử dụng không chỉ để đưa ra các quyết định chuyên nghiệp ví dụ quyết định kinh doanh ở một công ty mà còn ở các quyết định cá nhân, phạm vi con người chúng ta.
(3) Bất kể bạn làm công việc gì, bạn sẽ cần có kiến thức về thống kê để hiểu thêm về thế giới xung quang và hỗ trợ tăng sự hiệu quả, năng suất cho công việc của bạn.
Còn trong Statistics trong “Statistics for Business and Economics” (13th Edition 2017) của Cengage Learning thì đề cập đến ứng dụng của thống kê trong kinh tế bao gồm:
Kế toán:
Các công ty kế toán công sử dụng các quy trình lấy mẫu thống kê khi tiến hành kiểm toán cho khách hàng của họ. Chẳng hạn, giả sử một công ty kế toán muốn xác định xem số tiến ở mục tài khoản phải thu được hiển thị trên bảng cân đối kế toán của khách hàng có đại diện cho số tiền phải thu thực tế hay không. Thông thường có một số lượng lớn các tài khoản cá nhân phải thu khiến việc xem xét và xác thực mọi tài khoản quá tốn thời gian và tốn kém. Theo thông lệ trong các tình huống như vậy, nhân viên kiểm toán chọn một tập hợp con của các tài khoản được gọi là mẫu. Sau khi xem xét tính chính xác của các tài khoản được lấy mẫu, kiểm toán viên đưa ra kết luận về việc liệu số tiền phải thu được hiển thị trên bảng cân đối của khách hàng có được chấp nhận hay không.
Tài chính:
Các nhà phân tích tài chính sử dụng nhiều phương pháp thống kê để có được những hướng dẫn hay các khuyến nghị đầu tư. Ví dụ xét trong trường hợp đầu tư cổ phiếu, các nhà phân tích xem xét dữ liệu tài chính như tỷ lệ giá / thu nhập, và tỷ suất cổ tức (cổ tức/giá cổ phiếu), bằng cách so sánh thông tin của một cổ phiếu riêng lẻ với thông tin về mức trung bình của thị trường chứng khoán, họ có thể bắt đầu đưa ra kết luận liệu đầu tư vào cổ phiếu này có thu lại lợi nhuận như mong muốn hay không.
Marketing:
Ví dụ máy quét điện tử tại quầy thanh toán ở các cửa hàng bán lẻ thu thập nhiều dữ liệu hỗ trợ cho các ứng dụng và nghiên cứu trong marketing. Các nhà phân tích tiếp theo sẽ tiến hành xử lý, áp dụng các phương pháp thống kê để mô tả dữ liệu, tóm tắt dữ liệu, phân tích để đưa ra các kết luận về đối tượng có trong bộ dữ liệu. Kết hợp với dữ liệu thống kê về các hoạt động sản xuất, tiếp thị, các chuyên gia marketing có thể tìm hiểu được mối liên hệ giữa doanh số bán hàng với các chiến dịch quảng cáo, xúc tiến bán hàng, để đề xuất ra giải pháp thích hợp trong tương lai.
Sản xuất, vận hành:
Thống kê được ứng dụng trong sản xuất, vận hành để kiểm soát, đảm bảo chất lượng thành phẩm hay quản lý, đẩy mạnh tiến độ hoàn thành, mức độ hiệu quả các công việc, nhiệm vụ. Ví dụ biểu đồ kiểm soát chất lượng trong thống kê ví dụ X-bar chart được dùng để giám sát các sản phẩm được tạo ra từ một quy trình sản xuất, giả sử một máy làm đầy chai nước giải khát trong dây chuyền sản xuất có nhiệm vụ đổ đầy 550 ml nước giải khát vào 1 chai rỗng. Nhân viên nhà máy lấy mẫu 200 chai để kiểm tra xem cái máy có hoạt động hiệu quả hay không, bằng cách tính lượng nước trung bình mỗi chai trong 200 chai, sau đó thể hiện giá trị này bằng một đường thẳng trong đồ thị X-bar. Ở các lần sản xuất sắp tới, mỗi lần là một điểm, mỗi điểm tương ứng cho giá trị trung bình của một mẫu lấy ra từ lần sản xuất ấy. Nếu điểm đó nằm ở trên đường thẳng trong X-bar, thì cái máy có khả năng bơm hơn 550ml vào mỗi chai, hoặc ngược lại. Đây chính là một giải pháp hữu ích của thống kê để kiểm soát quy trình sản xuất.
Kinh tế học nói chung:
Các nhà kinh tế thường đưa ra những dự báo về tương lai của nền kinh tế hoặc một số khía cạnh trong nền kinh tế nói chung bằng cách sử dụng nhiều phương pháp thống kê khác nhau. Ví dụ, các nhà kinh tế sử dụng thông tin thống kê về các chỉ số như Chỉ số giá tiêu dùng, chỉ số giá sản xuất, tỷ lệ thất nghiệp và năng lực sản xuất từng ngành, kết hợp với phương pháp hồi quy hay Time series (dãy số thời gian) để dự báo tỷ lệ lạm phát.
Ngoài lĩnh vực kinh tế, thì thống kê còn được ứng dụng trong nhiều lĩnh vực khác như:
- Các tổ chức chỉnh phủ, các nhà làm chính sách sử dụng phương pháp thống kê trên dữ liệu để đưa ra hay đề xuất các chính sách hợp lý. Thống kê cung cấp dữ liệu chính xác nhất giúp chính phủ lập ngân sách và ước tính chi tiêu, doanh thu của khu vực công.
- Ở lĩnh vực thiên văn học, các nhà khoa học đo khoảng cách giữa mặt trời và trái đất, hoặc mặt trăng và trái đất bằng những phương pháp thống kê. Rất khó để đo khối lượng, kích thước, khoảng cách, mật độ của các vật thể trong vũ trụ mà không có bất kỳ lỗi nào, nhưng may mắn thay các công thức thống kê đã xuất hiện và hỗ trợ một cách tích cực.
- Hầu như tất cả các chuyên gia từ những lĩnh vực khoa học như sinh học, hóa học, vật lý, v.v., đều sử dụng các phương pháp thống kê để thử nghiệm và phân tích kết quả của họ. Trong sinh học, thống kê được sử dụng trong sinh trắc học, hỗ trợ nghiên cứu về thuốc, dược phẩm, nghiên cứu về nông nghiệp, v.v. Các vấn đề xã hội được phân tích, và giải thích hay mọi giả thuyết xung quanh được kiểm chứng, tất cả là nhờ vào thống kê.
Đến đây là kết thúc bài viết phần 1 tổng quan về Statistics: khái niệm và lợi ích của thống kê. Ở phần 2 bài viết tới chúng tôi sẽ gửi đến các bạn một số kiến thức quan trọng trong Descriptive statistics (thống kê mô tả), mong các bạn tiếp tục ủng hộ BigDataUni.
Mời các bạn thao khảm thêm các bài viết khác của chúng tôi ở mục blog: https://bigdatauni.com/vi/chuyen-muc/tin-tuc
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.