BigDataUni và các bạn đã cùng nhau đi qua nhiều phương pháp, thuật toán trong phân tích dữ liệu nói riêng và trong khai phá dữ liệu nói chung từ tóm tắt, thống kê mô tả dữ liệu, thống kê suy luận đến các thuật toán phân tích hỗ trợ phân loại, phân cụm, dự báo về các đối tượng dữ liệu trong nghiên cứu. Tiếp tục với một chủ đề, một mảng kiến thức quan trọng tuy cũ mà mới và tuy mới mà rất cũ, đó chính là Time series hay còn gọi phân tích dãy số/ chuỗi thời gian.
Trong bài viết phần 1, bài viết đầu tiên về chủ đề chuỗi thời gian, chúng ta sẽ tìm hiểu Time series là gì, ứng dụng của nó trong lĩnh vực kinh tế cùng với một số nhận định, lưu ý, sau đó tìm hiểu về các thành phần chính trong dữ liệu chuỗi thời gian. Ngoài ra, cũng lưu ý thêm đến các bạn về chủ đề đầu tiên của Time series, trong bài viết phần 1 và các bài viết sau, BigDataUni chỉ tập trung giới thiệu những kiến thức, phương pháp phân tích cơ bản dãy số thời gian cũng như dự báo xu hướng chủ yếu nằm trong thống kê, còn những phương pháp nâng cao, phức tạp hơn của Time series trong Data mining sẽ được chúng tôi gửi đến các bạn ở một chủ đề khác về Time series nếu có dịp.
Time series là gì?
Time series thực ra không phải là tên gọi của một thuật toán phân tích, cũng không phải tên của bất kỳ một phương pháp khai phá, phân tích dữ liệu nào đó mà là tên của một loại dữ liệu rất phổ biến, là nguồn dữ liệu mà hầu như mọi tổ chức đều có: dữ liệu biến động theo thời gian, dữ liệu lịch sử, dữ liệu thu thập theo thời gian của các đối tượng nghiên cứu, sự vật, sự việc, hiện tượng được quan tâm. Ví dụ dữ liệu bán hàng/ doanh thu theo tháng của một sản phẩm, dữ liệu tiêu thụ năng lượng theo ngày của một nhà máy, dữ liệu thu chi tài chính của một tổ chức công,…
Nếu cắt nghĩa thuật ngữ Time series, các bạn sẽ dễ hiểu hơn. Time có nghĩa là thời gian, series là chuỗi, thể hiện sự có trình tự, tức là một dãy các giá trị, thông tin ghi nhận được từ đối tượng nghiên cứu và được sắp xếp theo thứ tự của thời gian hay theo các mốc của thời gian.
Thời gian đo lường có thể tính bằng giờ, ngày, tháng, quý, đến năm hoặc bất cứ khoảng thời gian nào được quy ước trước đó như theo quý, 6 tháng, 3 tháng,…
Dữ liệu của dãy số thời gian có thể được ghi nhận theo nguyên một thời kỳ hoặc tại thời điệm cụ thể:
Ví dụ doanh thu sản phẩm A của công ty được ghi nhận theo thời kỳ mà ở đây là năm, tổng doanh thu các tháng trong năm 2015, hay doanh thu trong năm 2015 là 1400 triệu VND = 1.4 tỷ
Ví dụ doanh thu sản phẩm A của công ty ghi nhận vào ngày 6/1/2015 là 80 triệu VND và các ngày thứ 6 của các tháng khác để so sánh.
Nếu các con số thu thập theo thời kỳ, thì chúng ta có thể thực hiện các phép toán cộng để xác định giá trị định lượng của đối tượng nghiên cứu trong khoảng thời gian dài. Ví dụ doanh thu sản phẩm A trong 5 năm đạt hơn 7 tỷ VND. Còn các con số thu thập trong thời điểm cụ thể thì chúng ta không thể cộng mà chỉ có thể so sánh tương đối ví dụ doanh thu sản phẩm A ngày thứ 6 của tháng 1 là 80, cao hơn ngày thứ 6 của tháng 3 15 triệu VND, chứ không thể nói doanh thu từ ngày 6/1/2015 đến ngày 6/3/2015 là 145 triệu VND, hoàn toàn vô lý.
Ngoài xác định các mốc thời gian là biểu hiện rõ nét của dữ liệu Time series, thì biểu đồ thể hiện dữ liệu Time series hay còn gọi Time plots là dấu hiệu nhận biết rõ nét thứ hai của Time series. Biểu đồ với trục hoành sẽ là các mốc thời gian và trục tung là giá trị ghi nhận của đối tượng nghiên cứu.
Biểu đồ time plot sử dụng các chấm điểm
Biểu đồ Time series dạng line (đường) không thể hiện rõ điểm
Nếu định nghĩa Time series là công cụ nói chung thì Time series sẽ bao gồm các công thức phương pháp, mô hình giúp chúng ta phân tích dữ liệu dãy số thời gian, trích xuất được những thông tin tiềm ẩn có giá trị, nắm bắt được xu hướng biến động ở lịch sử, hiện tại và hỗ trợ dự báo giá trị của đối tượng nghiên cứu trong tương lai.
Dự báo trong Time series
Khi nhắc đến Time series nhiều người làm việc trong lĩnh vực Data science đều sẽ liên tưởng đến tính năng dự báo của nó và nếu có ai hỏi đến liệu có thuật toán nào đưa ra dự báo (Forecast) chính xác nhất trên dữ liệu lịch sử thì chỉ có thể là Time series.
Dự báo dựa trên chuỗi thời gian là việc đưa ra các dự đoán khoa học dựa trên dữ liệu Time series. Nó liên quan đến xây dựng các mô hình thông qua phân tích dữ liệu lịch sử và sử dụng chúng để ra những quyết định chiến lược trong tương lai. Một điểm quan trọng trong dự báo là tại thời điểm phân tích, kết quả trong tương lai là hoàn toàn không có sẵn và chỉ có thể được ước tính thông qua các phương pháp thống kê, công thức toán học đã được kiểm chứng.
Kết quả dự báo không phải lúc nào cũng chính xác và khả năng dự báo có thể rất khác nhau — đặc biệt là khi xử lý các yếu tố biến động trong dữ liệu chuỗi thời gian cũng như các yếu tố nằm ngoài tầm kiểm soát.
Phân biệt một chút về dự báo và dự đoán. Mặc dù “dự báo” và “dự đoán” thường có nghĩa giống nhau, nhưng có một điểm khác biệt đáng chú ý. Trong một số ngành, dự báo có thể đề cập đến dữ liệu tại một thời điểm cụ thể trong tương lai, trong khi dự đoán đề cập đến dữ liệu tương lai nói chung.
Dự báo chuỗi thời gian thường được sử dụng cùng với phân tích chuỗi thời gian. Phân tích chuỗi thời gian liên quan đến việc phát triển các mô hình để có được sự hiểu biết về dữ liệu, để hiểu các thành phần nguyên nhân, yếu tố tác động cơ bản. Quá trình phân tích sẽ cho chúng ta “lý do” đằng sau những giá trị hiện diện trong tập dữ liệu. Tiếp theo đưa ra các dự báo dựa trên việc kiểm soát tốt các “lý do”ấy, và các giải pháp hành động cụ thể.
Có rất rất nhiều mô hình, phương pháp phân tích chuỗi thời gian được ra đời, được cải tiến cho đến ngày hôm nay, nhưng tổng quan, như đã nói ở trên sẽ chỉ bao gồm 2 loại chính: hỗ trợ phân tích biến động, xu hướng; và hỗ trợ để đưa ra dự báo, đo lường độ chính xác của các kết quả dự báo. Chúng ta sẽ đi vào các phần này ở những bài viết sắp tới.
Vài nét lịch sử Time series
Nếu thực sự kể từ khi con người biết dự báo dựa trên dữ kiện lịch sử, dữ kiện thời gian thì đó cũng là lúc ứng dụng đầu tiên của Time series xuất hiên, như vậy có thể đã từ mấy trăm năm trước. Mô hình đầu tiên của Time series là Auto-regressive được đưa vào ứng dụng bắt đầu từ năm 1920 đến những năm 1930, là thành tựu nghiên cứu của 2 chuyên gia G. U Yule và J. Walker. Cũng trong khoảng thời gian này, phương pháp Time series cốt lõi và không thể không biết đến là Moving Average (trung bình trượt) ra đời để loại bỏ các biến động chu kỳ trong chuỗi thời gian, hay biến động do tính thời vụ để dự báo xu hướng của chuỗi thời gian tốt hơn. Mô hình ARIMA (Auto-Regressive Moving Average) được giới thiệu lần đầu bởi chuyên gia Herman Wold năm 1938. Đây là phương pháp phân tích và dự báo trên Time series được sử dụng phổ biết nhất từ trước đến nay. Năm 1970, cuốn sách cổ điển đầu tiên về Time series được xuất bản có tên “Time series analysis” của 2 tác giả G. E. P. Box và G. M. Jenkins. Moving Average, Autoregressive model, hay ARIMA BigDataUni sẽ nói đến chúng ở các bài viết tiếp theo.
Như vậy, đôi nét về lịch sử lâu đời của Time series cũng có thể giúp chúng ta hình dung được những ứng dụng của Time series từ trước đến nay ở các lĩnh vực sẽ nhiều như thế nào. Tuy không thể kể hết nhưng chúng ta khẳng định được mục đích sử phân tích chuỗi thời gian, thông qua phần giải thích khái niệm ở trên, thì chính là phân tích xu hướng biến động của dãy số thời gian hỗ trợ cho phân tích dự báo về đối tượng nghiên cứu.
Ứng dụng của Time series trong lĩnh vực kinh doanh
Công nghệ, kỹ thuật phát triển vượt bậc với tốc độ một cách chóng mặt, việc tiếp cận các xu hướng công nghệ là yêu cầu bắt buộc đối với hầu hết mọi công ty và tổ chức, đặc biệt trong bối cảnh dịch bệnh Covid-19 như hiện nay thì yêu cầu ấy càng cấp bách hơn. Cơ hội tiếp cận nguồn dữ liệu dồi dào là ngày càng lớn, cơ hội khai thác cũng tăng cao.
Time series đã có từ rất lâu nhưng ngày nay nó cùng với những thuật toán đang được quan tâm nhiều hơn bao giờ hết vì chúng là công cụ hỗ trợ đạt được những giá trị từ dữ liệu.
Xu hướng người tiêu dùng ưa chuộng sự tiện ích, nhanh chóng, mong muốn trải nghiệm nhiều hơn, và nhận được nhiều hơn những gì mình bỏ ra, cũng như có sự so sánh chọn lựa kỹ càng giữa sản phầm, dịch vụ của nhiều công ty nên vì thế sự cạnh tranh trên thị trường ngày càng khốc liệt. Khai thác nguồn tài sản dữ liệu một cách tốt nhất sẽ giúp các công ty đạt được những lợi thế nhất định mà cụ thể là đưa ra các chiến lược sản phẩm, dịch vụ tốt hơn, cải thiện các kế hoạch bán hàng, marketing hiệu quả hơn thông qua việc tìm hiểu được hành vi tiêu dùng của khách hàng, dự báo nhu cầu của khách hàng ở những thời điểm cụ thể. Và khi nhắc đến dự báo, thì Time series là một lựa chọn không tồi để các công ty sử dụng.
Nếu lấy Forecasting hay dự báo làm mục đích chính để khai thác dữ liệu (và dĩ nhiên dữ liệu phải đảm bảo tính chất dãy số thời gian) thì Time series có lẽ được ứng dụng trong rất nhiều lĩnh vực không chỉ riêng kinh tế, từ y học, sinh học, khoa học, xã hội, tự nhiên, môi trường, điển hình nhất là Dự báo thời tiết…Trong bài viết lần này, BigDataUni chỉ tập trung vào khía cạnh kinh tế và kinh doanh mà thôi vì lĩnh vực này quá quen thuộc, dễ hiểu, dễ nắm bắt, và các bạn chắc hầu hết cũng đang làm việc trong các công ty, doanh nghiệp.
(Nguồn hình: Xenonstack)
Ứng dụng phân tích dãy số thời gian trong dự báo của lĩnh vực kinh doanh cũng giống như ở các lĩnh vực khác sẽ được chia làm 3 loại chính: ngắn hạn, trung hạn và dài hạn. Trong ngắn hạn, dự báo các sự kiện, biến động của đối tượng nghiên cứu diễn ra trong tương lai gần, khoảng thời gian ngắn có thể tính theo ngày, tuần, tháng. Trong trung hạn, dự báo các sự kiện, biến động của đối tượng nghiên cứu diễn ra trong tầm 1 đến 2 năm, và trong dài hạn có thể từ 3 – 5 năm trở lên. Ngắn, trung hay dài hạn còn phụ thuộc vào mục đích nghiên cứu, mục tiêu kinh doanh, đặc thù sản phẩm, dịch vụ,…
Ví dụ trong ngắn hạn và trung hạn, công ty có thể dự báo được doanh thu của các dòng sản phẩm, chi tiêu cho sản xuất phát sinh, dự báo giá cổ phiếu nếu là công ty cổ phần, có niêm yết, dự báo được nhu cầu thị trường, sức mua của người tiêu dùng, dự báo giá thành nguyên vật liệu, dự báo nguồn cung sản phẩm của thị trường, dự báo hàng tồn kho, dự báo giá thành trung bình sản phẩm, dự báo lượng khách hàng ghé cửa hàng, hay website… Các dự báo trong ngắn và trung hạn sẽ hỗ trợ công ty vận hành tổ chức hiệu quả, cải thiện việc lập kết hoạch tài chính, kế hoạch sản xuất, kế hoạch bán hàng, kế hoạch marketing, thúc đẩy nghiên cứu các sản phẩm, dịch vụ mới, giành lấy cơ hội cạnh tranh, phát triển các dự bán mới.
Còn trong dài hạn, các công ty cũng có thể dự báo doanh thu, dự báo lợi nhuận, dự báo nhu cầu thị trường, dự báo nguồn cung của thị trường, dự báo giá thành trung bình sản phẩm, và một số dự báo khác của ngắn và trung hạn. Các dự báo dài hạn sẽ giúp công ty xây dựng tầm nhìn, định hướng, chiến lược tăng trưởng, vị thế muốn đạt được trên thị trường.
Tuy nhiên cũng cần lưu ý, các dự báo ngắn, trung, dài hạn không phải nói đến nguồn dữ liệu Time series trong ngắn, trung và dài hạn mà nó chỉ nói mốc thời gian được dự báo, còn nguồn dữ liệu thì phải rất dồi dào, và được thu thập trong thời gian rất dài, chứ không phải thời gian ngắn. Theo các chuyên gia, khi dữ liệu Time series càng dồi dào (dữ liệu lịch sử), càng đầy đủ thì khả năng dự báo sẽ càng chính xác. Ví dụ để dự báo doanh thu sản phẩm trong tháng 12 năm nay tức dự báo ngắn hạn, thì công ty cần thu thập dữ liệu lịch sử doanh thu ghi nhận theo từng tháng ở cả các năm trước chứ không phải trong mỗi năm nay. Tương tự dự báo giá thành trung bình sản phẩm trong 2 năm tới, thì cũng cần thu thập dữ liệu từ các năm trước. Hay dự báo giá trung bình thị trường vào một ngày sắp tới, thì cần thu thập dữ liệu lịch sử giá theo ngày ít nhất là bắt đầu từ quý trước hay từ năm nay.
Một lưu ý quan trọng khác, trong time series, việc phân tích và dự báo phải dựa trên giả định đó là các yếu tố ảnh hưởng đến sự biến động, thay đổi của đối tượng nghiên cứu trong quá khứ và hiện tại sẽ vẫn còn tồn tại với cùng các đặc điểm, tính chất, mức độ đến sự biến động, thay đổi của đối tượng nghiên cứu trong tương lai. Vì thế có một số dự báo có thể không chính xác và có thể không có ý nghĩa, không mang lại giá trị khi thực hiện nếu trong ngắn, trung, dài hạn quá nhiều yếu tố tác động xảy đến.
Ví dụ, dự báo doanh thu của sản phẩm trong năm 2021, mà công ty trong năm 2021 dự tính sẽ mở rộng sản xuất, mở thêm các nhà máy, năng lực sản xuất sẽ tăng thì dĩ nhiên nếu chỉ dựa trên dữ liệu lịch sử, về doanh thu các năm trước thì kết quả dự báo năm 2021 sẽ không chính xác. Do mấy năm trước, công ty đâu có nâng cao năng lực sản xuất?
Đây cũng dẫn đến khuyến nghị quan trọng, các công ty không nên chỉ dựa vào kết quả dự báo từ Time series để ra quyết định mà cần xét thêm các góc độ khác. Ở đây công ty vẫn có thể dự báo theo cách: đầu tiên dự báo doanh thu năm 2021 khi công ty không mở rộng sản xuất, dựa trên dữ liệu lịch sử, sau đó cộng thêm doanh thu đạt được ước lượng từ số sản phẩm tăng thêm có thể bán ra. Kết quả sẽ chính xác hơn.
Tuy nhiên đó là trường hợp công ty kiểm soát được yếu tố ngẫu nhiên, mà cũng không thể nói hẳn đây là yếu tố ngẫu nhiên, công ty có thể xác định từ trước. Còn trường hợp yếu tố ngẫu nhiên không thể kiểm soát mà ví dụ điển hình nhất là Covid – 19 trong năm nay.
Các kế hoạch, chiến lược mà các tổ chức đề ra đều đổ bể, sức mua của người tiêu dùng giảm, việc bắt buộc phải đóng cửa các cửa hàng, hạn chế giao thương,… các tác động của chính sách giãn cách xã hội đã ảnh hưởng tiêu cực vô cùng lớn. Với biến số ngẫu nhiên, không lường trước được như Covid – 19 thì Time series cũng không thể giúp ích gì cho các công ty.
Thậm chí trong năm 2021, 2022, hoặc 5 năm tới, liệu ngoài khủng hoảng dịch bệnh thì còn khủng hoảng nào khác? Chúng ta hoàn toàn không biết, các công ty cũng vậy.
Do đó trong Time series, các phương pháp tập trung phân tích, kiểm soát, giảm thiểu, hạn chế ảnh hưởng tối đa của các yếu tố biến động, đặc biệt là các yếu tố ngẫu nhiên, để tăng độ chính xác của việc dự báo.
Nếu xét theo chức năng chung thì Time series hỗ trợ dự báo cho:
- Quản lý, vận hành chung: các tổ chức kinh doanh thường sử dụng các dự báo về doanh số bán sản phẩm hoặc nhu cầu về dịch vụ để lên lịch sản xuất, kiểm soát hàng tồn kho, quản lý chuỗi cung ứng, xác định yêu cầu về nhân sự và lập kế hoạch nguồn lực, xác định sự kết hợp của các sản phẩm hoặc dịch vụ có thể mang lại lợi nhuận và địa điểm, vị trí sản xuất các sản phẩm tối ưu.
- Marketing: các dự báo về doanh số ứng với chi tiêu quảng cáo, khuyến mại mới hoặc thay đổi trong chính sách giá cho phép các công ty đánh giá độ hiệu quả của chúng, xác định liệu các mục tiêu có được đáp ứng hay không và thực hiện các điều chỉnh cần thiết
- Hoạt động tài chính và quản lý rủi ro đầu tư: dự báo lợi nhuận từ các khoản đầu tư bao gồm cổ phiếu, trái phiếu và hàng hóa; các quyết định đầu tư khác có thể được đưa ra so với dự báo về lãi suất, và tỷ giá hối đoái. Quản lý rủi ro tài chính hiệu quả cần dự báo về sự biến động của lợi nhuận trên tài sản đầu tư để có thể đánh giá và quản lý, phát hiện rủi ro liên quan đến các danh mục đầu tư. Dự báo về thu chi ngân sách, dự báo về nguồn tài chính sử dụng cho các dự án kinh doanh qua các năm.
Time series có ưu điểm và cũng có các hạn chế, và không phải lúc nào nó cũng được ứng dụng, và cũng không có một quy luật rõ ràng nào nhắc chúng ta khi nào nên và không nên dùng Time series. Nó phụ thuộc vào rất nhiều thứ từ mục đích kinh doanh, mục tiêu nghiên cứu, đặc điểm nguồn dữ liệu, đối tượng nghiên cứu và cả thời điểm thực hiện phân tích.
Các chuyên gia dữ liệu, các team phân tích dữ liệu phải xem xét từng khả năng, trở ngại, các vấn đề phát sinh, các hạn chế và quyết định xây dựng mô hình Time series như thế nào, tất cả sẽ đóng vai trò quyết định rằng liệu công ty có đạt được những giá trị gì không.
Dĩ nhiên không phải hướng tiếp cận nào, không phải mô hình nào cũng áp dụng được, mỗi bài toán Time series chúng ta trước tiên phải nắm được đề bài, ở đây đó là yêu cầu hiểu được mục đích kinh doanh, xác định nguồn dữ liệu phù hợp, rồi mới nghĩ đến phương pháp nào trong Time series cần áp dụng.
Dữ liệu nào có ý nghĩa khi phân tích Time series trong kinh doanh? Bất kỳ một khía cạnh, về một sự vật, sự việc, sự kiện, hay gọi chung là đối tượng nghiên cứu, có các giá trị được thu thập, ghi nhận theo các mốc thời gian có thứ tự, thì dữ liệu có thể coi là Time series data. Tuy nhiên chỉ có vậy chưa thể khẳng định liệu chúng có phù hợp để triển khai phân tích dãy số thời gian hay không.
Dữ liệu thể hiện tính biến động, có sự tăng giảm bất định, theo thời gian hay bị ảnh hưởng với thời gian thì “mới đáng” được phân tích, vì kết quả có được sẽ mang lại nhiều giá trị. Các bạn cũng hiểu nếu cái gì dễ dự báo thì cần gì phân tích?
Lý do vì sao chúng tôi nói Time series được ứng dụng nhiều trong kinh tế là do có rất nhiều yếu tố khó đoán xảy ra, tác động lên thị trường kinh doanh, môi trường hoạt động trong và ngoài nên các công ty cần những dự báo chính xác. Ví dụ các ngành kinh tế từ tài chính, bán lẻ, sản xuất, dịch vụ sử dụng Time series do giá cả, tiền tệ, tỷ giá hối đoái, sales, cung – cầu,… thay đổi liên tục.
Và khi dự báo chính xác thì kết quả nhận về sẽ rất lớn, như 2 ví dụ điển hình dưới đây
- Hilton Worldwide là một trong những tập đoàn khách sạn lớn nhất với 10 thương hiệu, bao gồm Hilton, Hampton Hotels và Ambassador Suites. Hilton Worldwide sử dụng Time series đưa ra dự báo hàng năm về tỷ lệ lấp đầy phòng trống và doanh thu trên mỗi phòng trống. Các dự báo sẽ giúp công ty quyết định bổ sung hay tăng thêm các phòng mới ở khắp các chi nhánh, công ty thành viên trên toàn thế giới và mang lại lợi nhuận cho công ty, phát triển bền vững mối quan hệ với các nhà đầu tư.
- Kimberly-Clark, có các thương hiệu hàng đầu bao gồm Kleenex và Huggies, sử dụng dữ liệu bán hàng kết hợp phân tích để đưa ra dự báo về các chuyến hàng đến các cửa hàng, hay nói chung là cải thiện chuỗi cung ứng, năng suất bán hàng. Nhờ vào đó, Kimberly-Clark đã giảm chu kỳ chuyển đổi tiền mặt hay vòng quay tiền mặt (Cash Conversion Cycle – CCC), cắt giảm tổng chi phí chuỗi cung ứng và tăng tỷ suất lợi nhuận gộp.
Kimberly – Clark cũng là dẫn chứng cho thấy Time series không phù hợp để dự báo trong real-time, thời gian thực. Kimberly – Clark, P&G, Unilever,… ban đầu sử dụng Time series để dự báo doanh số theo thời kỳ ví dụ tuần, tháng, quý nhưng khi dự báo theo hàng ngày, thì Time series không thể hiện sự hiệu quả. Các công ty cho rằng Time series sử dụng dữ liệu quá khứ để dự báo cho tương lai, nhưng trong bối cảnh kinh doanh hiện tại, đặc thù kinh doanh của chính các công ty này nhấn mạnh vào sự tiện ích, sự nhanh chóng nên cần sử dụng dữ liệu thời gian thực để đưa ra các dự báo gần nhất và chính xác nhất.
Một giải pháp mới được nhắc đến đó chính là Demand Sensing, giải pháp này đòi hỏi cao về nền tảng công nghệ, tuy nhiên ưu điểm của nó là đưa ra các dự báo chính xác hơn để phản ứng nhanh hơn với các sự kiện trong thế giới thực diễn ra trong real-time hay ngắn hạn như sự thay đổi của thị trường, thay đổi thời tiết, thiên tai, hành vi mua hàng của người tiêu dùng, v.v.
Các công ty nhắc đến là các công ty lớn, tầm cỡ đa quốc gia, có các chi nhánh ở nhiều nước và việc họ phải kiểm soát rất nhiều yếu tố biến động tức thời có thể xảy đến theo ngày, trong ngắn hạn là cực kỳ quan trọng nên Time series có thể không phù hợp để ứng dụng. Trong các tổ chức bán lẻ cũng tương tự. Nhưng ở trường hợp khác nó vẫn có ích, ví dụ dự báo doanh thu trong các năm, dự báo năng lực sản xuất,… trong dài hạn. Một lý do khác trong việc tại sao Time series ít khi dùng các công ty dùng để dự báo trong ngắn hạn mà theo BigDataUni nhìn nhận chính là các hậu quả do sai sót trong dự báo ngắn hạn là rủi ro cao hơn, tổn thất nhiều hơn so với dự báo dài hạn.
Mục đích dự báo trong ngắn hạn là để các tổ chức, công ty nhanh chóng tìm ra giải pháp, bước hành động kịp thời để mang lại giá trị cho mình. Mục đích dự báo trong dài hạn thể hiện một chút trong đó là mục tiêu hướng tới, tầm nhìn, những gì mong muốn đạt được, và là những gì sẽ có được “tối thiểu” khi không có những yếu tố ngẫu nhiên tác động mạnh vào. Dự báo sai trong dài hạn có thể phát hiện được theo thời gian và hạn chế được hậu quả.
Tuy nhiên, một số ý kiến khác cho rằng dự báo trong ngắn hạn, trung hạn thường dễ và chính xác hơn dài hạn, nếu có một yếu tố tác động ngẫu nhiên nào đó thì cũng khó làm đối tượng nghiên cứu biến động quá nhanh chóng. Dự báo trong dài hạn thì khá dài, các yếu tố ngẫu nhiên có đủ thời gian làm đối tượng nghiên cứu biến động mạnh, hơn nữa thường có nhiều yếu tố ngẫu nhiên khó lường trước. Vì thế, quả không sai khi nói “sử dụng Time series phải xem xét kỹ bối cảnh, tính chất của các yếu tố biến động, đặc điểm của đối tượng nghiên cứu, nhu cầu, mục đích của công ty”
Nếu nói trong ngắn hạn mà Time series vẫn có giá trị sử dụng thì chỉ có thể nói đến là thị trường chứng khoán, đầu tư tài chính như Forex (ngoại hối), Crypto currency (tiền điện tử ví dụ Bitcoin,…). Lý do, các thị trường vận hành theo quy luật cung cầu, người bán, người mua, các ngẫu nhiên cũng không nhiều trong ngắn hạn, và tác động không mạnh lên giá. Các yếu tố thường là các tin tức đánh vào tâm lý các nhà đầu tư. Chỉ khi tin tức ấy có “sức ảnh hưởng” ví dụ như bầu cử Tổng thống ở Hoa Kỳ, chiến tranh kinh tế Mỹ – Trung, chính sách tiền tệ, tài chính của các cường quốc,… có thể khiến giá mua vào, bán ra, giá đóng – mở cửa lên xuống rất thất thường, và biến động rất mạnh thì dự báo bằng Time series sẽ rất khó chính xác.
Tuy nhiên từ bao nhiêu năm nay, Time series đã được các chuyên gia là các trader hàng đầu tin tưởng và chứng minh được hiệu quả của Time series trong dự báo giá, giúp ích rất nhiều trong việc “cắt lỗ, chốt lời”. Rất nhiều chỉ báo trong phân tích kỹ thuật trading có sử dụng các phương pháp Time series như MA (Moving Average), EMA (Exponential Moving Average), MACD (Moving Average Convergence Divergence), Stochastic Oscillator,…
Moving Average là gì chúng tôi sẽ nói ở các bài viết sắp tới, còn EMA, MACD, Stochastic là gì thì các bạn tham khảo thêm tài liệu chuyên về trading nhé! Có khi xem xong các bạn sẽ đầu tư ngay vào trading đó khi thấy được lợi ích của chúng.
Các thành phần của dữ liệu dãy số thời gian (Time series Components)
Sau khi đã tìm hiểu xong Time series là gì, ứng dụng và một số vấn đề xung quanh, phần cuối của bài viết lần này chúng ta sẽ tìm hiểu các thành phần trong dãy số thời gian (Time series Components) hay các mẫu dãy số thời gian (Time series Patterns). Phần này quan trọng, nếu các bạn không hiểu thì khó nắm bắt các phương pháp trong Time series mà chúng tôi sẽ nói ở các bài viết sắp tới.
Xu hướng (Trend – T)
Thể hiện chiều hướng biến động, tăng hoặc giảm của đối tượng nghiên cứu trong một khoảng thời gian dài. Mặc dù dữ liệu chuỗi thời gian nói chung thể hiện các biến động ngẫu nhiên, nó cũng có thể cho thấy sự thay đổi hoặc chuyển động dần dần đến các giá trị cao hơn hoặc thấp hơn trong một khoảng thời gian dài hơn. Nếu một biểu đồ chuỗi thời gian có biểu hiện như vậy, chúng ta có thể nói có một “xu hướng” tồn tại. Không nhất thiết phải luôn luôn tăng hoặc luôn luôn giảm thì mới gọi là xu hướng. Nó có thể tăng, hoặc giảm, hoặc ổn định trong 1 khoảng thời gian nào đó. Nhưng trong tổng thể, nhìn trên đồ thị từ điểm bắt đầu đến kết thúc chúng ta nhìn thấy có một xu hướng đi lên, hoặc đi xuống, hoặc đứng yên.
Xu hướng thường là kết quả của các yếu tố tác động dài hạn như dân số tăng hoặc giảm, thay đổi đặc điểm nhân khẩu học của dân số, sự thay đổi của công nghệ và / hoặc sở thích của người tiêu dùng, năng lực sản xuất,… Xu hướng có 2 dạng tuyến tính và phi tuyến tính.
Mùa vụ (Seasonal – S)
Xu hướng của một chuỗi thời gian có thể được xác định bằng cách phân tích các chuyển động qua nhiều năm trong dữ liệu lịch sử. Các biểu hiện theo mùa vụ thì được nhận biết bằng cách quan sát các dấu hiệu tăng, giảm của đối tượng nghiên cứu lặp lại giống nhau trong các khoảng thời gian liên tiếp. Ví dụ, một nhà bán lẻ dự kiến hoạt động bán hàng thấp trong các tháng mùa thu và mùa hè, với doanh số bán hàng cao điểm vào các tháng mùa xuân và mùa đông.
Biểu đồ chuỗi thời gian có dấu hiệu lặp lại trong các khoảng thời gian trong một năm (theo giờ, ngày, tuần, tháng, quí, năm và không cao hơn 1 năm) do ảnh hưởng của mùa được gọi là dấu hiệu mùa vụ. Các bạn nhìn trên đồ thị có thể thấy các mũi tên chỉ lên các biến động nằm trong 1 năm.
Mặc dù chúng ta thường nghĩ về sự chuyển động theo mùa trong một chuỗi thời gian xảy ra trong vòng một năm, nhưng dữ liệu chuỗi thời gian cũng có thể thể hiện các mô hình theo mùa dưới một năm. Ví dụ: dữ liệu lưu lượng giao thông hàng ngày cho thấy hành vi “theo mùa” trong ngày, với mức cao điểm xảy ra vào giờ cao điểm, lưu lượng vừa phải vào thời gian còn lại trong ngày và đầu giờ tối và lưu lượng nhẹ từ nửa đêm đến sáng sớm.
Những biến động do thời vụ là do tự nhiên như thời tiết, khí hậu hoặc do chính con người tạo ra. Các mùa hoặc điều kiện khí hậu khác nhau đóng một vai trò quan trọng trong sự thay đổi theo mùa. Chẳng hạn như sản xuất cây trồng phụ thuộc vào mùa vụ, việc bán ô và áo mưa vào mùa mưa, và việc bán quạt điện và máy lạnh tăng lên vào mùa hè. Ảnh hưởng do con người tạo ra như một số lễ hội, phong tục, tập quán, tuần sales, khuyến mãi… có thể dễ dàng nhận thấy.
Chu kỳ (Cyclical – C)
Mô hình chu kỳ tồn tại nếu biểu đồ chuỗi thời gian hiển thị một chuỗi xen kẽ các điểm bên dưới và bên trên đường xu hướng (tăng và giảm lặp lại) kéo dài hơn một năm hay nói cách khác nếu biến động theo thời vụ kéo dài hơn 1 năm, tối đa 10 năm, hoặc nhiều hơn thì có thể gọi là biến động theo chu kỳ. Các bạn nhìn lên biểu đồ sẽ thấy chu kỳ chỉ ra sự tăng giảm qua các năm của đối tượng nghiên cứu và có dấu hiệu lặp lại.
Ví dụ điển hình nhất của biến động chu kỳ chính là chu kỳ kinh doanh của một công ty. Ví dụ chu kỳ kinh doanh của công ty là 5 năm và trong 5 năm này sẽ có lúc công ty Thịnh vượng, Suy thoái, Chạm đáy, Hồi phục và tăng trưởng trở lại, 5 năm tiếp tương tự như vậy. Đó là nói theo lý thuyết chứ trong thực tế thì không thể nào dự báo lúc nào công ty sẽ thịnh vượng hay suy thoái. Nó phụ thuộc vào rất nhiều yếu tố cả kiểm soát được và ngẫu nhiên không thể kiểm soát được.
Ngẫu nhiên, bất thường (Irregular – I)
Các biến động ngẫu nhiên trong ngắn hạn không lường trược hay dự báo được. Các biến động ngẫu nhiên có thể xuất hiện trong thời gian ngắn, và không có dấu hiệu lặp lại, không có quy luật nào cả tuy nhiên trong khoảng thời gian dài có thể xảy ra nhiều lần, và với nhiều hình thức khác nhau, mức độ tác động khác nhau, tạo ra độ nhiễu nhất định ví dụ thiên tai, khủng bố, các tin tức tiêu cực,… Các bạn xem trên đồ thị các yếu tố bất thường biểu hiện là các đường máu tím nhỏ giống độ nhiễu của dữ liệu.
Cả 4 thành phần ở trên sẽ tạo thành một mô hình Time series tổng quan:
Mô hình Multiplicative, các thành phần giao thoa, cộng hưởng với nhau:
Y = T.S.C.I
Mô hình Additive, các thành phần độc lập với nhau, được thêm vào để hoàn chỉnh mô hình:
Y = T + S + C + I
Mô hình Additive là thích hợp nhất nếu độ lớn của các biến động theo mùa, hoặc biến động xung quanh chu kỳ – xu hướng, không thay đổi theo mức độ của chuỗi thời gian, và các biến động có thể xác định được bằng con số cụ thể. Khi sự thay đổi mô hình theo mùa, hoặc sự thay đổi xung quanh chu kỳ – xu hướng, dường như tỷ lệ thuận với mức độ của chuỗi thời gian, và các biến động có thể xác định được bằng con số %, thì phân tích theo cấp số nhân sẽ thích hợp hơn, chọn mô hình Multiplicative. Chúng tôi sẽ giải thích rõ hơn ở bài viết sau
Đến đây là kết thúc bài viết phần 1 Time series. Sang bài viết phần 2, chúng ta sẽ tìm hiểu cách phân tích những biến động này trong một ví dụ cụ thể để chuẩn bị sang phần 3 dự báo.
Tài liệu tham khảo
“The Practice of Statistics for Business and Economics” của tác giả David S. Moore và cộng sự
“PROBABILITY and STATISTICS for FINANCE” của tác giả Svetlozar (Zari) T. Rachev và cộng sự
“Statistics for Business and Economics” của các tác giả David R. Anderson, Dennis J. Sweeney, Thomas A. Williams và cộng sự
https://www.tableau.com/learn/articles/time-series-forecasting
https://www.oreilly.com/library/view/practical-time-series/9781492041641/ch01.html
https://www.itl.nist.gov/div898/handbook/pmc/section4/pmc41.htm
http://home.ubalt.edu/ntsbarsh/stat-data/forecast.htm#rgintroduction
https://blog.datasciencedojo.com/time-series-business-applications/
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.