DỰ BÁO TRONG SIMPLE LINEAR REGRESSION & SƠ LƯỢC VỀ MULTI-LINEAR REGRESSION

Bigdatauni.com Follow Fanpage Contact

Ở bài viết trước chúng ta đã làm quen với 2 phương pháp cơ bản nhất trong việc đánh giá và tìm hiểu mối liên hệ giữa 2 biến dữ liệu chính là phân tích tương quan (Correlation) và phân tích hồi quy tuyến tính đơn giản (Simple linear regression) thông qua các khái niệm, công thức tính hệ số tương quan, hệ số hồi quy, hệ số xác định R², diễn giải kết quả cũng như phương pháp kiểm định t và kiểm định F. Bài viết lần này chúng ta sẽ sang phương pháp dự báo.

Các bạn xem lại các bài viết trước theo link dưới đây:

Tổng quan về Correlation & Simple linear regression

Phươn pháp kiểm định cho Correlation và Simple linear regression

Trong bài viết lần này chúng tôi sẽ trình bày một chút về phương pháp ước lượng hay dự báo giá trị của biến phụ thuộc y theo phương trình tuyến tính để được lập ra với độ tin cậy nhất định và đi vào trọng tâm là phương pháp hồi quy bội (hồi quy đa biến – Multi linear regression), phân tích mối liên hệ tuyến tính giữa một biến phụ thuộc y và nhiều biến độc lập x.

Lưu ý bài viết này sẽ dừng lại ở lý thuyết về hồi quy đa biến cũng như các công thức trong hồi quy đa biến. Trong bài viết sắp tới chúng tôi sẽ trình bày cụ thể ví dụ đầy đủ để các bạn nắm rõ, nếu nói luôn trong bài viết lần này thì sẽ khiến bài viết trở rất dài và không hợp lý.

Phân tích hồi quy không chỉ dừng lại trong việc tìm ra mối quan hệ giữa biến x và biến y, nó còn có nhiệm vụ cực kỳ quan trọng khác khiến nó trở thành một trong những phương pháp Data mining (khai phá dữ liệu), Statistics (thống kê) được sử dụng phổ biến nhất trong các lĩnh vực từ kinh tế, đến khoa học xã hội. Đó chính là khả năng dự báo hay ước lượng giá trị của y theo giá trị của x, dựa vào phương trình hồi quy được lập ra.

Một lưu ý quan trọng trước khi đi vào sử dụng phương trình hồi quy trong việc đưa ra dự báo hay ước lượng: chúng ta phải kiểm tra giá trị của hệ số xác định R². Nhắc lại, hệ số xác định R² (Coefficient of Determination) thể hiền phần tỷ lệ biến thiên của y mà chúng ta có thể giải thích được bởi mối quan hệ tuyến tính giữa x và y. R² có giá trị nằm từ 0 đến 1, và là chính là bình phương của hệ số tương quan (chỉ đối với mô hình hồi quy tuyến tính đơn giản), R² càng lớn thì mô hình hồi quy càng thích hợp để dự báo giá trị của y.

Công thức tổng quát của của hệ số xác định:

Lưu ý SST = SSR + SSE. Với SST (Total Sum Of Squares), thể hiện toàn bộ phần biến thiên của các giá trị y so với trung bình của nó. SSR (Sum of Squares due to Regression) thể hiện phần chênh lệch giữa giá trị dự báo so với trung bình, được hiểu là sự biến thiên của y mà chúng ta có thể giải thích được bằng biến x, và SSE (Sum of Squares due to Errors) là thể hiện phần chênh lệch giữa giá trị thực tế và giá trị dự báo, không thể giải thích được nguyên nhân, là vì do yếu tố ngẫu nhiên gây ra. Như vậy chúng ta sẽ có:

Nếu R² = 1, lúc này tất cả các điểm dữ liệu (kể cả điểm dữ liệu dự báo và điểm dữ liệu thực tế) sẽ nằm trên đường thẳng hồi quy, không có sai số trong việc dự báo và SSE sẽ bằng 0. Nghĩa là khi R² càng tiến đến 1 thì mô hình hay phương trình càng có thể được ứng dụng để đưa ra dự báo cho giá trị y vì nó có sai số đang có giá trị rất bé. Điều này ngược lại với R² nhỏ (chưa tiến tới gần 0). Nếu R² = 0, lúc này SST = SSE, hệ số hồi quy b sẽ bằng 0, giá trị dự báo y sẽ bằng trung bình của chính nó, và không có mối liên hệ giữa 2 biến x và y.

Sau khi đã xét xong hệ số xác đinh R²và biết được phương trình có thể áp dụng để ước lượng, dự báo. Chúng ta cùng tìm hiểu qua 2 cách ước lượng, dự báo chính của phương trình hồi quy.

Lấy lại ví dụ trong bài viết trước, chúng ta đã lập phương trình hồi quy tuyến tính để đánh giá mối liên hệ giữa 2 biến: biến phụ thuộc là doanh thu của mỗi cửa hàng, và biến độc lập là số lượng học sinh, sinh viên trong khu vực.

Y^ = 2.57X + 30064

Với hệ số xác định tính được là R² = 0.933. Nghĩa là có 93.3% biến thiên của Y được giải thích bởi X, mô hình thích hợp để dự báo giá trị của Y và thích hợp để thể hiện mối quan hệ tuyến tính giữa X và Y. Giả sử trung bình số lượng học sinh, sinh viên trong năm tới là 20000, vậy doanh thu trung bình của 1 cửa hàng dự kiến là 81464 (đv:1000 VND). Nhìn độ thị phía dưới các bạn có thể thấy các điểm dữ liệu thực tế có khoảng cách không xa quá nhiều so với đường hồi quy hay nói cách khác giá trị Y thực tế của các điểm dữ liệu không chênh lệch quá nhiều so với giá trị Y^ thực tế nằm trên đường hồi quy, đây là cơ sở để chúng ta tin rằng kết quả dự báo trong tương lai có thể mang lại sai số ít nhất

Đây là ứng dụng đầu tiên trong việc dự báo giá trị của Y, đó là thay trực tiếp giá trị bất kỳ của X vào phương trình hồi quy đơn giản để tìm được Y^.

Tuy nhiên nếu trong trường hợp hệ số xác định R² không cao và mô hình không phù hợp để dự báo thì cách thức dự báo giá trị của Y bằng cách trực tiếp thay giá trị X vào phương trình hồi quy là không phù hợp.

Trong thực tế chúng ta không thể dự báo một cách chính xác hoàn toàn đặc biệt với biến mục tiêu là dạng biến định lượng liên tục – continuous variable chỉ khi hệ số tương quan bằng 1 hay -1. Chính vì thế thay vì phải dự báo chính xác tuyệt đối giá trị Y chúng ta có thể ước lượng giá trị của Y nằm trong một khoảng nào đó với một độ tin cậy nhất định.

Nếu các bạn có theo dõi bài viết của chúng tôi về thống kê suy luận (Inferential Statistics), thì cũng đã biết đến phương pháp ước lượng (Estimation), sử dụng các đặc trưng của mẫu để ước lượng các đặc trưng của tổng thể.

Phương pháp ước lượng có 2 dạng: ước lượng điểm (Point estimation) và ước lượng khoảng (Interval estimation). Cách chúng ta thay trực tiếp giá trị X vào phương trình hồi quy để tìm giá trị Y là một dạng ước lượng điểm. Kết quả của phương pháp ước lượng điểm là trung bình của các giá trị Y với giá trị X cho trước.

Quay lại với ví dụ ở trên, khi thay x = 20000 vào phương trình, chúng ta có kết quả là 81464 (đv 1000 VND). Đây có thể là giá trị ước lượng cho trung bình doanh thu của 10 cửa hàng khi x =20000, và cũng có thể là giá trị dự báo cho một cửa hàng mới mở trong khu vực có 20000 học sinh, sinh viên sinh sống.

Đối với ước lượng khoảng chúng ta lại có thêm 2 trường hợp:

Confident interval: áp dụng cho ước lượng giá trị trung bình của Y khi có giá trị X cho trước
Prediction interval: áp dụng cho dự báo một giá trị riêng của Y khi có giá trị X cho trước

Nguyên lý hoạt động của phương pháp ước lượng đó là chúng ta phải ước lượng được phương sai hay độ lệch chuẩn có thể có của biến mục tiêu. Công thức ước lượng độ lệch chuẩn:

Đối với Confident interval:

Khoản ước lượng tính được cho giá trị trung bình biến Y, bậc tự do n – 2

Đối với Prediction interval:

Khoản ước lượng tính cho giá trị Y riêng được dự báo, bậc tự do n – 2

Chúng ta tiếp tục lấy cùng ví dụ trên với phương trình hồi quy tìm được:

Y^ = 2.57X + 30064

Giả sử chúng ta ước lượng giá trị trung bình doanh thu 10 cửa hàng khi số học sinh, sinh viên trong khu vực là 20000, với độ tin cậy 95%, mức ý nghĩa α = 5%, tra bảng t bậc tự do n – 2

Trung bình x = 14000, tổng chênh lệch bình phương của x tính được SS_x tính được là 568000000, n = 10.

s chính là giá trị ước lượng phương sai của sai số ε mà chúng tôi đã đề cập ở bài viết trước:

với SSE bằng 263794372.4, s tính được là bằng 5742.3. Sau cùng ghép tất cả vào công thức chúng ta có được:

S_y^ = 5742.3*[1/10 + (20000 – 14000)²/568000000]^1/2 = 2321

Giá trị trung bình của doanh thu cả 10 cửa hàng được dự báo là 81464 (đv 1000 VND) theo phương trình hồi quy có được. Vậy khoảng ước lượng chứa giá trị trung bình doanh thu thực của 10 cửa hàng trong tương lai:

81464 ± 2.306*2321 => 76111 ≤ E(y) ≤ 86816, lưu ý E(y) là giá trị kỳ vọng, hay giá trị trung bình của Y khi x = 20000. Với t tra bảng là 2.306

Ví dụ tiếp theo giả sử công ty muốn mở một cửa hàng mới trong khu vực ngoại ô và nơi này có số lượng học sinh, sinh viên là 20000, công ty muốn dự báo doanh thu của chính cửa hàng này trong tương lại. Chúng ta cùng thiết lập khoản dự báo với y^ = 81464 – giá trị dự báo dựa vào phương trình hồi quy.

Công thức chỉ thay đổi một chút:

S_y^ = 5742.3*[1+ 1/10 + (20000 – 14000)²/568000000]^1/2 = 6193

Vậy khoản dự báo có được:

81464 ± 2.306*6193=> 67183 ≤ y ≤ 95745, y là giá trị thực tế dự báo trong tương lai, 2.306 là giá trị t tra bảng.

Như vậy chúng ta đã tìm hiểu xong toàn bộ những kiến thức quan trọng trong Simple linear regression. Tiếp theo trong bài viết chúng ta sẽ đi vào mô hình hồi quy tuyến tính bội – Multiple linear regression.

Multiple linear regression

Trong cuộc sống hàng ngày, khi xét về một sự vật, hiện tượng, hay một đối tượng mà chúng ta quan tâm nghiên cứu thì không bao giờ chúng chịu tác động và ảnh hưởng từ một phía mà là từ rất nhiều phía khác nhau. Ví dụ khi nói về sức khỏe của chúng ta, không phải chỉ riêng chế độ ăn uống mà còn thời tiết, môi trường sống,… có thể tác động đến. Cũng như ở ví dụ trên, không phải chỉ dựa vào mỗi số học sinh, sinh viên mà chúng ta có thể đánh giá doanh thu của các cửa hàng có thể tăng hay giảm, mà phải xét đến các chiến dịch marketing, cách thức bán hàng, chất lượng món ăn. Trong thực tế khi xây dựng một mô hình hồi quy để dự báo giá trị của biến mục tiêu, chúng ta không thể chỉ xét mối quan hệ giữa biến mục tiêu (biến phụ thuộc) và 1 một biến tự do vì kết quả dự báo có thể không chính xác, nguyên nhân của sự không chính xác hay sai số giữa kết quả thực tế và kết quả dự báo đến từ những yếu tố khác không được đề cập trong mô hình.

Hồi quy bội hay hồi quy đa biến là phương pháp nghiên cứu mối quan hệ giữa biến mục tiêu (biến phụ thuộc) với nhiều hơn 2 biến độc lập (biến đầu vào).

Mô hình hồi quy đa biến tổng quan với Y là biến phụ thuộc và những biến độc lập X₁, X₂, X₃,…,X_p.

Giống như mô hình tổng quan của hồi quy tuyến tính đơn giản, β₀ là giá trị ước lượng của Y khi các giá trị của các biến X đều bằng 0. Các hệ số hồi quy chưa biết từ β₁… β_p giờ đây sẽ được gọi là hệ số hồi quy riêng thể hiện mức độ thay đổi của giá trị trung bình Y khi biến X₁…X_p thay đổi 1 đơn vị mà các biến còn lại không thay đổi. Tức là β_p thể hiện mối liên hệ của riêng biến X_p đến giá trị trung bình của y. ε là sai số có phân phối chuẩn, trung bình bằng 0, là phần giá trị thể hiện các yếu tố mà mô hình không nghiên cứu đến.

Giá trị trung bình hay giá trị mong đợi của Y dựa trên mối liên hệ với các biến độc lập X:

Bên trên cũng chính là phương trình tổng quan hồi quy tuyến tính đa biến. Trong thực tế các hệ số hồi quy trong tổng thể không để tìm ra chính xác nên chúng ta chỉ có thể ước lượng bằng các hệ số b₀, b₁,..b_ptính được từ dữ liệu mẫu. Phương trình hồi quy đa biến được dùng cho ước lượng:

Y^ là các giá trị dự báo của biến mục tiêu, b_0,…b_p là các giá trị ước lượng của các hệ số β₀,…,β_p. Mặc dù cùng sử dụng phương pháp bình phương bé nhất (Least square method) nhưng điểm khác biệt giữa hồi quy tuyến tính đơn giản và hồi quy đa biến đó chính là quá trình tính toán. Với bộ dữ liệu mẫu nhỏ và chỉ có 2 biến, thì hồi quy tuyến tính đơn giản quá trình tính toán nhanh, có thể thực hiện bằng excel lập bảng và sử dụng hàm để tính nếu số quan sát không quá lớn. Tuy nhiên với hồi quy đa biến công việc tính toán phức tạp hơn rất nhiều vì có rất nhiều biến, chưa kể tính tới số lượng quan sát trong tập dữ liệu.

Do áp dụng phương pháp bình phương bé nhất và không có các công thức toán nào có thể giúp mình tự tính toán đối với những dữ liệu đó nên thông thường khi tiến hành lập phương trình cho mô hình hồi quy đa biến chúng ta sẽ sử dụng các công cụ, phần mềm để phân tích và dựa vào kết quả để diễn giải mô hình.

Các bước phân tích mô hình hồi quy đa biến có thể được tổng quan thành các bước sau:

Từ bộ dữ liệu mẫu chọn ra các biến, thuộc tính hay trường dữ liệu quan trọng có thể đưa vào phân tích. (riêng bước này, chúng tôi sẽ có một bài viết trình bày cụ thể các phương pháp chọn lọc biến dữ liệu phù hợp để thực hiện phân tích hay khai phá dữ liệu)
Áp dụng phương pháp bình phương bé nhất để tính toán các hệ số hồi quy b₀, b₁,…, b_p cho phương trình của mô hình hồi quy đa biến áp dụng dữ liệu mẫu
Với những hệ số hồi quy tìm được từ dữ liệu mẫu chúng ta sẽ ước lượng cho các hệ số hồi quy β₀, β₁,…, β_p của dữ liệu tổng thể và để xây dựng mô hình hồi quy đa biến tổng quan.
Tính toán SST, SSR, SSE để tìm hệ số xác định R² để đánh giá phương trình hồi quy đa biến có hiệu quả để ước lượng hay dự báo cho giá trị củ biến mục tiêu Y, đồng thời xem xét những giả định về sai số ε như ε có phân phối chuẩn với trung bình bằng 0, và phương sai bằng nhau đối với mọi giá trị dữ liệu của các biến X, và độc lập đối với từng biến X (phần đánh giá các giả định ε của mô hình hồi quy tuyến tính chúng tôi sẽ không đề cập trong bài viết này sẽ gửi đến các bạn ở bài viết tiếp theo)
Kiểm định F, t để xác định có hay không có mối quan hệ giữa biến mục tiêu Y, và từng biến X trong tổng thể.
Sau cùng nếu mô hình được đánh giá là hiệu quả, tiến hành ước lượng và dự báo giá trị của Y.

Mô hình hồi quy đơn biến và đa biến đều dựa trên phương pháp bình phương bé nhất để hình thành phương trình và chỉ khác biệt về thời gian, chi phí tính toán, một bên 2 biến đơn giản hơn, một bên nhiều biến phức tạp hơn.

Do đó trong bài viết sắp tới khi đưa ra ví dụ chúng tôi chỉ trình bày kết quả tính toán hệ số hồi quy đa biến được thực hiện trên Excel hay SPSS. Đây cũng là nguyên nhân chúng tôi chưa thể gửi đến các bạn ví dụ áp dụng hồi quy đa biến cụ thể và chi tiết trong bài viết này, vì khi trình bày bảng kết quả từ Excel hay SPSS sẽ khiến bài viết trở nên rất dài mà vẫn còn các công thức tính toán khác chưa triển khai hết.

Nhắc lại một chút về phương pháp bình phương bé nhất, Least squares method. Phương pháp bình phương bé nhất là phương pháp được áp dụng để tìm ra mô hình hồi quy làm cho sai số của giá trị y dự báo và y thực tế nhỏ nhất.

Lưu ý lần nữa về cách diễn giải các hệ số hồi quy, ví dụ như β₁. Nếu trong mô hình hồi quy tuyến tính đơn giản trường hợp chỉ có 2 biến Y và X, β₁ thể hiện độ biến thiên của Y khi giá trị X thay đổi 1 đơn vị, còn trong hồi quy đa biến β₁ thể hiện độ biến thiên của Y khi X₁ thay đổi 1 đơn vị trong khi các biến còn lại được giữ nguyên.

Về hệ số xác định cho hồi quy đa biến, các thành phần SSE, SSR và SST vẫn được áp dụng với công thức giống như trong hồi quy đơn biến mà chúng ta đã trình bày lại ở đầu bài viết. Tuy nhiên có sự khác biệt nhất định về cách áp dụng. R² như đã biết đo lường phần thay đổi, phần biến thiên của Y có thể giải thích bởi các biến độc lập X, thể hiện sự phù hợp của mô hình trong việc dự báo giá trị của Y. Nhưng lưu ý cực kỳ quan trọng, khi mô hình hồi quy có nhiều biến độc lập X thì hệ số R² sẽ có xu hướng tăng, do đó nếu dùng để đánh giá mô hình thì R² lúc này sẽ không còn thích hợp, sẽ có xuất hiện trường hợp mặc dù thực tế R² rất lớn nhưng mô hình lại không thể đưa ra các dự báo chính xác.

Vì thế các chuyên gia phân tích thường áp dụng hệ số xác định R² đã được hiệu chỉnh hay còn gọi là (Adjusted Coefficient of Determination), công thức như sau:

Lưu ý thực chất hệ số xác định hiệu chỉnh là hệ số xác định R² có tính đến bậc tự do của SSE và SST, chúng tôi sẽ trình bày ngay sau đây về kiểm định F.

Quay trở lại với hệ số xác định, bên cạnh việc đánh giá độ hiệu quả của mô hình, nó còn cho phép chúng xem xét việc đưa một biến mới vào mô hình hồi quy thì có thích hợp hay không. Nếu hệ số xác định hiệu chỉnh tăng thì chứng tỏ khi thêm biến mới vô thì đã làm tăng ý nghĩa của mô hình, có thể giải thích tốt hơn về tác động của yếu tố mới lên biến mục tiêu Y, nói cách khác biến độc lập mới này cho chúng ta nhiều thông tin hơn về biến mục tiêu Y.

Sau khi có phương trình hồi quy đa biến của dữ liệu mẫu, chúng ta sẽ sử dụng các hệ số b₀,…b_p để ước lượng cho hệ số hồi quy β₀,…,β₁ của tổng thể. Về phương pháp ước lượng là gì và tại sao phải ước lượng cũng như nguyên lý hoạt động của phương pháp này chúng tôi đã trình bày ở các bài viết về thống kê và ngay cả ở đầu bài viết lần này, nên sẽ không nhắc lại. Các bạn có thể truy

Ở bài viết trước về hồi quy tuyến tính đơn giản, chúng tôi không đề cập về phương pháp ước lượng cho hệ số hồi quy nên cũng sẽ trình bày công thức cho các bạn luôn trong phần này.

Giống như công thức ước lượng giá trị của một đối tượng nghiên cứu bất kỳ, công thức ước lượng áp dụng cho hồi quy tuyến tính cũng được dựa trên giá trị t tra từ bảng phân phối t với bậc tự do, mức ý nghĩa bất kỳ và độ lệch chuẩn của biến, ở đây là độ lệch chuẩn ước lượng của hệ số hồi quy (S_b)

Ước lượng hệ số hồi quy trong Simple linear regression cũng giống trong Multi linear regression, đều chỉ ước lượng giá trị cho 1 hệ số hồi quy của tổng thể, có cùng công thức nhưng chỉ khác bậc tự do để tra bảng t. Nếu bậc tự do trong hồi quy đơn biến là n – 2 theo bậc tự do của SSE thì trong hồi quy đa biến là n – p – 1, với p là số biến độc lập, và đây cũng là bậc tự do của SSE.

Công thức tính độ lệch chuẩn của hệ số hồi quy từ sai số chuẩn của giá trị ước lượng σ² của sai số ε còn gọi là s hay s_e.

(Chi tiết về s và s_b mời các bạn xem lại các bài viết trước, link chúng tối để ở đầu bài).

Tiếp theo là phương pháp kiểm định, thì cũng trong bài viết trước về phương pháp kiểm định áp dụng cho hồi quy tuyến tính đơn giản, chúng tôi đã đề cập đến 2 phương pháp kiểm định chính đó là kiểm định t và kiểm định F sử dụng MSE (Mean Square Error) và MSR (Mean Square Regression), dựa trên giả thuyết về hệ số hồi quy của tổng thể để đánh giá liệu có mối quan hệ giữa 2 biến X, Y hay không.

Mặc dù cũng dựa trên giả thuyết về hệ số hồi quy tuy nhiên phương pháp kiểm định t và F trong hồi quy đa biến có ứng dụng khác nhau:

Kiểm định F trong hồi quy đa biến được dùng để xác định có hay không có mối quan hệ giữa biến phụ thuộc Y với ít nhất một trong các biến độc lập X còn lại trong tổng thể nghiên cứu, kiểm định F sẽ đánh giá trên tổng quan cả mô hình chứ không riêng từng cặp: 1 biến Y và 1 biến X như hồi quy đơn biến.
Kiểm định t sẽ được dùng để xác định biến X có ý nghĩa trong việc giải thích sự thay đổi của biến Y hay không, (lưu ý quan trọng: không nên kết luận theo kiểu có hay không có mối quan hệ giữa biến phụ thuộc Y với biến X như trong simple linear regression đã nói) ở bài viết trước, về công thức thì giống trong hồi quy đơn biến nhưng có khác nhau về bậc tự do khi tra bảng phân phối t và cách diễn giải kết quả.

(Chi tiết về phương pháp kiểm định trong hồi quy mời các bạn xem lại các bài viết trước, link chúng tối để ở đầu bài).

Kiểm định F:

Bảng trên là bảng ANOVA (Analysis of Variance), phân tích phương sai, phân tích mối quan hệ giữa các biến chúng tôi sẽ trình bày chủ đề này ở những bài viết sắp tới.

Nguyên tắc bác bỏ:

p – value nhỏ hơn mức ý nghĩa α (có thể sử dụng bảng tra hay Excel để tìm ra dựa trên bậc tự do của F như dưới đây)
giá trị F tính được phải lớn hơn giá trị F tra bảng phân phối F (với bậc tự do thứ nhất là p ở hàng trên cùng, và bậc tự do thứ hai là n – p – 1 ở cột ngoài cùng, α ở cột thứ 2 tính từ cột ngoài cùng)

Kiểm định t:

Chúng ta có thể đặt các giả thuyết như sau, tùy theo mục đích kiểm định:

H₀: β_p = 0 H₀: β_p ≤ 0 H₀: β_p≥ 0

H₁: β_p ≠ 0 H₁: β_p > 0 H₁: β_p < 0

Công thức tổng quát của giá trị kiểm định t như sau:

Nguyên tắc bác bỏ H₀:

Với kiểm định 2 phía: H₀: β_p = 0 được bác bỏ khi trị tuyệt đối của t lớn hơn t tra bảng (t_{α/2, n-p-1})

Với kiểm định bên phải: H₀: β_p≤ 0 được bác bỏ khi giá trị t dương lớn hơn giá trị dương của t tra bảng (t_{α, n-p-1})

Với kiểm định bên trái: H₀: β_p ≥ 0 được bác bỏ khi giá trị t < giá trị âm của t tra bảng (t_{α, n-p-1})

Nếu xét trên giá trị p-value, bác bỏ H₀ khi p-value < α. (p-value là mức ý nghĩa nhỏ nhất mà tại đó H₀ bị bác bỏ).

Sau cùng là về phương pháp ước lượng và dự báo cho giá trị của biến mục tiêu Y trong hồi quy đa biến thì quy trình tương tự với phương pháp ước lượng và dự báo cho giá trị của biến mục tiêu Y trong hồi quy đơn biến nên chúng tôi sẽ không đề cập lại ở đây, tuy nhiên cũng có khác biệt đó chính là trừ trường hợp ước lượng điểm, công thức ước lượng khoảng cho biến mục tiêu Y trong hồi quy đa biến quá phức tạp do có nhiều biến và đa phần phải dựa vào phần mềm tính toán. Nên ở bài viết sắp tới khi trình bày về ví dụ chúng tôi chỉ đề cập đến ước lượng điểm mà thôi.

Như vậy đến đây là kết thúc bài viết lần này, ở bài viết sắp tới chúng tôi sẽ trình bày lại các lý thuyết hồi quy đa biến dưới ví dụ cụ thể và rõ ràng, bên cạnh đó là phương pháp kiểm tra các giả định về sai số ε và vấn đề đa cộng tuyến của mô hình hồi quy tuyến tính. Mong các bạn tiếp tục ủng hộ BigDataUni.

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

BLOG

DỰ BÁO TRONG SIMPLE LINEAR REGRESSION & SƠ LƯỢC VỀ MULTI-LINEAR REGRESSION

Trả lời Hủy