Kinh tế lượng (Phần 2: Mô hình hồi quy bội)

Khái niệm - Kiểm soát biến nhiễu - OLS nhiều biến - Kiểm định t/F - Tiệm cận mẫu lớn

BÀI GIẢNG KINH TẾ LƯỢNG

PHẦN 2: MÔ HÌNH HỒI QUY BỘI

Khái niệm – Kiểm soát biến nhiễu – OLS nhiều biến – Kiểm định t/F – Tiệm cận mẫu lớn

Đối tượng Sinh viên học phần Kinh tế lượng / Phương pháp định lượng
Mục tiêu Hiểu và vận dụng mô hình hồi quy bội để phân tích quan hệ kinh tế – xã hội
Cách dùng Tài liệu bài giảng trên lớp, tự học, ôn tập và thực hành đọc kết quả hồi quy
Trọng tâm Diễn giải hệ số riêng phần, kiểm soát biến nhiễu, kiểm định giả thuyết và tư duy mô hình

Soạn theo định hướng: trực giác trước – công thức sau – ví dụ cuối cùng.

Hồi quy bội là công cụ trung tâm để phân tích quan hệ điều kiện giữa một biến kết quả và nhiều yếu tố giải thích.

1.1. Từ hồi quy đơn đến hồi quy bội

Trong hồi quy đơn, ta mô tả quan hệ giữa một biến phụ thuộc Y và một biến giải thích X bằng phương trình:

Tuy nhiên, hiện tượng kinh tế hiếm khi chỉ do một yếu tố quyết định. Thu nhập của một người không chỉ phụ thuộc vào số năm học, mà còn phụ thuộc vào kinh nghiệm, giới tính, khu vực, ngành nghề, năng lực, mạng lưới quan hệ, điều kiện thị trường lao động. Giá nhà không chỉ phụ thuộc vào diện tích, mà còn phụ thuộc vào vị trí, số phòng, tuổi nhà, tiện ích xung quanh và thời điểm giao dịch.

Vì vậy, hồi quy bội mở rộng hồi quy đơn bằng cách đưa thêm nhiều biến giải thích vào cùng một mô hình:

Trong đó βⱼ là hệ số hồi quy riêng phần của biến Xⱼ. Từ “riêng phần” rất quan trọng: βⱼ không đo quan hệ thô giữa Xⱼ và Y, mà đo quan hệ giữa Xⱼ và Y sau khi đã giữ cố định các biến còn lại trong mô hình.

1.2. Các thành phần của mô hình hồi quy bội

Ký hiệu Tên gọi Ý nghĩa
Yᵢ Biến phụ thuộc / biến kết quả Đại lượng cần giải thích hoặc dự báo, ví dụ lương, điểm thi, tiêu dùng, năng suất.
X₁ᵢ, …, Xₖᵢ Biến giải thích Các yếu tố dùng để giải thích Y. Có thể là biến quan tâm chính hoặc biến kiểm soát.
β₀ Hệ số chặn Giá trị kỳ vọng của Y khi tất cả X bằng 0, nếu trường hợp đó có ý nghĩa trong dữ liệu.
βⱼ Hệ số hồi quy riêng phần Mức thay đổi kỳ vọng của Y khi Xⱼ tăng 1 đơn vị, giữ các X khác cố định.
uᵢ Sai số / nhiễu không quan sát được Phần của Y không được giải thích bởi các X trong mô hình; chứa yếu tố bỏ sót, đo lường sai, ngẫu nhiên.
n Kích thước mẫu Số quan sát dùng để ước lượng mô hình.
k Số biến giải thích Số biến độc lập không tính hằng số. Bậc tự do phần dư thường là n – k – 1.

1.3. Hồi quy bội trả lời loại câu hỏi nào?

  • Câu hỏi mô tả: Những yếu tố nào có liên hệ với Y, sau khi đã kiểm soát các yếu tố khác?
  • Câu hỏi dự báo: Kết hợp nhiều biến X giúp dự báo Y tốt hơn hồi quy đơn hay không?
  • Câu hỏi chính sách/thực nghiệm: Tác động riêng phần của một biến chính sách, chương trình, hoặc đặc điểm kinh tế lên kết quả là bao nhiêu?
  • Câu hỏi kiểm định lý thuyết: Dấu và độ lớn của các hệ số có phù hợp với lý thuyết kinh tế hay không?

1.4. Ví dụ khởi động: giáo dục và tiền lương

Giả sử ta quan tâm đến ảnh hưởng của số năm đi học đến tiền lương theo giờ. Hồi quy đơn có thể là:

Nếu chỉ dùng educ, hệ số β₁ có thể hấp thụ cả ảnh hưởng của kinh nghiệm, năng lực, giới tính, khu vực sống và ngành nghề. Mô hình hồi quy bội có thể mở rộng thành:

Bây giờ β₁ được hiểu là chênh lệch log tiền lương trung bình khi giáo dục tăng thêm 1 năm, so sánh giữa những người có cùng kinh nghiệm, cùng giới tính, cùng khu vực thành thị/nông thôn và cùng các biến đã đưa vào mô hình.

2. Cơ chế kiểm soát biến nhiễu trong hồi quy bội

Phần này giải thích trực giác mà sinh viên thường khó hiểu nhất: hồi quy bội “kiểm soát” biến khác như thế nào.

2.1. Biến nhiễu là gì?

Một biến Z là biến nhiễu trong quan hệ giữa X và Y khi Z thỏa mãn đồng thời hai điều kiện:

  • Z có ảnh hưởng đến Y hoặc là yếu tố quyết định Y.
  • Z có liên quan với X trong mẫu dữ liệu.

Nếu bỏ Z khỏi mô hình, phần ảnh hưởng của Z có thể bị “đổ nhầm” sang hệ số của X. Đây là sai lệch do bỏ sót biến, gọi là omitted variable bias.

Hình 1. Trực giác biến nhiễu: Z vừa liên quan đến X vừa ảnh hưởng đến Y.

2.2. “Giữ các biến khác không đổi” nghĩa là gì?

Trong dữ liệu quan sát, ta không thể thật sự bắt từng cá nhân giữ nguyên mọi đặc điểm rồi thay đổi riêng X như trong thí nghiệm. Hồi quy bội làm một việc gần giống về mặt thống kê: so sánh các quan sát có cùng giá trị hoặc cùng phần dự báo của các biến kiểm soát.

Ví dụ, khi hồi quy lương theo giáo dục và kinh nghiệm, hệ số của giáo dục không so sánh tất cả người học nhiều với tất cả người học ít. Nó so sánh những người khác nhau về giáo dục nhưng giống nhau về kinh nghiệm theo nghĩa tuyến tính của mô hình.

2.3. Định lý Frisch-Waugh-Lovell: cách hồi quy bội cô lập ảnh hưởng riêng phần

Định lý Frisch-Waugh-Lovell, viết tắt là FWL, cho ta một cách hiểu rất sâu về hệ số hồi quy riêng phần. Giả sử ta muốn ước lượng hệ số của X trong mô hình có các biến kiểm soát W:

FWL nói rằng β̂₁ có thể thu được bằng ba bước:

  1. Hồi quy X theo W, lấy phần dư rX. Đây là phần của X không giải thích được bởi W.
  2. Hồi quy Y theo W, lấy phần dư rY. Đây là phần của Y không giải thích được bởi W.
  3. Hồi quy rY theo rX. Hệ số thu được chính là β̂₁ trong hồi quy bội ban đầu.

Hình 2. Trực giác FWL: hồi quy bội là hồi quy giữa các phần còn lại sau khi kiểm soát W.

2.4. Khi nào thêm biến kiểm soát là tốt, khi nào là nguy hiểm?

Quyết định Tiêu chí Ví dụ
Nên thêm Biến là nguyên nhân chung của X và Y; biến nền tảng xảy ra trước X; biến làm giảm nhiễu và tăng độ chính xác. Ví dụ: kinh nghiệm khi nghiên cứu giáo dục và lương; tuổi nhà khi nghiên cứu diện tích và giá nhà.
Cần cân nhắc Biến có liên quan đến X nhưng không rõ nằm trước hay sau X; biến đo lường kém; biến làm mất nhiều bậc tự do. Ví dụ: điểm thi đầu ra khi nghiên cứu tác động của học thêm đến điểm cuối kỳ.
Không nên thêm nếu mục tiêu là tác động tổng Biến trung gian nằm trên đường truyền tác động từ X đến Y. Kiểm soát biến trung gian có thể làm mất một phần tác động cần đo. Ví dụ: giáo dục → nghề nghiệp → lương; nếu muốn tác động tổng của giáo dục thì kiểm soát nghề nghiệp có thể làm hệ số giáo dục giảm mạnh.
Nguy hiểm Biến hậu quả của Y hoặc collider; đưa vào có thể tạo tương quan giả. Ví dụ: chỉ phân tích nhóm đã được tuyển dụng khi nghiên cứu yếu tố ảnh hưởng đến năng lực lao động có thể gây selection bias.

3. Ước lượng OLS cho mô hình nhiều biến

OLS nhiều biến vẫn là nguyên lý “chọn đường hồi quy làm tổng bình phương phần dư nhỏ nhất”, nhưng được viết gọn bằng đại số ma trận.

3.1. Mô hình tổng thể và mô hình mẫu

Mô hình tổng thể giả định quan hệ kỳ vọng có điều kiện giữa Y và các biến X là tuyến tính theo tham số:

Mô hình quan sát bao gồm thêm sai số uᵢ:

Sau khi ước lượng bằng dữ liệu mẫu, ta có hàm hồi quy mẫu:

Phần dư của quan sát i là khoảng cách theo chiều dọc giữa giá trị thực tế và giá trị dự báo:

3.2. Tiêu chuẩn OLS

OLS chọn bộ hệ số β̂₀, β̂₁, …, β̂ₖ sao cho tổng bình phương phần dư là nhỏ nhất:

Bình phương phần dư được dùng vì ba lý do: phần dư dương và âm không triệt tiêu nhau; phần dư lớn bị phạt mạnh hơn; bài toán có nghiệm toán học đẹp và thuận tiện cho suy luận thống kê.

3.3. Viết mô hình bằng ma trận

Để viết gọn mô hình nhiều biến, ta dùng ký hiệu ma trận:

Ký hiệu Ý nghĩa
y Vector n × 1 chứa các giá trị Y
X Ma trận n × (k+1), cột đầu là 1 cho hệ số chặn, các cột còn lại là X₁, …, Xₖ
β Vector (k+1) × 1 chứa β₀, β₁, …, βₖ
u Vector n × 1 chứa sai số tổng thể
β̂ Vector ước lượng OLS của β
e Vector phần dư mẫu: e = y − Xβ̂

Nếu X có hạng cột đầy đủ, tức không có đa cộng tuyến hoàn hảo, nghiệm OLS có dạng:

3.4. Các điều kiện bậc nhất và tính chất phần dư OLS

Điều kiện bậc nhất của OLS là:

Điều này có nghĩa là phần dư OLS trực giao với từng cột của ma trận X. Nếu mô hình có hằng số, ta có các hệ quả quan trọng:

  • Tổng phần dư bằng 0: Σêᵢ = 0.
  • Trung bình giá trị dự báo bằng trung bình giá trị thực tế: mean(Ŷ) = mean(Y).
  • Phần dư không tương quan mẫu với từng biến giải thích trong mô hình.
  • Tổng bình phương toàn phần có thể phân rã thành tổng bình phương giải thích và tổng bình phương phần dư: SST = SSR + SSE, nếu có hằng số.

3.5. Các giả định cổ điển cho OLS nhiều biến

Giả định Tên ngắn Nội dung và vai trò
MLR.1 Tuyến tính theo tham số Mô hình có dạng Y = β₀ + β₁X₁ + … + βₖXₖ + u. Biến X có thể biến đổi log, bình phương, tương tác; tham số β vẫn tuyến tính.
MLR.2 Mẫu ngẫu nhiên Các quan sát được lấy mẫu độc lập, đại diện cho tổng thể nghiên cứu.
MLR.3 Không đa cộng tuyến hoàn hảo Không có biến giải thích nào là tổ hợp tuyến tính chính xác của các biến còn lại.
MLR.4 Kỳ vọng sai số có điều kiện bằng 0 E(u|X₁,…,Xₖ)=0. Đây là giả định then chốt để OLS không chệch và nhất quán.
MLR.5 Phương sai sai số không đổi Var(u|X)=σ². Cần cho công thức sai số chuẩn OLS cổ điển chính xác.
MLR.6 Sai số chuẩn hóa phân phối chuẩn u|X ~ Normal(0,σ²). Hữu ích cho suy luận chính xác trong mẫu nhỏ, không bắt buộc trong mẫu lớn.

4. Ý nghĩa kinh tế và toán học của các hệ số hồi quy riêng phần

Đây là phần quyết định khả năng đọc và viết báo cáo hồi quy.

4.1. Ý nghĩa toán học

Trong mô hình tuyến tính:

Hệ số βⱼ là đạo hàm riêng của kỳ vọng có điều kiện của Y theo Xⱼ:

Nói cách khác, βⱼ đo độ dốc của mặt phẳng hồi quy theo hướng Xⱼ, giữ các chiều còn lại cố định.

4.2. Ý nghĩa kinh tế

Diễn giải kinh tế của β̂ⱼ luôn phải trả lời đủ bốn yếu tố: biến Y là gì, biến Xⱼ là gì, đơn vị thay đổi của Xⱼ là bao nhiêu, và những biến nào đang được giữ cố định trong mô hình.

4.3. Bảng diễn giải theo dạng biến

Dạng mô hình Ví dụ phương trình Diễn giải hệ số chính
Y mức, X mức Y = β₀ + β₁X + … X tăng 1 đơn vị thì Y thay đổi β₁ đơn vị, giữ các biến khác không đổi.
ln(Y), X mức ln(Y) = β₀ + β₁X + … X tăng 1 đơn vị thì Y thay đổi xấp xỉ 100β₁%, giữ các biến khác không đổi.
Y mức, ln(X) Y = β₀ + β₁ln(X) + … X tăng 1% thì Y thay đổi xấp xỉ β₁/100 đơn vị.
ln(Y), ln(X) ln(Y) = β₀ + β₁ln(X) + … X tăng 1% thì Y thay đổi xấp xỉ β₁%, β₁ là hệ số co giãn.
Biến giả D Y = β₀ + β₁D + … D=1 khác D=0 trung bình β₁ đơn vị Y, giữ các biến khác không đổi.
Biến tương tác X·Z Y = β₀ + β₁X + β₂Z + β₃XZ + … Tác động cận biên của X phụ thuộc vào Z: ∂Y/∂X = β₁ + β₃Z.
Biến bậc hai X² Y = β₀ + β₁X + β₂X² + … Tác động cận biên của X là β₁ + 2β₂X, thay đổi theo mức X.

4.4. Ví dụ diễn giải: mô hình tiền lương

Giả sử ước lượng được mô hình sau:

  • Hệ số educ = 0.082: thêm 1 năm học gắn với mức lương theo giờ cao hơn khoảng 8.2%, giữ kinh nghiệm, giới tính, khu vực thành thị và các biến khác không đổi.
  • Hệ số exper = 0.035 và exper² = -0.0006: kinh nghiệm có tác động dương nhưng giảm dần. Tác động cận biên của kinh nghiệm là 0.035 − 0.0012exper.
  • Hệ số female = -0.185: nữ có lương theo giờ thấp hơn nam khoảng 18.5% theo xấp xỉ log, hoặc chính xác hơn là 100[exp(-0.185)-1] ≈ -16.9%, giữ các biến khác không đổi.
  • Hệ số urban = 0.120: người ở khu vực thành thị có lương cao hơn khoảng 12.0% theo xấp xỉ log so với khu vực không thành thị, giữ các biến khác không đổi.

4.5. Hệ số chặn có cần diễn giải không?

Hệ số chặn β₀ là giá trị dự báo của Y khi tất cả biến X bằng 0. Trong nhiều mô hình kinh tế, điểm X=0 không có ý nghĩa thực tế hoặc nằm ngoài phạm vi dữ liệu. Ví dụ, người có educ=0, exper=0, female=0, urban=0 có thể không phải đối tượng phân tích điển hình. Khi đó không cần nhấn mạnh ý nghĩa kinh tế của β₀.

4.6. Đơn vị đo lường ảnh hưởng đến hệ số như thế nào?

Nếu đổi đơn vị của X hoặc Y, giá trị số của hệ số thay đổi nhưng ý nghĩa thực chất không đổi. Ví dụ, nếu tiền lương đo bằng nghìn đồng thay vì đồng, hệ số liên quan đến Y sẽ thay đổi tỷ lệ. Nếu diện tích đo bằng m² thay vì 10 m², hệ số diện tích sẽ khác 10 lần.

5. Hệ số xác định R² và hệ số xác định hiệu chỉnh R̄²

Độ phù hợp mô hình là thông tin hữu ích, nhưng không phải tiêu chuẩn duy nhất để đánh giá mô hình hồi quy.

5.1. Phân rã tổng bình phương

Khi mô hình có hằng số, tổng biến động của Y quanh trung bình có thể phân rã thành phần giải thích được và phần chưa giải thích được:

Ký hiệu Tên tiếng Anh Ý nghĩa
SST = Σ(Yᵢ − Ȳ)² Total Sum of Squares Tổng biến động của Y quanh trung bình mẫu.
SSR = Σ(Ŷᵢ − Ȳ)² Regression Sum of Squares Phần biến động của Y được mô hình giải thích.
SSE = Σ(Yᵢ − Ŷᵢ)² Error Sum of Squares Phần biến động còn lại nằm trong phần dư.

5.2. R² là gì?

Hệ số xác định R² đo tỷ lệ biến động mẫu của Y được giải thích bởi các biến trong mô hình:

R² nằm giữa 0 và 1 nếu mô hình có hằng số. R² = 0.65 nghĩa là mô hình giải thích được 65% biến động mẫu của Y quanh trung bình. Nhưng cần cẩn trọng: R² cao không đảm bảo mô hình đúng, không đảm bảo nhân quả và không đảm bảo hệ số không chệch.

5.3. Vì sao cần R̄²?

Trong hồi quy OLS, khi thêm một biến giải thích vào mô hình, R² không bao giờ giảm. Ngay cả biến không có ý nghĩa kinh tế vẫn có thể làm SSE giảm một chút. Do đó, R² có xu hướng “thưởng” cho việc thêm biến.

Hệ số xác định hiệu chỉnh R̄² điều chỉnh R² theo số biến và kích thước mẫu:

R̄² tăng khi biến mới làm giảm SSE đủ lớn để bù cho việc mất bậc tự do. Nếu biến mới chỉ cải thiện mô hình rất ít, R̄² có thể giảm.

Hình 3. Minh họa R² và R̄² khi tăng số biến giải thích.

5.4. Khi nào dùng R², khi nào dùng R̄²?

Tình huống Nên nhìn vào Lý do
Mô tả độ phù hợp trong một mô hình Cho biết mô hình giải thích bao nhiêu phần biến động của Y trong mẫu.
So sánh mô hình có số biến khác nhau trên cùng Y, cùng mẫu R̄² Có phạt số biến nên phù hợp hơn R² khi mô hình khác độ phức tạp.
Đánh giá ý nghĩa nhân quả của hệ số Không dùng riêng R² Cần giả định nhận dạng, biến kiểm soát, thiết kế nghiên cứu, sai số chuẩn.
So sánh mô hình có Y khác nhau Cẩn trọng R² của mô hình Y mức và ln(Y) không nên so sánh trực tiếp một cách máy móc.
Dự báo ngoài mẫu Không đủ Cần kiểm định trên tập kiểm tra hoặc dùng tiêu chí dự báo ngoài mẫu.

6. Kiểm định hệ số hồi quy bằng kiểm định t

Kiểm định t giúp trả lời liệu một hệ số riêng lẻ có khác một giá trị giả thuyết hay không.

6.1. Bài toán kiểm định một hệ số

Thông thường, ta kiểm định xem biến Xⱼ có liên hệ tuyến tính riêng phần với Y hay không, sau khi kiểm soát các biến khác:

Cũng có thể kiểm định βⱼ bằng một giá trị cụ thể c:

Thống kê t được tính bằng:

Trong giả định cổ điển và mẫu nhỏ có phân phối chuẩn, t tuân theo phân phối t với n − k − 1 bậc tự do dưới H₀. Trong mẫu lớn, t xấp xỉ phân phối chuẩn chuẩn hóa.

6.2. Sai số chuẩn là gì?

Sai số chuẩn SE(β̂ⱼ) đo mức độ bất định của ước lượng β̂ⱼ giữa các mẫu lặp lại. Hệ số lớn nhưng sai số chuẩn cũng lớn thì bằng chứng thống kê có thể yếu. Hệ số nhỏ nhưng sai số chuẩn rất nhỏ thì có thể có ý nghĩa thống kê nhưng chưa chắc có ý nghĩa kinh tế.

6.3. Quy trình kiểm định t

  1. Viết giả thuyết H₀ và H₁ rõ ràng.
  2. Chọn mức ý nghĩa α, thường là 1%, 5% hoặc 10%.
  3. Tính t = (β̂ⱼ − c)/SE(β̂ⱼ).
  4. Tính p-value hoặc so sánh |t| với giá trị tới hạn.
  5. Kết luận thống kê: bác bỏ hay không bác bỏ H₀.
  6. Diễn giải kinh tế: hệ số có lớn và hợp lý không? Kết quả có ý nghĩa thực tiễn không?

6.4. Khoảng tin cậy

Khoảng tin cậy 100(1−α)% cho βⱼ có dạng:

Khoảng tin cậy cho biết tập hợp các giá trị βⱼ không bị bác bỏ ở mức ý nghĩa α trong kiểm định hai phía. Nếu khoảng tin cậy 95% không chứa 0, kiểm định hai phía H₀: βⱼ=0 sẽ bác bỏ ở mức 5%.

6.5. Ví dụ kiểm định t

Từ mô hình tiền lương, giả sử hệ số educ là 0.082 và sai số chuẩn là 0.015. Kiểm định H₀: βeduc = 0:

Nếu bậc tự do lớn, |t| = 5.47 cho p-value rất nhỏ. Ta bác bỏ H₀ ở mức 1%, 5% và 10%. Diễn giải: số năm giáo dục có liên hệ dương có ý nghĩa thống kê với lương theo giờ, sau khi kiểm soát kinh nghiệm, giới tính và khu vực.

7. Kiểm định tính đồng thời của các hệ số bằng kiểm định F

Kiểm định F dùng khi ta muốn kiểm định nhiều ràng buộc cùng lúc.

7.1. Vì sao không kiểm định từng t riêng lẻ?

Giả sử muốn kiểm định liệu cả kinh nghiệm và bình phương kinh nghiệm có cần trong mô hình hay không. Ta có hai hệ số β₂ và β₃. Nếu kiểm định từng hệ số bằng t-test riêng lẻ, xác suất mắc sai lầm loại I toàn cục sẽ tăng và ta không kiểm định đúng giả thuyết “đồng thời bằng 0”.

Kiểm định F trả lời trực tiếp câu hỏi: các ràng buộc có đúng đồng thời hay không?

7.2. Mô hình không bị ràng buộc và mô hình bị ràng buộc

Kiểm định F thường so sánh hai mô hình lồng nhau:

  • Mô hình không bị ràng buộc, ký hiệu unrestricted model, chứa đầy đủ các biến.
  • Mô hình bị ràng buộc, ký hiệu restricted model, áp đặt H₀ bằng cách bỏ các biến hoặc áp đặt quan hệ tuyến tính giữa các hệ số.

Trong đó SSEᵣ là tổng bình phương phần dư của mô hình bị ràng buộc, SSEᵤ là của mô hình không bị ràng buộc, q là số ràng buộc, kᵤ là số biến giải thích trong mô hình không bị ràng buộc.

Có thể viết công thức bằng R² nếu hai mô hình dùng cùng biến phụ thuộc và cùng mẫu:

Hình 4. Quy trình chung cho kiểm định t và F.

7.3. Các dạng giả thuyết F phổ biến

Mục tiêu kiểm định Ví dụ H₀ Diễn giải
Ý nghĩa chung của mô hình H₀: β₁ = β₂ = … = βₖ = 0 Tất cả biến giải thích không có sức giải thích tuyến tính đối với Y.
Một nhóm biến có cần thiết không? H₀: β₂ = β₃ = β₄ = 0 Nhóm biến bị kiểm định không làm cải thiện mô hình sau khi đã có các biến còn lại.
Biến giả nhóm H₀: tất cả biến giả vùng miền bằng 0 Không có khác biệt trung bình giữa các vùng so với nhóm cơ sở.
Dạng hàm phi tuyến H₀: βX² = 0 hoặc βX² = βX³ = 0 Không cần các thành phần phi tuyến.
Ràng buộc tuyến tính H₀: β₁ = β₂ Tác động của hai biến bằng nhau.

7.4. Ví dụ kiểm định F bằng R²

Giả sử ta muốn kiểm định liệu exper và exper² có cần trong mô hình tiền lương hay không. Mô hình không bị ràng buộc có R²ᵤ = 0.42, mô hình bị ràng buộc bỏ exper và exper² có R²ᵣ = 0.38. Mẫu có n = 500, mô hình không bị ràng buộc có kᵤ = 5 biến giải thích, số ràng buộc q = 2.

Giá trị F khoảng 17.03 thường cho p-value rất nhỏ. Ta bác bỏ H₀: exper và exper² đồng thời bằng 0. Kết luận: nhóm biến kinh nghiệm có ý nghĩa thống kê trong mô hình.

8. Phân tích hồi quy bội trong điều kiện mẫu lớn và tính tiệm cận

Trong nghiên cứu thực nghiệm hiện đại, mẫu lớn và suy luận tiệm cận rất quan trọng, nhất là khi giả định chuẩn hoặc phương sai không đổi không hoàn hảo.

8.1. Vì sao cần lý thuyết tiệm cận?

Trong thực tế, sai số kinh tế hiếm khi phân phối chuẩn chính xác. Thu nhập, giá tài sản, chi tiêu và quy mô doanh nghiệp thường lệch phải, có ngoại lệ và phương sai thay đổi. Nếu mẫu đủ lớn, ta có thể dựa vào các kết quả tiệm cận để suy luận thống kê ngay cả khi giả định phân phối chuẩn mẫu nhỏ không đúng.

  • Luật số lớn giúp các trung bình mẫu hội tụ về kỳ vọng tổng thể.
  • Định lý giới hạn trung tâm giúp phân phối của ước lượng OLS xấp xỉ chuẩn khi n lớn.
  • Sai số chuẩn vững giúp kiểm định đáng tin cậy hơn khi có phương sai thay đổi.

8.2. Nhất quán của OLS

Ước lượng β̂ được gọi là nhất quán nếu khi kích thước mẫu n tăng vô hạn, β̂ hội tụ về giá trị thật β. Nói đơn giản: càng có nhiều dữ liệu, ước lượng càng tiến gần tham số tổng thể.

Điều kiện cốt lõi để OLS nhất quán là điều kiện ngoại sinh yếu:

8.3. Phân phối tiệm cận của β̂

Dưới các điều kiện phù hợp, khi n lớn, β̂ có phân phối xấp xỉ chuẩn quanh β:

Vì vậy thống kê t vẫn có thể dùng xấp xỉ chuẩn trong mẫu lớn. Đây là lý do các phần mềm thường báo t-statistic và p-value ngay cả khi ta không kiểm định chuẩn tính của sai số.

Tuy nhiên, công thức sai số chuẩn cổ điển giả định phương sai sai số không đổi. Nếu phương sai sai số thay đổi theo X, cần dùng sai số chuẩn vững với phương sai thay đổi, thường gọi là heteroskedasticity-robust standard errors.

8.4. Phương sai thay đổi và sai số chuẩn vững

Phương sai thay đổi xảy ra khi độ phân tán của sai số không giống nhau giữa các mức X. Ví dụ, biến động chi tiêu của hộ thu nhập cao thường lớn hơn hộ thu nhập thấp. Khi có phương sai thay đổi, hệ số OLS vẫn có thể nhất quán nếu E(u|X)=0, nhưng sai số chuẩn OLS cổ điển có thể sai, dẫn đến kiểm định t/F không đáng tin cậy.

8.5. Sự khác nhau giữa không chệch và nhất quán

Khái niệm Ký hiệu/định nghĩa Diễn giải
Không chệch E(β̂) = β trong mẫu hữu hạn Trung bình của ước lượng qua nhiều mẫu lặp lại đúng bằng β.
Nhất quán plim β̂ = β khi n → ∞ Khi mẫu rất lớn, ước lượng hội tụ về β.
Vai trò thực nghiệm Không chệch mạnh hơn trong mẫu nhỏ; nhất quán thường dùng trong mẫu lớn Nhiều phương pháp kinh tế lượng hiện đại dựa vào tính nhất quán và phân phối tiệm cận.

8.6. Khi mẫu rất lớn, p-value có thể đánh lừa

Với n rất lớn, sai số chuẩn thường nhỏ. Do đó các hệ số rất nhỏ cũng dễ có ý nghĩa thống kê. Khi đó, nhà nghiên cứu phải nhấn mạnh độ lớn hiệu ứng và ý nghĩa kinh tế, không chỉ dựa vào dấu sao thống kê.

9. Quy trình đọc và báo cáo một kết quả hồi quy bội

Phần này giúp sinh viên chuyển từ công thức sang kỹ năng thực hành.

9.1. Một bảng kết quả hồi quy mẫu

Biến Hệ số SE t p-value Diễn giải ngắn
educ 0.082 0.015 5.47 0.000 Thêm 1 năm học gắn với lương cao hơn khoảng 8.2%.
exper 0.035 0.011 3.18 0.002 Kinh nghiệm có tác động dương ban đầu.
exper² -0.0006 0.0002 -3.00 0.003 Tác động của kinh nghiệm giảm dần theo số năm.
female -0.185 0.040 -4.63 0.000 Nữ có lương thấp hơn nam khoảng 16.9% theo diễn giải chính xác.
urban 0.120 0.030 4.00 0.000 Thành thị gắn với lương cao hơn khoảng 12.8% chính xác.
constant 0.550 0.180 3.06 0.002 Mức log lương dự báo của nhóm cơ sở khi biến liên tục bằng 0.

Thông tin bổ sung: n = 500; R² = 0.42; R̄² = 0.414; F-test ý nghĩa chung của mô hình: F = 72.1, p-value < 0.001. Biến phụ thuộc là ln(wage).

9.2. Checklist đọc bảng hồi quy

9.3. Cách viết đoạn báo cáo kết quả

Một đoạn báo cáo tốt cần kết hợp kết quả định lượng và diễn giải kinh tế. Ví dụ:

9.4. Những lỗi trình bày thường gặp

Lỗi Cách sửa
Chỉ nói “có ý nghĩa” mà không nói độ lớn Luôn nêu hệ số, đơn vị, phần trăm hoặc tác động cận biên.
Quên cụm “giữ các biến khác không đổi” Đây là điều kiện của hệ số riêng phần trong hồi quy bội.
Diễn giải log sai Với ln(Y), hệ số mức xấp xỉ phần trăm; với biến giả, dùng exp(β)-1 nếu cần chính xác.
So sánh R² giữa mô hình Y khác nhau Không so sánh máy móc R² của Y và ln(Y).
Dùng t-test riêng lẻ cho giả thuyết nhóm Dùng F-test/Wald test cho nhiều hệ số đồng thời.
Thêm biến sau X nếu biến đó là trung gian Cần xác định mục tiêu là tác động tổng hay tác động trực tiếp.
Nhầm p-value với xác suất H₀ đúng p-value là xác suất thấy dữ liệu cực đoan như vậy hoặc hơn nếu H₀ đúng, không phải P(H₀ đúng).

10. Ví dụ tổng hợp có lời giải

Ví dụ này kết nối toàn bộ nội dung: đặc tả mô hình, diễn giải hệ số, R²/R̄², t-test và F-test.

10.1. Bối cảnh nghiên cứu

Một nhà nghiên cứu muốn phân tích các yếu tố liên quan đến mức tiêu dùng hàng tháng của hộ gia đình. Biến phụ thuộc là consumption, đo bằng triệu đồng/tháng. Các biến giải thích gồm income, household_size, urban và age_head.

Kết quả ước lượng từ n = 240 hộ như sau:

Biến Hệ số β̂ SE t p-value
income 0.62 0.05 12.40 0.000
household_size 0.48 0.16 3.00 0.003
urban 1.25 0.52 2.40 0.017
age_head -0.03 0.02 -1.50 0.135
constant 2.10 0.85 2.47 0.014

R² = 0.71; R̄² = 0.705; SSEᵤ = 380. Giả sử mô hình bị ràng buộc bỏ household_size và urban có SSEᵣ = 415.

10.2. Diễn giải hệ số

  • income: Khi thu nhập tăng thêm 1 triệu đồng/tháng, tiêu dùng dự báo tăng trung bình 0.62 triệu đồng/tháng, giữ quy mô hộ, khu vực và tuổi chủ hộ không đổi. Đây là khuynh hướng tiêu dùng cận biên theo mô hình.
  • household_size: Hộ có thêm 1 thành viên thì tiêu dùng dự báo tăng 0.48 triệu đồng/tháng, giữ các biến khác không đổi.
  • urban: Hộ thành thị tiêu dùng cao hơn hộ không thành thị khoảng 1.25 triệu đồng/tháng, giữ thu nhập, quy mô hộ và tuổi chủ hộ không đổi.
  • age_head: Tuổi chủ hộ tăng 1 năm gắn với tiêu dùng thấp hơn 0.03 triệu đồng/tháng, nhưng hệ số không có ý nghĩa thống kê ở mức 5%.

10.3. Kiểm định t cho hệ số income

Kiểm định H₀: βincome = 0. Vì t = 12.40 và p-value = 0.000, ta bác bỏ H₀ ở mức 1%. Thu nhập có liên hệ dương rất rõ với tiêu dùng trong mô hình.

Khoảng tin cậy 95% xấp xỉ cho βincome là:

Ta có thể nói: với độ tin cậy 95%, khi thu nhập tăng 1 triệu đồng/tháng, tiêu dùng trung bình tăng trong khoảng khoảng 0.522 đến 0.718 triệu đồng/tháng, giữ các biến khác không đổi.

10.4. Kiểm định F cho household_size và urban

Giả thuyết:

Có q = 2 ràng buộc. Mô hình không bị ràng buộc có kᵤ = 4 biến giải thích, n = 240, SSEᵤ = 380. Mô hình bị ràng buộc có SSEᵣ = 415.

Với F ≈ 10.82, ta thường bác bỏ H₀ ở mức 1%. Kết luận: household_size và urban có ý nghĩa thống kê đồng thời trong mô hình tiêu dùng.

10.5. Đánh giá R² và R̄²

R² = 0.71 nghĩa là mô hình giải thích được khoảng 71% biến động của tiêu dùng trong mẫu. R̄² = 0.705 rất gần R², cho thấy các biến giải thích không chỉ làm tăng R² một cách cơ học; sau khi phạt số biến, độ phù hợp vẫn cao.

11. Bài tập luyện tập cuối phần

Các bài tập được thiết kế để sinh viên luyện diễn giải, tính toán và phát hiện lỗi tư duy.

Bài tập 1: Diễn giải hệ số

Cho mô hình:

Trong đó score là điểm thi, study_hours là số giờ tự học mỗi tuần, sleep_hours là số giờ ngủ trung bình mỗi ngày, part_time = 1 nếu sinh viên có đi làm thêm. Hãy diễn giải hệ số của study_hours và part_time.

Bài tập 2: Kiểm định t

Trong mô hình ở Bài tập 1, sai số chuẩn của study_hours là 1.1. Kiểm định H₀: βstudy_hours = 0 ở mức ý nghĩa 5%.

Bài tập 3: R² hiệu chỉnh

Một mô hình có n = 120, k = 6, R² = 0.54. Tính R̄². Nếu thêm một biến mới làm R² tăng lên 0.545, em có chắc mô hình tốt hơn không? Vì sao?

Bài tập 4: Kiểm định F

Mô hình không bị ràng buộc có SSEᵤ = 250, n = 180, kᵤ = 7. Mô hình bị ràng buộc có SSEᵣ = 280 với q = 3 ràng buộc. Tính F và nêu cách kết luận.

Bài tập 5: Biến nhiễu

Một nghiên cứu hồi quy thu nhập theo số năm giáo dục nhưng không kiểm soát năng lực cá nhân. Hãy giải thích vì sao hệ số giáo dục có thể bị sai lệch. Dấu sai lệch có thể dương hay âm? Điều kiện nào quyết định dấu?

Bài tập 6: Tương tác

Cho mô hình ln(wage) = β₀ + β₁educ + β₂female + β₃educ×female + u. Hãy viết tác động cận biên của educ đối với nam và nữ. Nếu β₁ = 0.08 và β₃ = -0.02, diễn giải kết quả.

Gợi ý/lời giải ngắn

Bài Gợi ý/lời giải
1 study_hours: thêm 1 giờ tự học mỗi tuần gắn với điểm thi cao hơn 3.8 điểm, giữ ngủ và làm thêm không đổi. part_time: sinh viên đi làm thêm có điểm thấp hơn 4.5 điểm so với không làm thêm, giữ các biến khác không đổi.
2 t = 3.8/1.1 ≈ 3.45. Với kiểm định hai phía ở mức 5%, |t| lớn hơn khoảng 1.96 nên bác bỏ H₀. study_hours có ý nghĩa thống kê.
3 R̄² = 1 − (1−0.54)(119)/(120−6−1) ≈ 0.516. Khi thêm biến, cần tính lại R̄²; R² tăng nhẹ không đủ chứng minh mô hình tốt hơn.
4 F = [(280−250)/3]/[250/(180−7−1)] = 10/(250/172) ≈ 6.88. So sánh với F tới hạn hoặc p-value; thường sẽ bác bỏ H₀ ở mức 1% hoặc 5% tùy bậc tự do.
5 Nếu năng lực ảnh hưởng dương đến thu nhập và người năng lực cao cũng học nhiều hơn, bỏ sót năng lực làm hệ số giáo dục bị lệch dương. Dấu sai lệch = dấu(ảnh hưởng của năng lực lên thu nhập) × dấu(tương quan giữa năng lực và giáo dục).
6 Nam: ∂ln(wage)/∂educ = β₁ = 0.08, tức khoảng 8% cho mỗi năm học. Nữ: β₁+β₃ = 0.06, tức khoảng 6%. Tương tác âm cho thấy lợi suất giáo dục của nữ thấp hơn nam 2 điểm phần trăm trong mô hình.

12. Phụ lục ôn tập: công thức và thuật ngữ cần nhớ

Dùng phần này để ôn nhanh trước khi làm bài tập hoặc đọc output phần mềm.

12.1. Bảng công thức trọng tâm

Nội dung Công thức
Mô hình hồi quy bội Yᵢ = β₀ + β₁X₁ᵢ + … + βₖXₖᵢ + uᵢ
Hàm hồi quy mẫu Ŷᵢ = β̂₀ + β̂₁X₁ᵢ + … + β̂ₖXₖᵢ
Phần dư êᵢ = Yᵢ − Ŷᵢ
OLS ma trận β̂ = (X′X)⁻¹X′y
Điều kiện bậc nhất X′e = 0
Ước lượng phương sai sai số s² = SSE/(n−k−1)
R² = 1 − SSE/SST
R² hiệu chỉnh R̄² = 1 − (1−R²)(n−1)/(n−k−1)
t-test t = (β̂ⱼ − c)/SE(β̂ⱼ)
F-test bằng SSE F = [(SSEᵣ−SSEᵤ)/q]/[SSEᵤ/(n−kᵤ−1)]
F-test bằng R² F = [(R²ᵤ−R²ᵣ)/q]/[(1−R²ᵤ)/(n−kᵤ−1)]
Sai lệch do bỏ sót biến Bias(β̃₁) = β₂·Cov(X,Z)/Var(X)

12.2. Thuật ngữ Anh – Việt

Thuật ngữ tiếng Anh Dịch/diễn giải tiếng Việt
Multiple regression Hồi quy bội / hồi quy đa biến
Partial regression coefficient Hệ số hồi quy riêng phần
Control variable Biến kiểm soát
Confounder Biến nhiễu
Omitted variable bias Sai lệch do bỏ sót biến
Ordinary Least Squares Bình phương tối thiểu thông thường, OLS
Residual Phần dư
Error term Sai số tổng thể
Standard error Sai số chuẩn
p-value Xác suất p / mức ý nghĩa quan sát
Joint significance Ý nghĩa thống kê đồng thời
Restricted model Mô hình bị ràng buộc
Unrestricted model Mô hình không bị ràng buộc
Asymptotic distribution Phân phối tiệm cận
Consistency Tính nhất quán
Heteroskedasticity-robust SE Sai số chuẩn vững với phương sai thay đổi

12.3. Một trang nhớ nhanh

Kết thúc Phần 2. Gợi ý học tiếp: sau khi nắm vững hồi quy bội, sinh viên nên học sâu về đa cộng tuyến, phương sai thay đổi, tự tương quan, biến giả, tương tác, dạng hàm, biến công cụ và các thiết kế nhận dạng nhân quả.