Website chỉ chia sẻ kiến thức, không giải đáp thắc mắc, không tư vấn!

Hệ số Q² Predict dự báo ngoài mẫu trong SMARTPLS 4

Mô hình cấu trúc January 22, 2026

Hệ số Q² predict (Q Square) trong phần mềm SmartPLS là một chỉ số thống kê được sử dụng để đánh giá mức độ phù hợp dự đoán (predictive relevance) của mô hình PLS-SEM đối với dữ liệu ngoài mẫu (out-of-sample). Chỉ số này phản ánh năng lực của mô hình trong việc tạo ra các dự báo có ý nghĩa đối với những quan sát không được sử dụng trong quá trình ước lượng mô hình ban đầu.

Cụ thể, Q² predict đo lường mức độ mà mô hình PLS-SEM, được xây dựng và ước lượng dựa trên dữ liệu thực nghiệm trong mẫu (in-sample), có khả năng dự đoán chính xác các giá trị quan sát của dữ liệu mới chưa được thu thập hoặc chưa được đưa vào mô hình (out-of-sample). Do đó, Q² predict đóng vai trò quan trọng trong việc đánh giá tính ứng dụng và độ tin cậy của mô hình trong các nghiên cứu thực nghiệm và nghiên cứu dự báo.

1. Năng lực dự báo và hệ số Q²_predict trong SMARTPLS 4

Trong nghiên cứu mô hình cấu trúc, các khái niệm như dữ liệu trong mẫu (in-sample), dữ liệu ngoài mẫu (out-of-sample) và năng lực dự báo (predictive power) thường gây khó khăn trong việc tiếp cận và diễn giải, đặc biệt khi chuyển ngữ sang tiếng Việt do tính trừu tượng của các thuật ngữ này. Do đó, phần này nhằm trình bày khái niệm “năng lực dự báo” liên quan đến chỉ số Q²_predict theo cách trực quan hơn thông qua một ví dụ minh họa thực tiễn.

Giả định một nghiên cứu áp dụng mô hình SERVQUAL, trong đó năm biến độc lập đại diện cho các thành phần chất lượng dịch vụ tác động đến biến phụ thuộc là sự hài lòng đối với chất lượng dịch vụ. Nghiên cứu tiến hành thu thập dữ liệu từ 300 đối tượng khảo sát và đã hoàn tất các bước phân tích, bao gồm đánh giá mô hình đo lường và mô hình cấu trúc theo phương pháp PLS-SEM.

1.1 Dữ liệu trong mẫu (In-sample data)

  • Dữ liệu trong mẫu bao gồm toàn bộ 300 quan sát khảo sát được thu thập và sử dụng để ước lượng mô hình bằng phần mềm SMARTPLS.
  • Các chỉ số đánh giá mô hình như hệ số xác định (R²) hay các hệ số đường dẫn (path coefficients) đều được tính toán hoàn toàn dựa trên tập dữ liệu này.

Tuy nhiên, việc chỉ xem xét R² của mô hình mới phản ánh mức độ giải thích của mô hình đối với chính 300 quan sát đã sử dụng, mà chưa cho biết khả năng khái quát hóa khi áp dụng cho dữ liệu mới.

Chẳng hạn, trong nghiên cứu nêu trên, mô hình được ước lượng từ 300 mẫu để xác định mối quan hệ từ SERVQUAL đến Sự hài lòng, qua đó thu được giá trị R² của biến Sự hài lòng. Giá trị R² = 0,65 cho thấy mô hình giải thích được 65% mức độ biến thiên của biến “Sự hài lòng” trong phạm vi chính tập dữ liệu 300 quan sát này.

1.2 Dữ liệu ngoài mẫu (Out-of-sample data)

Dữ liệu ngoài mẫu được hiểu là những quan sát không được sử dụng trong quá trình ước lượng mô hình và đóng vai trò như dữ liệu mới để đánh giá khả năng dự báo. Trong thực tiễn nghiên cứu, việc kiểm định này thường đòi hỏi nhà nghiên cứu phải thu thập bổ sung dữ liệu độc lập (ví dụ: thêm 50 hoặc 100 đối tượng khảo sát) nhằm kiểm tra mức độ tổng quát hóa của mô hình. Tuy nhiên, trong phần mềm SMARTPLS, dữ liệu ngoài mẫu không cần thu thập thêm mà được xây dựng thông qua kỹ thuật PLSpredict.

  • Cụ thể, trong Q² predict (PLSpredict), SMARTPLS giả lập dữ liệu ngoài mẫu bằng phương pháp chia chéo k lần (ví dụ k = 10 folds) trên bộ dữ liệu gồm 300 quan sát.
  • Ở mỗi lần lặp, 270 quan sát được sử dụng làm tập huấn luyện (training set) để ước lượng mô hình, trong khi 30 quan sát còn lại được tạm thời loại ra và xem như dữ liệu ngoài mẫu (test set).
  • Mô hình ước lượng từ 270 quan sát sẽ được dùng để dự báo giá trị của 30 quan sát này.
  • Sau đó so sánh giá trị dự đoán với giá trị thực tế nhằm tính toán sai số dự báo.
  • Quy trình này được lặp lại cho đến khi toàn bộ 300 quan sát đều lần lượt đóng vai trò là dữ liệu ngoài mẫu một lần.
  • Cuối cùng, SMARTPLS tổng hợp và so sánh các giá trị dự đoán với các giá trị quan sát thực tế trong các tập “ngoài mẫu tạm thời” để tính toán chỉ số Q² predict.

Do đó, khái niệm “ngoài mẫu” trong trường hợp này không phải là dữ liệu hoàn toàn mới, mà là một phần của dữ liệu gốc được giữ lại và không tham gia vào quá trình ước lượng, chỉ được sử dụng cho mục đích kiểm định khả năng dự báo của mô hình.

1.3. Ý nghĩa của “khả năng dự báo” và hệ số Q²

Hệ số Q² phản ánh mức độ chính xác của mô hình SERVQUAL khi được sử dụng để dự đoán dữ liệu của các đối tượng mới, tức là những khách hàng không thuộc tập mẫu ban đầu gồm 300 quan sát. Chỉ số này cho biết liệu mô hình có khả năng dự báo tốt các giá trị quan sát ngoài mẫu hay không.

Trong bối cảnh Q², khái niệm “khả năng dự báo” không được hiểu theo nghĩa dự báo theo thời gian, mà là khả năng ước lượng chính xác các giá trị của dữ liệu mới chưa được sử dụng trong quá trình ước lượng mô hình. Trong phân tích PLS-SEM truyền thống, hệ số R² chỉ phản ánh mức độ giải thích phương sai của các biến phụ thuộc dựa trên dữ liệu trong mẫu (in-sample). Tuy nhiên, một mô hình có giá trị R² cao vẫn có thể cho kết quả dự báo kém khi áp dụng cho các tập dữ liệu mới ngoài mẫu (out-of-sample).

2. Cốt lõi của chỉ số Q²_predict

Về bản chất, việc đánh giá Q²_predict được thực hiện thông qua so sánh năng lực dự báo của mô hình PLS-SEM với một mô hình mốc (benchmark model), trong đó trọng tâm là so sánh với mô hình Indicator Average (IA).

2.1. Mô hình Benchmark (mốc so sánh)

Trong khuôn khổ PLSpredict, mô hình benchmark được hiểu là một phương pháp dự báo ngây thơ (naïve prediction approach), không khai thác cấu trúc quan hệ nhân quả của PLS-SEM mà chỉ dựa trên các quy tắc thống kê đơn giản. Hai loại mô hình benchmark được sử dụng phổ biến bao gồm:

  • Indicator Average (IA – dự báo bằng giá trị trung bình): Theo cách tiếp cận này, mọi quan sát mới đều được dự báo bằng giá trị trung bình của biến quan sát trong tập dữ liệu huấn luyện. Chẳng hạn, nếu điểm trung bình của biến Sự hài lòng được tính từ 270 quan sát trong mẫu huấn luyện là 3,8, thì giá trị dự báo cho Sự hài lòng của bất kỳ quan sát mới nào cũng được gán bằng 3,8.

  • Linear Model (LM – mô hình hồi quy tuyến tính): Khác với PLS-SEM, mô hình LM không sử dụng cấu trúc mô hình đo lường và mô hình cấu trúc, mà thực hiện hồi quy tuyến tính trực tiếp toàn bộ các biến quan sát độc lập (exogenous indicators) lên từng biến quan sát phụ thuộc (endogenous indicators). Ví dụ, mỗi chỉ báo của biến Sự hài lòng được dự báo thông qua hồi quy tuyến tính từ tất cả các chỉ báo của các biến độc lập.

Mục tiêu của việc sử dụng mô hình benchmark là đóng vai trò đối chứng, qua đó đánh giá liệu mô hình PLS-SEM có thực sự mang lại mức cải thiện có ý nghĩa về năng lực dự báo so với các phương pháp dự báo đơn giản hay không.

2.2. Mô hình PLS (PLS-SEM)