Vì sao phần thưởng có thể khiến chúng ta lặp lại một hành vi? Thí nghiệm Skinner Box

Cập nhật: 13/05/2026|Nguồn: Ban Truyền thông IMHBS

Vì sao phần thưởng có thể khiến chúng ta lặp lại một hành vi?

Vì sao phần thưởng có thể khiến chúng ta lặp lại một hành vi?

Một phóng viên công nghệ của The Guardian từng kể rằng anh nhận ra mình có một thói quen khá kỳ lạ: cứ vài phút lại mở điện thoại ra kiểm tra, ngay cả khi không có thông báo nào quan trọng. Anh biết rằng nhiều lần chẳng có gì mới, nhưng vẫn có cảm giác thôi thúc phải kiểm tra – như thể não bộ đang chờ đợi điều gì đó thú vị xuất hiện.

Các nhà thần kinh học cho rằng hiện tượng này liên quan đến hệ thống phần thưởng của não bộ. Mỗi khi chúng ta nhận được một phản hồi tích cực – chẳng hạn như một tin nhắn mới, một lượt thích hay một thông tin bất ngờ – não có thể giải phóng dopamine, một chất dẫn truyền thần kinh có vai trò quan trọng trong động lực và hành vi tìm kiếm phần thưởng. Dopamine không chỉ tạo cảm giác dễ chịu mà còn thúc đẩy chúng ta tiếp tục lặp lại hành vi đã dẫn đến phần thưởng đó (Bromberg-Martin et al., 2010).

Điều thú vị là não bộ không chỉ phản ứng khi phần thưởng thực sự xuất hiện. Nhiều nghiên cứu cho thấy chỉ cần kỳ vọng rằng phần thưởng có thể xảy ra, hệ thống dopamine cũng có thể được kích hoạt, khiến chúng ta muốn tiếp tục thực hiện hành vi đó (Bromberg-Martin et al., 2010). Đây là một trong những lý do vì sao những hành vi như kiểm tra điện thoại, lướt mạng xã hội hay mở email có thể trở thành thói quen rất khó bỏ.

Những hiện tượng như vậy minh họa cho một nguyên lý quan trọng trong tâm lý học: hành vi có xu hướng được lặp lại khi nó dẫn đến những hệ quả tích cực.

Trong tâm lý học hành vi, cơ chế này được gọi là điều kiện hóa tạo tác (operant conditioning), một khái niệm được phát triển bởi nhà tâm lý học B. F. Skinner. Nếu một hành vi mang lại phần thưởng hoặc kết quả tích cực, khả năng hành vi đó lặp lại sẽ tăng lên; ngược lại, nếu hành vi dẫn đến hậu quả tiêu cực, tần suất của hành vi đó có xu hướng giảm xuống (Neuroscience News, 2024).

Khác với điều kiện hóa cổ điển, nơi phản xạ hình thành do sự liên kết giữa các kích thích, điều kiện hóa tạo tác nhấn mạnh rằng chính hành động của cá thể đóng vai trò trung tâm trong quá trình học tập. Cá thể thực hiện một hành vi và học từ hậu quả mà hành vi đó mang lại.

Trong các thí nghiệm nổi tiếng của Skinner, một con chuột được đặt vào hộp thí nghiệm có một cần gạt. Ban đầu, con chuột có thể tình cờ chạm vào cần gạt. Nhưng mỗi lần nhấn cần gạt lại nhận được một viên thức ăn. Sau một thời gian, con chuột học được rằng nhấn cần gạt sẽ mang lại phần thưởng, và hành vi này xuất hiện ngày càng thường xuyên hơn. Thí nghiệm này cho thấy cách hành vi có thể được hình thành và duy trì thông qua các hệ quả mà cá thể trải nghiệm (Skinner, 1953; McLeod, 2023).

Từ những nghiên cứu như vậy, các nhà tâm lý học mô tả hai cơ chế quan trọng giúp hành vi thay đổi.

👉 Củng cố (reinforcement): Củng cố là bất kỳ hậu quả nào làm tăng khả năng hành vi được lặp lại. Ví dụ, khi một học sinh được khen ngợi vì hoàn thành tốt bài tập, hành vi học tập tích cực có thể xuất hiện thường xuyên hơn.

👉 Hình phạt (punishment): Hình phạt là hậu quả làm giảm khả năng hành vi xảy ra trong tương lai. Khi một hành vi dẫn đến trải nghiệm khó chịu hoặc hậu quả tiêu cực, con người thường học cách tránh lặp lại nó.

Trong đời sống hàng ngày, những nguyên lý này xuất hiện ở nhiều bối cảnh khác nhau: học sinh học tập tích cực hơn khi nhận được lời khen hoặc điểm thưởng nhân viên có động lực làm việc hơn khi được ghi nhận hoặc khen thưởng người dùng mạng xã hội liên tục kiểm tra điện thoại để tìm kiếm phản hồi mới.

Nhìn rộng hơn, điều kiện hóa tạo tác cho thấy rằng nhiều thói quen của con người không hình thành chỉ từ suy nghĩ hay ý chí cá nhân. Chúng thường được xây dựng dần dần thông qua những vòng lặp phần thưởng mà não bộ học cách mong đợi theo thời gian.

Hiểu được cơ chế này giúp chúng ta nhận ra rằng việc thay đổi hành vi – trong giáo dục, trong công việc hay trong đời sống cá nhân – đôi khi không bắt đầu từ việc “cố gắng hơn”, mà từ việc thay đổi cách môi trường phản hồi với hành vi của chúng ta.