Cách não bộ xử lý 'vấn đề bữa tiệc cocktail'

Cách bộ não xử lý "vấn đề cocktail party"

Các nhà khoa học thần kinh tại MIT đã tìm ra cách bộ não có thể tập trung vào một giọng nói duy nhất giữa vô số giọng nói, làm sáng tỏ một hiện tượng thần kinh học lâu đời được gọi là vấn đề cocktail party. Sự tập trung chú ý này trở nên cần thiết khi bạn ở trong bất kỳ môi trường đông đúc nào, chẳng hạn như một bữa tiệc cocktail, với nhiều cuộc trò chuyện diễn ra cùng một lúc. Bằng cách nào đó, bộ não của bạn có thể theo dõi giọng nói của người bạn đang nói chuyện, mặc dù có tất cả những giọng nói khác mà bạn đang nghe thấy trong nền.

Sử dụng một mô hình tính toán của hệ thống thính giác, nhóm nghiên cứu MIT phát hiện ra rằng việc khuếch đại hoạt động của các đơn vị xử lý thần kinh phản ứng với các đặc điểm của giọng nói mục tiêu, chẳng hạn như cao độ của nó, cho phép giọng nói đó được đưa lên hàng đầu sự chú ý.

“Mô típ đơn giản đó là đủ để gây ra phần lớn kiểu hình của sự chú ý thính giác của con người, và mô hình cuối cùng tái tạo một loạt các hành vi chú ý của con người đối với âm thanh,” Josh McDermott, giáo sư khoa học não bộ và nhận thức tại MIT, thành viên của Viện Nghiên cứu Não bộ McGovern của MIT và Trung tâm Não bộ, Tâm trí và Máy móc, và là tác giả chính của nghiên cứu cho biết.

Những phát hiện này phù hợp với các nghiên cứu trước đây cho thấy rằng khi con người hoặc động vật tập trung vào một đầu vào thính giác cụ thể, các nơ-ron trong vỏ não thính giác phản ứng với các đặc điểm của kích thích mục tiêu sẽ khuếch đại hoạt động của chúng. Đây là nghiên cứu đầu tiên chỉ ra rằng sự thúc đẩy thêm đó là đủ để giải thích cách bộ não giải quyết vấn đề cocktail party.

Ian Griffith, một sinh viên tốt nghiệp của Chương trình Khoa học và Công nghệ Ngôn ngữ và Thính giác Harvard, được McDermott cố vấn, là tác giả chính của bài báo. Sinh viên tốt nghiệp MIT R. Preston Hess cũng là một tác giả của bài báo, được đăng ngày hôm nay trên Nature Human Behavior.

Mô hình hóa sự chú ý

Các nhà khoa học thần kinh đã nghiên cứu hiện tượng chú ý có chọn lọc trong nhiều thập kỷ. Nhiều nghiên cứu ở người và động vật đã chỉ ra rằng khi tập trung vào một kích thích cụ thể như âm thanh giọng nói của ai đó, các nơ-ron được điều chỉnh theo các đặc điểm của giọng nói đó — ví dụ: cao độ cao — sẽ khuếch đại hoạt động của chúng.

Khi sự khuếch đại này xảy ra, tốc độ bắn của nơ-ron được tăng lên, như thể được nhân với một số lớn hơn một. Người ta đã đề xuất rằng những "mức tăng nhân" này cho phép bộ não tập trung sự chú ý vào các kích thích nhất định. Các nơ-ron không được điều chỉnh theo tính năng mục tiêu thể hiện sự giảm hoạt động tương ứng.

“Phản ứng của các nơ-ron được điều chỉnh theo các đặc điểm nằm trong mục tiêu chú ý sẽ được tăng lên,” Griffith nói. "Những ảnh hưởng đó đã được biết đến từ rất lâu, nhưng điều chưa rõ ràng là liệu hiệu ứng đó có đủ để giải thích những gì xảy ra khi bạn đang cố gắng chú ý đến một giọng nói hoặc chọn lọc chú ý đến một đối tượng hay không."

Câu hỏi này vẫn chưa được trả lời vì các mô hình tính toán về nhận thức không thể thực hiện các nhiệm vụ chú ý như chọn một giọng nói trong số nhiều giọng nói. Các mô hình như vậy có thể dễ dàng thực hiện các nhiệm vụ thính giác khi có một âm thanh mục tiêu rõ ràng để xác định, nhưng chúng không thể thực hiện các nhiệm vụ đó khi các kích thích khác đang cạnh tranh để thu hút sự chú ý của chúng.

“Không mô hình nào của chúng tôi có khả năng mà con người có, được gợi ý về một đối tượng cụ thể hoặc một âm thanh cụ thể và sau đó dựa phản ứng của họ vào đối tượng hoặc âm thanh đó. Đó là một hạn chế thực sự,” McDermott nói.

Trong nghiên cứu này, nhóm nghiên cứu MIT muốn xem liệu họ có thể đào tạo các mô hình để thực hiện các loại nhiệm vụ đó bằng cách cho phép mô hình tạo ra sự tăng cường hoạt động của nơ-ron giống như những gì thấy được trong não người hay không.

Để làm điều đó, họ bắt đầu với một mạng nơ-ron mà họ và các nhà nghiên cứu khác đã sử dụng để mô hình hóa thính giác, và sau đó sửa đổi mô hình để cho phép mỗi giai đoạn của nó thực hiện mức tăng nhân. Theo kiến trúc này, sự kích hoạt của các đơn vị xử lý trong mô hình có thể được tăng lên hoặc giảm xuống tùy thuộc vào các đặc điểm cụ thể mà chúng đại diện, chẳng hạn như cao độ.

Để đào tạo mô hình, trong mỗi lần thử, các nhà nghiên cứu trước tiên đưa cho nó một "gợi ý": một đoạn âm thanh của giọng nói mà họ muốn mô hình chú ý. Các kích hoạt đơn vị được tạo ra bởi gợi ý sau đó xác định mức tăng nhân được áp dụng khi mô hình nghe thấy một kích thích tiếp theo.

“Hãy tưởng tượng gợi ý là một đoạn trích của một giọng nói có cao độ thấp. Sau đó, các đơn vị trong mô hình đại diện cho cao độ thấp sẽ được nhân với mức tăng lớn, trong khi các đơn vị đại diện cho cao độ cao sẽ bị suy giảm,” Griffith nói.

Sau đó, mô hình được cung cấp các đoạn clip có sự kết hợp của các giọng nói, bao gồm cả giọng nói mục tiêu, và được yêu cầu xác định từ thứ hai được nói bởi giọng nói mục tiêu. Các kích hoạt mô hình đối với hỗn hợp này được nhân với mức tăng là kết quả của kích thích gợi ý trước đó. Điều này được kỳ vọng sẽ khiến giọng nói mục tiêu được "khuếch đại" trong mô hình, nhưng không rõ liệu hiệu ứng này có đủ để tạo ra hành vi chú ý giống như con người hay không.

Các nhà nghiên cứu phát hiện ra rằng trong nhiều điều kiện khác nhau, mô hình hoạt động rất giống

Cách não bộ xử lý 'vấn đề bữa tiệc cocktail'

Tóm tắt nhanh

Điểm chính

Cách bộ não xử lý "vấn đề cocktail party"

Mô hình hóa sự chú ý

Góc nhìn từ cộng đồng