سباق لتحويل «موجات الدماغ» لـ«كلام مسموع»

مايكل بيل - كلايف كوكسون - ريتشارد واترز

يستخدم الباحثون وشركات بحثية في كاليفورنيا، مثل «بريسيجن نيوروساينس»، الغرسات الدماغية والذكاء الاصطناعي لتحقيق تقدمات في «الأجهزة التعويضية الصوتية».

في خضم مساعي سريعة التقدم لتسخير الموجات الدماغية لاستعادة أو تعزيز القدرات الجسدية، يبذل علماء الأعصاب جهوداً مضنية لمنح صوت لغير القادرين على الكلام.

ويعتبر الباحثون في جامعات كاليفورنيا المختلفة، إضافة إلى شركات مثل «بريسيجن نيوروساينس»، ومقرها نيويورك، من بين الذين يحرزون تقدماً ملحوظاً نحو توليد كلام طبيعي من خلال مزيج من الغرسات الدماغية والذكاء الاصطناعي.

ولطالما ركزت الاستثمارات وانصب الانتباه على الغرسات التي تتيح للأفراد شديدي الإعاقة استخدام لوحات مفاتيح الكمبيوتر، أو التحكم في أذرع روبوتية، أو استعادة بعض من القدرة على استخدام أطرافهم التي أصيبت بالشلل. لكن بعض المختبرات خطت خطوات كبيرة من خلال التركيز على التكنولوجيا التي تحول أنماط التفكير إلى كلام.

وقال إدوارد تشانغ، جراح الأعصاب لدى جامعة كاليفورنيا في سان فرانسيسكو: «حققنا تقدماً كبيراً، وتحويل صوت الدماغ إلى صوت اصطناعي وبالطلاقة نفسها كما في دردشة بين شخصين قادرين على الحديث هدف مهم بالنسبة لنا». وتابع: «تزداد خوارزميات الذكاء الاصطناعي التي نستخدمها سرعة، ونحن بصدد التعلم مع كل مشارك جديد في دراساتنا».

ونشر تشانغ وزملاؤه، بما في ذلك الموجودون في جامعة كاليفورنيا بيركلي، ورقة بحثية نشرت الشهر الماضي في مجلة «نيتشر نيوروساينس»، أوضحوا فيها عملهم بالتفصيل مع سيدة تعاني شللاً رباعياً، أو شلل في الأطراف والجذع، لم تكن قادرة على التحدث طوال 18 عاماً بعد إصابتها بسكتة دماغية.

وتمكنت هذه السيدة من تدريب شبكة عصبية بتقنية التعلم العميق، من خلال محاولتها نطق جمل تتكون من 1024 كلمة مختلفة في صمت. وصاغ الفريق صوتها عن طريق بث بياناتها العصبية لنموذج يجمع بين توليد الكلام وفك تشفير النصوص.

أسفرت هذه التقنية عن تقليص الفارق الزمني بين إشارات المريض الدماغية والصوت الناتج من ثماني ثوان، وهي النتيجة التي توصل إليها الفريق سابقاً، إلى ثانية واحدة. ويعد هذا قريباً للغاية من الفارق الزمني الذي يراوح بين 100 - 200 ملي ثانية للحديث الطبيعي. وبلغ متوسط سرعة النظام في فك النظام للتشفير 47.5 كلمة في الدقيقة الواحدة، أو قرابة ثلث معدل المحادثة الطبيعية.

ويمكن لآلاف الأشخاص سنوياً الاستفادة مما يطلق عليه الطرف الصناعي الصوتي. وهم من تظل قدراتهم الإدراكية سليمة إلى حد ما، إلا أنهم عانوا فقدان النطق إثر سكتة دماغية، أو مرض التصلب الجانبي الضموري «إيه إل إس»، أو أي أمراض دماغية أخرى. وحال نجاحهم، يأمل الباحثون في توسيع نطاق هذه التقنية لمساعدة من يجدون صعوبة في الحديث بسبب أمراض، على شاكلة الشلل الدماغي والتوحد.

وبدأت إمكانات الأجهزة الطرفية الصوتية تثير اهتمام الشركات. وزعمت «بريسيجن نيوروساينس» أن بإمكانها التقاط موجات دماغية بدقة أعلى مقارنة بما يلتقطه الباحثون الأكاديميون، نظراً للكثافة التي تتمتع بها الأقطاب الموجودة في غرساتها.

وعملت الشركة مع 31 مريضاً، وتعتزم جمع بيانات من عدد أكبر عما قريب، ما سيمنحها مساراً محتملاً نحو التسويق التجاري.

وحصلت «بريسيجن نيوروساينس» على تصريح تنظيمي في 17 أبريل الجاري يسمح لها بترك المستشعرات التي زرعتها مدة 30 يوماً في المرة الواحدة. وبحسب مايكل ماغر، الرئيس التنفيذي للشركة، فمن شأن ذلك أن يتيح للعلماء تدريب نظامهم بواسطة ما يمكن أن يكون في غضون عام «أكبر مستودع للبيانات العصبية عالية الجودة على كوكب الأرض». وقال ماغر إن الخطوة التالية ستنطوي على «تصغير المكونات ووضعها في حزم محكمة الإغلاق وأن تكون متوافقة بيولوجياً ليمكن زرعها في الجسم البشري بصورة دائمة».

وركّزت شركة «نيورالينك» المملوكة لإيلون ماسك، وهي الأشهر في عالم واجهة الدماغ والحاسوب، على تمكين المصابين بالشلل من التحكم في حواسيب بدلاً من منحهم صوتاً اصطناعياً.

رغم ذلك، توجد عقبة مهمة في سبيل تطوير تكنولوجيا تحويل الموجات الدماغية إلى صوت، وهي الوقت الذي يستغرقه المرضى في تعلم كيفية استخدام النظام.

هناك مسألة أخرى مهمة لم تحل بعد، وتتعلق بمدى اختلاف أنماط الاستجابة في القشرة الحركية بين الأفراد، وهي الجزء المسؤول عن الأفعال الإرادية في الدماغ، بما في ذلك الحديث. وإذا ظلت أنماط الاستجابة متشابهة للغاية، يعتقد نيك رامسي، الباحث في تكنولوجيا واجهة الدماغ والحاسوب لدى المركز الطبي الجامعي في أوترخت، أن نماذج تعلم الآلة التي تدربت فيما سبق على مرضى سابقين يمكن استخدامها مع مرضى جدد.

ومن شأن هذا تسريع وتيرة عملية تستغرق في يومنا الحاضر «عشرات المئات من الساعات في توليد ما يكفي من البيانات بعرض نصوص على المريض المشارك ومطالبته بمحاولة نطقها».

وقال رامسي إن البحوث على تحويل الإشارات الدماغية إلى كلمات منطوقة ركزت على القشرة الحركية، حيث تحفز الخلايا العصبية العضلات المرتبطة بالتحدث، دون وجود دليل على أن الكلام يمكن أن يتولد من مناطق أخرى في الدماغ أو عن طريق فك تشفير ما يكتمه الإنسان من أفكار.

وأسهب رامسي: «وحتى وإن تمكنت من فعل ذلك، فإنك لا ترغب في سماع الناس لما يدور بخلدك». وأضاف: «هناك كثير من الأمور التي لا أنطقها بصوت عالٍ، لأن ذلك لن يكون في صالحي أو قد يكون مضراً بالناس».

من ناحيته، يرى سيرغي ستافيسكي، المدير المشارك لمختبر التعويضات العصبية لدى جامعة كاليفورنيا ديفيس، أن تطوير صوت اصطناعي بالجودة ذاتها التي يتمتع بها الكلام الطبيعي ربما تكون «بعيدة المنال».

وبرهن مختبره على إمكانية فك تشفير ما يحاول الإنسان النطق به بدقة تبلغ نحو 98 %، وفق ما أفاد به. ومع ذلك، فالناتج الصوتي ليس آنياً ولا يستوعب خصائص مهمة للكلام، مثل نبرة الصوت. ولم يكن من الواضح ما إذا كانت المعدات المستخدمة، وهي الأقطاب، مضهاة الصوت البشري بشكل سليم، بحسب ستافيسكي.

واستطرد أن العلماء بحاجة إلى تطوير فهم أكبر لكيفية إنتاج الدماغ البشري للكلام، وخوارزميات أفضل لترجمة النشاط العصبي إلى مخرجات صوتية.

وقال: «في نهاية الأمر، يجب أن يوفر الطرف الصناعي الصوتي النطاق التعبيري الكامل للأصوات البشرية، ليتمكن الشخص من التحكم بدقة في نغمة الصوت وتوقيت صدورها، والقيام بأشياء مثل الغناء».