سباق محتدم لإعادة تصميم اختبارات نماذج الذكاء الاصطناعي

كريستينا كريدل

باتت وتيرة التقدم التكنولوجي متسارعة للغاية، مما دفع المؤسسات التقنية إلى خوض غمار منافسة محمومة لإعادة هيكلة اختبارات وتقييمات نماذج الذكاء الاصطناعي الخاصة بها.

وأعلنت كل من «أوبن إيه آي» و«مايكروسوفت» و«ميتا» و«أنثروبيك» مؤخراً عزمها تطوير وكلاء ذكاء اصطناعي قادرين على تنفيذ المهام بشكل مستقل نيابة عن البشر. ولتحقيق ذلك بكفاءة يجب أن تتمتع هذه الأنظمة بالقدرة على إنجاز عمليات معقدة على نحو متزايد من خلال توظيف التفكير والتخطيط.

وتجري الشركات «تقييمات» لنماذج الذكاء الاصطناعي من خلال موظفيها وباحثين مستقلين، باستخدام اختبارات قياسية تعرف بمعايير الأداء، والتي تُعنى بفحص قدرات النماذج ومقارنة أداء الأنظمة المختلفة أو الإصدارات السابقة.

ومكنت التطورات الأخيرة في تكنولوجيا الذكاء الاصطناعي العديد من النماذج الحديثة من تحقيق دقة تصل إلى 90 في المئة أو تتجاوزها في الاختبارات، مما يؤكد الحاجة إلى وضع معايير جديدة.

وشدد أحمد الدحلة، رئيس قسم الذكاء الاصطناعي التوليدي في «ميتا»، على التطور السريع، الذي تشهده هذه الصناعة، قائلاً: «لقد بلغنا مرحلة بات تقييم هذه الأنظمة فيها أمراً صعباً، مع تضاؤل قدرتنا على قياس بعضها، وتزايد صعوبة تقييمها». ولمواجهة هذا التحدي طورت بعض الشركات، مثل «أوبن إيه آي» و«مايكروسوفت» و«ميتا»، اختباراتٍ ومعايير داخلية خاصة بها لتقييم الذكاء الاصطناعي، إلا أن هذا الأمر أثار مخاوف العديد من العاملين في هذا المجال بشأن صعوبة مقارنة التقنيات المختلفة في ظل غياب اختباراتٍ معيارية مفتوحة للجمهور.

وقال دان هندريكس، المدير التنفيذي لمركز أمان الذكاء الاصطناعي ومستشار شركة «إكس إيه آي» التابعة لايلون ماسك: «يتيح لنا العديد من هذه المعايير معرفة مدى اقترابنا من أتمتة المهام والوظائف، لكن بدون نشرها علناً، يصبح من الصعب على الشركات والمجتمع ككل تقييم الأمر».

وتعتمد المعايير العامة الحالية، مثل «هيلاسواج» و«إم إم إل يو»، على أسئلة مع خيارات متعددة للإجابة بغرض تقييم القدرات الحسية والمعرفية، إلا أن الباحثين يرون أن هذه الطريقة أصبحت مكررة وغير كافية، وأن النماذج بحاجة إلى مشكلات أكثر تعقيداً لتطوير أدائها.

في أغسطس الماضي تم تحديث أحد المعايير العامة وهو «إس دبليو إي-بنج فيريفيد»، بهدف تحسين قدرته على تقييم الأنظمة الذاتية، بالاعتماد على آراء شركات مثل «أوبن إيه آي». ويعتمد هذا المعيار على مشكلات حقيقية مستقاة من منصة «جيت هاب» للمطورين، حيث يُزوَّد وكيل الذكاء الاصطناعي بشيفرة برمجية وقضية هندسية، ويطلب منه إصلاحها، وتتطلب هذه المهام استخدام التفكير المنطقي لإتمامها.

ووفقاً لهذا المعيار يتمكن نموذج «جي بي تي - 4 أو بريفو» من «أوبن إيه آي» من حل 41.4 في المئة من المشكلات، بينما يحقق نموذج «كلود 3.5 سونيت» من «انثروبيك» نسبة 49 %. وفي هذا الإطار قال جاريد كابلان، رئيس قسم العلوم في شركة «أنثروبيك»: «إن الأمر يصبح أكثر تحديا مع «الانظمة الوكيلة»، لأنه يتعين عليك ربط هذه الأنظمة بالعديد من الأدوات الإضافية»، وتابع قائلاً: «من الضروري أن تقوم بإنشاء بيئة محاكاة شاملة لكي تعمل هذه الأنظمة بداخلها، فالمسألة ليست مجرد إعطاء أمر ثم انتظار الإجابة وتقييمها».

ومن العوامل الأساسية في إجراء اختبارات متقدمة هو ضمان إبقاء أسئلة المعايير بعيداً عن المجال العام، وذلك لتفادي قيام النماذج «بالغش» من خلال استحضار الإجابات من بيانات التدريب بدلاً من إيجاد الحلول للمشكلة. والقدرة على التفكير المنطقي والتخطيط أمر بالغ الأهمية لتحقيق أقصى استفادة من وكلاء الذكاء الاصطناعي، الذين يمكنهم إتمام المهام عبر مراحل متعددة وتطبيقات مختلفة، وتصحيح أخطائهم بأنفسهم.

وقالت إيسه كمار، نائب الرئيس ومديرة مختبر «إيه آي فرونتيرز» في أبحاث مايكروسوفت: «إننا نكتشف طرقاً جديدة لقياس هذه الأنظمة، ومن أهمها التفكير المنطقي، الذي يعد ركيزة أساسية في هذا المجال». وفي ضوء ذلك تعمل «مايكروسوف» على تطوير معيار داخلي خاص بها، يتضمن مشكلات لم تظهر من قبل في التدريب، بهدف تقييم ما إذا كانت نماذج الذكاء الاصطناعي الخاصة بها قادرة على التفكير بطريقة مشابهة للبشر.

وشكك بعض الباحثين، بمن فيهم باحثون من شركة أبل، فيما إذا كانت النماذج اللغوية الكبيرة الحالية «تفكر»، مشيرين إلى أن العملية مجرد «مطابقة أنماط» لأقرب البيانات المشابهة التي تم تدريبها عليها.

وقال روشيير بوري، كبير العلماء في أبحاث آي بي إم: «في المجالات المحدودة التي تهتم بها الشركات فإن النماذج اللغوية الحالية تُفكر بالفعل، إلا أن النقاش يدور الآن حول هذا المفهوم الأوسع للتفكير على المستوى البشري، وهو ما قد يضعه في سياق الذكاء الاصطناعي العام، فهل هذه النماذج تفكر حقاً، أم أنها تُردد فقط؟».

وتعتمد «أوبن إيه آي» في قياس التفكير بشكل أساسي على التقييمات التي تشمل العلوم والتكنولوجيا والهندسة والرياضيات (STEM) ومهام البرمجة. وفي هذا الصدد قال مارك تشين: «التفكير مصطلح شامل للغاية يختلف تعريفه وتفسيره من شخصٍ لآخر... والحدود الفاصلة بين هذه التعريفات جميعها غير واضحة بالمرة، ونحن نحاول ألا ننشغل كثيراً بهذا الأمر، بل نركز على ما إذا كان ذلك يُعزز الفائدة أو الأداء أو القدرات».

وقد دعت الحاجة إلى وجود معايير جديدة إلى قيام عدة منظمات خارجية بإطلاق مجموعة من المبادرات، ففي سبتمبر الماضي، أعلنت شركة «سكيل إيه آي» الناشئة وهندريكس عن مشروع مبتكر باسم «آخر امتحان للبشرية»، وهو مشروع يعتمد على جمع أسئلة معقدة من خبراء في مجالات متعددة تتطلب التفكير المجرد لإكمالها.

ومثال آخر هو «فرونتير ماث»، وهو معيار جديد صدر منذ أيام، وقد أنشأه رياضيون متخصصون، وبناء على هذا المعيار، لا تتمكن النماذج المتقدمة من الإجابة عن أكثر من 2 % من الأسئلة.

وقد حذر الخبراء من أنه بدون اتفاق واضح بشأن كيفية قياس هذه القدرات، قد يكون من الصعب على الشركات تقييم منافسيها أو على الشركات والمستهلكين فهم السوق بشكل صحيح.