loader image

الذكاء الاصطناعي يقفز لفهم العالم الفيزيائي عبر نماذج تحاكي الأطفال #البوابة_التقنية

بواسطة
11 Views
مدة القراءة: 5 دقيقة

فى ظل طموحات البشرية البعيدة، لم يكن هناك أعمق من فهم كيفية عمل الدماغ البشري وبناء الآلات التي تستطيع محاكاة الإدراك والحدس. على الرغم من التقدم الكبير الذي قُمم به نماذج الذكاء الاصطناعي في معالجة البيانات واللغة، ظلت هذه النماذج تعاني من فجوة كبيرة في القدرة على فهم العالم المادي ببديهية، وهي القدرة التي تكتسبها الأطفال الرضع بسهولة من خلال الملاحظة.

تُشير الأبحاث الحديثة إلى أن هذه الفجوة تتقلص بسرعة، من خلال تطوير نماذج قادرة على إظهار الدهشة عند تغير قواعد الفيزياء أمامها، أي عند وقوع أحداث غير منطقية. ويُمثل نموذج (V-JEPA) خطوة مهمة نحو تزويد الذكاء الاصطناعي بفهم فطري للعالم، مما يمثل ثورة في مجالات الروبوتات والمركبات الذاتية القيادة.

الذكاء الاصطناعي يحاكي إدراك الأطفال الرضع: في خطوة علمية متميزة، تمكن الباحثون في شركة (ميتا) من تطوير نموذج للذكاء الاصطناعي يتمتع بقدرة على فهم المبادئ الفيزيائية الأساسية للعالم، والمعروفة باسم (الحدس الفطري)، والذي تكتسبه الأطفال الرضع من خلال الملاحظة. وتتمثل هذه الخطوة السابقة في نموذج (V-JEPA)، والذي يستطيع التعبير عن الشعور بالدهشة عندما يواجه أحداثاً مستحيلة فيزيائياً، مثل اختفاء كائن دون سبب، محاكياً بذلك رد فعل الأطفال البالغة من العمر ستة أشهر تجاه ديمومة الكائن.

وليس نموذج (V-JEPA) يعتمد على قواعد فيزيائية مبرمجة مسبقاً، بل يتعلم من خلال مشاهدة الملايين من الفيديوهات، تماماً كما تتعلم العقول البشرية من خلال التجربة. ووفقاً لاختبارات ميتا، يستطيع النموذج التنبؤ بما سيحدث في الفيديوهات بناءً على (التمثيلات الكامنة) Latent Representations، وهي عبارة عن طبقات تجريدية تختصر آلاف البكسلات في معلومات جوهرية حول الأشياء وحركتها ومكانها. وإذا خالفت المشاهد المستقبلية توقعاته المنطقية، يظهر خطأ كبير في التنبؤ، يشبه شعور المفاجأة لدى الأطفال الرضع.

ولكن كيف يختلف نموذج (V-JEPA) في فهم المشاهد عن النماذج التقليدية؟ يواجه مهندسو الذكاء الاصطناعي، وخاصة أولئك الذين يطورون أنظمة القيادة الذاتية، تحدياً أساسياً في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري. لمدة طويلة، اعتمدت الأنظمة المصممة لتحليل محتوى الفيديو، سواء لتصنيفه أو لتحديد معالم الأجسام المحيطة، على ما يُسمى (فضاء البكسل) Pixel Space. وفي هذا الفضاء، يُعامل كل نقطة لونية (بكسل) في المشهد بنفس الوزن، في عملية تشبه تلقي الدماغ جميع المدخلات الحسية دون فلترة أو تحديد الأولويات.

ولكن، هذا المنهج يعاني من نقطة عمياء إدراكية حتى في ظل فعاليتة في بعض السياقات. تخيل مشهداً معقداً لشارع مليء بالسيارات وإشارات المرور. لو أصر النموذج على معالجة تفاصيل دقيقة وغير جوهرية مثل حركة الأوراق أو تباين الظلال، فسيؤدي ذلك إلى إغفال المعلومات الأكثر أهمية، مثل لون إشارة المرور أو الموقع الدقيق للسيارات المجاورة. كما يوضح الباحثون، فإن العمل في فضاء البكسل يعني التعامل مع كميات كبيرة من التفاصيل التي لا تُنبغي نمذجتها بالضرورة، مما يعيق الكفاءة والقدرة على اتخاذ قرارات سريعة ومدركة.

ولمعالجة هذا القصور، تطورت ميتا معمارية (Video Joint Embedding Predictive Architecture) المعروفة اختصاراً باسم (V-JEPA) والتي أطلقتها في عام 2024، بهدف محاكاة جزء أساسي من العملية الإدراكية البشرية، وهو التجريد الانتقائي. بينما تقوم النماذج التقليدية بحجب أجزاء من إطارات الفيديو وتدريب الشبكة على التنبؤ بقيمة البكسلات المفقودة، يتخذ نموذج (V-JEPA) مساراً مختلفاً جذرياً. باستخدام عملية الحجب نفسها، لكنه لا يتنبأ بما خلف القناع على مستوى البكسل، بل يتنبأ بالمحتوى بناءً على مستويات أعلى من التجريد تُعرف باسم التمثيلات الكامنة (Latent Representations)، وهي الجوهر الفلسفي والتقني الذي يحاكي الإدراك البشري.

ويعتمد النموذج على مشفّر يحول الإطارات إلى مجموعة صغيرة من القيم الرقمية، التي تمثل السمات الجوهرية مثل شكل الجسم وأبعاده وموقعه وحركته والعلاقات بين العناصر. وبدلاً عن آلاف البكسلات، يتعامل النظام مع جوهر المشهد فقط، تماماً كما يعالج الدماغ المدخلات البصرية بإهمال الضوضاء وتركيزه على المعلومات المفيدة. ويؤكد كوينتن جاريدو، عالم الأبحاث في (ميتا)، أن قوة هذا النموذج تكمن في قدرته على تصفية المعطيات، قائلاً: “تتيح هذه الآلية للنموذج التخلص من التفاصيل غير الضرورية والإكتفاء بتركيزه على الجوانب الأكثر جوهرية وأهمية في المشهد المصور. التخلص الكفء من المعلومات الزائدة هو هدف محوري يسعى نموذج (V-JEPA) إلى تحقيقه بأقصى درجات الفعالية”.

ويمنح هذا التحول من نمذجة البكسلات إلى نمذجة المعاني، نموذج (V-JEPA) قدرة كبيرة على التعميم، ودقة عالية في فهم المشاهد الجديدة، وكفاءة لافتة في البيئات المعقدة مثل القيادة الذاتية أو الروبوتات. وبذلك،…

شبكة الأخبار المتحدة – UNN العربية
منصة إعلامية مستقلة تقدّم أخباراً موثوقة وتحليلات موضوعية، وتسعى إلى تعزيز السلام والحوار الثقافي حول العالم، لنقل الحقيقة وبناء جسور التفاهم بين الشعوب.

للمزيد من الأخبار يمكنكم زيارة صفحتنا الرئيسية:
https://un-news.org

شارك هذه المقالة
لا توجد تعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *