شک علمی بزرگ؛ آزمونی که درک واقعی را سنجید
محققان مؤسسه فناوری ماساچوست (MIT) در پژوهشی تازه، با معرفی بنچمارکی جدید به نام WorldTest، یکی از بنیادی ترین فرضیات درباره ی هوش مصنوعی را به چالش کشیدند: آیا مدل های زبانی و تصویری پیشرفته، واقعاً جهان را می فهمند؟
پاسخ کوتاه و تکان دهنده بود: خیر.
حتی پیشرفته ترین مدل ها مانند Claude، Gemini 2.5 Pro و OpenAI o3 نتوانستند عملکردی نزدیک به انسان ها ارائه دهند.
به گفته ی پژوهشگران، اگرچه این مدل ها در پیش بینی داده ها و پاسخ گویی به پرسش ها توانمند هستند، اما آنچه انجام می دهند درک نیست، بلکه تقلید هوشمندانه از الگوهای آماری است.
WorldTest؛ بنچمارکی برای سنجش فهم، نه حافظه
برخلاف آزمون های متداولی که تنها مهارت پیش بینی یا یادآوری داده ها را می سنجند، WorldTest طراحی شده تا مشخص کند آیا مدل هوش مصنوعی می تواند مدلی درونی از واقعیت (Internal World Model) بسازد.
برای این هدف، تیم MIT زیرمجموعه ای از آزمون به نام AutumnBench را توسعه داد؛ شامل 43 دنیای تعاملی و 129 وظیفه ی متمایز. در این محیط ها، مدل ها باید بتوانند:
بخش های پنهان یا نادیدنی محیط را پیش بینی کنند،
برای رسیدن به اهداف خود برنامه ریزی چندمرحله ای انجام دهند،
و تشخیص دهند چه زمانی قوانین محیط تغییر کرده اند.
در کنار این مدل ها، بیش از 517 داوطلب انسانی نیز همین وظایف را انجام دادند تا معیار مقایسه ی واقعی شکل بگیرد.
شکست مدل ها در برابر انسان ها
نتایج نشان داد انسان ها در تمامی دسته ها عملکردی برتر و سازگارتر از هوش مصنوعی داشتند. حتی زمانی که توان محاسباتی مدل ها افزایش یافت، پیشرفت معناداری در کیفیت درک یا انعطاف شناختی آن ها دیده نشد.
پژوهشگران در گزارش خود نوشتند:
«مدل های زبانی بزرگ در واقع از جهان درکی ندارند؛ آن ها صرفاً الگوهای آماری را بازتولید می کنند و قادر به اصلاح باورها یا کشف قوانین جدید محیط نیستند.»
درک یا تقلید؟ تفاوت ظریف اما حیاتی
درک انسانی بر پایه ی سه فرآیند اساسی شکل می گیرد: کاوش (Exploration)، فرضیه سازی (Hypothesis Testing) و اصلاح باور (Belief Updating).
اما مدل های کنونی هوش مصنوعی، حتی با دسترسی به میلیون ها پارامتر و داده، فاقد این چرخه ی پویا هستند.
به بیان ساده، اگر محیط دچار تغییر شود — مثلاً قانون فیزیکی متفاوتی اعمال گردد — مدل های کنونی همچنان پاسخ های قبلی خود را تکرار می کنند، درحالی که انسان در چند لحظه درک خود را به روز می کند.
پیامدهای پژوهش: محدودیت درک شناختی مدل ها
نتایج WorldTest پیامدهای مهمی برای آینده ی توسعه ی هوش مصنوعی دارد. اگر مدل ها نتوانند درک مفهومی و پویای از جهان داشته باشند، کاربرد آن ها در حوزه هایی مانند رباتیک خودمختار، تصمیم گیری بحرانی، یا تعامل انسانی عمیق با چالش های جدی روبه رو خواهد شد.
پژوهشگران MIT تأکید می کنند که این آزمایش، نخستین گام برای اندازه گیری «فهم واقعی» (True Understanding) به جای حافظه یا تقلید است و شکاف میان انسان و ماشین در این حوزه، هنوز بسیار عمیق تر از تصور ماست.
دیدگاه متخصصان؛ آغاز دوران آزمون های شناختی برای AI
به گفته ی یکی از اعضای تیم تحقیقاتی، WorldTest می تواند در آینده به استاندارد جهانی برای ارزیابی مدل های شناختی هوش مصنوعی تبدیل شود.
او می گوید:
«تا زمانی که مدل ها نتوانند همانند انسان، جهان را کشف، مدل سازی و پیش بینی کنند، نمی توان از درک سخن گفت. ما اکنون تنها شاهد تقلید پیشرفته ای از زبان و داده ها هستیم.»
در واکنش به این تحقیق، برخی متخصصان در سیلیکون ولی آن را «هشدار جدی برای توسعه ی AGI» توصیف کرده اند؛ چرا که نشان می دهد افزودن داده و پارامتر لزوماً منجر به افزایش درک شناختی نمی شود.
شکاف میان هوش و فهم
پژوهش MIT یادآوری می کند که مسیر رسیدن به هوش مصنوعی واقعاً «فهم مند» هنوز طولانی است.
مدل های کنونی مانند GPT، Claude و Gemini اگرچه در زبان، تحلیل و تصویرسازی خیره کننده اند، اما جهان را نمی فهمند — فقط آن را تقلید می کنند.
WorldTest اولین گام برای سنجش این تفاوت بنیادین است؛ تفاوتی میان دانستن و درک کردن، میان محاسبه و فهم.
ثبت یک نظر