چرا ChatGPT در ریاضیات استعداد ندارد؟

اگر تا به حال سعی کرده‌اید از ChatGPT به عنوان یک ماشین حساب استفاده کنید، مطمئناً متوجه ناتوانی آن در حل معادلات ریاضی شده‌اید. چت‌بات‌ها در علوم محاسباتی بی‌استعداد هستند.

به گزارش برداشت روز، کلود از آنتروپیک نمی‌تواند حتی مسائل ساده‌ای را حل کند، جمینای در درک معادلات درجه دوم ناتوان است و سایر چت‌بات‌ها نیز در ریاضیات شکست می‌خورند. چگونه این ربات‌های هوشمند به محاسبات ریاضی مقطع ابتدایی برخورد می‌کنند؟
به گزارش سایت برداشت روز، پاسخ در «فرآیند رمزگذاری» است که توسط آن هوش مصنوعی به رمزگذاری فشرده اطلاعات از طریق فرآیند تقسیم‌بندی داده‌ها به بخش‌های مختلف کمک می‌کند (برای مثال، تقسیم کلمه «زیبا» به هجاهای «c» «m» «j» «l»). از آنجایی که ابزارهای تقسیم‌بندی در مدل‌های هوشمند نمی‌دانند چه اعدادی هستند، اغلب روابط بین آنها را از بین می‌برند.

به عنوان مثال، یک ابزار هش ممکن است “380” را به عنوان یک شی تلقی کند، اما “381” را به عنوان یک جفت اعداد (“38” و “1”) درک کند و خطا رخ می دهد.

اما فرآیند کدگذاری تنها دلیل ضعیف بودن هوش مصنوعی در ریاضیات نیست. سیستم‌های هوش مصنوعی، ماشین‌های آماری هستند و پس از آموزش روی موارد فراوان، الگوهای آن نمونه‌ها را برای پیش‌بینی‌ها یاد می‌گیرند.

در یک مثال دیگر؛ وقتی از چت جی‌پی‌تی در مورد مسئله ضربی مانند 5.7897 x 1.2832 پرسیده می‌شود، مدل احتمالاً نتیجه می‌گیرد که حاصل ضرب عددی که به «7» ختم می‌شود و عددی که به «2» ختم می‌شود به «4» ختم می‌شود. این کار با تکیه بر اشتباهاتی در عملیات ضرب که قبلاً با آنها مواجه شده و از آنها یاد می‌گیرد، انجام می‌شود.
اما چت جی‌پی‌تی در قسمت میانی مشکل خواهد داشت و پاسخ را 742,021,104 می‌دهد در حالی که پاسخ صحیح 742,934,304 است.
یونتیان دینگ، استادیار دانشگاه واترلو که متخصص در زمینه هوش مصنوعی است، در مطالعه‌ای که امسال انجام داد، برخی قابلیت‌های GPT را به طور جامع ارزیابی کرد.
او و همکارانش دریافتند که مدل پیش فرض، GPT-4o، در ضرب اعداد با بیش از 4 رقم، مانند 3459×5284 مشکل دارد.
دینگ گفت که GPT-4O در ضرب اعداد متعدد مشکل دارد و در ضرب اعداد 4 رقمی به دقت کمتر از 30 درصد دست می‌یابد. وی افزود که محاسباتی از این دست «برای مدل‌های زبان چالشی ایجاد می‌کند، زیرا هر گونه خطایی در هر مرحله بعدی می‌تواند انباشته شود و سپس منجر به نتیجه نهایی نادرست شود».
اما از طرفی دینگ خوشبین است. در مطالعه‌ای که او و همکارانش بر روی مدل «O1» انجام دادند، که مدل «استنتاج» OpenAI است، این مدل به نتایج بسیار بهتری نسبت به GPT-4 دست یافت، زیرا قادر به حل عملیات ضرب اعداد مؤلفه‌ها بود.
وی افزود: «این مدل ممکن است فرآیند ضرب را به روش‌هایی حل کند که با روش‌هایی که ما آن را به صورت دستی حل می‌کنیم متفاوت باشد، و این کنجکاوی ما را در مورد رویکرد مدل برای حل مشکلات و تفاوت آن با استدلال انسانی افزایش می‌دهد