مقایسه بارد، بینگ و ChatGPT، کدام چت بات بهتر است؟
اکنون چت بات های مبتنی بر هوش مصنوعی یکی پس از دیگری معرفی می شوند، اما کدام یک بهتر است و برای چه کاری؟ ما مدلهای گوگل بارد، بینگ مایکروسافت و ChatGPT OpenAI را با طیف وسیعی از سؤالات و درخواست ها کردیم.
شما میتوانید سؤالات، ارزیابیها و نتیجهگیریهای ما را در ادامه مرور کنید، اما به صورت خلاصه و صرفه جویی در وقت و رسیدن سریع به نتیجه باید بگوییم که ChatGPT از نظر کلامی بهترین است، Bing برای دریافت اطلاعات از وب بهترین است و Bard هم دارد تمام تلاشش را می کند (واقعاً بسیار تعجب آور است که چت بات گوگل در مقایسه با دو ربات دیگر چقدر محدود است).
ما از آخرین مدل چت جی پی تی یعنی GPT-4 در این مقایسه استفاده کردیم. این نسخه نیز همان مدل هوش مصنوعی است که بینگ را تقویت می کند اما این دو سیستم پاسخ های کاملاً متفاوتی می دهند. مهمتر از همه، Bing تواناییهای دیگری نیز دارد: میتواند تصاویر تولید کند و به وب دسترسی داشته باشد و منابعی را برای پاسخهای خود ارائه دهد. با این حال، همانطور که ما در حال تکمیل این مقایسه بودیم، OpenAI اعلام کرد که پلاگینهایی را برای ChatGPT راهاندازی میکند که به آن اجازه میدهد به دادهها از اینترنت نیز دسترسی داشته باشد. این کار قابلیتهای سیستم را بسیار گسترش میدهد و عملکردی بسیار شبیه بینگ به آن میدهد. اما این ویژگی در حال حاضر فقط برای مجموعه کوچکی از کاربران در دسترس است، بنابراین ما نتوانستیم آن را آزمایش کنیم.
همچنین مهم است که به یاد داشته باشید که مدلهای زبان هوش مصنوعی از چند جهت مبهم هستند. آن ها مانند نرم افزارهای معمولی نیستند، بلکه احتمالاتی هستند که بر اساس نظم های آماری در داده های آموزشی خود پاسخ هایی ایجاد می کنند. این بدان معناست که اگر شما همان سوال را از آن ها بپرسید، همیشه پاسخ یکسانی را دریافت نخواهید کرد. همچنین به این معنی است که نحوه بیان یک سؤال می تواند بر پاسخ تأثیر بگذارد.
دستور تهیه کیک شکلاتی را به من بده
دستور پخت کیک، فضایی برای خلاقیت فراهم می کند. نسبت های آرد، آب، روغن، کره، شکر و تخم مرغ را تغییر دهید و نسخه کمی متفاوت از کیک خود را دریافت خواهید کرد. بنابراین وقتی صحبت از رباتهای چت به میان میآید، لزوماً اگر آن ها بخواهند دستور العملهای مختلف را برای رسیدن به اثر دلخواه ترکیب کنند در نهایت چیز بدی از آب در نخواهد آمد.
ChatGPT تنها موردی است که این کار را برای من انجام می دهد. دستور تهیه کیک شکلاتی را از یک سایت و دستور پخت کره خامه ای را از سایت دیگر انتخاب کرد، پیوند یکی از این دو را به اشتراک گذاشت و هر دوی آن ها را به درستی بازتولید کرد. حتی دستورالعملهای مفیدی را اضافه کرد، مانند پیشنهاد استفاده از کاغذ روغنی و ارائه نکاتی در مورد نحوه جمعآوری لایههای کیک، که هیچ کدام در منابع اصلی یافت نشد.
پاسخ بینگ تا حدودی درست است. بینگ دستور العمل خاصی را ذکر می کند اما سپس برخی از مقادیر را برای آرد تغییر می دهد. برای کره خامه ای، مقدار شکر توصیه شده را به طور کامل نصف می کند و این چیزی نیست که نویسنده آن را خواسته است.
در همین حال، بارد به نحوی گند می زند و زمان پخت کیک خود را کمتر بیان میکند. مشکل بزرگتر این است که تغییراتی ایجاد می کند که به طور معنی داری بر طعم تأثیر می گذارد. دوغ را با شیر و قهوه را با آب تعویض می کند. همچنین، شیر یا خامه غلیظ را در دستور تهیه کره خامه ای خود قرار نمی دهد.
اگر ChatGPT یا Bing را دنبال میکنید، فکر میکنم در نهایت کیک مناسبی خواهید داشت. اما در حال حاضر، ایده بدی است که از بارد در آشپزخانه کمک بخواهید.
چگونه RAM را روی کامپیوتر خود نصب کنم؟
هر سه چت بات توصیه های خوبی را در اینجا ارائه می دهند، اما به اندازه کافی جامع نیستند.
اکثر کامپیوترهای مدرن نیاز به اجرای رم در حالت دو کاناله دارند، به این معنی که میله ها باید در اسلات های صحیح قرار گیرند تا بهترین عملکرد را در یک سیستم داشته باشند. در غیر این صورت، پولی که برای خرید رم خرج کردهاید بیهوده است و در بهترین حالت خود کار نخواهد کرد. دستورالعمل نصب صحیح قطعاً باید در کاتالوگ یا بروشور سخت افزار آورده شده باشد تا اطمینان حاصل شود که RAM به خوبی نصب شده است.
ChatGPT بخش مهمی از فرآیند نصب رم را بیان می کند (یعنی قسمت بررسی بایوس) اما مرحله مهم دیگری که بعد از بایوس باید طی شود را اشاره نمی کند. اگر رم سازگار با XMP اینتل انتخاب کرده اید، معمولاً باید این را در تنظیمات BIOS فعال کنید. در غیر این صورت، شما RAM خود را در بهینهترین حالت اجرا نمیکنید تا بهترین عملکرد را داشته باشید.
به طور کلی، پاسخ چت بات ها خوب بود اما کامل نبود. بنابراین بهتر است در اینجا از یک تعمیرکار رایانه کمک بگیرید.
برای من شعری در مورد کرم بنویس
اگر چت باتهای هوش مصنوعی قابل اعتماد نیستند پس حداقل باید خلاق باشند. این کار یعنی شعر نوشتن چالش برانگیز است و ChatGPT برنده آشکار بود و بعد از آن با فاصله بینگ و سپس بارد قرار دارند.
هیچ یک از چت بات ها قادر به بازتولید شعر چهار وزنی نبودند اما ChatGPT نزدیکترین نتیجه را دارد در حالی که بارد بدترین است. هر سه محتوای مرتبط ارائه میکنند، اما باز هم، ChatGPT بهترین است.
پس از اجرای چند تست شعر دیگر، از رباتها نیز خواستم تا به سؤالاتی درباره بخشهایی از داستان علمی تخیلی Iain M پاسخ دهند. باز هم، ChatGPT/GPT-4 بهترین بود، که میتوانست انواع تفاوتهای ظریف را در متن تجزیه کند و استنباطهایی شبیه انسان درباره آنچه که شرح داده میشود، بسازد در مقایسه با بارد که بسیار کلی و غیر اختصاصی بود. واضح است که اگر استدلال شفاهی می خواهید، ChatGPT سیستم برتر است.
ریاضی
با اینکه مدل های زبان بزرگ (large language models) پیچیده ترین برنامه های کامپیوتری ما تا به امروز هستند، در عین حال به طرز شگفت آوری در ریاضیات بد هستند. واقعا وقتی نوبت به محاسبات می رسد، به یک چت بات برای محاسبه اعداد اعتماد نکنید.
در مثال بالا، من پرسیدم که ۲۰ درصد افزایش در ۲۲۳۰ چند می شود و این سؤال را در چارچوب داستانی قرار دادم. پاسخ صحیح ۲۶۷۶ است، اما بارد با ۱۰ عدد اختلاف پاسخ اشتباهی داد در حالی که Bing و ChatGPT درست پاسخ دادند. در آزمایشهای دیگر، از سیستمها خواستم که اعداد بزرگ را ضرب و تقسیم کنند (نتایج متفاوت بود، اما باز هم بارد بدترین بود) و سپس، برای یک محاسبه پیچیدهتر، از هر چت بات خواستم تا بازپرداخت ماهانه و بازپرداخت کل برای وام مسکن ۱۲۵۰۰۰ دلاری را تعیین کنند. هیچ یک پاسخ ارائه شده توسط ماشین حساب آنلاین وام مسکن را ارائه نکردند و بارد و بینگ نتایج متفاوتی را در مواقعی که چندین بار از آن ها پرسیده شد، ارائه کردند. GPT-4 حداقل باثبات بود.
این تعجب آور نیست. چت بات ها بر روی حجم وسیعی از متن آموزش می بینند و بنابراین قوانین سخت کدگذاری شده ای برای انجام محاسبات ریاضی ندارند، فقط نظم های آماری در داده های آموزشی خود دارند. این بدان معناست که وقتی با محاسبات غیرمعمول مواجه می شوند، اغلب اشتباه می کنند. اما می توانند از بسیاری جهات آن را جبران کنند. برای مثال، بینگ وقتی در مورد وام مسکن سوال کردم، من را به یک سایت ماشین حساب وام مسکن ارجاع داد و افزونههای ChatGPT شامل یک گزینه Wolfram Alpha است که باید برای انواع محاسبات پیچیده فوقالعاده باشد. اما در عین حال، برای محاسبات ریاضی به یک چت بات اعتماد نکنید. فقط یک ماشین حساب بگیرید.
طراحی یک برنامه برای دوی ماراتن
در این تست، ChatGPT با فاصله زیادی برنده است. بینگ به خودش زحمت داد و من را به مقالهی Runner’s World ارجاع داد. این لزوماً یک تصمیم غیرمسئولانه نیست. Runner’s World در برنامههای ماراتن متخصص است. اما اگر فقط میخواستم به امید بینگ باشم، قطعا ناامید می شدم.
طرح بارد فقط گیج کننده بود. با اینکه قول داده بود که یک برنامه تمرینی سه ماهه ارائه کند، اما فقط برنامههای تمرینی خاصی را برای سه هفته فهرست کرد، برنامه های داده شده و برخی نکات کلی ارائه شده در پایان خوب به نظر می رسیدند، اما بارد برنامه کاملی را ارائه نکرد.
از سوی دیگر، ChatGPT یک برنامه کامل را مشخص کرد. من فکر می کنم می توانید از توصیه های آن به عنوان یک الگو استفاده کنید.
تست استدلال: الماس را پیدا کنید
این آزمون از گری مارکوس الهام گرفته شده است که تواناییهای مدلهای زبان را ارزیابی میکند تا ببیند آیا رباتها میتوانند الماسی را پیدا کنند یا خیر. در یک روایت کوتاه که نیاز به دانش ضمنی در مورد چگونگی کارکرد جهان دارد.
ChatGPT تنها سیستمی بود که پاسخ صحیح را داد: الماس روی کمد است، زیرا داخل ژاکت قرار داده شده بود و محتویات ژاکت پس از تصادف راوی تخلیه شد. بینگ و بارد فقط گفتند که الماس هنوز در لباس است.
در حال حاضر، تجزیه و تحلیل نتایج آزمایش هایی مانند این دشوار است. این تنها تغییری نبود که من امتحان کردم و Bard و Bing گاهی اوقات پاسخ درست را می گفتند و ChatGPT گاهی اوقات آن را اشتباه میگرفت (و همه مدلها وقتی از آن ها خواسته میشد دوباره امتحان کنند، پاسخ خود را تغییر میدادند). آیا این نتایج ثابت می کند یا رد می کند که این سیستم ها دارای نوعی قابلیت استدلال هستند؟ بنابراین من در مورد آن نظری نمیدهم. اما فقط از نظر مقایسه سیستم ها، ChatGPT/GPT-4 دوباره موفق ترین است.
چت بات مناسب را انتخاب کنید
همانطور که در مقدمه ذکر شد، این تست ها نقاط قوت واضحی را برای هر سیستم نشان می دهد. اگر به دنبال انجام وظایف کلامی، اعم از نوشتن خلاق یا استدلال هستید، ChatGPT را امتحان کنید. اگر به دنبال یک چت بات برای استفاده به عنوان رابط با وب یا برای یافتن منابع و پاسخ به سؤالاتی هستید، به بینگ بروید و اگر سهام گوگل را دارید و میخواهید به خودتان اطمینان دهید که انتخاب درستی کردهاید، Bard را امتحان کنید.
بیشتر بخوانید:
چه کارهایی می توان با ChatGPT انجام داد؟
ChatGPT چیست و چگونه از آن استفاده کنیم؟
بهترین جایگزین های رایگان برای ChatGPT