פרופסור מאוניברסיטת וושינגטון סטייק מסוט צ'יצ'ק וצוות המחקר שלו בדקו שוב ושוב את ChatGPT על ידי מתן השערות שנלקחו ממאמרים מדעיים. המטרה הייתה לראות אם ה-AI יכול לקבוע נכון אם כל טענה נתמכת במחקר או לא – במילים אחרות, אם היא נכונה או שקרית.
בסך הכל, הצוות העריך יותר מ-700 השערות ושאל את אותה שאלה 10 פעמים עבור כל אחת מהן כדי למדוד עקביות.
תוצאות דיוק ומגבלות של ביצועי AI
כאשר הניסוי נערך לראשונה בשנת 2024, ChatGPT ענה נכון ב-76.5% מהמקרים. במבחן המשך ב-2025, הדיוק עלה מעט ל-80%. עם זאת, ברגע שהחוקרים התאימו לניחוש אקראי, התוצאות נראו הרבה פחות מרשימות. הבינה המלאכותית ביצעה רק כ-60% טוב יותר מהמקרה, רמה קרובה יותר ל-D נמוך מאשר לאמינות חזקה.
המערכת התקשתה ביותר לזהות הצהרות כוזבות, ותייגה אותן בצורה נכונה רק ב-16.4% מהמקרים. זה גם הראה חוסר עקביות בולט. אפילו כשניתנה אותה הנחיה בדיוק 10 פעמים, ChatGPT הפיק תשובות עקביות רק כ-73% מהמקרים.
תשובות לא עקביות מעוררות חששות
"אנחנו לא מדברים רק על דיוק, אנחנו מדברים על חוסר עקביות, כי אם אתה שואל את אותה שאלה שוב ושוב, אתה מגיע עם תשובות שונות", אמר Cicek, פרופסור חבר במחלקה לשיווק ועסקים בינלאומיים במכללת קרסון לעסקים של WSU והמחבר הראשי של הפרסום החדש.
"השתמשנו ב-10 הנחיות עם אותה שאלה מדויקת. הכל היה זהה. זה היה עונה אמת. לאחר מכן, זה אומר שזה לא נכון. זה נכון, זה לא נכון, לא נכון, נכון. היו כמה מקרים שבהם היו חמישה אמת, חמישה לא נכון".
שליטה בבינה מלאכותית לעומת הבנה אמיתית
הממצאים, שפורסמו ב- סקירה עסקית של רוטגרסלהדגיש את החשיבות של נטילת זהירות כאשר מסתמכים על AI עבור החלטות חשובות, במיוחד אלה הדורשות נימוקים ניואנסים או מורכבים. בעוד ש-AI גנרטיבי יכול לייצר שפה חלקה ומשכנעת, הוא עדיין לא מפגין את אותה רמה של הבנה מושגית.
לדברי Cicek, תוצאות אלו מצביעות על כך שבינה כללית מלאכותית המסוגלת "לחשוב" באמת עשויה להיות רחוקה יותר ממה שרבים מצפים.
"כלי AI נוכחיים לא מבינים את העולם כמונו – אין להם 'מוח'", אמר צ'יצ'ק. "הם רק משננים, והם יכולים לתת לך קצת תובנות, אבל הם לא מבינים על מה הם מדברים."
לימוד עיצוב ושיטות
Cicek עבד עם מחברים שותפים Sevincgul Ulu מאוניברסיטת דרום אילינוי, Can Uslay מאוניברסיטת רוטגרס וקייט קרניוצ'ינה מאוניברסיטת Northeastern.
הצוות השתמש ב-719 השערות ממחקרים מדעיים שפורסמו בכתבי עת עסקיים מאז 2021. שאלות מסוג זה כרוכות לעתים קרובות בניואנסים, כאשר מספר גורמים משפיעים על האם השערה נתמכת. צמצום מורכבות כזו לשיפוט פשוט אמיתי או שקרי מצריך נימוק זהיר.
החוקרים בדקו את הגרסה החינמית של ChatGPT-3.5 ב-2024 ואת ה-ChatGPT-5 mini המעודכן ב-2025. בסך הכל, הביצועים נותרו דומים בשתי הגרסאות. לאחר התאמה לסיכוי אקראי, שנותן הסתברות של 50% לתשובה נכונה, יעילות ה-AI הייתה רק כ-60% מעל הסיכוי בשתי השנים.
חולשה מרכזית בהיגיון בינה מלאכותית
התוצאות מצביעות על מגבלה בסיסית של מערכות AI במודל שפה גדול. למרות שהם יכולים ליצור תגובות שוטפות ומשכנעות, לעתים קרובות הם נאבקים לנמק באמצעות שאלות מסובכות. זה יכול להוביל לתשובות שנשמעות משכנעות אך למעשה אינן נכונות, אמר Cicek.
מדוע מומחים דורשים זהירות עם AI
בהתבסס על ממצאים אלה, החוקרים ממליצים למנהיגים עסקיים לאמת מידע שנוצר בינה מלאכותית ולגשת אליו בספקנות. הם גם מדגישים את הצורך באימון כדי להבין טוב יותר מה מערכות בינה מלאכותית יכולות ומה לא יכולות לעשות ביעילות.
למרות שמחקר זה התמקד במיוחד ב-ChatGPT, Cicek ציין כי ניסויים דומים עם כלי AI אחרים הניבו תוצאות דומות. העבודה מתבססת גם על מחקרים קודמים שהצביעו על זהירות סביב הייפ של AI. סקר לאומי משנת 2024 מצא כי צרכנים היו בעלי סיכוי נמוך יותר לרכוש מוצרים כאשר הם שווקו עם התמקדות בבינה מלאכותית.
"תמיד תהיה סקפטי," הוא אמר. "אני לא נגד AI. אני משתמש בזה. אבל אתה צריך להיות מאוד זהיר."
קישור לכתבת המקור – 2026-03-18 04:39:00





