מחקר מגלה ש-ChatGPT טועה במדע לעתים קרובות יותר ממה שאתה חושב

DandushNet
18/03/2026

פרופסור מאוניברסיטת וושינגטון סטייק מסוט צ'יצ'ק וצוות המחקר שלו בדקו שוב ושוב את ChatGPT על ידי מתן השערות שנלקחו ממאמרים מדעיים. המטרה הייתה לראות אם ה-AI יכול לקבוע נכון אם כל טענה נתמכת במחקר או לא – במילים אחרות, אם היא נכונה או שקרית.

בסך הכל, הצוות העריך יותר מ-700 השערות ושאל את אותה שאלה 10 פעמים עבור כל אחת מהן כדי למדוד עקביות.

תוצאות דיוק ומגבלות של ביצועי AI

כאשר הניסוי נערך לראשונה בשנת 2024, ChatGPT ענה נכון ב-76.5% מהמקרים. במבחן המשך ב-2025, הדיוק עלה מעט ל-80%. עם זאת, ברגע שהחוקרים התאימו לניחוש אקראי, התוצאות נראו הרבה פחות מרשימות. הבינה המלאכותית ביצעה רק כ-60% טוב יותר מהמקרה, רמה קרובה יותר ל-D נמוך מאשר לאמינות חזקה.

המערכת התקשתה ביותר לזהות הצהרות כוזבות, ותייגה אותן בצורה נכונה רק ב-16.4% מהמקרים. זה גם הראה חוסר עקביות בולט. אפילו כשניתנה אותה הנחיה בדיוק 10 פעמים, ChatGPT הפיק תשובות עקביות רק כ-73% מהמקרים.

תשובות לא עקביות מעוררות חששות

"אנחנו לא מדברים רק על דיוק, אנחנו מדברים על חוסר עקביות, כי אם אתה שואל את אותה שאלה שוב ושוב, אתה מגיע עם תשובות שונות", אמר Cicek, פרופסור חבר במחלקה לשיווק ועסקים בינלאומיים במכללת קרסון לעסקים של WSU והמחבר הראשי של הפרסום החדש.

"השתמשנו ב-10 הנחיות עם אותה שאלה מדויקת. הכל היה זהה. זה היה עונה אמת. לאחר מכן, זה אומר שזה לא נכון. זה נכון, זה לא נכון, לא נכון, נכון. היו כמה מקרים שבהם היו חמישה אמת, חמישה לא נכון".

שליטה בבינה מלאכותית לעומת הבנה אמיתית

הממצאים, שפורסמו ב- סקירה עסקית של רוטגרסלהדגיש את החשיבות של נטילת זהירות כאשר מסתמכים על AI עבור החלטות חשובות, במיוחד אלה הדורשות נימוקים ניואנסים או מורכבים. בעוד ש-AI גנרטיבי יכול לייצר שפה חלקה ומשכנעת, הוא עדיין לא מפגין את אותה רמה של הבנה מושגית.

לדברי Cicek, תוצאות אלו מצביעות על כך שבינה כללית מלאכותית המסוגלת "לחשוב" באמת עשויה להיות רחוקה יותר ממה שרבים מצפים.

"כלי AI נוכחיים לא מבינים את העולם כמונו – אין להם 'מוח'", אמר צ'יצ'ק. "הם רק משננים, והם יכולים לתת לך קצת תובנות, אבל הם לא מבינים על מה הם מדברים."

לימוד עיצוב ושיטות

Cicek עבד עם מחברים שותפים Sevincgul Ulu מאוניברסיטת דרום אילינוי, Can Uslay מאוניברסיטת רוטגרס וקייט קרניוצ'ינה מאוניברסיטת Northeastern.

הצוות השתמש ב-719 השערות ממחקרים מדעיים שפורסמו בכתבי עת עסקיים מאז 2021. שאלות מסוג זה כרוכות לעתים קרובות בניואנסים, כאשר מספר גורמים משפיעים על האם השערה נתמכת. צמצום מורכבות כזו לשיפוט פשוט אמיתי או שקרי מצריך נימוק זהיר.

החוקרים בדקו את הגרסה החינמית של ChatGPT-3.5 ב-2024 ואת ה-ChatGPT-5 mini המעודכן ב-2025. בסך הכל, הביצועים נותרו דומים בשתי הגרסאות. לאחר התאמה לסיכוי אקראי, שנותן הסתברות של 50% לתשובה נכונה, יעילות ה-AI הייתה רק כ-60% מעל הסיכוי בשתי השנים.

חולשה מרכזית בהיגיון בינה מלאכותית

התוצאות מצביעות על מגבלה בסיסית של מערכות AI במודל שפה גדול. למרות שהם יכולים ליצור תגובות שוטפות ומשכנעות, לעתים קרובות הם נאבקים לנמק באמצעות שאלות מסובכות. זה יכול להוביל לתשובות שנשמעות משכנעות אך למעשה אינן נכונות, אמר Cicek.

מדוע מומחים דורשים זהירות עם AI

בהתבסס על ממצאים אלה, החוקרים ממליצים למנהיגים עסקיים לאמת מידע שנוצר בינה מלאכותית ולגשת אליו בספקנות. הם גם מדגישים את הצורך באימון כדי להבין טוב יותר מה מערכות בינה מלאכותית יכולות ומה לא יכולות לעשות ביעילות.

למרות שמחקר זה התמקד במיוחד ב-ChatGPT, Cicek ציין כי ניסויים דומים עם כלי AI אחרים הניבו תוצאות דומות. העבודה מתבססת גם על מחקרים קודמים שהצביעו על זהירות סביב הייפ של AI. סקר לאומי משנת 2024 מצא כי צרכנים היו בעלי סיכוי נמוך יותר לרכוש מוצרים כאשר הם שווקו עם התמקדות בבינה מלאכותית.

"תמיד תהיה סקפטי," הוא אמר. "אני לא נגד AI. אני משתמש בזה. אבל אתה צריך להיות מאוד זהיר."

קישור לכתבת המקור – 2026-03-18 04:39:00

עוד מתחומי האתר

סימולטורים רפואיים

האנה לאן, MD | סיפורי מלגות CMS

By DandushNet15/05/20260

כשד"ר האנה לאן חזרה הביתה לאחר שסיימה מלגה במרכז לסימולציה רפואית, עמיתים שאלו שאלה פשוטה:…

ציוד רפואי

אמבוליזציה של עורק גניקולרי צוברת אחיזה כפתרון זעיר פולשני לכאבי ברכיים אוסטיאוארתריטיס

By DandushNet14/05/20260

כאשר השכיחות של דלקת מפרקים ניוונית ממשיכה לעלות ברחבי העולם, רופאים ומטופלים כאחד מחפשים חלופות…

רפואה

OrthoIndy Foundation מכריזה על מענק רב-שנתי בסך 250 אלף דולר לתמיכה ב-OrthoIndy Foundation YMCA | הבלוג של OrthoIndy

By DandushNet13/05/20260

מימון מקדם תוכניות בריאות, בריאות והכשרה עבור ותיקי מרכז אינדיאנה, משפחות ומבוגרים אינדיאנפוליס -…

אלקטרוניקה

התשובה של הודו ל-Raspberry Pi מגיעה עם יכולות בינה מלאכותית – אלקטרוניקה בשבילך – האתר הרשמי ElectronicsForU.com

By DandushNet12/05/20260

ממחשוב תחביב ועד AI קצה תעשייתי, סטארט-אפ הודי מציב את החומרה שלו כאלטרנטיבה ניתנת להרחבה…

מייקרים

מצלמת תקלות קלה? יש A Pi 4 That

By DandushNet11/05/20260

בדרך כלל, כאשר אתה רוצה ליצור תמונות תקלות עם הרבה צבעים ודברים, אתה צריך להסתובב…

דפוס תלת מיימד

תקצירי חדשות בנושא הדפסת תלת מימד, 9 במאי 2026: פיננסים, מדפסת בפורמט גדול, פלדות ועוד – 3DPrint.com | עסק לייצור תוסף

By DandushNet10/05/20260

בכתבות חדשות בנושא הדפסת תלת מימד בסוף השבוע, 6K Additive מינתה מנהל ניהול חדש ופרסמה…

במו ידיך

התחלה חדשה: מהפך מודרני של בית עירוני ויקטוריאני בצפון לונדון

By DandushNet09/05/20260

הרעיון לתת הזדקנות בית מגורים ויקטוריאני שיפוץ מודרני הוא משהו שאנו רואים תופס בקרב בעלי…

הדרכות בצילום

הצגת הגנת צילום מסך: שלח את הגלריות שלך בביטחון

By DandushNet08/05/20260

אתה שם הכל במלאכה שלך – זמני השיחה המוקדמים, שעות העריכה, תשומת הלב האובססיבית לצבע…

ציוד צילום

Maven משיקה מסנני ND מדורגים 'הדרך הגמישה ביותר לשלוט'

By DandushNet07/05/20260

Maven Filters הכריזה על מתאם שיפוע של Iron Sliderשהיא מכנה "הדרך הגמישה ביותר לשלוט במסנני…

מחקר מגלה ש-ChatGPT טועה במדע לעתים קרובות יותר ממה שאתה חושב

עוד מתחומי האתר

מעניין במיוחד

הרשמה

עוד באתר...

הרשמה לעידכונים