הפסיקו לבחון לימודי תואר שני עם שירה: השתמשו בבלאק ג'ק במקום זאת – היו בצד הנכון של השינוי

הפסיקו לבחון לימודי תואר שני עם שירה: השתמשו בבלאק ג'ק במקום זאת – היו בצד הנכון של השינוי
מנורה למרפאה גניקולוגית


🙏 מקור תמונה ומחקר: תומאס טיילור (GitHub)

אם אתה רוצה לראות במה LLM הוא באמת טוב (והיכן הוא עדיין מחליק), אל תבקש ממנו לכתוב שיר או ליצור קוד. בקשו ממנו לקבל את אותה החלטה קטנה שוב ושוב תחת כללים ברורים.

לכן האסטרטגיה הבסיסית של בלאק ג'ק היא עדשה כל כך שימושית.

אסטרטגיה בסיסית היא בעצם טבלת החלטות. בהתחשב בידך ובכרטיס העל של הדילר, יש מהלך טוב ביותר עבור סט כללים נתון. להכות, לעמוד, להכפיל, לפצל, להיכנע. זה לא אווירה. זו בעיית חיפוש.

אז הייתם מצפים שדגמים מודרניים יצליחו לעמוד בזה. ויש כאלה שכן. אבל מה שהופך את המדד הזה למעניין הוא לא "מי קיבל את הציון הגבוה ביותר". כך נכשלים הדגמים.

התוצאה שחשובה היא לא המנצחת, היא דפוס הטעויות

⚡ בדוק את הדף של תומס: https://thomasgtaylor.com/blackjack/

כאשר דוגמנים מקבלים החלטות שגויות בבלאק ג'ק, הם בדרך כלל לא נכשלים באקראי. הם נוטים לפתח סגנון עקבי של טעויות.

דגם אחד עלול להכפיל לעתים קרובות מדי. אחר עלול להיות זהיר מדי ולהחמיץ דאבלים טובים. אחר עלול להיכנע במקומות שבהם עליו להילחם. זה עניין גדול מכיוון שהוא משקף את מה שמפתחים רבים רואים במוצרים אמיתיים: הדגם הוא בעיקר אמין, אבל יש לו כמה נקודות עיוורות שחוזרות על עצמן.

זוהי נקודת המפתח עבור בונים. לימודי LLM אינם נכשלים כמו תוכניות באגי. הם נכשלים כמו מדיניות לא עקבית.

דיוק ותוצאות זה לא אותו דבר

המדד עוקב אחר שני דברים שאנשים מבלבלים לעתים קרובות:

  • דיוק החלטות: האם המודל בחר את מהלך האסטרטגיה הבסיסית?
  • תוצאה: האם הכסף עלה או ירד במהלך הריצה?

אלה יכולים להתפצל. לבלאק ג'ק יש תשלומים אסימטריים. דאבל רע בודד יכול לפגוע יותר מטעות פגיעה/עמידה קטנה. ומעל מספר מצומצם של ידיים, המזל עדיין חשוב. אז אתה יכול לראות מודל שהוא קצת פחות מדויק בסופו של דבר עם איזון טוב יותר פשוט כי השונות הלכה בדרכו.

זו לא רק טריוויה של הימורים. זוהי תזכורת שמדד ההערכה שלך מעצב את מה שנראה "הכי טוב". אם למוצר שלך אכפת מכשלים יקרים, עליך למדוד שגיאות משוקללות עלות, לא רק דיוק גולמי.

למה זה חשוב מחוץ לבלאק ג'ק

יד בלאק ג'ק היא מצב זעיר עם ערכת פעולה ברורה. התוכנה מלאה באותו מבנה:

  • כללי בדיקת אירועים
  • מדיניות ניסיון חוזר וביטול
  • בקרת גישה והרשאות
  • היגיון חיוב ותמחור
  • כללי השקת תכונות
  • בדיקות ציות

בכל אלה, לעתים קרובות יש לך מדיניות ברורה שאתה רוצה לפעול לפיהן. אם מודל מתקשה לעקוב באופן עקבי אחר טבלת החלטות קטנה, הוא גם יסחף כאשר הוא יתבקש לפעול לפי הכללים של החברה שלך, אלא אם כן תעצב סביב זה.

המודל המנטלי הטוב יותר: LLMs מתנהגים כמו היוריסטיות נלמדות

תוכנית מסורתית מבצעת כללים. LLM רגיל מחקה לעתים קרובות כללים ולפעמים מאלתר. זו הסיבה שאתה רואה את אותם "אישי שגיאה". המודל לא רק מאחזר את תא הטבלה הנכון בכל פעם. זה יישום דפוס נלמד שהוא בדרך כלל נכון, ולעתים מוטה.

זו הזווית החשובה עבור קהילת פינקסטר: התייחסו למודל כאל לומד מדיניות, לא כאל מחשבון.

מה לעשות עם התובנה הזו

המהלך ההנדסי הוא לא להתווכח עם הדגם קשה יותר. זה לשנות את צורת המשימה כדי שהמודל לא יוכל להיסחף.

כמה גישות מעשיות:

  • שים את טבלת האסטרטגיה בקוד ובקש מהמודל לקרוא לזה.
  • אם תשאיר אותו בהנחיה, כפה על פורמט חיפוש מובנה ואמת את הפלט.
  • רישום טעויות לפי קטגוריות (יותר מדי כפילות, כניעות מוקדמות, שגיאות פיצול) כי זה אומר לך מה לתקן.

אתגר Finxter פשוט שתוכל להעתיק

הניצחון האמיתי כאן הוא לא בלאק ג'ק עצמו. זה הרעיון של מדד קטן שניתן לחזור עליו.

בחר כל תחום שבו אמת יסוד קיימת כמערכת ברורה של כללים או טבלת החלטות. צור הרבה מקרי בדיקה שניתנים לשחזור. ציון גם דיוק וגם תוצאות משוקללות עלות. לאחר מכן חפש דפוסי שגיאה חוזרים, לא רק את הציון הכללי.

זה נותן לך משהו הרבה יותר שימושי מ"דגם א' מרגיש חכם יותר מדגם ב'." זה אומר לך איך מודל מתנהג תחת חזרות, וזה מה שחשוב כשאתה בונה מערכות אמיתיות.

הצטרף לניוזלטר Finxter AI להיות בצד הנכון של השינוי – עם 130 אלף קוראים!



קישור לכתבת המקור – 2025-12-23 11:15:00

Facebook
Twitter
LinkedIn
Telegram
WhatsApp
Email
X-ray_Promo1

עוד מתחומי האתר