החדש קלוד 2 דגם של חברת מחקר בינה מלאכותית אנתרופית הוכיח יכולות חדשות מטורפות. במאמר מהיר זה, אתן לך סקירה קצרה ותמציתית של מה שאתה צריך לדעת.
סקירה כללית של קלוד 2

ילד הפלא האחרון של אנתרופיק, קלוד 2, מכה גלים. מודל שפת AI זה, חלק מסדרת קלוד, הוא אמן בשיחה, כתיבה, עריכה ועוד. זה כמו שיש לך עוזרת אישית שיכולה גם לקודד ולתת ייעוץ במספר עצום של נושאים. קלוד 2 מתאים היטב למקרי שימוש יצירתיים וספרותיים בכתיבה בטון, בקול או באישיות מסוימת.
בפרט, הוא יכול לבצע את המשימות הבאות:
- לחפש
- כְּתִיבָה
- עֲרִיכָה
- מתאר
- תִמצוּת
- סִמוּל
- מייעץ
- מחנך
הוא עדיין לא מחפש באינטרנט, אבל אתה יכול לשתף איתו מסמכים גדולים (למשל, קובצי PDF) ולקיים אינטראקציה עם המסמכים כמו לשאול אותו שאלות ספציפיות או למצוא תוכן במסמך.
האיכות של קלוד 2 די טובה. הוא יכול לעבור מבחנים סטנדרטיים רבים כמו פתרון בעיות במתמטיקה בבית הספר היסודי, שאלות ותשובות על סיפורים ארוכים מאוד, מענה על שאלות מדעיות או הבנת הנקרא טוב יותר מבני אדם:

קלוד 2 נמצא באחוזון מעל ל-90 של חשיבה מילולית וכתיבה אנליטית בהשוואה לתלמידים אנושיים:

קלוד 2 יכול גם לעבור את בחינת עורכי הדין הרב-מדינתית (MBE) ואת בדיקה רפואית בארה"ב (USMLE) עם ציון עובר (~יותר מ-60% תשובות נכונות):

אבל הנה היתרון הכי מטורף: 👇🤯🚀
נתוני ההקשר הארוכים של קלוד 2 עם עד 200 אלף אסימונים
קלוד 2 הוכשר לקבל חלון הקשר מורחב של 200 אלף אסימונים – והביצועים ממשיכים להשתפר עם גדלי הקשר גדולים יותר! נתוני הקשר של 200 אלף אסימון שווים בערך ל-150 אלף מילים. אז אתה יכול לשאול את קלוד 2 עם ספר PDF קטן כנתוני הקשר! 🤯

הנה כמה דוגמאות שיעזרו להמחיש כיצד 150,000 מילים עשויות להיראות בחיים האמיתיים:
- ספרים: רומן ממוצע הוא בסביבות 80,000 עד 100,000 מילים. אז, 150,000 מילים יהיו שוות ערך לרומן ארוך או אולי לטרילוגיה של רומנים קצרים יותר. לדוגמה, "הארי פוטר ומסדר עוף החול" מאת ג'יי קיי רולינג מכיל יותר מ-257,000 מילים. אז, 150,000 מילים יהיו קצת יותר ממחצית מהספר הזה.
- תזות ועבודות דוקטורט: עבודת דוקטורט טיפוסית עשויה להיות בסביבות 80,000 עד 100,000 מילים. אז, 150,000 מילים יהיו עבודת גמר או תזה ארוכה ומפורטת במיוחד. עבודת הדוקטורט שלי על עיבוד גרפים מבוזר היה באורך של בערך 57 אלף מילים, כך שקלוד 2 יוכל לעבד ארבע שנות עבודה בחלון הקשר אחד!
- נאומים: אדם ממוצע מדבר בסביבות 125-150 מילים בדקה. אז, נאום של 150,000 מילים יימשך כ-16 עד 20 שעות אם יימסר ללא הפסקות.
- תוכן אינטרנטי: דף אינטרנט ממוצע מכיל כ-500-1000 מילים. אז, 150,000 מילים יהיו שוות ערך לתוכן של כ-150-300 דפי אינטרנט ממוצעים.
- עיתון: הכתבה הממוצעת בעיתון היא בסביבות 500-800 מילים. אז, 150,000 מילים יהיו שוות ערך לכ-187-300 מאמרים בעיתונים.
קלוד 2 יתמוך בחלונות הקשר של 100,000 אסימונים בעת ההשקה במטרה להגדיל אותו מאוחר יותר. שוב: חלונות הקשר גדולים כמו זה הם מחליף משחק אמיתי. רשתות עצביות מתחילות להפוך למגה מוחות שיכולים לעבד ו"להעמיס" כמויות אדירות של מידע למוחותיהם בבת אחת.
לא רק שלדגמי הבינה המלאכותית האלה כבר יש כמויות אדירות של ידע בסיסי המקודד במוחם (הנחיה של 0-shot), אלא שאתה יכול כעת לטעון כמויות גדולות יותר ויותר של מידע ספציפי ליישום (200,000 הקשרים) כדי ליצור פלט באיכות גבוהה.

הנה כמה דוגמאות כיצד ניתן לשלב מגה-מוח (LLM) עם נתונים ספציפיים לאפליקציה (שאילתת הקשר של 200 אלף):
- ניתוח מסמכים משפטיים: מגה מוח בינה מלאכותית עם חלון הקשר גדול יכול לשמש כדי לנתח מסמכים משפטיים ארוכים, כגון חוזים או תמלילי בית משפט. זה יכול לזהות נקודות קריטיות, לסכם תוכן ואפילו לספק תובנות לגבי השלכות משפטיות. זה יכול להיות שימושי במיוחד עבור משרדי עורכי דין ומחלקות משפטיות בתאגידים.
- מחקר רפואי: בתחום הרפואה, יש לעתים קרובות מאמרי מחקר נרחבים ודוחות ניסויים קליניים שיש לעיין בהם. AI עם חלון הקשר משמעותי יכול לקרוא ולסכם את המסמכים הללו. חוקר AI רפואי יכול להשתמש בו כדי ליצור מחקר חדש על ידי שילוב מאמרים שונים בדרכים ייחודיות.
- סיכום וניתוח הספר: AI יכול לקרוא ולסכם ספרים שלמים עבור מוציאים לאור או קוראים נלהבים. זה יכול לספק סיכומי עלילה, ניתוחי דמויות ונושאים. זה יכול להיות שימושי ליצירת מדריכי לימוד או לקוראים המנסים להחליט אם הם רוצים לקרוא ספר מסוים.
- מחקר היסטורי: היסטוריונים נאלצים לעתים קרובות לנפות מסמכי מקור ראשוני נרחבים. AI עם חלון הקשר גדול יכול לעזור על ידי קריאת מסמכים אלה וזיהוי אירועים מרכזיים, דמויות ונושאים, ולחסוך זמן משמעותי לחוקרים.
מסגרת הערכה מועילה, כנה, לא מזיקה (HHH).

מסגרת ההערכה של Anthropic עבור דגמי הבינה המלאכותית שלהם, כולל קלוד 2, היא מקיפה וקפדנית. הוא כולל בדיקות טרום-פריסה שמעריכות את יכולות המודל, הבטיחות וההתאמה לציפיות האתיות.
הערכות יכולות מודדות את כישורי המודל על פני משימות שונות, בעוד הערכות בטיחות והתאמה מעריכות סיכונים פוטנציאליים והתאמה אתית.
צוות אדום מועסק גם, שבו צוותים עצמאיים מנסים לנצל פגיעויות של המערכת. התוצאות משולבות בהפחתות בטיחות.
אנתרופיק משתפת פעולה עם מרכז המחקר היישור (ARC) לביקורות בטיחות ועם צוותים אדומים חיצוניים למבחני אמון ובטיחות.
משוב אנושי הוא חלק מכריע בתהליך ההערכה. נתוני העדפות אנושיים משמשים לחישוב ציוני Elo לכל משימה, מדד ביצועים השוואתי המציין באיזו תדירות מעריך אנושי מעדיף תפוקות של מודל אחד על פני אחר.
הנה הערכה כזו מאת עיתון (גבוה יותר זה יותר טוב):

הנה הערכת יישור נוספת (נמוכה יותר עדיף):

בסך הכל ביצועים מרשימים ביותר והצעת ערך. חלונות ההקשר הגדולים, איכות הנחיה הגבוהה וההטיה הנמוכה של ה-Anthropic LLM Claude 2 מספקים אבן דרך נוספת במסע המטורף שלנו בו אנו נמצאים כעת.
השווה את זה למקום שבו היינו רק לפני שנה במחקר בינה מלאכותית. העתיד בהיר! 🌞
הצטרפו אלינו והישארו בצד הנכון של השינוי עם עדכוני הדוא"ל היומיים שלנו וגיליונות המחקר והצ'יטים העדכניים ביותר (מעל 150 אלף קודנים):

תוך כדי עבודה כחוקר במערכות מבוזרות, ד"ר כריסטיאן מאייר מצא את אהבתו להוראת סטודנטים למדעי המחשב.
כדי לעזור לתלמידים להגיע לרמות גבוהות יותר של הצלחה ב-Python, הוא הקים את אתר החינוך לתכנות Finxter.com שלימד מיומנויות אקספוננציאליות למיליוני קודנים ברחבי העולם. הוא מחברם של ספרי התכנות רבי המכר Python One-Liner (NoStarch 2020), אמנות הקוד הנקי (NoStarch 2022), וכן ספר דאש (NoStarch 2022). כריס גם היה שותף לכתיבה הפסקת קפה פייתון סדרת ספרים בהוצאה עצמית. הוא חובב מדעי המחשב, סוֹפֵר בִּלתִי תָלוּיובעלים של אחד מ-10 הגדולים ביותר בלוגים של פייתון עוֹלָמִי.
התשוקות שלו הן כתיבה, קריאה וקידוד. אבל התשוקה הגדולה ביותר שלו היא לשרת קודנים שואפים דרך Finxter ולעזור להם לשפר את כישוריהם. אתה יכול הצטרף לאקדמיית האימייל החינמית שלו כאן.
קישור לכתבת המקור – 2023-07-12 12:35:49