גילוי חומרים ותרופות חדשים כרוך בדרך כלל בתהליך ידני, ניסוי וטעייה שיכול להימשך עשרות שנים ולעלות מיליוני דולרים. כדי לייעל את התהליך הזה, מדענים משתמשים לעתים קרובות בלמידת מכונה כדי לחזות תכונות מולקולריות ולצמצם את המולקולות שהם צריכים לסנתז ולבדוק במעבדה.
חוקרים מ-MIT וממעבדת MIT-Watson AI פיתחו מסגרת חדשה ומאוחדת שיכולה לחזות בו-זמנית תכונות מולקולריות וליצור מולקולות חדשות ביעילות רבה יותר מגישות הלמידה העמוקה הפופולריות הללו.
כדי ללמד מודל למידת מכונה לחזות את התכונות הביולוגיות או המכניות של מולקולה, על החוקרים להראות לה מיליוני מבנים מולקולריים מסומנים – תהליך המכונה אימון. בשל ההוצאות של גילוי מולקולות והאתגרים של תיוג ידני של מיליוני מבנים, לעתים קרובות קשה להשיג מערכי נתונים גדולים של אימונים, מה שמגביל את היעילות של גישות למידת מכונה.
לעומת זאת, המערכת שנוצרה על ידי חוקרי MIT יכולה לחזות ביעילות תכונות מולקולריות תוך שימוש בכמות קטנה של נתונים בלבד. למערכת שלהם יש הבנה בסיסית של הכללים שמכתיבים כיצד אבני הבניין משתלבות לייצור מולקולות תקפות. כללים אלה לוכדים את קווי הדמיון בין מבנים מולקולריים, מה שעוזר למערכת ליצור מולקולות חדשות ולחזות את תכונותיהן בצורה יעילה בנתונים.
שיטה זו עלתה על גישות אחרות של לימוד מכונה על מערכי נתונים קטנים וגדולים, והצליחה לחזות במדויק תכונות מולקולריות וליצור מולקולות ברות קיימא כאשר ניתנה מערך נתונים עם פחות מ-100 דגימות.
"המטרה שלנו עם הפרויקט הזה היא להשתמש בכמה שיטות מונעות נתונים כדי להאיץ את הגילוי של מולקולות חדשות, כך שתוכל לאמן מודל לבצע את החיזוי בלי כל הניסויים הכבדים האלה", אומר המחבר הראשי מינגאו גואו, א. סטודנט לתואר שני במדעי המחשב והנדסת חשמל (EECS).
המחברים השותפים של גואו כוללים את חברי צוות המחקר של מעבדת MIT-IBM Watson AI ורוניקה תוסט, Payel Das וג'י צ'ן; בוגרי MIT לאחרונה סמואל סונג '23 ואדיתיה בלחנדרן '23; והסופר הבכיר וויצ'ך מאטוסיק, פרופסור להנדסת חשמל ומדעי המחשב וחבר במעבדת MIT-IBM Watson AI, שמוביל את קבוצת התכנון והייצור החישובי במעבדת MIT למדעי המחשב והבינה המלאכותית (CSAIL). המחקר יוצג בכנס הבינלאומי ללמידת מכונה.
לימוד שפת המולקולות
כדי להשיג את התוצאות הטובות ביותר עם מודלים של למידת מכונה, מדענים צריכים מערכי אימון עם מיליוני מולקולות בעלות תכונות דומות לאלו שהם מקווים לגלות. במציאות, מערכי נתונים ספציפיים לתחום הם בדרך כלל קטנים מאוד. אז, חוקרים משתמשים במודלים שהוכשרו מראש על מערכי נתונים גדולים של מולקולות כלליות, אותם הם מיישמים על מערך נתונים ממוקד הרבה יותר קטן. עם זאת, מכיוון שהמודלים הללו לא רכשו הרבה ידע ספציפי לתחום, הם נוטים לתפקד גרוע.
צוות MIT נקט בגישה שונה. הם יצרו מערכת למידת מכונה שלומדת אוטומטית את ה"שפה" של מולקולות – מה שמכונה דקדוק מולקולרי – באמצעות רק מערך נתונים קטן, ספציפי לתחום. הוא משתמש בדקדוק הזה כדי לבנות מולקולות ברות קיימא ולחזות את תכונותיהן.
בתורת השפה, אחד מייצר מילים, משפטים או פסקאות על סמך קבוצה של כללי דקדוק. אתה יכול לחשוב על דקדוק מולקולרי באותו אופן. זוהי קבוצה של כללי ייצור המכתיבים כיצד ליצור מולקולות או פולימרים על ידי שילוב אטומים ותתי מבנים.
בדיוק כמו דקדוק שפה, שיכול ליצור שפע של משפטים באמצעות אותם כללים, דקדוק מולקולרי אחד יכול לייצג מספר עצום של מולקולות. מולקולות בעלות מבנים דומים משתמשות באותם כללי ייצור דקדוק, והמערכת לומדת להבין את קווי הדמיון הללו.
מכיוון שלמולקולות דומות מבחינה מבנית יש לרוב תכונות דומות, המערכת משתמשת בידע הבסיסי שלה לגבי דמיון מולקולרי כדי לחזות תכונות של מולקולות חדשות בצורה יעילה יותר.
"ברגע שיש לנו את הדקדוק הזה כייצוג לכל המולקולות השונות, נוכל להשתמש בו כדי להגביר את תהליך חיזוי המאפיינים", אומר גואו.
המערכת לומדת את כללי הייצור של דקדוק מולקולרי באמצעות למידת חיזוק – תהליך ניסוי וטעייה שבו המודל מתוגמל על התנהגות שמקרבת אותו להשגת מטרה.
אבל בגלל שיכולות להיות מיליארדי דרכים לשלב אטומים ותתי מבנים, התהליך ללימוד כללי ייצור דקדוק יהיה יקר מדי מבחינה חישובית לכל דבר מלבד מערך הנתונים הקטן ביותר.
החוקרים ניתקו את הדקדוק המולקולרי לשני חלקים. החלק הראשון, הנקרא מטאגרמטיקה, הוא דקדוק כללי, בר יישום, שהם מעצבים באופן ידני ונותנים למערכת בהתחלה. אז הוא רק צריך ללמוד דקדוק הרבה יותר קטן, ספציפי למולקולה, ממערך הנתונים של התחום. גישה היררכית זו מזרזת את תהליך הלמידה.
תוצאות גדולות, מערכי נתונים קטנים
בניסויים, המערכת החדשה של החוקרים יצרה בו-זמנית מולקולות ופולימרים ברי קיימא, וחיזתה את תכונותיהם בצורה מדויקת יותר מכמה גישות פופולריות ללימוד מכונה, אפילו כאשר מערכי הנתונים הספציפיים לתחום כללו רק כמה מאות דוגמאות. כמה שיטות אחרות דרשו גם שלב אימון מקדים יקר שהמערכת החדשה נמנעת ממנו.
הטכניקה הייתה יעילה במיוחד בניבוי תכונות פיזיקליות של פולימרים, כגון טמפרטורת מעבר הזכוכית, שהיא הטמפרטורה הנדרשת לחומר לעבור ממוצק לנוזל. השגת מידע זה באופן ידני היא לעתים קרובות מאוד יקרה מכיוון שהניסויים דורשים טמפרטורות ולחצים גבוהים במיוחד.
כדי לדחוף את הגישה שלהם עוד יותר, החוקרים קיצצו אימון אחד ביותר מחצי – ל-94 דגימות בלבד. המודל שלהם עדיין השיג תוצאות שהיו דומות לשיטות שהוכשרו באמצעות מערך הנתונים כולו.
"הייצוג מבוסס הדקדוק הזה חזק מאוד. ומכיוון שהדקדוק עצמו הוא ייצוג כללי מאוד, ניתן לפרוס אותו לסוגים שונים של נתונים בצורת גרף. אנחנו מנסים לזהות יישומים אחרים מעבר לכימיה או למדע החומר", אומר גואו. .
בעתיד, הם גם רוצים להרחיב את הדקדוק המולקולרי הנוכחי שלהם כך שיכלול את הגיאומטריה התלת-ממדית של מולקולות ופולימרים, שהיא המפתח להבנת האינטראקציות בין שרשראות פולימרים. הם גם מפתחים ממשק שיראה למשתמש את כללי הפקת הדקדוק שנלמדו ויבקש משוב לתיקון כללים שעלולים להיות שגויים, ומגביר את הדיוק של המערכת.
עבודה זו ממומנת, בחלקה, על ידי MIT-IBM Watson AI Lab והחברה החברה בה, Evonik. מאמר: "גיאומטריה הנגרמת על ידי דקדוק היררכי לחיזוי מאפיינים מולקולריים יעילים בנתונים"
קישור לכתבת המקור – 2023-07-07 22:38:47