איתור מילות מפתח עם טביעת רגל קטנה עבור שפות עם משאבים נמוכים עם ה-Nicla Voice
צוות ארדואינו — 6 ביולי, 2023

זיהוי דיבור נמצא בכל מקום בימינו, ובכל זאת בשפות מסוימות, כמו Shakhizat Nurgaliyev והקזחית של אסקט קוזדיוב, חסרים מערכי נתונים ציבוריים גדולים מספיק לאימון מודלים של איתור מילות מפתח. כדי לפצות על הפער הזההצמד חקר יצירת מערכי נתונים סינתטיים באמצעות מערכת טקסט-לדיבור עצבית בשם Piper, ולאחר מכן חילוץ פקודות דיבור מהשמע עם ערכת הכלים לזיהוי דיבור של Vosk.
מעבר לבניית מודל פשוט לזיהוי מילות מפתח מדגימות אודיו, המטרה העיקרית של Nurgaliyev ו-Kuzdeuov הייתה לפרוס אותו גם על יעד משובץ, כמו מחשב עם לוח יחיד או מיקרו-בקר. בסופו של דבר, הם הלכו עם Arduino Nicla Voice לוח פיתוח מכיוון שהוא מכיל לא רק nRF52832 SoC, מיקרופון ו-IMU, אלא גם NDP120 של Syntiant. מעבד החלטה עצבי מיוחד זה עוזר להאיץ מאוד את זמני ההסקה הודות למאיצי חומרה ייעודיים ובו זמנית להפחית את צריכת החשמל.
עם החומרה שנבחרה, הצוות החל לאמן את הדגם שלהם עם סך של 20.25 שעות של נתוני דיבור שנוצרו על פני 28 כיתות פלט נפרדות. לאחר 100 תקופות למידה, הוא השיג דיוק של 95.5% וצרך רק כ-540KB של זיכרון ב-NDP120, ובכך הפך אותו ליעיל למדי.
כדי לקרוא עוד על הפרויקט של Nurgaliyev וקוזדיוב וכיצד הם פרסו מודל ML מוטבע שהוכשר אך ורק על נתוני דיבור שנוצרו, עיין בכתבה שלהם כאן ב-Hackster.io.
אתה יכול לעקוב אחר כל התגובות לערך זה דרך ה RSS 2.0 הזנה. אתה יכול השאר תגובהאו להיזכר מהאתר שלך.
קישור לכתבת המקור – 2023-07-06 21:16:57