מודלי בינה מלאכותית נכשלים בהבנה ובפיענוח קודים רפואיים, גם אם אומנו במיוחד על נתונים קליניים. כך עולה ממחקר חדש שנערך באוניברסיטת בן גוריון בנגב ופורסם בכתב העת Computers In Biology and Medicine.
עוד בעניין דומה
מודלי שפה גדולים (LLMs) הם סוג ספציפי של בינה מלאכותית המתמחה בעיבוד ויצירת טקסט. הם נקראים "גדולים" בגלל מספר הפרמטרים העצום שלהם (מיליארדים) והכמות האדירה של טקסט שעליו הם מאומנים.
המחקר, שערכו ד"ר נדב רפופורט והדוקטורנט אופיר בן שוהם מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן גוריון, בחן והשווה את יכולתם של מודלי בינה מלאכותית שונים להתמודד עם פיענוח מידע רפואי.
החוקרים ערכו השוואה בין מודלים כלליים למודלים שעברו אימון על מידע רפואי, אך בניגוד למחקרים קודמים שהתמקדו ביכולות כלליות, צוות המחקר פיתח כלי הערכה ייחודי (MedConceptsQA) המתמקד ספציפית בהבנת קודים ומושגים רפואיים. הכלי כולל מעל 800 אלף שאלות ותשובות המכסות מגוון רחב של מושגים רפואיים בינלאומיים, בשלוש רמות קושי: בסיסית, בינונית ומתקדמת, במטרה להעריך כיצד אנשים העוסקים במודלי שפה מפרשים מונחים רפואיים ומבחינים בין מושגים רפואיים, כגון אבחנות, פרוצדורות ותרופות. החוקרים יצרו את שאלות המבקשות לבחור את התיאור הנכון של קוד רפואי נתון בצורה אוטומטית על ידי אלגוריתם שפיתחו.
בעוד שהשאלות הבסיסיות בודקות ידע כללי, השאלות המתקדמות דורשות הבנה מעמיקה של ההבדלים העדינים בין מושגים רפואיים קרובים - מיומנות קריטית בקבלת החלטות קליניות. החוקרים נעזרו באמות מידה קליניות קיימות הזמינות להערכת קודים קליניים המאפשרות להבחין בין מושגים רפואיים למשימות כגון תרגול קידוד רפואי, סיכום, חיוב אוטומטי ועוד.
התוצאות מראות כי רוב המודלים שנבדקו, כולל אלה שעברו אימון ייעודי על נתונים רפואיים, הציגו ביצועים ברמה של ניחוש אקראי. אפילו ChatGPT-4, שהציג את הביצועים הטובים ביותר מבין כל המודלים שנבדקו, השיג דיוק של כ-60% בלבד. למרות שזהו שיפור של 9%-11% בהשוואה למודל הקליני המוביל שאומן במיוחד על נתונים רפואיים וביולוגיים, Llama3-OpenBioLLM-70B, התוצאה עדיין רחוקה מלהיות מספקת עבור שימוש קליני.
"נראה לרוב שמודלים שעברו אימון מיוחד לצרכים רפואיים השיגו רמות דיוק קרובות לניחוש אקראי במדד זה, למרות שהוכשרו מראש על נתונים רפואיים", ציין ד"ר רפופורט. ממצא מפתיע במיוחד הוא שמודלים כלליים כמו ChatGPT-4 ו-Llama3-70B הציגו ביצועים טובים יותר ממודלים שעברו אימון ייעודי על מידע רפואי.
"המדד שלנו משמש כמשאב רב ערך להערכת היכולות של מודלי שפה גדולים לפרש קודים רפואיים ולהבחין בין מושגים רפואיים. אנו מוכיחים שרוב מודלי שפה קליניים משיגים ביצועי ניחוש אקראיים, ואילו ChatGPT-3.5, ChatGPT-4 ו-Llama3-70B עולים על המודלים הקליניים הללו, למרות שהמיקוד של המודלים האלה הוא בכלל לא בתחום הרפואי", הסביר הדוקטורנט בן שוהם. "בעזרת מאגר השאלות שלנו, נוכל בקלות רבה, על ידי לחיצת כפתור, להעריך מודלים אחרים שייצאו בעתיד ולהשוות אותם למודלים אחרים".
נתונים קליניים כוללים לרוב גם קודים רפואיים סטנדרטיים וגם טקסטים בשפה טבעית. מחקר זה מדגיש את הצורך בשפה קלינית רחבה יותר במודלים להבנת מידע רפואי ואת הזהירות הנדרשת בשימוש נרחב בהם. "אנו מציגים אמת מידה להערכת איכות המידע של קודים רפואיים ומציפים בפני המשתמשים את ההכרח בשימוש זהיר במידע זה", סיכם ד"ר רפופורט.