מאת וויליאם הרלס וגיא גרימלנד.
במעבדה הממוקמת בקומה הרביעית של משרדי הנהלת אינטל, קבוצה קטנה של מהנדסים טרודה במחשבים ומצלמות אשר לדעתם יסייעו לממש את עתיד המחשוב. אחד מהם מרים אב-טיפוס של טבלט לגובה פניו של המבקר, מצלם את פניו, ומציע להדפיסו בתלת-ממד כך שיוכל לשמש כראש של בובת גיבור-על. מהנדס אחר ניצב מול מחשב כשהוא מחייך ומעווה את פניו מולו כדי להדגים למבקרים כיצד המחשב מפרש את רגשותיו ומזהה גם שמחה וגם סלידה. על המסך מוצגים אוואטרים המחקים את העוויותיו של המהנדס.
הטכנולוגיה שמדגימים המהנדסים היא מערכת צילום המסוגלת לראות כמו אדם ובה בעת הינה קטנה וזולה מספיק בכדי שניתן יהיה להתקינה במחשב נישא או התקן נייד סטנדרטי. למערכת קוראים RealSense והיא התוצאה של יותר משלוש שנות מחקר ופיתוח שהחלו כפרויקט חדשני וסודי והמשיכו כיוזמה שלמה של פיתוח מוצר שמאות אנשים מעורבים בה.
הפרויקט נולד מהרצון להעניק למכשירים יותר הבנה. לשם כך היה צורך לצייד את המחשבים בראייה תלת-ממדית. כשמסתכלים על יצורים ביולוגיים, בין אם מדובר בבני אדם, קופים, כלבים, נשרים או נחשים, לכולם יש שתי עיניים ויכולת תפיסה חזותית תלת-ממדית. הם משתמשים בהן כדי להבין ולנווט בעולם שסביבם וכדי לתקשר זה עם זה. הענקת יכולת הראייה התלת-ממדית למחשבים מאפשרת התקדמות עצומה בבינה מלאכותית ובמקביל הייתה פותחת דרך חדשה לשליטה במחשב – באמצעות מחוות.
ניתן לדמיין אפשרויות רבות. אפשר לחשוב למשל על רובוטים דמויי אדם שרואים והולכים כמונו ומבינים את העולם כמונו. אפשר לבנות מכשירי טיסה ללא טייס שיימנעו מהתנגשות בבני אדם ובמכשולים אחרים. בעצם אפשר לחולל מהפך במחשוב כפי שאנו מכירים אותו. הטכנולוגיה של מערכת הצילום התלת-ממדית RealSense של אינטל היא אחד הצעדים הראשונים בכיוון הזה. בכדי שהיא תגיע לשוק יש עדיין צורך בכמה פריצות דרך הנדסיות.
הקטנת ממדי העדשות והלייזר
מצלמת RealSense 3D היא מודול קטן המצויד בלייזרי אינפרה-אדום, מספר רב של התקני דימות ושבבי עיבוד מיוחדים. מרכיבים אלה פועלים יחדיו בכדי לאפשר למצלמה ללכוד לא רק פיקסלים צבעוניים אלא גם את המרחק של הפיקסלים על עצמים בשדה הראייה של המצלמה. בדרך זו נשמר מלוא המידע התלת-ממדי של נושא הצילום. היחידה כולה, לרבות המחבר שמעביר את המידע היא בערך בגודל של מסטיק.
איך אינטל יצרה יחידה כה קטנה?
בתחילת 2012 הייתה בידי אינטל יחידה פועלת שהוכיחה את היתכנות הרעיון. גודלה של יחידה זו היה כגודלו של מצנם בערך, בדומה ליחידות העיבוד המוכרות ממקרני לייזר. ההתקן היה לא שימושי אך המחיש שיש דרך להפוך את ההתקן למעשי מבחינה מסחרית. אינטל הקימה צוות מומחים בישראל ובסנטה קלרה אשר התמקדו במזעור הרכיבים ובמקביל בהפחתת עלות בנייתם. הצוות תכנן לייזרים מיוחדים, רכיבים אופטיים, התקני דימות, ומעבדים ייעודיים והכניס את כולם למודולים הניתנים לשילוב במכסה הדק של מחשב נישא או בטבלט.
הבנת מחוות
במקביל נמשכה העבודה על פיתוח תוכנת מצלמה שתהא מדויקת ותגובתית מספיק בכדי להבחין בין הבדלים דקים במחוות אנושיות. קל יחסית לכתוב תוכנה המסוגלת לזהות מערך נתון של מחוות של כף היד כגון אגרוף, אבל לא זה היה סוג האינטראקציה שאינטל שאפה שהמשתמשים יחוו.
ב-2011, אינטל השקיעה בחברת הזנק ישראלית בשם עומק אינטראקטיב אשר כתבה תוכנה למצלמות תלת-ממדיות אשר אינטל רכשה בשלב מאוחר יותר. מתחילת שיתוף הפעולה ביניהם הסכימו הצדדים שבכדי להגיע לרמת השליטה הדרושה ב-RealSense באמצעות מחוות, התוכנה צריכה להיות מסוגלת לזהות את המנחים התלת-ממדיים של 22 המפרקים ביד האנושית. בעיה כזו טרם נפתרה מעולם. המאמצים הראשוניים התמקדו בזיהוי טכניקות ראיית מחשב שיוכלו לעזור. לדוגמה, אחת השיטות מזהה קצות אצבעות ועוקבת אחריהן אבל ברגע שהמשתמש מכופף את האצבע לכיוון כף היד היא מפסיקה לפעול. בסופו של דבר נקט הצוות בגישה המשלבת מרכיבים מכמה טכניקות. התוכנה יוצרת מודל של כף היד שאחריה היא מנסה לעקוב ואז משווה את המודל למה שהמצלמה רואה ומכיילת אותו אם ההתאמה אינה מושלמת. התוכנה חוזרת ועושה את הפעולה הזו 200 פעמים מדי כל 0.02 שניות. הוצאה היתה שאינטל הצליחה להזיז את המפרקים של המודל בדרך שדומה מאוד לאופן שבו היד האנושית נעה. אחד היתרונות של הגישה הזו הוא שהתוכנה מסוגלת לנחש מה היד עושה גם אם אינה רואה את שאר האצבעות.
טבלט לצילומי עומק
במקביל, יחידת ההתקנים הניידים של אינטל ניסתה לפתח טבלט המסוגל לצלם תמונות עם ממד נוסף. התוצאה היא טכנולוגיית הצילום המהירה של RealSense שפיתחה אינטל. המניע היה פשוט מאוד: אינטל רצתה לאפשר לאנשים לצלם תמונות טובות יותר. מצלמה תלת-ממדית מאפשרת לבני אדם לצלם תמונה ולאחר מכן לשנות את הצבע של חלקים ממנה, למדוד את המרחק בין שני עצמים בתמונה ולשנות את נקודת המיקוד של התמונה גם אחרי שצולמה. באינטל סברו שהתכונות האלה מתאימות בין השאר גם למדיה חברתית.
האב-טיפוס הראשון הצריך תשע מצלמות ורכיבים שעלו כ-50 דולר. זה הרבה כסף והיחידה שפותחה גם צרכה יותר מדי כוח עיבוד בכדי להיות מעשית. לכן, אינטל חשבה כיצד לפשוט את התכנון ולהוריד את העלות. כך הגיעו למודל הנוכחי של המצלמה הכולל שלוש מצלמות ועושה שימוש ברכיבים מהמדף הניתנים לייצור זול מספיק בכדי לא להשפיע הרבה על עלות הטבלט שעושה שימוש במערכת.
באוגוסט 2013 הצוות היה טרוד בעיצוב התעשייתי של ההתקן. מאחר וההתקן עוד לא היה קיים, אינטל יצרה יחידת פרספקס שאליה חיברו מצלמות GoPro בכדי לכתוב את התוכנה המשלבת תמונות ממצלמות שונות. המתקן הזה היה מצויד בשש מצלמות GoPro שסודרו בצורות ובמרחקים שונים. כך יכלו הצוותים של אינטל לבדוק איזו תצורה של שלוש מצלמות מצליחה ללכוד את ממד העומק ובדרך זו להגיע לתכן הסופי.
קו הסיום
עכשיו שהתקנים המצוידים ב-RealSense כבר עומדים להגיע למדפים, שוררת באינטל תחושה של הישג וסיפוק. באינטל אוהבים לומר שהם לקחו משהו שהיה מדע בדיוני וסילקו משם את המילה 'בדיוני'..
* Intel® RealSense™ הוא סימן מסחרי של אינטל בארה"ב ובמדינות נוספות.