דיפ פייקים, איך, מה ולמה?

תחום הדיפ פייקים או Deepfakes הוא אחד התחומים שמרתקים אותי. גיליתי אותו, כמו רבים, מתוך סרטוני וידאו שהלבישו שאיחדו את הפנים של פוליטיקאי אחד עם אחר. התחום חם, ואפשר למצוא ברשת בקבוצות שונות ב-Reddit שלל ניסיונות בתחום הוידאו. יש המון סימני שאלה לגבי זכויות היוצרים של החומרים בהם משתמשים, האם מדובר בשימוש הוגן, בהפרת זכויות יוצרים ועוד. במקום מסוים הדיון מזכיר את השיחה על תחום הרימיקס. אם מישהו זוכר את ה-Remix Manifesto, או את הדיונים המשפטיים בעולם ההיפ הופ והשימוש בסימפול – אז תוסיפו על זה היבט של גניבות גוף וזהות, זכות האדם לשלמות דמותו ועוד.

בני גנץ ולוק סקייווקר – דיפ פייק שהכנתי

למרות שתחום הוידאו פנים הוא התחום המוכר יותר, עולם ה-Deepfake הולך ומתקדם לתחומים נוספים. Voice Cloning, שיבוט קולות, הוא תחום עולה. חברת Lyrebird הקנדית שנקנתה לאחרונה, פיתחה אלגוריתם המאפשר זיוף קול בצורה מלאה. ניסיונות ראשוניים יצרו תנועות גוף מלאים של AI על בסיס שפת גוף של מישהו אחר. לאחרונה, על בסיס ניתוח ואימון של קוד יצא לשימוש הציבור, באופן חופשי, מאגר של 100,000 פרצופי סטוק שיצרה AI. כך שאנחנו לא מדברים בטווח הארוך רק על דיפ פייק של פנים, אלא של אנשים, חיות אפילו וכן הלאה.

הדגמת Voice Cloning ב-Lyrebird

מה מורכב חברתית העניין? מאוד. בצד האפל, זיופים, והרבה מהם. זיוף נאומים של פוליטיקאים, זיופי פורנו של שחקנים/ות מפורסמים ומפורסמות, נקמה במעסיקים, באקסים ואקסיות. זיוף הודאות, זיוף הוראות, פקודות קוליות. דמיינו פקודה קולית לבנקאי שלכם להעביר כסף, ואז מייל שדומה מאוד לשלכם וחתימה דיגיטלית, ואנחנו בבעיה גדולה. הצד השלילי של הדיפ פייק לדעתי יהפוך לענף באבטחת סייבר. כיצד נזהה שמשהו מזויף? בעזרת איזה כלים? כמה עמוק הזיוף יכול להיות וכמה עוצמתי?
שאלות נוספות עולות סביב התועלת החיובית שיש בתחום. נגיד בתחום הבידור – נניח ויש לנו יכולת לשכפל דמות של שחקן ולעשות בה שימוש לנצח (כנס העתידנים Anyone?), עד מתי נותן שחקן רישיון לעשות שימוש בדמותו? היום חוזי האמנים נותנים אישור בלתי מוגבל לעשות שימוש בצילומים שונים לגופי שידור. האם רשת וקשת, האם דיסני או וורנר יוכלו לקחת את חומרי הגלם של השחקנים שהיו חתומים אצלם כטאלנטים ולעשות שימוש אינסופי בחומרים איתם הם עבדו עד כה? האם מפיקי מוסיקה יכולים לסמפל קטעים של אמני עבר ולהרכיב שירים חדשים מהם? בנוסף, האם שימוש מופתי בתחום לא יכול לייתר את מרבית השחקנים? לאחרונה הוציאה חברה אמריקאית 100,000 תמונות ראשים מזויפים ש-AI ייצר, שלב ראשון בדרך לייצור של 100,000 וידאו של גוף מלא שכולו זיוף.
כיום הטכנולוגיה לא מספיק בשלה. אני מכין סרטוני דיפ פייק מזה מספר שבועות, וכמות הטסטים שאני נדרש אליה גבוהה מאוד. סרטון עשוי היטב כולל הרבה מאוד שעות מחשוב, והמון טסטים וחיתוכים בתוכנת עריכה כדי לחתוך את כל מה שלא עובד כמו שצריך. אבל אנחנו בדרך לשם. הטכנולוגיה – מדהימה. באמת. האפקט שנוצר בצפייה בסרטוני דיפ פייק נע בין המבודח למבהיל. זה מצחיק אנשים שזה מה שהם רואים, שילוב של אנשים שהם מכירים, ובאותה נשימה הם נבהלים. משהו שם מרגיש טוב מדי. זה פלירטוט עם ה-Uncanny Valley, מידת הדמיון שיצירה אנימטיבית או מכאנית מזכירה את האנושי. משהו בדיפ פייק יושב קצת יותר מדי טוב, או יושב קצת יותר מדי רע. לכאן או לכאן זה מעורר רגשות מורכבים מהצופה.

אביב גפן Deepfake – הוציא מאנשים תגובות מ-וואט ל-וואו

איך זה עובד?

בגדול, ישנם מדריכים שונים ברשת שמסבירים איך להכין סרטוני Deep Fake. יש מספר תוכנות פתוחות לציבור, מהן טובות יותר וטובות פחות. לתחושתי מהנדסי התוכנה הטובים בתחום הם רוסים או סינים. אפליקציות סיניות כמו ZAO עושות עבודה מדהימה, אבל מקבלות ביקורות על הפרת הפרטיות של אנשים. FaceApp הרוסית, גם היא זוכה לביקורת כזו. אני משתמש בתוכנות מבוססות פייתון, הנמצאות זמינות ברשת להורדה כמו Deepface Lab, ולפניה ניסיתי את Fake App ועוד אתר סיני שלא ממש עבד.
תהליך העבודה כולל מספר שלבים – בחירת חומרי גלם מתאימים, בהם רואים מספיק הבעות פנים פרונטליות. לא צריך יותר מדי וידאו, אולי אפילו עדיף וידאו קצר יחסית. אני עובד עם סרטונים של עד 5-7 דקות.
לאחר מכן, מיון הפרצופים המופיעים בוידאו של המודל אותו רוצים לזייף, בכדי שהתוכנה תתמקד רק בפרצוף של המודל עצמו ולא רעשי רקע. לאחר מכן, פעולה דומה בסרטון היעד. ואז מתחיל החלק הארוך והוא 8-12 שעות למידה של המחשב את האובייקטים השונים. לרוב משהו אותו פרק זמן לכל סרטון. ישנן טכניקות שונות לביצוע הלמידה. אין נכון או לא נכון, יש מה עובד לך יותר טוב. אני משתמש בדרך כלל במספר שיטות במקביל, משווה תוצאות, וחותך את מה שעובד לי. אחרי הלמידה עושים את הליך מיזוג המודלים, שלוקח עוד כמה שעות, ולבסוף איחוד לוידאו ועריכה למוצר מוגמר. פשוט? בהתחלה לא. זה תמיד הרבה עבודה.

דוגמא לסרטון באמצע תהליך עבודה וטסטים

כל התהליך הזה דורש חומרה נורמלית, המזל שלנו זה שתעשיית הגיימינג יצרה חומרה בסיסית מפלצתית. כרטיסי מסך חזקים יחסית זמינים במחירים שווים לכל נפש. צריך לא פחות מ-4 גיגה-בייט זיכרון על כרטיס המסך, רצוי יותר, וגם רצוי שה-CPU שלכם יהיה חזק יחסית ועם מספיק RAM. אני ממליץ גם על הארדיסק עם המון שטח פנוי. כל סרטון לוקח כמה עשרות גיגות בנפח שלו.
שימו לב שכשאתם מסיימים ומעלים – פייסבוק נוטה לזהות את חומרי הגלם ולחסום את חלקם בשל זכויות היוצרים, ביוטיוב חברות המדיה השונות מסמנות את התוכן, אבל לא בהכרח חוסמות. אגב, הזיהוי לפעמים מייצר תוצאות מצחיקות בגלל טעויות זיהוי, ולפעמים זה סתם מעצבן.
מוזמנים להיכנס לערוץ שלי ולהרשם לפלייליסט Deepfake ישראל, בו אני משתף סרטונים שונים שאני עושה, כמו אלו שמוטמעים כאן, ובכלל לשלוח לי שאלות.