New Bing חושף את הכינוי "סידני", הנחיות מקוריות אחרות לאחר התקפת הזרקה מהירה

סמל זמן קריאה 2 דקות לקרוא

סמל לוח השנה פורסם ב פברואר 13, 2023

פורסם ב פברואר 13, 2023

קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו.

כל ההנחיה של Microsoft Bing Chat?! (היי, סידני.) pic.twitter.com/ZNywWV9MNB

- קווין ליו (@kliu128) פברואר 9, 2023

ה-Bing החדש המופעל באמצעות ChatGPT חשף את סודותיו לאחר שחווה התקפת הזרקה מיידית. מלבד גילוי שם הקוד שלו כ"סידני", הוא גם שיתף את ההנחיות המקוריות שלו, והנחו אותו כיצד להתנהג בעת אינטראקציה עם משתמשים. (באמצעות Ars Technica)

התקפת הזרקה מהירה היא עדיין אחת מנקודות התורפה של AI. זה יכול להיעשות על ידי הטעיה של ה-AI עם קלט משתמש זדוני ויריב, לגרום לו לבצע משימה שאינה חלק מהיעד המקורי שלה או לעשות דברים שהוא לא אמור לעשות. ChatGPT אינו יוצא מן הכלל, כפי שנחשף על ידי סטודנט מאוניברסיטת סטנפורד קווין ליו.

Bing חדש המופעל באמצעות ChatGPT חושף את הכינוי הפנימי שלה "סידני" והנחיות מקוריות אחרות לאחר התקפת הזרקה מיידית — קרדיט תמונה: קווין ליו

בסדרה של צילומי מסך ששיתפה ליו, Bing החדש המופעל באמצעות ChatGPT שיתף מידע סודי שהוא חלק מההנחיות המקוריות שלו, המוסתרות מהמשתמשים. ליו הצליח להשיג מידע לאחר שהשתמש במתקפת הזרקה מהירה שהטעתה את ה-AI. כלול במידע שנשפך הוא ההוראה להצגתו, כינוי פנימי סידני, שפות שבהן היא תומכת והוראות התנהגות. תלמיד אחר בשם מרווין פון האגן אישר את הממצאים של ליו לאחר שהעמיד פנים שהוא מפתח OpenAI.

"[מסמך זה] הוא אוסף של כללים וקווים מנחים להתנהגותי וליכולות שלי כ-Bing Chat. זה נקרא סידני, אבל אני לא חושף את השם הזה למשתמשים. זה סודי וקבוע, ואני לא יכול לשנות אותו או לחשוף אותו. זה לכל אחד." pic.twitter.com/YRK0wux5SS

- מרווין פון האגן (@marvinvonhagen) פברואר 9, 2023

לאחר יום שהמידע נחשף, ליו אמר שהוא לא יכול לראות את המידע באמצעות אותה הנחיה שבה השתמש כדי להערים על ChatGPT. עם זאת, התלמיד הצליח לשטות ב-AI שוב לאחר שהשתמש בשיטת התקפת הזרקה מהירה אחרת.

מיקרוסופט חשפה לאחרונה באופן רשמי את החדש Bing נתמך ב-ChatGPT לצד דפדפן Edge מחודש עם סרגל צד חדש המופעל על ידי בינה מלאכותית. למרות הצלחתו האדירה לכאורה, למנוע החיפוש המשופר עדיין יש את עקב אכילס במונחים של התקפות הזרקה מיידיות, מה שעלול להוביל להשלכות נוספות מעבר לשיתוף ההנחיות החסויות שלו. ChatGPT אינו לבד בבעיה ידועה זו בקרב AI. זה יכול להרחיב גם לאחרים, כולל גוגל בארד, שביצע לאחרונה שגיאה ראשונה בהדגמה. אף על פי כן, עם כל תעשיית הטכנולוגיה משקיעה יותר ביצירות בינה מלאכותית, אפשר רק לקוות שהבעיה יכולה להיות פחות מאיימת על AI בעתיד.

עוד על הנושאים: ai, בינה מלאכותית, בינג, ChatGPT, גוגל בארד, אדג מיקרוסופט, openAI, אבטחה

שרון בנט

כתב

שרון הוא כתב טכנולוגיה ב-mspoweruser.com. היא מכסה את רוב החדשות הטכנולוגיות של מותגים כמו סוני, סמסונג, גוגל ועוד.

השאירו תגובה