בית » SaaS - תוכנה כשירות, הסיפור המרכזי, מחשוב ענן, ענן Google Apps

תקלה בשירות Gmail – מדוע זה קרה?

פורסם על ידי בתאריך 25 בספטמבר 2013 – 08:00אין תגובות

Gmail Logoבתאריך 23/09/2013 התרחשה תקלה לא נעימה בשירות Gmail: הודעות אשר נשלחו הגיעו באיחור רב, וחלק מהקבצים המצורפים להודעות לא היו זמינים להורדה.

איך זה קרה, כיצד טופלה התקלה ומה נעשה על מנת למנוע הישנותה? התשובות במאמר.

תקלת שירות Gmail זו השפיעה על שיעור קטן מאוד של משתמשים: רק 0.024% – פחות מרבע פרומיל מבסיס המשתמשים הכללי של השירות הושפעו. שיעור נמוך מאוד. בסוף שנת 2012 דווחה חברת Google כי שירות Gmail נמצא בשימוש ע"י 425 מליון משתמשים. כלומר: התקלה השפיעה, לכל הפחות, על כ- 100,000 משתמשים ברחבי העולם.

מה קרה?

אירוע האטת מסירת הודעות דוא"ל שנשלחו התרחש עקב תקלה נדירה מאוד: 2 רשתות שונות, המגבות אחת את השנייה, פסקו מלפעול. כל רשת סבלה מתקלה אחרת, אך סמיכות האירועים היא זו שיצרה את התקלה. החל משעה 15:54 שעון ישראל החלו הודעות דוא"ל להצטבר בתור ועובדה זו העירה מערכת התראות אשר דווחה על התקלה. צוות המורכב מאנשי Gmail ומהנדסי רשתות תקשורת החל בעבודה מיידית לאיתור מקור התקלה ובתוך כשעה הצליחו להשיב רמה מסויימת של השירות ולשחרר חלק מההודעות התקועות. במקביל, נמשכה העבודה להשבת השירות לעבודה תקינה באופן מלא. במהלך פעילות זו, נאלץ הצוות לבצע מהלך איפוס אשר במהלכו, ולמשך זמן קצר מאוד, שירות Gmail לא היה זמין עבור 50% מהמשתמשים. במצב זה סטטוס התקלה הוכרז כ"הפסקת שירות". לאחר מכן החל תהליך התאוששות של המערכת ושחרור הודעות תקועות בתור. תהליך זה נמשך באופן הדרגתי עד לשעה 02:00, אור ליום 24/09/2013. סה"כ זמן התקלה: כ- 11 שעות.

 

מי הושפע מהתקלה?

במהלך הטיפול בתקלה וכחלק מתהליך זה, נפח ההשפעה על המשתמשים היה נתון לשינויים. ככלל, מרבית משתמשי השירות לא חשו כלל בתקלה: 71% מההודעות לא עוכבו כלל והמשתמשים לא חשו בכל בעייה. עבור שאר 29%, זמן העיכוב הממוצע היה 2.6 שניות, אך בתוך נתון זה כלולות גם 1.5% מההודעות אשר עבורן חל עיכוב של יותר משעתיים ממועד השליחה עד למועד המסירה. בנוסף לכך, משתמשים אשר ביקשו להוריד קבצים גדולים אשר היו מצורפים להודעות נכנסות, נתקלו בהודעת שגיאה. יש לציין כי מעבר לעיכובים המתוארים, שירות Gmail נותר זמין בכל זמן התקלה: משתמשים יכלו להכנס אל המערכת ולקרוא הודעות אשר המתינו בתיבה שלהם וכן להשתמש בשאר תכונות השירות. בנוסף לכך, בכל התהליך, לא אבדה אף הודעה.

 

כיצד פועלת Google למנוע הישנות התקלה?

מתוך מחויבותה של Google לספק שירות אמין, זמין ועם חווית משתמש טובה, מתבצעות כעת פעולות אשר תכליתן לוודא תעבורת רשת תקינה בכל עת. פעולות אלו כוללות בין היתר הקצאה של נפח תעבורה אשר ישמש כגיבוי במקרה של אירוע נדיר מעין זה. בנוסף, מתבצעים שינויים אשר תכליתם להקטין את השפעתן של תקלות תקשורת על שירות Gmail ואחרים. Google תמשיך לספק את שירותיה בזמינות של 99.9% .

 

תגיות: , , , , , , , ,