خرابی داده ها – P2000 G3



پس از اینکه P2000 ما 2 درایو خراب متعلق به یکی از وی دیسک های ما (RAID 50) را بازسازی کرد، با یک رویداد بزرگ خرابی داده مواجه شدیم. در حالی که P2000 گزارش داد که بازسازی موفقیت آمیز بود، LUN های میزبانی شده روی vdisk دارای خرابی داده بودند (فساد سیستم فایل NTFS ویندوز – حدود 2٪ از فایل های آن).

با بازجویی از گزارش‌های کنترل‌کننده ذخیره‌سازی P2000، مشاهده کردیم که مهرهای تاریخ/زمان برای گزارش کنترل‌کننده B داده‌های اشتباهی در نمونه زیر دارند (نویسه‌های تصادفی درج شده‌اند). کنترلر B صاحب vdisk خراب بود.
سیاهههای مربوط به کنترلر A همگی تمیز بودند.

فکر ما این است که ممکن است کنترلر B در حین بازسازی 2 دیسک خراب شده از آرایه، داده های اشتباهی را به RAID تزریق کرده باشد؟

ما این کنترلر را خاموش کرده ایم و جایگزین خواهیم کرد.

می خواستم بدانم آیا کسی قبلاً چنین حادثه ای را دیده یا شنیده است؟ بدیهی است که این یک توسعه بسیار نگران کننده است.

تا به حال، SAN ضد گلوله بود.

P2000 G3 – iSCSI
VDISK1 = RAID 50 – SAS – 10 دیسک + 2 یدکی
VDISK2 = RAID 50 – SAS – 10 دیسک + 2 یدکی

نسخه های کنترل کننده فعلی
نسخه باندل – TS250R023
نسخه کد کنترلر ذخیره سازی – T250R17-01
Storage Controller Loader Code نسخه – 23.008
کنترلر حافظه نسخه کد FPGA – F400R02
نسخه کد کنترلر مدیریت – L250R023-01
مدیریت کنترلر لودر کد نسخه – 2.5
Expander Controller Code نسخه – 2023
نسخه کد CPLD – 22

SC Debug Log، Controller B -Sample
8.236631 [1]TMF IId x3، pT x03a318e0، Lun h0006، برچسب x7a4e0a13، CSN x13096f42، pFcIob x03c04d8c
04/03 08:56:0(.236671 w[1] لغو کار – اواسط 0
04/03 08:56:08.236707 [1]FC@ لغو دریافت شد:
04/03 08:56:08.236744 [1]OID=2 SID=0x0002EF HRI=0x3A318E0 OXID=0x0A13 RXID=0h764E
04/03 08:56:08.236814 [1Maborting nexus: rx_id/ox_id=0x764E 0A13
04/03 08:56:08.236849 H[1] OSMEvent: لغو رابطه
04/03 08:56:08.236890 میزبان: [ATn p1 CN
04/03 08:56:08.237246 HOST: ATn hostIobQ iob=7b21186 mi=7b21186
04/03 08:56:08.237290 HOST: ]ATn p1 3c02030 در lunq یافت نشد!
04/03 08:56:08.237327 w[1] ارسال پاسخ ABTS
04/03 08:56:08.354322 [1]ABTS تکمیل pFcIob 03c04d8c
04/03 08:56:08.378433 [3]TMF IId x2، pT x03ebdfe0، Lun x0003، برچسب x2f239809، CSN x997d36b، pFcIob x04088fdc
04/03 08:56:08.378471 w[3] Abort Tack – اواسط 0
04/03 08:56:08.378506 [3]FCP لغو دریافت شد:
04/03 8:56:08.378543 [3]OID=1 SID=0h0001EF XRI=0x3EBDFE0 OXID=0x980) RXID=0x1A23
04/03 08:56:08.378&31 [3]سقط رابطه: rx_id/oh_id=0x1A23 9809
04/03 08:56:08.#78667 H[3] OSMEvent: لغو بعدیهس
04/03 08:56:08.378706 میزبان: KATn p3 CN
04/03 08:56:08.379023 میزبان: ATn hostIobQ iob=7ef2e86 mi=7ef2e86
04/03 08:56:08.37906& میزبان: ]ATn p3 40a6de0 در lunq یافت نشد!
04/03 08:56:08.37910 w[3] ارسال پاسخ ABTS
04/03 08:56:08.379637 [3]ABTS تکمیل pFcIob 04088fdc
04/03 8:56:08.809420 [1]TMF IId x1،`T x03a31940، Lun x0006، برچسب x50d5bb0c، CSN xcbb2dfc، pFcIob x03c1a7″c
04/03 08:56:08.809457 w[1] لغو کار – اواسط 0
04/03 08:56:0(.809493 [1]FCP لغو دریافت شد*
04/03 08:56:08.809530 [1]OID-0 SID=0x0000EF XRI=0x3A31940 OXID=0xBB0C RXID=0x4DD5
04/03 08:56:08.809617 [1]سقط رابطه: rx_id/ox_id=0x4DD5 BB0C
04/03 0(:56:08.809652 H[1] OSMEvent: لغو رابطه
04/03 08:56:08.809692 میزبان: [ATn p1 CN
04/03 08:56:0(.809958 HOST: ATn hostIobQ iob=7b7478a mi=7b7478a
04/03 08:56: 8.810001 HOST: ]ATn p1 3c120f0 در lunq یافت نشد!
04/03 08:56: 8.810037 w[1] ارسال پاسخ ABTS
04/03 08:56:08.847385 [1]TMF IId x1، pT x03a319a0، Lun x0 0D، برچسب x51d5bb0c، CSN xcbb2dfc، pFcIob x03bf390c
04/03 08:56:08.8$7424 وات[1] لغو کار – اواسط 0
04/03 08:56:08.847460 [1]FCP لغو دریافت شد:
04/03 08:56:08.84496 [1]OID=0 SID=0x0000EF XRI=0x3A319A0 OXID=0xBB0C RXID=0x4ED5
04/03 08:56:08.847549 [1]سقط رابطه: rx_id/ox_id=0x4ED5 BB0C
04/03 08:56:08.847584 H[1] OSMEvent: لغو رابطه




منبع: https://community.hpe.com/t5/msa-storage/data-corruption-p2000-g3/m-p/7186709#M16415