مشکل تأخیر بالا - ذخیره سازی چابک - سوئیچ های fc بروکات

عزیزان،

مایلم موضوعی را که از دوشنبه، 8 مه 2023 با آن مواجه شده‌ایم، مورد توجه شما قرار دهم. ما تأخیر قابل توجهی را در همه میزبان‌هایمان مشاهده کرده‌ایم، با تأخیر تا 300 ثانیه. این مشکل هر شش هاست ESXI و سه سرور ویندوز ما را تحت تأثیر قرار می دهد.

میزبان های ما از طریق کانال فیبر (FC) به یک ذخیره سازی Mirrored Nimble متصل هستند. ما در مجموع چهار سوئیچ Brocade FC داریم که در دو پارچه جداگانه سازماندهی شده اند که به هم متصل نیستند. در نتیجه پارچه ها نمی توانند با یکدیگر ارتباط برقرار کنند.

علیرغم تلاش های ما، تیم پشتیبانی HP تا کنون نتوانسته است راه حلی ارائه دهد. ما Nimble، Brocade و VMware را درگیر کرده‌ایم، اما هر یک از طرفین ادعا می‌کنند که اجزای مربوطه به درستی کار می‌کنند و آنها نتوانسته‌اند منبع مشکل را شناسایی کنند. این وضعیت مانع از توانایی ما برای کار موثر بر روی سیستم هایمان می شود.

بنابراین، به این امید که کسی ایده یا پیشنهادی در مورد علت اصلی این موضوع داشته باشد، با این انجمن تماس می‌گیرم. هر گونه کمک یا راهنمایی بسیار قدردانی خواهد شد زیرا ما در تلاش برای حل این مشکل و بازگرداندن عملیات عادی هستیم.

برای شروع، تیم Fiber Channel (FC) تأیید کرده است که سوئیچ‌های SAN هیچ خطایی را ثبت نمی‌کنند که به طور بالقوه می‌تواند به ما در تشخیص دقیق مشکل کمک کند. علاوه بر این، تیم پشتیبانی Nimble به ما اطمینان داده است که تأخیر داخلی سیستم ذخیره سازی Nimble در محدوده قابل قبولی است و سیستم به خوبی کار می کند.

در اینجا برخی از جزئیات مهم در مورد محیط زیست ما آمده است:

ما یک پیکربندی ذخیره سازی Mirrored Nimble داریم (6.1.1.200-1020304-opt).
ما از چهار سوئیچ SAN Brocade با مشخصات زیر استفاده می کنیم:
- سیستم عامل فابریک: v8.2.3b
- نوع: 118.1
- مدل: 650
- شماره سریال سازنده: CCD1914Q05T
زیرساخت ما از شش میزبان ESXI (ProLiant DL380 Gen10) و سه میزبان سرور ویندوز تشکیل شده است.

بر اساس تایید تیم FC و تیم Nimble مبنی بر اینکه سیستم ها به درستی کار می کنند، ما اقدامات زیر را در تلاش برای رفع مشکل انجام داده ایم: این شامل:

به اشتراک گذاری روزانه فایل های گزارش جاری از سوییچ های SAN و هاست های ESXi با تیم های پشتیبانی.
به روز رسانی هاست های ESXi، سوئیچ های SAN، vCenter و ذخیره سازی Nimble به آخرین نسخه های آنها.
بررسی دستگاه‌های با تخلیه کند، مقادیر بالای شمارنده‌های tim_txcrd_z و خطاهای موجود در فایل‌های گزارش SAN.
تعویض کابل‌ها و فرستنده‌های FC معیوب با خطا یا برق/ولتاژ کم.
تلاش برای اتصالات مختلف بین سوئیچ ها در هر پارچه، از جمله تغییر از فیبر چند حالته به فیبر تک حالته.
افزودن دو خط اضافی (درگاه E) بین سوئیچ ها در هر پارچه.
تغییر خط و پورت برای همگام سازی Nimble (اتصال شبکه).
انجام انتقال از یک کنترلر Nimble به دیگری.
انتقال ماشین های مجازی به میزبان ها و LUN های مختلف.
جابجایی بین کنترلرهای اضافی Nimble.
خاموش کردن هاست های ESXi یکی یکی برای مشاهده هر گونه تأثیری بر تأخیر.
راه اندازی مجدد سوئیچ های SAN.
خاموش کردن موقت سرورها (VMها و هاست های ویندوز) با بالاترین IOPS.
نظارت بر سلامت Nimble، که در آن استفاده از CPU در حدود 50 تا 60 درصد است و متوسط تأخیر خواندن و نوشتن در محدوده قابل قبولی است (به ترتیب 2.26 ms و 1.25 ms).

برای نظارت بر زمان پاسخ و تأخیر، ما از esxtop با متریک DAVG/cmd، IOmeter و فایل‌های log از میزبان‌های ESXi خود استفاده کرده‌ایم. این روش‌های نظارتی به ما اجازه می‌دهند تا جهش‌های تأخیر را تا 300 ثانیه مشاهده کنیم. با این حال، در اکثر مواقع، ما تاخیر بین 2 تا 20 ثانیه را مشاهده می کنیم.

علاوه بر این، vCenter ما در حال ایجاد گزارش‌های رویداد است که ممکن است به این مشکل مرتبط باشد. رویدادهای خاص ثبت شده توسط vCenter به شرح زیر است:
– حجم 61126d65-c752f006-a5cc-9440c918333c (vsphere-LUN30-RZ1-RZ2) دیگر به دلیل مشکلات اتصال قابل دسترسی نیست. تلاش برای انجام یک ریکاوری است. نتیجه به زودی در دسترس خواهد بود.
– دسترسی به حجم 5e186201-114c2458-a1b3-9440c9183ae6 (vsphere-LUN00-RZ1-RZ2) پس از مشکلات اتصال بازیابی شد.

در لاگ فایل‌های میزبان‌های ESXI ما (vmkwarning.log) می‌توانم ببینم که تاخیرهای زیادی از 04/11/2023 وجود دارد.
2023-04-11T21:30:37.507Z cpu0:2097963)WARNING: ScsiDeviceIO: 1498: دستگاه eui.d78e4f372a9ae94e6c9ce9001e4dc482 عملکرد بدی دارد. تأخیر I/O از مقدار متوسط 4071 میکروثانیه به 1799631 میکروثانیه افزایش یافت.

ما متوجه شده‌ایم که گزارش‌های قدیمی‌تر روی میزبان به‌طور خودکار حذف می‌شوند، و ما را از شناسایی مشکل تأخیر بالا در مراحل اولیه جلوگیری می‌کند. در حالی که ما از مسائل کلی عملکرد آگاه بودیم، تا زمانی که در 8 مه 2023 به سرعت تشدید شد، متوجه وسعت مشکل تأخیر نبودیم. این افشاگری نشان می‌دهد که تأخیر بالا ممکن است برای مدت طولانی بدون آگاهی ما بر سیستم‌های ما تأثیر گذاشته باشد.

vmkernel.log:
2023-05-10T16:06:44.435Z cpu2:9730466)HBX: 5760: بازیابی HB در 4030464 در نسخه ‘vsphere-LUN02-RZ1-RZ2’ replayHostHB: 0 replayHBostU0D0 (0 replayHBostU0D0) 0000000-0000-000000000000) .
2023-05-10T16:06:44.436Z cpu2:9730466)HBX: 294: ‘vsphere-LUN02-RZ1-RZ2’: HB در آفست 4030464 – ضربان قلب بازیابی شده [Timeout]:
2023-05-10T16:06:44.436Z cpu2:9730466) [HB state abcdef02 offset 4030464 gen 4443 stampUS 2452223657109 uuid 6436560b-b270609a-f6dc-48df37a25880 jrnl <FB 50331649> drv 24.82 lockImpl 4 ip 172.20.13.213]
2023-05-10T16:06:44.458Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3867: Cmd 0x89 (0x45d95204a1c8, 9821137) به devf 9821137.9821137. 01e4dc482″ در مسیر “vmhba1:C0:T1:L30” ناموفق بود:
2023-05-10T16:06:44.458Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3875: H:0x0 D:0x2 P:0x0 داده حسی معتبر: 0xe 0x1d 0x0. قانون: هیچ. cmdId.initiator=0x4308172ebf80 CmdSN 0x6181588
2023-05-10T16:06:44.458Z cpu21:2097914)ScsiDeviceIO: 4161: Cmd(0x45d95204a1c8) 0x89، CmdSN 0x61815218 0x61815211 0x61815218 از world. 8b6c9ce9001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 داده‌های حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.458Z cpu13:2097919)ScsiDeviceIO: 4161: Cmd(0x45b970e2b888) 0x89، CmdSN 0x618158c 0x618158c 0x618158c 0x618158c 0x618158c 0x618158c. 8b6c9ce9001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 داده‌های حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.458Z cpu1:2097913)ScsiDeviceIO: 4161: Cmd(0x45b97862f848) 0x89، CmdSN 0x618158d 0x618158d از world. b6c9ce9001e4dc482″ ناموفق H:0x0 D:0x2 P:0x0 داده‌های حسی معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.458Z cpu13:2097919)ScsiDeviceIO: 4161: Cmd(0x45b97da343c8) 0x89، CmdSN 0x618158a 0x618158a113i4678d از world 9472d. b6c9ce9001e4dc482″ ناموفق H:0x0 D:0x2 P:0x0 داده‌های حسی معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.460Z cpu13:2097919)ScsiDeviceIO: 4161: Cmd(0x45b970ec3688) 0x89، CmdSN 0x618158f 0x618158f113i4678f از world 9478d. b6c9ce9001e4dc482″ ناموفق H:0x0 D:0x2 P:0x0 داده‌های حسی معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.462Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3815: آخرین وضعیت خطا از دستگاه eui.6ad5bbb3629a2ec66c9ce9008e4dc 4 بار تکرار شد
2023-05-10T16:06:44.462Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3867: Cmd 0x89 (0x45d954bad288، 98221136) به devbbe6969666000. c482″ در مسیر “vmhba1:C0:T1:L2” ناموفق بود:
2023-05-10T16:06:44.462Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3875: H:0x0 D:0x2 P:0x0 داده حسی معتبر: 0xe 0x1d 0x0. قانون: هیچ. cmdId.initiator=0x4308177c7780 CmdSN 0xc89af8
2023-05-10T16:06:44.462Z cpu21:2097914)ScsiDeviceIO: 4161: Cmd(0x45d954bad288) 0x89، CmdSN 0xc89af8 از جهان 98562936DVBD693966DVD. 001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 داده‌های حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.462Z cpu20:2097920)ScsiDeviceIO: 4161: Cmd(0x45d954bfbe88) 0x89، CmdSN 0xc89af5 از جهان 9060d69000DVD6979000. 9001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 داده‌های حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.466Z cpu2:9730466)HBX: 5760: بازیابی HB در 4030464 در نسخه ‘vsphere-LUN00-RZ1-RZ2’ replayHostHB: 0 replayHBostU0D0 (0 replayHBostU0D0) 0000000-0000-000000000000) .
2023-05-10T16:06:44.467Z cpu2:9730466)HBX: 294: ‘vsphere-LUN00-RZ1-RZ2’: HB در آفست 4030464 – ضربان قلب بازیابی شده [Timeout]: 2023-05-10T16:06:44.467Z cpu2:9730466) [HB state abcdef02 offset 4030464 gen 3189 stampUS 2452223688123 uuid 6436560b-b270609a-f6dc-48df37a25880 jrnl <FB 16777217> drv 24.82 lockImpl 4 ip 172.20.13.213]

من از هر گونه پیشنهاد یا دیدگاهی از طرف جامعه در رابطه با گام های بعدی که می توانیم برای رسیدگی به این موضوع برداریم قدردانی می کنم. پیشاپیش از همکاری شما سپاسگزارم!

منبع: https://community.hpe.com/t5/array-setup-and-networking/high-latency-issue-nimble-storage-brocade-fc-switches/m-p/7188374#M3189