عزیزان،
مایلم موضوعی را که از دوشنبه، 8 مه 2023 با آن مواجه شدهایم، مورد توجه شما قرار دهم. ما تأخیر قابل توجهی را در همه میزبانهایمان مشاهده کردهایم، با تأخیر تا 300 ثانیه. این مشکل هر شش هاست ESXI و سه سرور ویندوز ما را تحت تأثیر قرار می دهد.
میزبان های ما از طریق کانال فیبر (FC) به یک ذخیره سازی Mirrored Nimble متصل هستند. ما در مجموع چهار سوئیچ Brocade FC داریم که در دو پارچه جداگانه سازماندهی شده اند که به هم متصل نیستند. در نتیجه پارچه ها نمی توانند با یکدیگر ارتباط برقرار کنند.
علیرغم تلاش های ما، تیم پشتیبانی HP تا کنون نتوانسته است راه حلی ارائه دهد. ما Nimble، Brocade و VMware را درگیر کردهایم، اما هر یک از طرفین ادعا میکنند که اجزای مربوطه به درستی کار میکنند و آنها نتوانستهاند منبع مشکل را شناسایی کنند. این وضعیت مانع از توانایی ما برای کار موثر بر روی سیستم هایمان می شود.
بنابراین، به این امید که کسی ایده یا پیشنهادی در مورد علت اصلی این موضوع داشته باشد، با این انجمن تماس میگیرم. هر گونه کمک یا راهنمایی بسیار قدردانی خواهد شد زیرا ما در تلاش برای حل این مشکل و بازگرداندن عملیات عادی هستیم.
برای شروع، تیم Fiber Channel (FC) تأیید کرده است که سوئیچهای SAN هیچ خطایی را ثبت نمیکنند که به طور بالقوه میتواند به ما در تشخیص دقیق مشکل کمک کند. علاوه بر این، تیم پشتیبانی Nimble به ما اطمینان داده است که تأخیر داخلی سیستم ذخیره سازی Nimble در محدوده قابل قبولی است و سیستم به خوبی کار می کند.
در اینجا برخی از جزئیات مهم در مورد محیط زیست ما آمده است:
- ما یک پیکربندی ذخیره سازی Mirrored Nimble داریم (6.1.1.200-1020304-opt).
- ما از چهار سوئیچ SAN Brocade با مشخصات زیر استفاده می کنیم:
- سیستم عامل فابریک: v8.2.3b
- نوع: 118.1
- مدل: 650
- شماره سریال سازنده: CCD1914Q05T
- زیرساخت ما از شش میزبان ESXI (ProLiant DL380 Gen10) و سه میزبان سرور ویندوز تشکیل شده است.
بر اساس تایید تیم FC و تیم Nimble مبنی بر اینکه سیستم ها به درستی کار می کنند، ما اقدامات زیر را در تلاش برای رفع مشکل انجام داده ایم: این شامل:
- به اشتراک گذاری روزانه فایل های گزارش جاری از سوییچ های SAN و هاست های ESXi با تیم های پشتیبانی.
- به روز رسانی هاست های ESXi، سوئیچ های SAN، vCenter و ذخیره سازی Nimble به آخرین نسخه های آنها.
- بررسی دستگاههای با تخلیه کند، مقادیر بالای شمارندههای tim_txcrd_z و خطاهای موجود در فایلهای گزارش SAN.
- تعویض کابلها و فرستندههای FC معیوب با خطا یا برق/ولتاژ کم.
- تلاش برای اتصالات مختلف بین سوئیچ ها در هر پارچه، از جمله تغییر از فیبر چند حالته به فیبر تک حالته.
- افزودن دو خط اضافی (درگاه E) بین سوئیچ ها در هر پارچه.
- تغییر خط و پورت برای همگام سازی Nimble (اتصال شبکه).
- انجام انتقال از یک کنترلر Nimble به دیگری.
- انتقال ماشین های مجازی به میزبان ها و LUN های مختلف.
- جابجایی بین کنترلرهای اضافی Nimble.
- خاموش کردن هاست های ESXi یکی یکی برای مشاهده هر گونه تأثیری بر تأخیر.
- راه اندازی مجدد سوئیچ های SAN.
- خاموش کردن موقت سرورها (VMها و هاست های ویندوز) با بالاترین IOPS.
- نظارت بر سلامت Nimble، که در آن استفاده از CPU در حدود 50 تا 60 درصد است و متوسط تأخیر خواندن و نوشتن در محدوده قابل قبولی است (به ترتیب 2.26 ms و 1.25 ms).
برای نظارت بر زمان پاسخ و تأخیر، ما از esxtop با متریک DAVG/cmd، IOmeter و فایلهای log از میزبانهای ESXi خود استفاده کردهایم. این روشهای نظارتی به ما اجازه میدهند تا جهشهای تأخیر را تا 300 ثانیه مشاهده کنیم. با این حال، در اکثر مواقع، ما تاخیر بین 2 تا 20 ثانیه را مشاهده می کنیم.
علاوه بر این، vCenter ما در حال ایجاد گزارشهای رویداد است که ممکن است به این مشکل مرتبط باشد. رویدادهای خاص ثبت شده توسط vCenter به شرح زیر است:
– حجم 61126d65-c752f006-a5cc-9440c918333c (vsphere-LUN30-RZ1-RZ2) دیگر به دلیل مشکلات اتصال قابل دسترسی نیست. تلاش برای انجام یک ریکاوری است. نتیجه به زودی در دسترس خواهد بود.
– دسترسی به حجم 5e186201-114c2458-a1b3-9440c9183ae6 (vsphere-LUN00-RZ1-RZ2) پس از مشکلات اتصال بازیابی شد.
در لاگ فایلهای میزبانهای ESXI ما (vmkwarning.log) میتوانم ببینم که تاخیرهای زیادی از 04/11/2023 وجود دارد.
2023-04-11T21:30:37.507Z cpu0:2097963)WARNING: ScsiDeviceIO: 1498: دستگاه eui.d78e4f372a9ae94e6c9ce9001e4dc482 عملکرد بدی دارد. تأخیر I/O از مقدار متوسط 4071 میکروثانیه به 1799631 میکروثانیه افزایش یافت.
ما متوجه شدهایم که گزارشهای قدیمیتر روی میزبان بهطور خودکار حذف میشوند، و ما را از شناسایی مشکل تأخیر بالا در مراحل اولیه جلوگیری میکند. در حالی که ما از مسائل کلی عملکرد آگاه بودیم، تا زمانی که در 8 مه 2023 به سرعت تشدید شد، متوجه وسعت مشکل تأخیر نبودیم. این افشاگری نشان میدهد که تأخیر بالا ممکن است برای مدت طولانی بدون آگاهی ما بر سیستمهای ما تأثیر گذاشته باشد.
vmkernel.log:
2023-05-10T16:06:44.435Z cpu2:9730466)HBX: 5760: بازیابی HB در 4030464 در نسخه ‘vsphere-LUN02-RZ1-RZ2’ replayHostHB: 0 replayHBostU0D0 (0 replayHBostU0D0) 0000000-0000-000000000000) .
2023-05-10T16:06:44.436Z cpu2:9730466)HBX: 294: ‘vsphere-LUN02-RZ1-RZ2’: HB در آفست 4030464 – ضربان قلب بازیابی شده [Timeout]:
2023-05-10T16:06:44.436Z cpu2:9730466) [HB state abcdef02 offset 4030464 gen 4443 stampUS 2452223657109 uuid 6436560b-b270609a-f6dc-48df37a25880 jrnl <FB 50331649> drv 24.82 lockImpl 4 ip 172.20.13.213]
2023-05-10T16:06:44.458Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3867: Cmd 0x89 (0x45d95204a1c8, 9821137) به devf 9821137.9821137. 01e4dc482″ در مسیر “vmhba1:C0:T1:L30” ناموفق بود:
2023-05-10T16:06:44.458Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3875: H:0x0 D:0x2 P:0x0 داده حسی معتبر: 0xe 0x1d 0x0. قانون: هیچ. cmdId.initiator=0x4308172ebf80 CmdSN 0x6181588
2023-05-10T16:06:44.458Z cpu21:2097914)ScsiDeviceIO: 4161: Cmd(0x45d95204a1c8) 0x89، CmdSN 0x61815218 0x61815211 0x61815218 از world. 8b6c9ce9001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 دادههای حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.458Z cpu13:2097919)ScsiDeviceIO: 4161: Cmd(0x45b970e2b888) 0x89، CmdSN 0x618158c 0x618158c 0x618158c 0x618158c 0x618158c 0x618158c. 8b6c9ce9001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 دادههای حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.458Z cpu1:2097913)ScsiDeviceIO: 4161: Cmd(0x45b97862f848) 0x89، CmdSN 0x618158d 0x618158d از world. b6c9ce9001e4dc482″ ناموفق H:0x0 D:0x2 P:0x0 دادههای حسی معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.458Z cpu13:2097919)ScsiDeviceIO: 4161: Cmd(0x45b97da343c8) 0x89، CmdSN 0x618158a 0x618158a113i4678d از world 9472d. b6c9ce9001e4dc482″ ناموفق H:0x0 D:0x2 P:0x0 دادههای حسی معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.460Z cpu13:2097919)ScsiDeviceIO: 4161: Cmd(0x45b970ec3688) 0x89، CmdSN 0x618158f 0x618158f113i4678f از world 9478d. b6c9ce9001e4dc482″ ناموفق H:0x0 D:0x2 P:0x0 دادههای حسی معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.462Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3815: آخرین وضعیت خطا از دستگاه eui.6ad5bbb3629a2ec66c9ce9008e4dc 4 بار تکرار شد
2023-05-10T16:06:44.462Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3867: Cmd 0x89 (0x45d954bad288، 98221136) به devbbe6969666000. c482″ در مسیر “vmhba1:C0:T1:L2” ناموفق بود:
2023-05-10T16:06:44.462Z cpu21:2097914)NMP: nmp_ThrottleLogForDevice:3875: H:0x0 D:0x2 P:0x0 داده حسی معتبر: 0xe 0x1d 0x0. قانون: هیچ. cmdId.initiator=0x4308177c7780 CmdSN 0xc89af8
2023-05-10T16:06:44.462Z cpu21:2097914)ScsiDeviceIO: 4161: Cmd(0x45d954bad288) 0x89، CmdSN 0xc89af8 از جهان 98562936DVBD693966DVD. 001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 دادههای حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.462Z cpu20:2097920)ScsiDeviceIO: 4161: Cmd(0x45d954bfbe88) 0x89، CmdSN 0xc89af5 از جهان 9060d69000DVD6979000. 9001e4dc482 اینچ ناموفق H:0x0 D:0x2 P:0x0 دادههای حس معتبر: 0x 0x1d 0x0
2023-05-10T16:06:44.466Z cpu2:9730466)HBX: 5760: بازیابی HB در 4030464 در نسخه ‘vsphere-LUN00-RZ1-RZ2’ replayHostHB: 0 replayHBostU0D0 (0 replayHBostU0D0) 0000000-0000-000000000000) .
2023-05-10T16:06:44.467Z cpu2:9730466)HBX: 294: ‘vsphere-LUN00-RZ1-RZ2’: HB در آفست 4030464 – ضربان قلب بازیابی شده [Timeout]: 2023-05-10T16:06:44.467Z cpu2:9730466) [HB state abcdef02 offset 4030464 gen 3189 stampUS 2452223688123 uuid 6436560b-b270609a-f6dc-48df37a25880 jrnl <FB 16777217> drv 24.82 lockImpl 4 ip 172.20.13.213]
من از هر گونه پیشنهاد یا دیدگاهی از طرف جامعه در رابطه با گام های بعدی که می توانیم برای رسیدگی به این موضوع برداریم قدردانی می کنم. پیشاپیش از همکاری شما سپاسگزارم!
منبع: https://community.hpe.com/t5/array-setup-and-networking/high-latency-issue-nimble-storage-brocade-fc-switches/m-p/7188374#M3189 تحریریه مجله اچ پی