در سیستمهای ذخیرهسازی مبتنی بر RAID، کنترلر RAID نقش حیاتی در مدیریت و توزیع دادهها بین دیسکهای مختلف دارد. با این حال، همانند هر سیستم پیچیدهای، کنترلر RAID نیز ممکن است با خطاها و مشکلاتی مواجه شود که عملکرد و امنیت دادهها را تهدید کند. از جمله این خطاها میتوان به خرابی دیسکها، اشکالات در کنترلر، از دست دادن دادهها به دلیل ناهماهنگی در سیستم و حتی خرابی نرمافزاری اشاره کرد. خطاهای رید کنترلر میتوانند به دلیل عواملی نظیر خرابی فیزیکی دیسکها، قطع ناگهانی برق، مشکلات در اتصالات یا حتی خطاهای نرمافزاری رخ دهند. تشخیص زودهنگام این خطاها از طریق نرمافزارهای مانیتورینگ RAID امری ضروری است، چرا که این نرمافزارها قادرند وضعیت سیستم RAID را به صورت لحظهای نظارت کنند و با ارسال هشدارهای فوری، از بروز مشکلات جدیتر جلوگیری کنند. این نرمافزارها علاوه بر نظارت بر سلامت دیسکها، قادر به تحلیل لاگهای سیستم، مانیتورینگ دمای دیسکها و پیشبینی زمان احتمالی خرابی دیسکها نیز هستند. معرفی انواع خطاهای متداول در کنترلرهای RAID و ابزارهای مانیتورینگ، به کاربران کمک میکند تا بهتر با مشکلات این سیستمها آشنا شده و با استفاده از راهحلهای مناسب، از افت کارایی یا از دست رفتن اطلاعات حساس جلوگیری کنند.در این مقاله برای بررسی و ارائه راهکار موارد گفته شده با ما همراه باشید.
آشنایی با کنترلر RAID
قبل از بررسی خطاهای رید کنترلر، باید بدانیم که رید کنترلر چیست؟. رید کنترلر یک قطعه سختافزاری یا نرمافزاری است که وظیفه مدیریت و پیادهسازی تکنولوژی RAID را بر عهده دارد. هدف اصلی RAID افزایش کارایی و امنیت دادهها از طریق ترکیب چندین دیسک فیزیکی به یک واحد منطقی است. رید کنترلر میتواند به صورت سختافزاری در قالب یک کارت مجزا و یا نرمافزاری با استفاده از سیستمعامل عمل کند. در حالت سختافزاری، کنترلر معمولاً یک کارت مخصوص است که به اسلاتهای توسعه مادربرد متصل میشود و وظیفه اصلی آن مدیریت عملیات ورودی/خروجی بین دیسکهای فیزیکی و سیستمعامل است. این کارتها بهطور مستقل از پردازنده اصلی عمل میکنند و میتوانند پردازش سنگین مربوط به مدیریت دادهها و پیکربندی RAID را انجام دهند، که این موضوع منجر به بهبود کارایی سیستم میشود. از سوی دیگر، در حالت نرمافزاری، مدیریت RAID توسط سیستمعامل انجام میشود که هزینههای مربوط به خرید سختافزار اضافی را کاهش میدهد اما باعث اشغال بخشی از منابع پردازنده و کاهش کارایی در شرایط بار سنگین میشود.
نحوه عملکرد رید کنترلر
نحوه عملکرد رید کنترلر بر مبنای سطح انتخاب شده برای RAID متفاوت است. هر سطح RAID مانند RAID 0، RAID 1، RAID 5 یا RAID 10 دارای ویژگیهای خاص خود از نظر توزیع دادهها، افزونگی و کارایی است. به عنوان مثال، در RAID 0 دادهها به صورت نوارهایی بین چندین دیسک توزیع میشود و هدف افزایش سرعت خواندن و نوشتن است، اما هیچ افزونگی داده وجود ندارد، یعنی در صورت خرابی یک دیسک، تمام دادهها از دست میرود. در RAID 1 دادهها به صورت آیینهای بر روی دو یا چند دیسک ذخیره میشود، که افزونگی بالایی را فراهم میکند اما فضای ذخیرهسازی موثر را به نصف کاهش میدهد. کنترلر RAID وظیفه تقسیمبندی دادهها بر اساس الگوریتمهای مشخص را دارد و اطمینان حاصل میکند که اطلاعات به درستی بر روی دیسکها ذخیره شده و در صورت نیاز، بازیابی میشود. در سطوح پیچیدهتر مانند RAID 5 و RAID 10، کنترلر باید عملیات محاسبه همپارش (Parity) یا ترکیب سطوح مختلف RAID را به دقت مدیریت کند تا هم افزونگی دادهها و هم کارایی سیستم حفظ شود. عملکرد دقیق و بهینه کنترلر RAID میتواند تأثیر قابل توجهی در بهبود عملکرد کلی سیستم و حفظ امنیت دادهها داشته باشد.در ادامه نحوه عملکرد هر سطح RAID را به صورت موردی و خلاصه بررسی میکنیم:
1. RAID 0 (Striping)
برای سرعت بالا، رید کنترلر HPE Smart Array E208e-p SR Gen10 با پشتیبانی از RAID 0 انتخاب مناسبی است.
نحوه عملکرد Raid 0
دادهها به بخشهای کوچکتر تقسیم و به صورت نوارهایی (Stripes) بر روی چند دیسک ذخیره میشوند.
مزایا
افزایش سرعت خواندن و نوشتن به دلیل دسترسی همزمان به دیسکها.
معایب
فاقد افزونگی. خرابی یک دیسک منجر به از دست رفتن تمام دادهها میشود.
کاربرد
مناسب برای کاربردهایی که به سرعت بالا نیاز دارند و امنیت داده اولویت ندارد (مانند بازیها یا پردازشهای موقت).
2. RAID 1 (Mirroring)
رید کنترلر HPE Smart Array P441/4GB که از RAID 1 پشتیبانی میکند، برای امنیت بالا مناسب است.
نحوه عملکرد RAID 1
دادهها به طور همزمان بر روی دو یا چند دیسک ذخیره میشوند (آیینهسازی).
مزایا
افزونگی بالا؛ خرابی یک دیسک باعث از دست رفتن دادهها نمیشود زیرا کپی آن بر روی دیسک دیگر موجود است.
معایب
نصف شدن فضای ذخیرهسازی مفید؛ هزینه بیشتر به دلیل استفاده از دیسکهای بیشتر.
کاربرد
مناسب برای سیستمهایی که امنیت دادهها بسیار حیاتی است (مانند سرورها و پایگاههای داده).
3. RAID 5 (Striping with Parity)
HPE Smart Array P824i-p MR Gen10 Controller انتخاب خوبی برای RAID 5 است.
نحوه عملکرد RAID 5
دادهها به صورت نوارهایی بر روی دیسکها تقسیم میشوند و اطلاعات همپارش (Parity) برای بازیابی دادهها در صورت خرابی یک دیسک بر روی سایر دیسکها ذخیره میشود.
مزایا
افزونگی بالا همراه با استفاده بهینه از فضای ذخیرهسازی؛ اگر یک دیسک خراب شود، دادهها از طریق همپارش قابل بازیابی است.
معایب
کاهش سرعت در هنگام نوشتن به دلیل محاسبات همپارش؛ بازیابی دادهها زمانبر است.
کاربرد
مناسب برای سیستمهایی که هم امنیت داده و هم کارایی اهمیت دارد (مانند سرورهای فایل).
4. RAID 6 (Dual Parity)
HPE Smart Array P824i-p MR Gen10 که RAID 6 را نیز پشتیبانی میکند.
نحوه عملکرد RAID 6
شبیه RAID 5 است، اما از دو بلاک همپارش استفاده میکند که امکان بازیابی دادهها در صورت خرابی دو دیسک را فراهم میکند.
مزایا
افزونگی بالاتر نسبت به RAID 5؛ میتواند در صورت خرابی دو دیسک دادهها را بازیابی کند.
معایب
هزینه بیشتر به دلیل استفاده از فضای بیشتر برای ذخیرهسازی همپارش؛ کاهش سرعت نوشتن.
کاربرد
مناسب برای سیستمهایی که نیاز به امنیت بالای داده دارند، مانند مراکز داده بزرگ.
5. RAID 10 (1+0)
HPE Smart Array P408i-a SR مناسب برای ترکیب RAID 0 و 1
نحوه عملکرد Raid 10
ترکیبی از RAID 0 و RAID 1 است. ابتدا دادهها بر روی چندین دیسک به صورت نوارهایی ذخیره میشوند (مانند RAID 0) و سپس آیینهسازی میشود (مانند RAID 1).
مزایا
ترکیب سرعت بالای RAID 0 و امنیت بالای RAID 1؛ خرابی چند دیسک (در صورت عدم تأثیر بر دیسکهای آیینهشده) قابل تحمل است.
معایب
هزینه بالا به دلیل نیاز به تعداد زیادی دیسک؛ فضای ذخیرهسازی مفید به نصف کاهش مییابد.
کاربرد
مناسب برای سیستمهایی که هم سرعت بالا و هم امنیت دادهها اهمیت دارد (مانند سیستمهای پردازش تراکنشهای مالی).
6. RAID 50 (Striping of RAID 5 Arrays)
HPE Smart Array P824i-p MR Gen10 از این سطوح RAID پشتیبانی میکند.
نحوه عملکرد Raid 50
ترکیبی از RAID 0 و RAID 5 است. ابتدا دادهها به صورت نوارهایی بر روی چندین مجموعه RAID 5 توزیع میشوند.
مزایا
سرعت بالاتر نسبت به RAID 5 و افزونگی بهتر.
معایب
پیچیدگی و هزینه بیشتر؛ کاهش عملکرد در هنگام بازیابی.
کاربرد
مناسب برای سیستمهای بزرگ ذخیرهسازی که نیاز به ترکیب امنیت و کارایی دارند.
7. RAID 60 (Striping of RAID 6 Arrays)
نحوه عملکرد RAID 60
ترکیبی از RAID 0 و RAID 6 است. ابتدا دادهها به صورت نوارهایی بر روی چندین مجموعه RAID 6 توزیع میشوند.
مزایا
افزونگی بالاتر و قابلیت تحمل خرابی دو دیسک در هر مجموعه RAID 6.
معایب
پیچیدگی و هزینه بالاتر؛ نیاز به محاسبات بیشتر برای همپارشها.
کاربرد
مناسب برای محیطهایی با ذخیرهسازی دادههای بسیار حجیم و نیاز به امنیت بسیار بالا.
درصورت نیاز به خرید رید کنترلر سرور ، میتوانید با کارشناسان ماهان شبکه ایرانیان در ارتباط باشید.
خطاهای رایج رید کنترلر
همانطور که گفته شد، رید کنترلرها اجزای حیاتی سرورها هستند که وظیفه سازماندهی چندین هارد دیسک را به عنوان یک فضای واحد و منطقی بر عهده دارند. در این بخش، به بررسی خطاهای رید کنترلر مختلفی که ممکن است در هنگام استفاده از RAID Controller رخ دهند میپردازیم و راهحلهای رفع این خطاها را معرفی میکنیم.
عدم نمایش RAID Controller در طول فرآیند POST
این خطا زمانی رخ میدهد که سرور قادر به شناسایی RAID Controller در طول فرآیند POST (Power-On Self-Test) نیست، که میتواند مشکلات مختلفی را در عملکرد سرور ایجاد کند.
دلایل احتمالی این خطا
- خرابی فیزیکی کنترلر
این مشکل میتواند به دلیل آسیب فیزیکی به خود RAID Controller یا اتصالات آن باشد. زمانی که کنترلر دچار خرابی فیزیکی میشود، سرور قادر به برقراری ارتباط با آن نخواهد بود و در نتیجه در طول فرآیند POST قابل شناسایی نخواهد بود.
- عدم پشتیبانی کنترلر توسط سرور
برخی از مدلهای RAID Controller ممکن است با تمام سرورها سازگار نباشند. اگر کنترلر توسط سرور پشتیبانی نشود، در فرآیند POST شناسایی نخواهد شد.
- نصب نادرست کنترلر
ممکن است کنترلر به درستی در اسلات PCIe یا جایگاه مربوطه قرار نگرفته باشد. نصب نادرست میتواند باعث شود سرور نتواند کنترلر را شناسایی کند.
- نسخه قدیمی سیستم عامل
اگر سیستم عامل سرور یا فریمور RAID Controller بهروز نشده باشد، ممکن است این مشکل رخ دهد.
راهحلها
- بررسی لیست پشتیبانی سرور
ابتدا باید مطمئن شوید که RAID Controller مورد استفاده با مدل سرور شما سازگار است. برای این منظور میتوانید به لیست پشتیبانی سرور در وبسایت Hewlett Packard Enterprise مراجعه کنید.
- بررسی آسیبهای فیزیکی
RAID Controller را از نظر فیزیکی بررسی کنید تا مطمئن شوید که هیچگونه آسیبی ندیده است. همچنین، اتصالات و کابلها را نیز چک کنید.
- نصب مجدد کنترلر
در صورتی که BIOS سرور RAID Controller را شناسایی کرده است، پیشنهاد میشود که کنترلر را از اسلات خارج کرده و دوباره بهطور صحیح نصب کنید.
- بهروزرسانی سیستم عامل
سیستم عامل سرور و فریمور RAID Controller باید به آخرین نسخه بهروز شود. برای این منظور میتوانید به وبسایت سازنده مراجعه کنید و آخرین نسخههای فریمور و درایور را دانلود و نصب کنید.
- استفاده از ابزارهای تشخیصی
Active Health System log را دانلود کرده و با استفاده از ابزار Active Health System Viewer، مشکلات را تشخیص دهید. برای این منظور، میتوانید به مستندات مربوطه در وبسایت Hewlett Packard Enterprise مراجعه کنید.
- پشتیبانی فنی
اگر پس از انجام مراحل فوق مشکل همچنان ادامه داشت، میتوانید با استفاده از وبسایت مرکز پشتیبانی Hewlett Packard Enterprise، پرونده پشتیبانی باز کنید و از کمک متخصصین بهرهمند شوید.
- تعویض RAID Controller
اگر مشکل همچنان پا برجاست، تعویض RAID Controller با یک مدل جدیدتر و سازگار میتواند راهحل نهایی باشد.
2. خطای ‘Controllers are no longer redundant’
این خطا زمانی رخ میدهد که کنترلرهای RAID دیگر به صورت افزونه (redundant) عمل نمیکنند. این به معنای آن است که یک یا چند کنترلر دچار مشکل شدهاند و دیگر قابلیت افزونگی در سیستم وجود ندارد، که میتواند عملکرد سرور را تحت تأثیر قرار دهد.
دلایل احتمالی این خطا
- خرابی فیزیکی یک یا چند کنترلر
اگر یک یا چند RAID Controller دچار خرابی فیزیکی شده باشند، سیستم دیگر قادر به برقراری ارتباط با آنها نخواهد بود و در نتیجه عملکرد افزونگی از بین میرود.
- پشتیبانی نشدن از کنترلرها توسط سرور
اگر کنترلرهای مورد استفاده با سرور سازگار نباشند، سیستم نمیتواند به درستی آنها را مدیریت کند.
- نصب نادرست کنترلرها
ممکن است یک یا چند کنترلر به درستی نصب نشده باشند، که این باعث از بین رفتن قابلیت افزونگی میشود.
- قدیمی بودن فریمور کنترلر
نسخه قدیمی فریمور کنترلرها ممکن است با سیستم سازگار نباشد و عملکرد افزونگی را مختل کند.
- نصب نادرست energy pack
Energy pack کنترلر RAID به درستی نصب یا متصل نشده باشد. این جزء یکی از عناصر حیاتی در عملکرد صحیح RAID Controller و حفظ دادهها است.
راهحلها
- بررسی پشتیبانی سرور از Smart Array
مطمئن شوید که کنترلرهای RAID مورد استفاده شما، جزو مدلهای پشتیبانیشده توسط سرور هستند.
- بررسی نصب فیزیکی کنترلرها
همه کنترلرها را از نظر نصب صحیح بررسی کنید تا مطمئن شوید که بهطور درست در اسلاتهای PCIe قرار گرفتهاند.
- بررسی فریمور
مطمئن شوید که فریمور همه کنترلرها بهروز است. اگر نسخههای قدیمی یا ناسازگار هستند، باید آنها را بهروزرسانی کنید.
- بررسی cache
اطمینان حاصل کنید که اندازه cache کنترلر با سیستم شما سازگار است و به درستی تنظیم شده است.
- بررسی اتصال energy pack
مطمئن شوید که energy pack به درستی نصب و به سیستم متصل شده باشد. بررسی کابلها و اتصالات نیز ضروری است تا هیچگونه قطعی در مسیر تغذیه انرژی وجود نداشته باشد.
- استفاده از Active Health System Viewer
گزارش Active Health System را بارگیری و با استفاده از ابزارهای موجود، مشکل را تشخیص دهید. اگر همچنان مشکل ادامه دارد، پرونده پشتیبانی باز کنید.
3. خطای ‘Data located on drives accessed in RAID mode is not compatible with non-RAID mode’
این خطا زمانی رخ میدهد که دادههایی که در حالت RAID ذخیره شدهاند، با دادههای موجود در حالت non-RAID سازگار نیستند. این مشکل میتواند در صورتی که درایوها به اشتباه بین حالتهای RAID و non-RAID جابجا شوند رخ دهد.
دلایل احتمالی بروز این خطا
- دسترسی نادرست به دادهها
این مشکل معمولاً به دلیل جابجایی نادرست درایوها بین حالتهای RAID و non-RAID رخ میدهد.
- سازگاری نامناسب
ممکن است تنظیمات RAID و non-RAID به درستی تنظیم نشده باشند و دادهها در این دو حالت با یکدیگر سازگار نباشند.
راهحلها
- تنظیم دسترسی به دادهها در حالتهای یکسان
کمپانی Hewlett Packard توصیه میکند که فقط زمانی که حالت RAID و non-RAID یکسان است به دادهها دسترسی داشته باشید. اگر دادهها در دو حالت مختلف ذخیره شدهاند، باید از آنها پشتیبان تهیه کرده و آنها را بازیابی کنید.
- پشتیبانگیری از دادهها
قبل از جابجایی درایوها بین حالتهای مختلف، از دادههای خود نسخه پشتیبان تهیه کنید تا در صورت بروز مشکل، بتوانید اطلاعات را بازیابی کنید.
4. عدم شناسایی درایوهای منطقی پس از جابجایی آنها
یکی دیگر از مشکلات رایج RAID Controller عدم شناسایی درایوهای منطقی پس از جابجایی آنها به سرور یا JBOD جدید است. این مشکل زمانی رخ میدهد که درایوهای منطقی از یک سرور به سرور دیگر منتقل شوند و کنترلر جدید قادر به شناسایی آنها نباشد.
دلایل احتمالی بروز این خطا
- جابجایی نادرست درایوها
ممکن است درایوها به درستی جابجا نشده باشند یا قوانینی که برای جابجایی درایوها وجود دارد رعایت نشده باشد.
- مشکل در رومینگ درایو (Drive Roaming)
رومینگ درایو به فرآیندی گفته میشود که به شما امکان میدهد درایوها و آرایههای دیسک را با حفظ دادهها جابجا کنید. اگر این فرآیند به درستی انجام نشود، ممکن است کنترلر نتواند درایوهای منطقی را شناسایی کند.
راهحلها
- رعایت قوانین رومینگ درایو
هنگام جابجایی درایوها باید قوانین رومینگ درایو را رعایت کنید. این قوانین شامل دستورالعملهایی برای نحوه جابجایی صحیح درایوها و آرایههای دیسک بین کنترلرها و سرورها است.
- پشتیبانگیری از دادهها
قبل از جابجایی درایوها بین سرورها یا JBODها، مطمئن شوید که از دادهها پشتیبانگیری کردهاید تا در صورت بروز مشکل بتوانید اطلاعات را بازیابی کنید.
5. خطاهای مربوط به backplane درایو
این خطا زمانی رخ میدهد که درایوهای Small Form Factor (SFF) یا Large Form Factor (LFF) که به backplane متصل هستند، به درستی با رید کنترلر در ارتباط نباشند. این مشکل معمولاً به دلیل عدم اتصال صحیح backplane به کنترلر RAID یا خرابی درایوها رخ میدهد. این خطا میتواند منجر به از دست رفتن دادهها یا عدم شناسایی صحیح درایوها توسط سیستم شود.
دلایل احتمالی بروز این خطا
- اتصال نادرست backplane به RAID Controller
یکی از رایجترین دلایل این خطا این است که backplane درایوها به درستی به RAID Controller متصل نشده است. اگر backplane به صورت کامل به کنترلر متصل نباشد، سیستم قادر به برقراری ارتباط صحیح با درایوهای متصل نخواهد بود.
- استفاده نادرست از کابلهای backplane
ممکن است تعداد و نوع کابلهای مورد استفاده برای اتصال backplane به RAID Controller نادرست باشد. برخی از سیستمها نیاز به یک کابل دارند، در حالی که سیستمهای دیگر برای پهنای باند بیشتر به دو کابل نیاز دارند.
- خرابی backplane یا کنترلر
در برخی موارد، خرابی backplane یا خود RAID Controller نیز میتواند منجر به این خطا شود. خرابی در backplane میتواند مانع از انتقال صحیح دادهها بین درایوها و RAID Controller شود.
- تنظیمات نادرست در سیستم عامل یا فریمور
ممکن است تنظیمات مرتبط با backplane در سیستم عامل یا فریمور کنترلر به درستی تنظیم نشده باشد که باعث مشکلات در شناسایی درایوها شود.
راهحلها
- بررسی اتصال backplane
اولین قدم برای رفع این مشکل این است که مطمئن شوید پورتهای backplane به درستی به RAID Controller متصل شدهاند. همه اتصالات و کابلها را به دقت بررسی کنید تا هیچگونه قطعی یا اتصال نادرست وجود نداشته باشد.
- استفاده از تعداد صحیح کابلها
بسته به نوع سیستم و RAID Controller، بررسی کنید که از تعداد و نوع مناسب کابلهای backplane استفاده میکنید. در برخی سیستمها تنها یک کابل برای اتصال backplane به کنترلر کافی است، در حالی که در برخی دیگر ممکن است دو کابل برای افزایش پهنای باند مورد نیاز باشد.
- بررسی خرابی backplane یا RAID Controller
اگر مشکل همچنان پابرجا بود، ممکن است نیاز به بررسی فیزیکی backplane و RAID Controller داشته باشید. از ابزارهای تشخیصی برای شناسایی خرابیهای احتمالی در backplane یا کنترلر استفاده کنید.
- بهروزرسانی فریمور و تنظیمات
بررسی کنید که فریمور RAID Controller و تنظیمات مربوط به backplane در سیستم عامل بهروز باشد. بهروزرسانیهای فریمور ممکن است مشکلات سازگاری یا عملکرد را حل کند.
- پشتیبانی فنی
اگر پس از انجام همه این مراحل مشکل حل نشد، میتوانید از پشتیبانی فنی سازنده کمک بگیرید تا مشکل را تشخیص داده و رفع کنند.
با رعایت این راهحلها میتوانید از مشکلات مربوط به backplane و درایوهای SFF یا LFF در سیستمهای RAID Controller جلوگیری کنید و عملکرد صحیح سیستم خود را تضمین کنید.
6. خطای ‘Unrecoverable Read Error’
این خطا زمانی رخ میدهد که RAID Controller قادر به خواندن اطلاعات از یک یا چند سکتور از درایوهای موجود در آرایه RAID نیست. این مشکل میتواند باعث از دست رفتن اطلاعات مهم و حتی خرابی کلی درایو شود. این خطا بهویژه در سیستمهایی که از ریدهای پیچیده مانند RAID 5 یا RAID 6 استفاده میکنند بسیار مهم است، چرا که در این آرایهها تحمل خطا وجود دارد، اما در صورت بروز این مشکل، امکان بازیابی دادهها از دست میرود.
دلایل احتمالی بروز این خطا
- خرابی یک یا چند سکتور از درایو
این مشکل بهطور معمول زمانی رخ میدهد که یک یا چند سکتور در درایو دچار خرابی شده باشند. سکتورها بخشی از فضای ذخیرهسازی فیزیکی دیسکها هستند که برای نگهداری اطلاعات استفاده میشوند و زمانی که خراب شوند، RAID Controller نمیتواند بهطور صحیح اطلاعات را از آنها بخواند.
- خرابی فیزیکی دیسک
علاوه بر سکتورهای خراب، ممکن است کل دیسک دچار خرابی فیزیکی شود، مانند آسیبدیدگی هد یا موتوری که دیسک را میچرخاند. در این حالت، RAID Controller توانایی دسترسی به اطلاعات ذخیره شده روی دیسک را از دست میدهد.
راهحلها
- استفاده از ابزارهای ریکاوری داده
برای بازیابی اطلاعات از سکتورهای خراب، ابتدا باید از ابزارهای پیشرفته ریکاوری داده استفاده کنید. این ابزارها میتوانند به صورت نرمافزاری تلاش کنند تا اطلاعات از سکتورهای معیوب بازخوانی شود. با این حال، این راهحل همیشه موفقیتآمیز نیست و در برخی موارد ممکن است تمام دادهها از دست برود.
- تعویض درایوهای معیوب
اگر ابزارهای ریکاوری قادر به بازیابی اطلاعات نبودند یا اگر مشکل خرابی فیزیکی درایو بسیار جدی باشد، بهترین راهحل تعویض درایوهای معیوب است. پس از تعویض دیسکهای معیوب، RAID Controller معمولاً بهصورت خودکار عملیات بازسازی آرایه (rebuild) را آغاز میکند تا دادههای گمشده از روی دیسکهای باقیمانده بازسازی شوند.
7. خطای ‘Degraded Array’
این خطا زمانی رخ میدهد که یکی از درایوهای موجود در آرایه RAID خراب شده و عملکرد کل سیستم با کاهش مواجه میشود. در این حالت، آرایه RAID همچنان به کار خود ادامه میدهد اما بدون عملکرد افزونگی، به این معنا که اگر درایو دیگری نیز خراب شود، تمام دادههای آرایه از دست خواهد رفت.
دلایل احتمالی بروز این خطا
- خرابی یک یا چند درایو
شایعترین دلیل برای ایجاد یک آرایه Degraded این است که یکی از درایوها در آرایه دچار خرابی شده باشد. این خرابی میتواند به دلیل مشکلات فیزیکی مانند خرابی هد دیسک، موتور یا حتی سکتورهای معیوب باشد.
- قطع شدن اتصال فیزیکی دیسکها
گاهی اوقات این خطا به دلیل قطع شدن اتصال فیزیکی بین RAID Controller و درایوهای موجود در آرایه رخ میدهد. این مشکل میتواند به دلیل جدا شدن کابلها یا خرابی اتصالات باشد.
راهحلها
- تعویض یا تعمیر دیسکهای خراب
برای رفع این خطا، ابتدا باید دیسکهای خراب شناسایی شوند. در بسیاری از موارد، نرمافزار RAID Management ابزارهای لازم برای شناسایی و تعویض دیسکهای خراب را ارائه میدهد. پس از تعویض دیسک خراب، عملیات بازسازی آرایه (rebuild) باید بهطور خودکار آغاز شود.
- بررسی اتصالات فیزیکی دیسکها
اگر مشکل به دلیل قطع شدن اتصال فیزیکی باشد، باید کابلهای مربوطه و اسلاتهای PCIe یا SAS/SATA را بررسی کنید. هرگونه قطعی یا ناپایداری در اتصالات میتواند منجر به این خطا شود. پس از برقراری مجدد اتصالات، سیستم باید به حالت نرمال بازگردد.
8. خطای ‘RAID Array Not Found’
این خطا زمانی رخ میدهد که سیستم قادر به شناسایی آرایه RAID موجود در سیستم نیست. این مشکل میتواند ناشی از خرابی پیکربندی RAID، خرابی فیزیکی RAID Controller یا درایوها باشد و ممکن است باعث عدم دسترسی به دادهها شود.
دلایل احتمالی بروز این خطا
- پیکربندی نادرست RAID
یکی از رایجترین دلایل برای بروز این خطا، پیکربندی نادرست RAID است. این مشکل ممکن است به دلیل تغییرات ناخواسته در تنظیمات BIOS یا نرمافزار مدیریت RAID رخ دهد.
- خرابی فیزیکی RAID Controller یا درایوها
خرابی فیزیکی RAID Controller یا یکی از درایوهای موجود در آرایه میتواند باعث شود که سیستم قادر به شناسایی آرایه نباشد. این مشکل معمولاً به دلیل آسیبدیدگی قطعات فیزیکی مانند کنترلر RAID یا خود درایوها رخ میدهد.
راهحلها
- بررسی و اصلاح پیکربندی RAID
ابتدا باید وارد تنظیمات BIOS یا نرمافزار مدیریت RAID شوید و پیکربندی فعلی آرایه RAID را بررسی کنید. اگر تغییرات نادرستی در تنظیمات ایجاد شده است، باید آنها را به حالت صحیح بازگردانید. همچنین، بررسی کنید که همه درایوهای مورد نیاز برای تشکیل آرایه به درستی شناسایی شدهاند.
- تعویض RAID Controller یا درایوهای معیوب
اگر مشکل به دلیل خرابی فیزیکی کنترلر یا درایوها است، باید قطعات معیوب را شناسایی و تعویض کنید. پس از تعویض قطعات، باید بررسی کنید که آیا سیستم قادر به شناسایی آرایه RAID هست یا خیر. در برخی موارد، نیاز به انجام عملیات بازسازی آرایه وجود دارد تا دادههای گمشده بازیابی شوند.
استفاده از نرمافزارهای مانیتورینگ برای جلوگیری از برور خطا رید کنترلر
برای مانیتورینگ رید کنترلر، و اطمینان از سلامت آنها، نیاز به نرمافزارهای مانیتورینگی دارید که به طور خاص برای نظارت بر عملکرد ذخیرهسازی و مدیریت رید طراحی شدهاند. کنترلرهای رید بخشهای حیاتی در سرورها و سیستمهای ذخیرهسازی هستند و مانیتورینگ آنها برای پیشگیری از مشکلاتی همچون خرابی دیسکهای سخت یا کاهش کارایی سیستم ضروری است.
در زیر به معرفی چند نرمافزار مانیتورینگ برای کنترلرهای RAID و نحوه کار با آنها پرداخته میشود:
1. MegaRAID Storage Manager (برای کنترلرهای LSI/Avago/Broadcom)
این نرمافزار برای مانیتورینگ و مدیریت کنترلرهای RAID از سری LSI و Broadcom است. MegaRAID ابزاری است که به شما امکان میدهد وضعیت درایوها، رید کنترلرها و حجمهای ذخیرهسازی را مشاهده و مدیریت کنید.
ویژگیها MegaRAID Storage Manager
- مانیتورینگ لحظهای سلامت درایوها و کنترلرها
- امکان ساخت، حذف و اصلاح آرایههای رید
- دریافت هشدار در صورت بروز خطا یا مشکل در دیسکها یا کنترلر
- ارائه جزئیات در مورد وضعیت و سلامت دیسکهای فیزیکی
نحوه کار
- نصب MegaRAID Storage Manager
ابتدا باید این نرمافزار را از وبسایت Broadcom دانلود کرده و بر روی سرور یا سیستم عامل مدنظر نصب کنید.
- پیکربندی اتصالات
پس از نصب، نرمافزار بهصورت خودکار کنترلرهای RAID متصل به سیستم را شناسایی میکند. از طریق رابط کاربری گرافیکی، میتوانید به راحتی وضعیت دیسکهای فیزیکی و مجازی را بررسی کنید.
- مانیتورینگ وضعیت RAID
نرمافزار اطلاعات دقیقی در مورد وضعیت RAID ارائه میدهد و اگر دیسکی در شرف خرابی باشد یا یک دیسک از کار بیافتد، هشدارهایی به شما ارسال میشود.
- هشدارها و تعمیرات
در صورت بروز مشکلات، هشدارهایی به صورت ایمیل یا پاپآپ روی سیستم نمایش داده میشود و شما میتوانید اقدام به جایگزینی دیسکهای معیوب یا بازسازی آرایهها کنید.
2. HPE Smart Storage Administrator (HPE SSA)
این ابزار برای مانیتورینگ و مدیریت کنترلرهای RAID در سرورهای HPE (Hewlett Packard Enterprise) طراحی شده است.
ویژگیها HPE SSA
- مانیتورینگ و مدیریت آرایههای رید
- امکان تنظیم آرایههای RAID به صورت دستی
- ارائه هشدارها در صورت بروز خرابی دیسک یا مشکلات در عملکرد کنترلر
- پشتیبانی از انواع RAID (RAID 0، RAID 1، RAID 5، و غیره)
نحوه کار
- نصب HPE SSA
ابتدا باید نرمافزار HPE SSA را از سایت رسمی HPE دانلود کرده و بر روی سرور خود نصب کنید.
- مانیتورینگ لحظهای
نرمافزار به شما این امکان را میدهد که بهصورت لحظهای وضعیت آرایههای رید و دیسکهای فیزیکی متصل به کنترلرهای HPE را مشاهده کنید.
- هشدار و بازیابی
اگر یکی از دیسکها دچار مشکل شود، شما یک هشدار دریافت میکنید و از طریق ابزار HPE SSA میتوانید دیسک را تعویض کنید و بازسازی دادهها را آغاز کنید.
- گزارشات و تاریخچه
این ابزار همچنین گزارشهایی از عملکرد سیستم و وضعیت درایوها ارائه میدهد.
3. HPE Integrated Lights-Out (iLO)
HPE iLO یک فناوری مدیریت از راه دور است که در سرورهای HPE تعبیه شده است. این فناوری به مدیران سیستمها اجازه میدهد تا سرورها را از راه دور مدیریت و مانیتور کنند، از جمله وضعیت RAID و درایوهای فیزیکی.برای آشنایی بیشتر درخصوص جدیدترین iLO میتوانید مقاله معرفی iLO6 را بخوانید.
ویژگیها iLO
- امکان مدیریت سرورها از طریق رابط وب بدون نیاز به دسترسی فیزیکی
- نظارت بر وضعیت دیسکها، RAID و سلامت سیستم
- امکان راهاندازی مجدد یا خاموش کردن سرور از راه دور
- پشتیبانی از دریافت هشدارها در صورت بروز مشکلات سختافزاری (مانند خرابی دیسکها)
- ابزار پیشرفته برای رفع مشکلات و ارائه گزارشات سلامت سرور
نحوه کار
- دسترسی به iLO
iLO یک رابط مدیریت تحت وب دارد که از طریق مرورگر میتوانید به آن دسترسی داشته باشید. معمولاً برای هر سرور HPE یک آدرس IP برای iLO تنظیم شده است که از طریق آن میتوانید به صفحه مدیریت متصل شوید.
- مانیتورینگ RAID
در iLO، بخش سلامت سختافزاری شامل وضعیت دیسکهای متصل به کنترلر RAID و وضعیت آرایههای RAID را نشان میدهد.
- دریافت هشدارها
اگر مشکلی در دیسکها یا کنترلر RAID وجود داشته باشد، iLO به شما هشدارهایی ارسال میکند. این هشدارها شامل جزئیات مربوط به خرابی دیسک، کاهش عملکرد RAID یا خرابیهای مرتبط دیگر است.
4. HPE OneView
HPE OneView یک پلتفرم جامع مدیریت زیرساخت است که برای مانیتورینگ و مدیریت سرورها، ذخیرهسازی و شبکههای HPE طراحی شده است. این ابزار امکانات گستردهای برای مانیتورینگ وضعیت RAID نیز دارد.
ویژگیها HPE OneView
- مدیریت و مانیتورینگ همه جانبه زیرساختهای HPE (سرورها، ذخیرهسازی و شبکه)
- نمایش وضعیت سلامت آرایههای RAID و دیسکهای فیزیکی
- ارائه هشدارها و گزارشها در صورت بروز مشکلات
- یکپارچهسازی با VMware، Microsoft و ابزارهای دیگر
- ارائه داشبوردهای تعاملی برای مشاهده وضعیت سلامت سیستمها
نحوه کار
- نصب HPE OneView
این نرمافزار باید روی یک سرور مدیریت یا ماشین مجازی نصب شود. پس از نصب، از طریق رابط کاربری تحت وب میتوانید به آن دسترسی پیدا کنید.
- اتصال به سرورهای HPE
پس از نصب، سرورهای HPE خود را به OneView متصل میکنید تا دادههای مرتبط با آنها بهصورت خودکار مانیتور شوند.
- مانیتورینگ RAID
HPE OneView به شما امکان میدهد وضعیت دیسکها، آرایههای RAID و کنترلرهای ذخیرهسازی را بررسی و مدیریت کنید.
- دریافت هشدارها
در صورت بروز مشکلاتی مانند خرابی دیسک یا اختلالات RAID، هشدارهایی به شما ارسال خواهد شد.
5. HPE Insight Diagnostics
این ابزار برای تشخیص و بررسی مشکلات سختافزاری سرورهای HPE بهکار میرود و میتواند مشکلاتی را که ممکن است بر RAID و دیسکهای فیزیکی تأثیر بگذارد شناسایی کند.
ویژگیها HPE Insight Diagnostics
- ابزارهای تشخیص مشکلات سختافزاری سرورها
- گزارشهای دقیق از وضعیت سلامت اجزای سختافزاری از جمله کنترلرهای RAID و دیسکها
- مانیتورینگ وضعیت سختافزار بهصورت دورهای
- امکان خروجی گرفتن از گزارشها برای تحلیلهای بیشتر
نحوه کار
- نصب Insight Diagnostics
این ابزار بهطور معمول بر روی سرور نصب میشود و پس از نصب، گزارشی از وضعیت سختافزاری سرور ارائه میدهد.
- اجرای آزمایشهای سختافزاری
با استفاده از Insight Diagnostics میتوانید تستهای دقیقی روی سختافزار سرور از جمله دیسکها و کنترلرهای RAID اجرا کنید تا وضعیت سلامت آنها بررسی شود.
- گزارشگیری
پس از اجرای آزمایشها، گزارشی از عملکرد و سلامت اجزای مختلف سرور از جمله آرایههای RAID به شما ارائه میشود.
کلام آخر
در پایان، سیستمهای مبتنی بر RAID به عنوان یکی از اساسیترین فناوریهای ذخیرهسازی داده، با وجود کارایی بالا و امنیت بیشتر، نیازمند مدیریت و نظارت مداوم هستند. رید کنترلر و ابزارهای مانیتورینگ مرتبط با آنها، امکان شناسایی سریع مشکلات و جلوگیری از خرابیهای بزرگتر را فراهم میکنند. آگاهی از خطاهای رید کنترلر و استفاده از راهحلهای مناسب برای رفع آنها میتواند از کاهش کارایی، از دست رفتن دادهها، و هزینههای اضافی جلوگیری کند. با بهرهگیری از ابزارهای مانیتورینگ هوشمند، کاربران قادر خواهند بود سلامت سیستمهای RAID خود را تضمین کنند و خطرات ناشی از خرابیهای احتمالی را به حداقل برسانند.