Проблема многих коллег – они задают мета-вопросы, перед ответом на которые надо знать конфигурацию оборудования, и провести сбор первичной статистики. Что для этого есть:

1. Нужно обязательно знать версию ESXi, версию FW (микрокода) и драйверов оборудования. В этом поможет ранее (С чего начинать поиск оборудования, проверки сравнение драйверов и FW) упомянутая статья Determining Network/Storage firmware and driver version in ESXi (1027206)
Read more... )
2. Знать, где лежат логи (что лежит на самом хосте, что на vCenter) и как их читать. Статья - Location of log files for VMware products (1021806) https://kb.vmware.com/s/article/1021806, как читать – vi в помощь, как и tale и find
3. Использовать RVTools
4. При сборе первичной диагностики при проблемах со скоростью – во первых указавать, на каком уровне наблюдаются проблемы – на уровне гостевой системы, на уровне файлов виртуальной машины или на уровне всего хранилища. Для уточнения - использовать esxtop –
Read more... )
5. Не стесняться активно использовать самописные скрипты, пусть даже на 1-2 строчки с вызовом Get-VirtualPortGroup как упомянуто тут https://vmind.ru/2021/02/24/obnovlenie-vmware-vcenter-putem-ego-zameny/
или готовые, с сбором информации, например у LucD -
How to get and set VM Permissions https://communities.vmware.com/t5/VMware-PowerCLI-Discussions/How-to-get-and-set-VM-Permissions/td-p/2566670
Audit VMware vCenter Server Permission Using PowerCLI
https://thesleepyadmins.com/2021/07/08/audit-vmware-vcenter-server-permission-using-powercli/
5 пунктов анкеты до начала траблшутинга Vmware и отправки вопросов
1. Обязательно заведите запрос в техподдержке Vmware.
Почему это обязательно надо сделать: Потому что они попросят собрать дамп, это сам о по себе часто помогает. Если же вы не можете завести запрос по причине того, что у вас нет лицензий и не куплена техподдержка, по абсолютно, без любых исключений, причинам, включая не зависящие от вас – значит, вашей организации на самом деле не нужно Vmware, а нужно имитировать какую-то деятельность и все пункты ниже не имеют особого смысла, кроме самообразования.

2. Прочитайте статью https://telegra.ph/Kak-zadavat-voprosy-v-vSAN-chate-01-16 и делайте, как в ней написано,
а именно:
Указывайте полное название того, с чем у вас проблемы.
В случае Vmware как минимум нужно указать И версию esxi на хостах и версию vCenter. Информацию можно посмотреть в GUI, в DCUI на хосте, и через SSH – команда для хоста. Указывайте полный билд.
vmware -v
vmware -vl
команда для vCenter
vpxd -v
Статья 1 Determining the build number of VMware ESX/ESXi and VMware vCenter Server (1022196)
https://kb.vmware.com/s/article/1022196
Статья 2 https://davidring.ie/2018/11/03/vmware-esxi-how-to-determine-build-number-via-cli/
Статья 3 - VMware VCSA – How to Determine Build Number
https://davidring.ie/2018/06/05/vmware-vcsa-how-to-determine-build-number/
Таблица в помощь: Build numbers and versions of VMware vCenter Server (2143838)
https://kb.vmware.com/s/article/2143838

3. Указывайте, с какого дистрибутива и какой именно образ вы развернули.
Команда
esxcli software profile get
Статья - Quick Tip - Listing Image Profiles From an ESXi Patch Using ESXCLI, раздел To check for the Image Profile you have installed on your ESXi host
https://williamlam.com/2013/06/quick-tip-listing-image-profiles-from.html

4. Обязательно указывайте сервер, на котором это все работает (HPE / Dell / Lenovo / Supermicro / иное), и обязательно указывайте ID проблемного оборудования (VID, DID & SVID) и версию микрокода.
Как это сделать:
esxcli network nic list
esxcli network nic get -n vmnic. #Command will give you firmware details and driver details
esxcli network nic stats get #Command will you give current statstics of the specified vmnic
vsish -e get /net/pNics/vmnic1/stats #Warning !! Unforgivable Curses !
Статьи:
Finding VID, DID & SVID from PCI devices in ESXi
https://communities.vmware.com/t5/VMware-PowerCLI-Discussions/Finding-VID-DID-SVID-from-PCI-devices-in-ESXi/td-p/2216011
How to retrieve the details of a NIC card on esxi using a command
https://communities.vmware.com/t5/ESXi-Discussions/How-to-retrieve-the-details-of-a-NIC-card-on-esxi-using-a/td-p/2832914
Determining Network/Storage firmware and driver version in ESXi (1027206)
https://kb.vmware.com/s/article/1027206
И обязательно пишите, какую версию драйверов вы используете, и сравнивали ли с тем сочетанием микрокода и драйвера, которые указаны a) на сайте VMware HCL b)таблицах рекомендаций вендора; Необходимое дополнение: в случае использование blade корзин и прочих систем автоматического управления конфигурациями сети и сетевых компонентов – обязательно проверьте фактические настройки конфигурации, профилей, vlan, etc.

5. Указывайте, что и зачем вы делали до возникновения проблемы. И что делали после.
Логи выкладывайте на Pastebin.com. Или указывайте, что вы делали вообще и какого результата хотите достичь. Логи лежат:
Location of ESXI 7.0 log files https://docs.vmware.com/en/VMware-vSphere/7.0/com.vmware.vsphere.monitoring.doc/GUID-832A2618-6B11-4A28-9672-93296DA931D0.html
Location of vCenter Server log files (1021804) https://kb.vmware.com/s/article/1021804
Location of log files for VMware products (1021806) https://kb.vmware.com/s/article/1021806
Flings DRS Dump Insight
https://flings.vmware.com/drs-dump-insight
Или вручную читать
/var/log/vmware/vpxd/drmdump/domain-c/Plmt.log
Еще раз про VMware, vswitch и LAG (Etherchannel, bonding)
Коллеги регулярно читают какие-то смутные переводы, а скорее пересказы концепции «два провода лучше одного» и собирают в Vmware Link aggregation (LAG / (Etherchannel)). Эта статья – попытка в очередной раз разобраться, нужен ли он для связи сервера esxi и физического коммутатора, и если нужен, то зачем.
Read more... )
Иногда ESXi перестает загружаться - черный экран и все. Или изначально не работает, падая в фиолетовый экран, как HPE - как было при некоторых сочетаниях образа от HPE и версий FW.
Про разрешение таких проблем тоже есть статья,
How to access DCUI/Console of ESXi using ALT+F Keys (2148363) -
ALT+F1 = Switches to the console.
ALT+F2 = Switches to the DCUI.
ALT+F11 = Returns to the banner screen.
ALT+F12 = Displays the VMkernel log on the console.
https://kb.vmware.com/s/article/2148363

и Check vmkernel.log when ESXi is hung : ALT+F12
https://pchawda.wordpress.com/2021/02/19/check-vmkernel-log-when-esxi-is-hung-altf12/

и View System Logs on an ESXi Host
https://docs.vmware.com/en/VMware-vSphere/7.0/com.vmware.vsphere.monitoring.doc/GUID-498D2802-4802-4F18-B8B2-D398D45BE249.html
https://communities.vmware.com/thread/609657
https://kb.vmware.com/s/article/59257
Всё бы ничего, вот только KB не работает. Пакеты появляются после апдейта, создавая ту же проблему. Даже после исключения из кастомных Baseline. А вот 2 пакета тухлых HPE-шных драйверов ставиться, наоборот, не хотят.
Ещё лучше, если ткнёте в доку о разрешении зависимостей в пакетном менеджере ESXi. Читать логи vmware-updatemgr удовольствия не доставляет.

Обновлялся с 6.7.0.16713306 по 6.7.0.16773714. Апдейт зафейлился. Удалил VIB-ы по KB59257. Удалил VIB-ы из кастомной Baseline, ребут, рескан, успешный апдейт. Опять рескан — и та же ошибка в esxupdate.log с тем же VIB. То есть, к следующему апдейту будут те же пляски.
Далее, не поставились hpe-driver-bundle-670.10.3.0 и hpe-driver-bundle-670.10.3.5, хотя на хосте стоит более свежий пакет. Попытки удалить из baseline приводят к Compliance, но тогда у других хостов пакет обновляться не будет.

BTW, посмотрев метаданные, я понял, что пакеты hpe-driver-bundle.* тянут VIB elx-esx-libelxima.so.

В общем, суть в том, из-за кривого VIB-а для Emulex апдейт невозможен. Удаляешь VIB — и VUM считает, что нет, мол, на хосте hpe-driver-bundle, надо его обновить. Обновляет — и привет, по новой.
В итоге решением оказалось выпилить два злосчастных бандла из custom baselines. Оказалось, кто-то уже прошёлся по граблям:
https://vm.knutsson.it/2019/09/elx_bootbank_elx-esx-libelxima-so-driver-conflict/
Весь MS Exchange завязан на сертификаты, в связи с этим критически важно:
- не ставить на сам exchange - crypto pro , випнет и прочая во избежание:
Коллеги, моё вам предупреждение. Даже два.

1. ViPNet Client, будучи установленным на сервер Exchange (по крайней мере, 2019 CU7), вызывает периодические отказы в подключении к веб-сервисам. Выглядит так, как будто фаер то закрывает 443, то открывает. Возможно, это его недоIDS фолсит;

2. Самое главное: при сносе, он удаляет самоподписанные backend сертификаты для Exchange. Минус ECP, минус EMS, минус вообще всё. Было больно, до конца до сих пор не починился (самоподписанный серт новый сделал и назначил, ECP-EWS поднялись, но теперь после назначения внешнего сертификата чанга живёт до рестарта IIS, а далее начинает вести себя так, как будто backend сертов вновь нет; Autodiscover с точки зрения MCA настроен корректно, но на Outlook не отрабатывает и fallback'ится до GuessSmart, находящего IMAP, в общем, радости полные штаны).

Будьте осторожны.


- знать и любить
certutil.exe -verify -urlfetch
и иное https://www.sevecek.com/EnglishPages/Lists/Posts/Post.aspx?ID=13
Esxtop выводит странные символы, вместо нормальной картинки
Если быть точным, то Esxtop выводит CSV

Output of esxtop defaults to non-interactive CSV with unknown TermInfo (2001448)

For example:

"(CSV) (UTC)(0)","\\localhost\Memory\Memory Overcommit (1 Minute Avg)","\\localhost\Memory\Memory Overcommit (5 Minute Avg)","\\localhost\Memory\Memory Overcommit (15 Minute Avg)","\\localhost\Physical Cpu Load\Cpu Load (1 Minute Avg)","\\localhost\Physical Cpu Load\Cpu Load (5 Minute Avg)", ...

The first line of the comma-separated-value (CSV) output from esxtop and resxtop reports a missing termcap entry.
https://kb.vmware.com/s/article/2001448
Из переписки:
я бы допустил ошибку в фёрме, если бы не разные вендора, поверил бы в погрешность абортов и ретраев, если бы это было не 10% от общего количества, ну и самая печаль что счетчики Failed Blocks W/R (
vsish -e /storage/scsifw/devices/naa.XXX/stats
) так же растет несоразмерно допустимой погрешности

Dark Dark Evil Way:

vsish -e get /hardware/ipmiSupport
esxcli hardware ipmi sdr list
VSISH
VMkernel system information shell (known as vsish) is a great tool for troubleshooting network performance issue. vsish runs in the ESXi shell and let you look at in advanced system parameters and performance information of the ESXi host and associated objects like the VMs.
https://vmwareaddicted.blogspot.com/2017/01/network-troublshooting-using-esxcli-and.html
Проблема обычная - почему-то не мигрируют VM между хостами кластера.
начало отладки находится тут:
vMotion fails to migrate between EVC clusters of ESXi host which have the same configuration (67666)
https://kb.vmware.com/s/article/67666

И затем:
https://peterc.tech.blog/

In my case the solution was very simple, we knew that for some reason one host was not capable of using the MDCLEAR CPU feature. Even though it was running the correct ESXi build and so should have the correct microcode (via the ESXi CPU microcode loading feature) and ESXi support for it.

I found a post suggesting that a cold start of the host maybe needed. So after completely powering down the host and powering it on again, the host worked correctly and the MDCLEAR CPU feature was available. vMotion to the host started working.

I’m not really sure why this worked but suspect for some reason, ESXi was not able to load the microcode on that host when it was last booted.

Another solution may have been to upgrade the BIOS to the latest release from the vendor, if available which includes the MDSCLEAR CPU feature.

И наконец
vim-cmd hostsvc/hostconfig|grep -A 2 MDCLEAR
esxcli system settings kernel get -s hyperthreadingMitigation
Старая статья одного малоизвестного блоггера
https://www.buldakov.ru/?p=3114
Managed Availability framework вырос из опыта мониторинга облачного решения Exchange Online средствами пакета управления для Exchange 2010 в OpsMgr. Опыт использования пакета управления показал, что он избыточен, из более чем тысячи алертов полезными в Exchange Online оказались только 150. Остальные были в итоге отключены.
Иногда возникает вопрос - что же происходит на сетевых интерфейсах.
Из командной строки СХД зачастую можно собрать дополнительную информацию.
Сначала по событиям

event log show

https://www.netapp.com/us/media/tr-4067.pdf
https://whyistheinternetbroken.wordpress.com/2017/10/25/ontap93-nfs-sneakpreview/
https://whyistheinternetbroken.wordpress.com/2016/05/02/trace-nfsv3-mount-failures-cdot/

И затем уже TCPdump
https://docs.netapp.com/ontap-9/index.jsp?topic=/com.netapp.doc.dot-cm-cmpr-950/network__tcpdump__start.html
Windows PKI Troubleshooting (CAPI2 Diagnostics)
https://social.technet.microsoft.com/wiki/contents/articles/242.windows-pki-troubleshooting-capi2-diagnostics.aspx

Logging Modes
CAPI2 Diagnostics utilizes Event Viewer features, such as use of error level and keywords, for filtering the data in the log. For example, if you want to look at path validation related errors, you can filter by an event level of "Error" (level 2) and the keywords "chain building," "chain validation," and "revocation." Events are marked level 2 when the API returns an error and level 4 if the API returns a success.
https://social.technet.microsoft.com/wiki/contents/articles/242.windows-pki-troubleshooting-capi2-diagnostics.aspx#Logging_Modes
Telerik Fiddler - инструмент IT-Pro.
Fiddler: The Web Debugging Proxy Tool Loved by Users
https://www.telerik.com/fiddler

https://youtu.be/KuqgH8SSznE
Из переписки:

Котоны, если кто-то использует сеть на базе EVPN+VXLAN+BGP и балансеры с DSR (например в LogInsight ILB), то аккуратней… По умолчанию EVPN-MAC-IP timeout 20 минут. Ну вы поняли
Ну и multi-homing lag в таких сетях также днище, не делайте так
Этот щит попортил моей крови немного, стараюсь предостеречь комрадов
Прокси арп хорошо, но в реализации логинсайта и вышеозначенной архитектуры вендора, чье имя нельзя называть, это не работает. Классика dsr это чистые lo адреса, логинсайт на кой-то * вешает их еще и на eth0
Из переписки по отладке VMware HA:

пересобрать ha, в случае повторения выкорчевать и ренициализировать fdm, в случае повторения предоставить содержимое fdm с мастера/слейва + vpxd | \b(\w*FDM state\w*)\b
Командная строка vmware дает гораздо больше возможностей, чем GUI.
Из переписки:
ls -la /vmfs/volumes
lsof | grep $uid
esxcfg-scsidevs -m | grep
vim-cmd hostsvc/advopt/view ScratchConfig.ConfiguredScratchLocation

и дает возможность найти разнообразные файлы вида
POST/PATCH https://your-shity-vcsa/rest/vcenter/vm/{vm}/hardware/disk
Exchange Server Troubleshooting Companion - eBook
Solve Exchange Server Problems Faster! Keep your customers and end users happy by reducing downtime for your Exchange Servers with the Exchange Server Troubleshooting Companion.
https://gallery.technet.microsoft.com/office/Exchange-Server-Troubleshoo-db3a0dab
vmware vm migration faild .. failed to comunicate...

Troubleshooting vMotion
https://blogs.vmware.com/vsphere/2019/09/troubleshooting-vmotion.html

Profile

robopet3

May 2023

S M T W T F S
 12 3456
78910111213
14151617181920
21222324252627
28293031   

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 4th, 2025 01:52 am
Powered by Dreamwidth Studios