Zum Inhalt wechseln


Foto

Massive Performance Probleme seit vSphere 6


  • Bitte melde dich an um zu Antworten
58 Antworten in diesem Thema

#1 Leuchtkondom

Leuchtkondom

    Board Veteran

  • 521 Beiträge

 

Geschrieben 01. März 2016 - 09:01

Hallo Leute,

 

ich weiß gar nicht so recht wo ich Anfangen soll.

 

Wir haben ein 2 Host Cluster mit VMWare vSphere, die auf ein gemeinsames shared Storage Zugreifen.

Bis letzte Woche Donnerstag lief alles perfekt, und super schnell, was wohl auch daran liegt das wir unsere Hosts überdimensioniert haben.

 

Die Hosts sind vom Prinzip her so ausgelegt, das theoretisch einer alleine (natürlich mit Performanceeinbußen) laufen könnte, falls Host 2 ausfällt. 

Das heißt im Normalbetrieb (beide Hosts laufen) sind die im Arbeitsspeicher und auch in den vCPU´s "untercommit", ich habe weniger vCPUs auf den laufenden Hosts als pCPUs und auch beim Arbeitsspeicher sieht das genauso aus.

 

Vor 2 Wochen hatte ich den vCenter Sever von 5.5 auf 6 geupdatet, auch das lief noch alles reibungslos und ohne Probleme.

Letzte Woche Donnerstag habe ich dann die Hosts von 5.5 auf 6 geupdatet (per Boot CD).

 

Auf den 1. Blick hat auch alles wunderbar funktioniert, habe danach noch die VMs "Hardwaremäßig" geupdatet (von VM-8 auf VM-11) und die Tools überall aktualisiert, auch das lief reibungslos.

 

Allerdings haben wir seit Freitag extrem massive Probleme mit der Performance. 

Ein Arbeiten in DATEV (Remoteapp auf 2012 R2 RDS) ist quasi unmöglich, was vorher völlig flüssig lief. Auch andere Programme die über RemoteAPP laufen und vorher super schnell liefen sind teilweise unbedienbar geworden. An anderer Stelle (Exchange) ist es quasi nicht zu merken ob es auch da Performanceprobleme gibt, da bei uns alle im Cached Mode Arbeiten. Auch bei anderen "wenig belasteten" Servern kann ich nichts zu performance sagen, da ja dort nicht drauf gearbeitet wird und ein "Vergleich zu Vorher" schwer fällt (beispielsweise DCs, Kaspersky Adminserver, etc.)

 

Ich weiß überhaupt nicht wo ich ansetzen soll, habe gestern Nacht noch mal die Hosts neugestartet, ohne Erfolg.

 

Arbeitsspeicher kann ausgeschlossen werden, da die Hosts wie gesagt deutlich mehr Speicher zur Verüfung haben als die virtuellen Maschinen, die auf Ihnen laufen, nutzen.

Bei den CPUs sieht es nicht anders aus, pro Hosts sind 2* 10 Core CPUs verbaut (mit HT insgesamt pro Host 40 pCPUs), "vergeben" sind aber aktuell auf Host-1 23vCPUs und auf Host-2 24vCPUs.

Auch die Ready werte in ESXTOP sehen eigentlich, meiner Meinung nach Gut aus.

 

Am Storage (Netapp) wüsste ich nicht was ich da schauen sollte, denn wie gesagt, es hat sich rein gar nichts an der Infrastruktur, virtuellen Maschinen usw. geändert. Nur die Hosts wurden geupdatet auf ESX6 und die VM aktualisiert (Tools und HW-Version). Es wurden weder Windows Updates installiert (war schon alles aktuell zu dem Zeitpunkt), noch virtuelle Maschinen neuinstalliert, geändert oder was weiß ich.

 

Hat jemand Tips für mich???

Ich wäre für alles dankbar..



#2 testperson

testperson

    Board Veteran

  • 4.640 Beiträge

 

Geschrieben 01. März 2016 - 09:11

Hi,

 

VMXNet3 wird verwendet? Unter vSphere 6 gab es auch Probleme mit dem High Speed Networking (RSS).

https://www.datev.de...0/D108008000039

 

Gruß

Jan


Good morning, that's a nice TNETENNBA!

#3 zahni

zahni

    Expert Member

  • 16.497 Beiträge

 

Geschrieben 01. März 2016 - 09:12

Welche Hardware (Server) und  wurde alle Updates vom ESXI installiert?

Ist die Hardware  in der HCL gelistet?

Wie  ist der Storage angebunden?


Wen du nicht mit Können beeindrucken kannst, den verwirre mit Schwachsinn!


#4 Leuchtkondom

Leuchtkondom

    Board Veteran

  • 521 Beiträge

 

Geschrieben 01. März 2016 - 09:41

Hallo,

 

Danke für eure schnellen Antworten.

Wir konnten das Problem mittlerweile etwas eingrenzen. Es betrifft nur Host 2, Host 1 nicht.

 

Beispiel: 2 RDS Server die Datev per RemoteAPP verteilen, jeder der auf RDS-Server 1 landet (läuft auf Host 1) kann super arbeiten, jeder der auf RDS-Server 2 landet (läuft auf Host 2) kann quasi überhaupt nicht arbeiten. Lässt sich tatsächlich nachstellen. Auch mit anderen Servern das gleiche verhalten. Wir haben jetzt den Datev RDS 2 von Host 2 auf Host 1 verschoben, und plötzlich können alle in Datev super arbeiten, und das obwohl Host 1 jetzt ja mehr Last dadurch hat (vorher waren die VMs Lastmäßig gleich verteilt auf den Hosts)

 

Es scheint also ein lokales Problem an Host 2 zu sein, da muss ich dazusagen das genau dieser Host nach dem Update folgende Meldung brachte:

"Es wurden veraltete VMFS Volumes gefunden. Bitte aktualisieren sie auf die aktuelle Version" (ähnlicher Wortlaut). Komischerweise hat Host 1 das nicht gesagt (und beide teilen sich ja den Storage)

 

Ich hatte nach dem Fehler gegoogelt und da stand nach einen Host neustart soll dieser Fehler weg sein, war er auch.

 

@zahni: Die Server sind in der HCL gelistet, das Storage ist per SAS-3 angebunden (Shared SAS Storage, Netapp E2700)

Storage Performance würde ich nach obiger Erkenntnis Ausschließen, da die Last am Storage durch das Verschieben der virtuellen Maschinen ja nicht weniger wird, aber jetzt plötzlich wieder super schnell geht.

 

@testperson: Es wird auf allen Windows Maschinen VMXNet3 verwendet (damals zur installation gab es unter 2012 R2 irgendwie Bluescreens mit den alten Netzwerkkarten E1000E usw, außerdem ist die VMXNet 3 10Gbit und in den Hosts sind auch 10 GBIt Karten verbaut), deinen Link schau ich mir gleich an

 

danke schon mal für eure schnellen Antworten

 

 

edit: @testperson: Dein Link klingt interessant, allerdings würde ich mit der Einstellung erstmal noch abwarten da wie gesagt auch andere Anwendungen die per Remoteapp verteilt werden betroffen sind (Sage KHK z.b., da ist auch ein Arbeiten unmöglich, aber auch wieder nur Host 2, Host 1 io)


Bearbeitet von Leuchtkondom, 01. März 2016 - 09:42.


#5 zahni

zahni

    Expert Member

  • 16.497 Beiträge

 

Geschrieben 01. März 2016 - 09:45

Du möchtest also nicht wirklich was  zur Hardware Deiner  Server und zum Patchlevel der ESXI-Server schreiben?


Wen du nicht mit Können beeindrucken kannst, den verwirre mit Schwachsinn!


#6 Leuchtkondom

Leuchtkondom

    Board Veteran

  • 521 Beiträge

 

Geschrieben 01. März 2016 - 09:53

Okay, meine Thoerie hat sich bestätigt, wir haben jetzt auch mal die SAGE KHK RDS-Server alle auf Host 1 verschoben, und plötzlich läuft alles wunderbar. 

Es muss also ein reines Problem mit Host 2 sein, aber was? Im Eventlog vom Serverboard ist nichts zu finden, alles io


sorry überlesen,

 

Hardware:

Supermicro SC825 TQ-R720LPB 
Mainboard Supermicro X9DRI-F 
2* Intel® Xeon® Prozessor E5-2670v2 - 2.5 GHz
256 GB Ram Kingston KVR16R11D4/16KF
1* Flash InnoDisk SATA-III 8GB 3SE series (ESXI Installation)
LSI HBA 9300-8e 8x SAS extern PCIe 3.0 x8
10GBit Ethernet Server Adapter Emulex 10Gb/s OneConnect dual 
 
VMware ESXi, 6.0.0, 3380124
Image ESXi-6.0.0-20160104001-standard
 
 
edit: Die Hosts sind Hardwaremäßig komplett identisch, und ESXI auch identischer Stand

Bearbeitet von Leuchtkondom, 01. März 2016 - 09:54.


#7 zahni

zahni

    Expert Member

  • 16.497 Beiträge

 

Geschrieben 01. März 2016 - 10:09

Prüfe mal, ob Dein Emulex-Treiber aktuell ist:

 

https://my.vmware.co...0#drivers_tools


Wen du nicht mit Können beeindrucken kannst, den verwirre mit Schwachsinn!


#8 testperson

testperson

    Board Veteran

  • 4.640 Beiträge

 

Geschrieben 01. März 2016 - 10:12

Ggfs. auch einfach mal ein Ticket bei VMWare aufmachen. Du müsstest ja entsprechend SnS haben. Alternativ kostet ein Einzelfallticket ca. 300€.


Good morning, that's a nice TNETENNBA!

#9 Leuchtkondom

Leuchtkondom

    Board Veteran

  • 521 Beiträge

 

Geschrieben 01. März 2016 - 10:26

@zahni

 

Laut Webseite sollte das dann der hier sein?

VMware ESXi 6.0 elxnet 11.0.259.0 NIC Driver for Emulex and OEM Branded Adapters

 

Der Host meldet das hier:

 

elxnet                         10.2.309.6v-1vmw.600.0.0.2494585      VMware  VMwareCertified   2016-02-25
emulex-esx-elxnetcli           10.2.309.6v-0.0.2494585               VMware  VMwareCertified   2016-02-25
 
 
 
Allerdings, bin ich ehrlich, habe ich das noch nie gemacht. Dazu müsste ich mich erstmal kurz belesen wie das funktioniert mit dem Treiber Update
 
edit: Allerdings läuft auf beiden Hosts, auch bei dem Fehlerfreien, die gleiche Version

Bearbeitet von Leuchtkondom, 01. März 2016 - 10:37.


#10 zahni

zahni

    Expert Member

  • 16.497 Beiträge

 

Geschrieben 01. März 2016 - 11:41

Ich würde mir noch anschauen, ob die Netapp und die Host-Config korrekt ist.

Vielleicht hilft der Guide hier weiter:

 

https://library.neta...ile/ECMP1532523

 

Gibt es bei Netapp nicht irgendein Tool, dass die Storage-Settings am Host passend zum Storage richtig konfiguriert?


Wen du nicht mit Können beeindrucken kannst, den verwirre mit Schwachsinn!


#11 Leuchtkondom

Leuchtkondom

    Board Veteran

  • 521 Beiträge

 

Geschrieben 01. März 2016 - 12:14

mmmm also allzu viel kann man da nicht falsch machen glaube ich, das SAS ist da ja deutlich einfacher als FC zu konfigurieren, und bis vor dem Update der Hosts lief ja alles einwandfrei :-(

 

edit: Ich werde wohl den Server heute Nacht neuinstallieren, ich schließe Treiber, Storage usw. jetzt mal komplett aus, den die Hosts sind 1:1 identisch (Treiber) und auf Host 1 gibt es 0 Probleme.

An der Storageanbindung wurde nichts geändert, sodass ich das auch mal ausschließe. Mal sehen ob eine Neuinstallation was bringt...


Bearbeitet von Leuchtkondom, 01. März 2016 - 12:25.


#12 OliverHu

OliverHu

    Senior Member

  • 790 Beiträge

 

Geschrieben 01. März 2016 - 12:28

Willst du nicht erstmal ein Ticket bei VMware aufmachen? Kann dir eventuell einiges ersparen.


Viele Grüße!

#13 Leuchtkondom

Leuchtkondom

    Board Veteran

  • 521 Beiträge

 

Geschrieben 01. März 2016 - 12:54

Leider haben wir keinen Support mehr :-(



#14 DocData

DocData

    Board Veteran

  • 1.312 Beiträge

 

Geschrieben 01. März 2016 - 12:57

Wie bist du denn dann an die vSphere 6 Keys gekommen, wenn ihr keinen Support mehr habt?


Ein Wrack ist kein Ort, an dem ein Schatz schlummert...


#15 Leuchtkondom

Leuchtkondom

    Board Veteran

  • 521 Beiträge

 

Geschrieben 01. März 2016 - 12:59

Der Support ist im November abgelaufen, da haben wir Lizenzmäßig noch geupdatet. Die Installation hat aufgrund vieler anderer Projekte (DATEV Einführung -> Ablösung Sage usw) sich aber nach hinten verschoben sodass ich erst letzte Woche dazu gekommen bin (war ja auch nichts obernotwendiges, unter 5.5 lief ja alles perfekt)