Hvordan kan jeg tolke forskjellen mellom validering og testnøyaktighet?


Svar 1:

For nøyaktighet A, synes jeg modellen din fungerer bra. Jeg antar at du brukte valideringsdata for å trene modell A og teste data for å evaluere dem. Siden valideringsnøyaktighet og testnøyaktighet begge er høy, kan det sies at modellen er trent på riktig måte. Jeg har imidlertid to bekymringer.

  1. Hvis du trenger en modell med høyere nøyaktighet, må du stille inn hyperparametrene for å bli bedre. Overvåket læring handler ikke alt om nøyaktighet. Hvis det er to binære klassifiseringer, bør du få ROC-området under kurven for å se om det har problemer med å klassifisere falske positive. Hvis du har høyt falskt positivt, er modellen ubrukelig.

For B tror jeg det er overmasse. Overfitting betyr at modellen din fungerer bra bare på trenings- og valideringsdata, og ikke for testdata eller nye ukjente data. Du vil sikkert ha en mer generell modell. Du må finne ut hvorfor det er altfor godt utstyrt. Du må også vurdere ROC-området under kurven.

http: //gim.unmc.edu/dxtests/roc3 ...

Overfitting and Underfitting With Machine Learning Algorithms - Machine Learning Mastery