Assolutamente condivisibile, anche perchè se operassimo solo sulle cose che si capiscono al 100% probabilmente..... finiremmo con avere molto tempo libero..
.
Ma qui non si stava discutendo - credo - sui possibili modi di operare bensì sugli strumenti più opportuni per identificare l'overfitting o meglio ancora - allargando un campo già molto vasto
- quella che a me piace chiamare "l'illusione statistica".
Certo non con la statistica, IMHO.
Qui invece sono meno d'accordo.
Se io trovo una ricorrenza statistica schiacciante che mi collega - per citare esempi di correlazioni realmente studiate in passato - il fenomeno delle macchie solari al ciclo economico, oppure il risultato del superbowl o la lunghezza della gonne (*) alla performance dell'indice DJIA nell'anno seguente...... NON mi occorre nessun particolare strumento per dire che il collegamento è illogico e dunque non c'è nessun bisogno di dimostrare mancanza di inferenza statistica.
(*) qui qualcuno dice che la minigonna è sintomo di ottimismo (W l'ottimismo, sempre...), e l'ottimismo è la benzina dei rialzi di Borsa.... ma converrai che si stanno arrampicando sugli specchi..
Anche se io mi riferivo piu' a ricorrenze statistiche endogene di una time series, chiaramente concordo su questo, un elemento discrezionale e' ovviamente sempre necessario.
PS Woodriff è un personaggio interessante, ma userei il suo esempio con cautela, dato che nessuno sa neanche approssimativamente cosa faccia (leggenda vuole che si programmi tutto da solo... ) e perchè il suo data mining sembra produrre profitti mentre tutto il resto del mondo che utilizza metodologie apparentemente similari annaspa alla grande...
Leggevo la sua interview sull'ultimo Market Wizards, e sembra che effettivamente sia partito cosi' (se non sbaglio era lui quello che s'e' fatto 2 giorni filati senza dormire a programmare 20 pc in una scuola per velocizzare delle simulazioni
).
Ad ogni modo, se ha successo dovrebbe significare che fa qualcosa di diverso (i.e. tiene in conto correttamente l'overfitting).
Alcuni appunti/estratti che avevo preso dalla stessa intervista (e che magari possono aiutare a riportare la discussione in topic...da quel che ho visto in questo topic si e' parlato piu' di PGiulia che di overfitting
), spero l'inglese non sia un problema:
“I generate random numbers that have the same distribution characteristics as market returns. I know that any model that I find that score well training on this data are 100% curve-(over)fitted, because they are based on intentionally bogus data. The performance of the best model on the fictitious data provides a baseline. Then, you need to come up with models that do much better than this baseline, as it’s only the performance difference between the models using real data and the baseline that is indicative of expected performance.”
-don’t sort models based on out-sample…then your out-sample gets included in your in-sample.
-look for patterns where, on average, all the models out-of-sample continue to do well. You consider them to be ok if the out-sample performance is a significant % of the in-sample score (i.e. >50% of the in-sample).
-they use only 1y of out-sample.
PS: ho visto il video (il cui speaker credo essere smodato?)...interessante, a prescindere dal caso in particolare, l'idea e' facilmente generalizzabile/estendibile a molti altri casi.
PS2 per PAT: un modo per stimare lo slippage senza fare vero trading, e' guardare al bid/offer spread nel momento in cui operi (o se puoi addirittura ai primi 2 livelli del book). Poi puoi fare varie assunzioni in base a questo.
PS3: grazie Imar per la dritta sulla ricerca di JP Morgan...non seguivo per nulla la sezione equity. Ricambio con un DB quant craft...un po' troppo accademico, ma qualcosa di carino secondo me l'hanno prodotta (fra l'altro ho conosciuto 2 dei tipi responsabili, e m'hanno confermato questa impressione...se poi sono stato vittima di una confirmation bias, boh!).