Tu continui a sottovalutarmi Piggì, ma tranquilla *_* non mi sono offeso *___*.
Io direi piuttosto che sei tu che continui a sopravvalutarti!
Guarda che io leggo quello che scrivi, e ci trovo le stesse illusioni di decine di altri scienziati passati in 15 anni su questi forum (e questo stesso thread) con la convinzione di poter approcciare questo mondo come se fosse una ricerca universitaria. Prima ancora di affrontare i tuoi "salvifici" test out of sample, dovrebbe bastarti questa semplice osservazione per farti capire la tua presunzione, ovvero la tua miopia.
...Ora, tornando alla tua osservazione, quello di cui parli tu io non lo chiamerei propriamente overfitting, quanto, volendo mantenere un contegno, "gran Sfortuna". Le ragioni di questo saranno dettagliatamente chiarite in quanto segue...
E' esattamente il contrario: sono le vittime inconsapevoli dell'overfitting a dare puntualmente la colpa alla "gran Sfortuna". In realtà il demone è sempre lo stesso, che lo si chiami "invisibile", oppure "batman".
...Dunque, supponiamo che io generi una serie di 100 numeri casuali (diciamo in prima approssimazione casuali). Fitto ai primi 50 elementi un modello qualsiasi e testo le capacità previsionali sui 50 elementi rimanenti.
Ora, se questi numeri sono "abbastanza casuali" ossia se l'algoritmo che li genera non l'ha progettato topo gigio mi pare fuori discussione che la performance del modello sui 50 elementi di test sarà stocasticamente indipendente dal fitting avvenuto sui 50 elementi precedenti...
Ti sembrerà assurdo, lo so, ma sbagli: quell'indipendenza dipende assolutamente da cosa hai fatto "prima", con
e senza quella stesse serie.
Tu credi che il semplice fatto di adottare una metodologia di test con campioni "out of sample" ti possa salvare dall'overfitting. E non ti rendi conto che:
1) in questa stessa trappola sono caduti milioni di analisti prima di te, alcuni dei quali, dopo anni di tentativi, sono arrivati addirittura alla conclusione (comunque ridicola) che tanto vale fare tutto in sample.
2) l'overfitting lo cominci a fare esattamente a partire dalla prima modifica al tuo primo modello. Qualunque essa sia: in/out/up/down sample
...Anzi di più, se i numeri sono proprio random, utilizzare il fitting come selezione di un modello in realtà è un impedimento per trovarne uno che performi bene out of sample; semplicemente perché si richiede una condizione in più...
Non hai capito: tu devi lavorare sulla serie casuale come se non lo fosse, test "out of sample" compresi. Vedrai che se allarghi abbastanza serie e modello previsionale, qualche test out of sample ti andrà bene!!! Magari a quel punto l'overfitting lo chiamerai "gran Genio che sono", salvo poi tornare a "gran Sfortuna" (oppure più frequentemente "il mercato è cambiato") quando andrai a lavorare sul "vero" futuro.
...1. Mantenendo costante il livello di complessità di un modello scelto a caso la probabilità che performi bene su un sample del tutto casuale (che se non è condizione equivalente all'indipendenza di A e B spero concorderai che è di certo almeno condizione sufficiente per l'indipendenza di A e B) tende a zero all'aumentare delle dimensioni del sample di test...
Certo. E' esattamente per questo che quando andrai a mercato il tuo giochino si rivelerà un semplice ... oroscopo.
E non concordo per niente, ripeto, sull'indipendenza di A e B: performare bene è condizione necessaria,
non certo sufficiente! E la probabilità che performi bene, ripeto per l'ennesima volta,
dipende assolutamente dal passato del progettista.
E' per questo che i risultati che hai ottenuto fino ad ora non significano esattamente NULLA.
...2. Il punto 1. è chiaramente una verifica che si può fare facilmente in concreto testando il modello su nuovi dati...
E sono 10: verifica necessaria, ma non certo sufficiente!!!
...Quello che voglio dire è che capisco bene che intendi con "modellare il caso" come capisco bene che a meno di essere del tutto scemi è abbastanza facile accorgersi se lo si sta facendo...so bene che a forza di tuning si può strappare qualsiasi risultato, ma non vuol dire che io lo stia facendo...
Eppure tu, insieme a mezzo mondo, continuate a "modellare il caso" senza accorgervene!
...Chiudo ribadendo che quello che tu chiami overfitting non è overfitting...almeno non in questa particolare accezione. L'overfitting può portare allo stesso identico risultato di cui stiamo parlando ma cambia la causa...in caso di overfitting il lack previsionale è generato da un eccesso di complessità dei modelli per cui si verifica A ma non si verifica B.
Mentre nel contesto che descrivi tu il principale motivo di ottenere buone performance "modellando il caso" sta nell'essere abbastanza sfortunati da beccare un modello che verifica sia A che B pur essendo A e B indipendenti...quindi te ne vai tutto contento di aver trovato il santo graal delle previsioni mentre in realtà è solo fuffa.
Va da sè che anche nel secondo caso basta cambiare test set per accorgersene...
Dopo quanto detto spero arriverai da solo alla conclusione che queste tue ultime parole sono assolutamente miopi. Altrimenti dovrei cominciare a ripetere sempre le stesse cose, e questi ragionamenti sono stati fatti e rifatti anche in questo stesso thread.
Ti prego di concentrarti maggiormente su quanto da me scritto, perché se non fai almeno un passo avanti comincerò ad annoiarmi
Per concludere, la metodologia che hai scelto ti potrà condurre al massimo a riscoprire l'acqua calda, come ad esempio mm200 (oppure mm193,85). Niente di più!
Mio caro scroobod,
non può essere così facile!
