tontolina
Forumer storico
Volete avere la certezza di perdere in borsa? Bene. Usate gli indicatori parametrici.
Home → Home → Volete avere la certezza di perdere in borsa? Bene. Usate gli indicatori parametrici.
Nonostante sia il mese di agosto, tradizionalmente dedicato alle ferie, davvero molti Lettori mi hanno mandato un mail in cui chiedevano spiegazioni di cosa fosse la statistica non parametrica e perché mai generasse risultati più attendibili di quella parametrica.
Domande perfettamente lecite: nessuno é tenuto a conoscere questa materia, che tra l’altro é alquanto ostica e richiederebbe buone conoscenze matematiche per essere applicata in modo proprio.
Cerco quindi di dare una risposta pubblica che sia intellegibile anche da parte di chi non abbia proprio nessuna competenza specifica. Non si adombrino gli statistici: questo è un post divulgativo, il cui obiettivo é solo quello di far capire un concetto a grandi linee ai non addetti ai lavori. Ci aiuteremo con due esempi.
Data una serie di dati, anche molto numerosa, ci si domanda se sia possibile ottenere un valore unico, che mi esprima grosso modo il valore della serie. Per esempio, la media aritmetica.
Questi valori sommario prendono nome di indicatori di tendenza centrale.
Consideriamo adesso un paesino di 1,000 anime. Ci si domanda quale sia il reddito medio della popolazione.
Supponiamo che 990 persone abbiano un reddito di 1,000 euro al mese e 10 di un milione.
Il reddito mensile totale sarà quindi eguale a 990 * 1,000 + 10 * 1,000,000, ossia 10,990,000 euro.
La media aritmetica, Σx/n, ci fornirebbe un valore di 10,900 euro al mese, ossia un livello di reddito poco realistico per la massa degli abitanti e soprattutto sovrastimato di oltre dieci volte.
La mediana invece ci fornirebbe un valore di 1,000 euro al mese, risultato decisamente molto più realistico per la quasi totalità della popolazione.
Spiegazione di questa apparente assurdità.
Quasi invariabilmente ci si ferma a considerare il come si calcola un indicatore di tendenza centrale, anche se altrettanto spesso non ci si cura nemmeno di questo aspetto: lo si usa e basta. lo stanno facendo tutti.
Ma una cosa é come si calcola ed un’altra é da che parte si sia concretizzata la formuletta.
Il punto che ogni indicatore di tendenza centrale é formulato sulla base di numerose ipotesi, e fornisce i numeri del lotto se queste non siano rispettate.
Sia data una serie di dati x1, x2, …, xn.
La media aritmetica, m, é derivata dall’assunto che essa sia quel valore che minimizza gli scarti quadratici medi, ossia:
Σ(xi – m)2 = minimo.
Questo assunto é denominato il metodo dei minimi quadrati, ideato da quel grande genio che fu Gauss, ed é alla base di tutte le statistiche parametriche.
Gode di molte utilissime proprietà, per esempio, ottenuto il valore di m, il valore della sommatoria Σ(xi – m)2 contiene l’errore della media (in realtà un qualcosa di precedente, ma qui non conta più di tanto). Dalla media e dall’errore che la affligge si può ricavare la sua probabilità.
Le limitazioni sono però molto chiare e, direi, evidenti.
In primo luogo, la serie dei dati deve essere continua, perché la risoluzione del minimo richiede l’uso di una derivata prima. La serie dei dati deve quindi essere derivabile ed, almeno teoricamente, spaziare da meno infinto a più infinito.
In secondo luogo, la distribuzione di frequenza dei dati deve essere di tipo gaussiano, anche detto normale. Ossia non solo deve essere simmetrica attorno al valor medio centrale, ma non deve presentare lunghe code (fat tails). É infatti evidente che valori come quelli dei nostri dieci paperoni forniscono degli (xi-m)2 enormi rispetto a tutti gli altri, e pesano peggio di macigni sui calcoli. In poche parole, la presenza di outlier inficia la validità della media ottenuta. Usare la media aritmetica in queste situazioni equivarrebbe a cercare di piantare le viti con il martello oppure di avvitare i chiodi.
In terzo luogo, diventa evidente che l’uso sconsiderato della media può produrre conseguenze aberranti. Il Trilussa diceva che la statistica è quella cosa per cui se uno mangia un pollo e l’altro resta digiuno, in media avrebbero mangiato mezzo pollo a testa. Frase ad effetto ma somaramente errata: il pollo non é una misura continua, bensì discreta: usare la media é imbecille. Così come è semplicemente imbecille fare la media di percentuali. come si vede solitamente fare nel corso delle proiezioni elettorali.
La mediana, Md, é derivata dall’assunto che essa sia quel valore che minimizza gli scarti assoluti, ossia:
Σ|(xi – Md)= minimo.
Il perché matematico di questa assunzione esula i nostri scopi, ma é evidente che questo indicatore centrale, tipicamente non parametrico, é del tutto indifferente alle fat tails. Gli indicatori che soddisfano tale caratteristica sono usualmente denominati “robusti” e solitamente sono indipendenti dalla distribuzione di frequenza dei dati.
Il valor mediano nel nostro esempio é decisamente più realistico: rappresenta in modo ben più propri la popolazione di interesse.
Per la mediana non esiste, non può esistere per essere più precisi, una formuletta di calcolo ottenuta dall’assunto di base, come per la media. Può essere calcolata soltanto attraverso un sistemino di ottimizzazione, che richiede però molto più tempo di computo.
Conclusioni del primo esempio.
L’investitore od il trader dovrebbe sempre domandarsi prima di ogni cosa: «quale é la distribuzione di frequenza delle quotazioni che voglio studiare?».
Il perché é banale. Utilizzare un indicatore di per sé errato porta inevitabilmente a dover registrare perdite invece che guadagni.
É anche vero che ognuno gestisce il proprio denaro a piacer suo, ma si potrebbe pensare che esistano modi più piacevoli di spesa senza ritorno.
Qualsiasi calcolo statistico é invariabilmente basato su assunti ed ipotesi: non è errato il metodo in sé, bensì può essere del tutto scriteriata la sua applicazione.
Come é noto, la situazione lineare è definita dalla seguente equazione, definita come equazione di stato:
y = a + bx.
Il parametro a prende nome di elevazione od intercetta e quello b di coefficiente angolare.
Il termine regressione indica la procedura seguita per determinare il valore ottimale di codesti parametri.
Ma “ottimali” secondo un criterio ben definito da un modello matematico a monte.
La classica regressione, per intenderci quella calcolata dagli usuali fogli di calcolo ed anche dai programmi di analisi tecnica, é sempre derivata dal metodo dei minimi quadrati, ossia si vuol rendere minima la seguente equazione costitutiva:
Σ(xi – ui)2 = minimo, ove ui = a + bxi.
Due parametri da ricavare, due equazioni da porre.
Anche in questo caso, risolvibile in modo chiuso, ossia con delle formulette, sia le y sia le x devono mandatoriamente seguire la distribuzione di Gauss.
In caso contrario forniscono valori di a e di b totalmente fantasiosi, irrealistici. Peccato purtroppo che siano solitamente utilizzati per prevedere i valori futuri, con lacrime e sangue del portafoglio dell’investitore.
Di equazioni costitutive ve ne sono un grande numero, una per ogni situazione. Il problema consiste solo nell’averle studiate, ed appartengono tutte alle statistiche non parametriche. La più banale, tanto per fare n esempio, potrebbe essere questa:
Σ|(xi – ui)|= minimo, ove ui = a + bxi,
che minimizza lo scarto mediano. Ma nulla vieta di minimizzare un diverso percentile. Poi vi sono equazioni costitutive decisamente più sofisticate, ovviamente.
Tutte le equazioni costitutive non parametriche non sono risolvibili in modo chiuso, con una formuletta, ma richiedono un particolare processo di ottimizzazione. Sono tutti metodi robusti.
Vediamo adesso il seguente grafico esplicativo tratto dal Press et Al. Numerical Recipes.:
Come si vede chiaramente dal grafico in alto, la curva di distribuzione di frequenza presenta lunghe code laterali.
La retta di regressione ai minimi quadrati sovrastima l’intercetta e sottostima severamente il coefficiente angolare.
É ovvio che se usassimo i parametri a e b per estrapolare il valor che questa retta potrebbe avere in futuro, anche molto prossimo, otterremmo semplicemente dei numeri casuali, perché generati dall’uso un modello improprio.
Conclusioni.
Dovrebbe intanto esser chiaro che l’affermazione «é stata calcolata la retta di regressione» non asserisce un bel nulla: enuncia solo l’equazione si stato. Ma ciò che interessa è quella costitutiva, ossia il metodo usato per stimare detta retta.
La dizione corretta é «é stata calcolata la retta di regressione usando il metodo dei minimi quadrati», oppure «é stata calcolata la retta di regressione usando il metodo di Theil», etc.
Attenzione! Chi non usa una terminologia corretta, e quindi capibile, tanto meno usa metodologie corrette, e quanto meno é un facilone, ma spesso dobbiamo constatare che é un Wanna Marchi dei suoi risultati.
Qui abbiamo considerato solo esempi semplici e banali. Ma molti producono risultati ottenuti con tecniche anche molto complesse e raffinate. Un esempio?
Guardate questa equazione di stato:

Dice tutto e dice nulla se non sono allegate le equazioni costitutive. Una cosa è certa, che calcolare i parametri che vi compaiono utilizzando sistemi parametrici (FFT, DTF, Cosinor analysis, etc.) rende i numeri del lotto. Grossi paroloni privi di contenuto e, soprattutto, fuorvianti. Roba da imbonitori: ma a pensarci bene, chi mai affiderebbe i propri denari alle speculazioni di gente di tal risma?
1. Gli andamenti nel tempo delle quotazioni di titoli ed indici sono non-parametriche, quindi debbono essere proficuamente analizzati solo ed esclusivamente con le statistiche non-parametriche.
2. Indicatori non associati al loro errore, oppure alla loro banda di variazione, sono di uso altamente pericoloso. Una cosa è una predizione con un errore percentuale di ±5%, un’altra, totalmente differente ed azzardata, con un errore percentuale di ±100%.
Se affidare il proprio denaro ad un promotore oppure ad un trader povero é cosa davvero sprovvida – se non sa guadagnare per sé non potrà mai far guadagnare degli altri – altrettanto lo é affidarlo ad indici inattendibili.
Bibliografia.
Press et Al. Numerical recipes. Cambridge, 1986
Home → Home → Volete avere la certezza di perdere in borsa? Bene. Usate gli indicatori parametrici.
Giuseppe Sandro Mela.
Nonostante sia il mese di agosto, tradizionalmente dedicato alle ferie, davvero molti Lettori mi hanno mandato un mail in cui chiedevano spiegazioni di cosa fosse la statistica non parametrica e perché mai generasse risultati più attendibili di quella parametrica.
Domande perfettamente lecite: nessuno é tenuto a conoscere questa materia, che tra l’altro é alquanto ostica e richiederebbe buone conoscenze matematiche per essere applicata in modo proprio.
Cerco quindi di dare una risposta pubblica che sia intellegibile anche da parte di chi non abbia proprio nessuna competenza specifica. Non si adombrino gli statistici: questo è un post divulgativo, il cui obiettivo é solo quello di far capire un concetto a grandi linee ai non addetti ai lavori. Ci aiuteremo con due esempi.
* * * * *
1° Esempio. L’indicatore centrale.Data una serie di dati, anche molto numerosa, ci si domanda se sia possibile ottenere un valore unico, che mi esprima grosso modo il valore della serie. Per esempio, la media aritmetica.
Questi valori sommario prendono nome di indicatori di tendenza centrale.
Consideriamo adesso un paesino di 1,000 anime. Ci si domanda quale sia il reddito medio della popolazione.
Supponiamo che 990 persone abbiano un reddito di 1,000 euro al mese e 10 di un milione.
Il reddito mensile totale sarà quindi eguale a 990 * 1,000 + 10 * 1,000,000, ossia 10,990,000 euro.
La media aritmetica, Σx/n, ci fornirebbe un valore di 10,900 euro al mese, ossia un livello di reddito poco realistico per la massa degli abitanti e soprattutto sovrastimato di oltre dieci volte.
La mediana invece ci fornirebbe un valore di 1,000 euro al mese, risultato decisamente molto più realistico per la quasi totalità della popolazione.
Spiegazione di questa apparente assurdità.
Quasi invariabilmente ci si ferma a considerare il come si calcola un indicatore di tendenza centrale, anche se altrettanto spesso non ci si cura nemmeno di questo aspetto: lo si usa e basta. lo stanno facendo tutti.
Ma una cosa é come si calcola ed un’altra é da che parte si sia concretizzata la formuletta.
Il punto che ogni indicatore di tendenza centrale é formulato sulla base di numerose ipotesi, e fornisce i numeri del lotto se queste non siano rispettate.
Sia data una serie di dati x1, x2, …, xn.
La media aritmetica, m, é derivata dall’assunto che essa sia quel valore che minimizza gli scarti quadratici medi, ossia:
Σ(xi – m)2 = minimo.
Questo assunto é denominato il metodo dei minimi quadrati, ideato da quel grande genio che fu Gauss, ed é alla base di tutte le statistiche parametriche.
Gode di molte utilissime proprietà, per esempio, ottenuto il valore di m, il valore della sommatoria Σ(xi – m)2 contiene l’errore della media (in realtà un qualcosa di precedente, ma qui non conta più di tanto). Dalla media e dall’errore che la affligge si può ricavare la sua probabilità.
Le limitazioni sono però molto chiare e, direi, evidenti.
In primo luogo, la serie dei dati deve essere continua, perché la risoluzione del minimo richiede l’uso di una derivata prima. La serie dei dati deve quindi essere derivabile ed, almeno teoricamente, spaziare da meno infinto a più infinito.
In secondo luogo, la distribuzione di frequenza dei dati deve essere di tipo gaussiano, anche detto normale. Ossia non solo deve essere simmetrica attorno al valor medio centrale, ma non deve presentare lunghe code (fat tails). É infatti evidente che valori come quelli dei nostri dieci paperoni forniscono degli (xi-m)2 enormi rispetto a tutti gli altri, e pesano peggio di macigni sui calcoli. In poche parole, la presenza di outlier inficia la validità della media ottenuta. Usare la media aritmetica in queste situazioni equivarrebbe a cercare di piantare le viti con il martello oppure di avvitare i chiodi.
In terzo luogo, diventa evidente che l’uso sconsiderato della media può produrre conseguenze aberranti. Il Trilussa diceva che la statistica è quella cosa per cui se uno mangia un pollo e l’altro resta digiuno, in media avrebbero mangiato mezzo pollo a testa. Frase ad effetto ma somaramente errata: il pollo non é una misura continua, bensì discreta: usare la media é imbecille. Così come è semplicemente imbecille fare la media di percentuali. come si vede solitamente fare nel corso delle proiezioni elettorali.
La mediana, Md, é derivata dall’assunto che essa sia quel valore che minimizza gli scarti assoluti, ossia:
Σ|(xi – Md)= minimo.
Il perché matematico di questa assunzione esula i nostri scopi, ma é evidente che questo indicatore centrale, tipicamente non parametrico, é del tutto indifferente alle fat tails. Gli indicatori che soddisfano tale caratteristica sono usualmente denominati “robusti” e solitamente sono indipendenti dalla distribuzione di frequenza dei dati.
Il valor mediano nel nostro esempio é decisamente più realistico: rappresenta in modo ben più propri la popolazione di interesse.
Per la mediana non esiste, non può esistere per essere più precisi, una formuletta di calcolo ottenuta dall’assunto di base, come per la media. Può essere calcolata soltanto attraverso un sistemino di ottimizzazione, che richiede però molto più tempo di computo.
Conclusioni del primo esempio.
L’investitore od il trader dovrebbe sempre domandarsi prima di ogni cosa: «quale é la distribuzione di frequenza delle quotazioni che voglio studiare?».
Il perché é banale. Utilizzare un indicatore di per sé errato porta inevitabilmente a dover registrare perdite invece che guadagni.
É anche vero che ognuno gestisce il proprio denaro a piacer suo, ma si potrebbe pensare che esistano modi più piacevoli di spesa senza ritorno.
* * * * *
2° Esempio. Un caso più complesso: la retta di regressione.Qualsiasi calcolo statistico é invariabilmente basato su assunti ed ipotesi: non è errato il metodo in sé, bensì può essere del tutto scriteriata la sua applicazione.
Come é noto, la situazione lineare è definita dalla seguente equazione, definita come equazione di stato:
y = a + bx.
Il parametro a prende nome di elevazione od intercetta e quello b di coefficiente angolare.
Il termine regressione indica la procedura seguita per determinare il valore ottimale di codesti parametri.
Ma “ottimali” secondo un criterio ben definito da un modello matematico a monte.
La classica regressione, per intenderci quella calcolata dagli usuali fogli di calcolo ed anche dai programmi di analisi tecnica, é sempre derivata dal metodo dei minimi quadrati, ossia si vuol rendere minima la seguente equazione costitutiva:
Σ(xi – ui)2 = minimo, ove ui = a + bxi.
Due parametri da ricavare, due equazioni da porre.
Anche in questo caso, risolvibile in modo chiuso, ossia con delle formulette, sia le y sia le x devono mandatoriamente seguire la distribuzione di Gauss.
In caso contrario forniscono valori di a e di b totalmente fantasiosi, irrealistici. Peccato purtroppo che siano solitamente utilizzati per prevedere i valori futuri, con lacrime e sangue del portafoglio dell’investitore.
Di equazioni costitutive ve ne sono un grande numero, una per ogni situazione. Il problema consiste solo nell’averle studiate, ed appartengono tutte alle statistiche non parametriche. La più banale, tanto per fare n esempio, potrebbe essere questa:
Σ|(xi – ui)|= minimo, ove ui = a + bxi,
che minimizza lo scarto mediano. Ma nulla vieta di minimizzare un diverso percentile. Poi vi sono equazioni costitutive decisamente più sofisticate, ovviamente.
Tutte le equazioni costitutive non parametriche non sono risolvibili in modo chiuso, con una formuletta, ma richiedono un particolare processo di ottimizzazione. Sono tutti metodi robusti.
Vediamo adesso il seguente grafico esplicativo tratto dal Press et Al. Numerical Recipes.:
Come si vede chiaramente dal grafico in alto, la curva di distribuzione di frequenza presenta lunghe code laterali.
La retta di regressione ai minimi quadrati sovrastima l’intercetta e sottostima severamente il coefficiente angolare.
É ovvio che se usassimo i parametri a e b per estrapolare il valor che questa retta potrebbe avere in futuro, anche molto prossimo, otterremmo semplicemente dei numeri casuali, perché generati dall’uso un modello improprio.
Conclusioni.
Dovrebbe intanto esser chiaro che l’affermazione «é stata calcolata la retta di regressione» non asserisce un bel nulla: enuncia solo l’equazione si stato. Ma ciò che interessa è quella costitutiva, ossia il metodo usato per stimare detta retta.
La dizione corretta é «é stata calcolata la retta di regressione usando il metodo dei minimi quadrati», oppure «é stata calcolata la retta di regressione usando il metodo di Theil», etc.
Attenzione! Chi non usa una terminologia corretta, e quindi capibile, tanto meno usa metodologie corrette, e quanto meno é un facilone, ma spesso dobbiamo constatare che é un Wanna Marchi dei suoi risultati.
* * * * *
3°. Considerazioni finali.Qui abbiamo considerato solo esempi semplici e banali. Ma molti producono risultati ottenuti con tecniche anche molto complesse e raffinate. Un esempio?
Guardate questa equazione di stato:

Dice tutto e dice nulla se non sono allegate le equazioni costitutive. Una cosa è certa, che calcolare i parametri che vi compaiono utilizzando sistemi parametrici (FFT, DTF, Cosinor analysis, etc.) rende i numeri del lotto. Grossi paroloni privi di contenuto e, soprattutto, fuorvianti. Roba da imbonitori: ma a pensarci bene, chi mai affiderebbe i propri denari alle speculazioni di gente di tal risma?
* * * * *
Gli elementi fondamentali da razionalizzare sono:1. Gli andamenti nel tempo delle quotazioni di titoli ed indici sono non-parametriche, quindi debbono essere proficuamente analizzati solo ed esclusivamente con le statistiche non-parametriche.
2. Indicatori non associati al loro errore, oppure alla loro banda di variazione, sono di uso altamente pericoloso. Una cosa è una predizione con un errore percentuale di ±5%, un’altra, totalmente differente ed azzardata, con un errore percentuale di ±100%.
Se affidare il proprio denaro ad un promotore oppure ad un trader povero é cosa davvero sprovvida – se non sa guadagnare per sé non potrà mai far guadagnare degli altri – altrettanto lo é affidarlo ad indici inattendibili.
Bibliografia.
Press et Al. Numerical recipes. Cambridge, 1986