Overfitting

On May 1, 2014 Interactive Brokers is discontinuing TWS versions below 940.0 for API use. Please update your TWS installations to the latest TWS 944.3 prior to May 1, 2014 to avoid any downtime. Users with older Java versions will need to update their Java as well. For more information on these steps please see our connection guide.

:eek: scoperto per caso...

EDIT:
Sembra funzionare comunque per me, ma ovviamente se ne siete dipendenti buttateci un occhio

EDIT 2:
Riflettevo su questo proprio qualche tempo fa: se ci pensate alla fine come essere umani non siamo altro che macchine "biologiche", il nostro corpo e' formato da un insieme di parti che agiscono secondo leggi di natura (chimica, fisica e chissa' che altro).

Certo siamo ancora parecchio lontani dal comprenderci, ma a meno che non si crede ad un qualcosa di metafisico (coscienza, anima,...), per me non e' impensabile concepire che riusciremo a sviluppare "macchine" con coscienza.
Considerando noi stessi come macchine, il confine si fa piu' labile, quindi immagino la domanda sia proprio se possiamo considerarci tali, o se ci sia dell'altro (il solito cliche' insomma :) )
 
Ultima modifica:
On May 1, 2014 Interactive Brokers is discontinuing TWS versions below 940.0 for API use. Please update your TWS installations to the latest TWS 944.3 prior to May 1, 2014 to avoid any downtime. Users with older Java versions will need to update their Java as well. For more information on these steps please see our connection guide.

:eek: scoperto per caso...

EDIT:
Sembra funzionare comunque per me, ma ovviamente se ne siete dipendenti buttateci un occhio

Se l'hai scoperto per caso secondo me devi stare antipatico a qualcuno degli IBs :D

EDIT 2:
Riflettevo su questo proprio qualche tempo fa: se ci pensate alla fine come essere umani non siamo altro che macchine "biologiche", il nostro corpo e' formato da un insieme di parti che agiscono secondo leggi di natura (chimica, fisica e chissa' che altro).

Vero, tuttavia il nocciolo della questione sta esattamente nel non conoscere le leggi di natura che governano la nostra "macchina biologica".

L'errore, sempre e solo secondo me, sta nell'attribuire un significato algoritmico, o se preferisci deterministico, alla parola "macchina". Cosa sicuramente valida per l'elettronica e le sue leggi, ma non certo per "macchine" quantistiche.

Certo siamo ancora parecchio lontani dal comprenderci, ma a meno che non si crede ad un qualcosa di metafisico (coscienza, anima,...), per me non e' impensabile concepire che riusciremo a sviluppare "macchine" con coscienza.

La coscienza, seppur difficilmente definibile, non deve mica essere "qualcosa di metafisico". Quelle illusioni lasciamole a chi ne ha bisogno :)

Concepire "macchine" con coscienza può essere pensabile attraverso la genetica. Non credo proprio attraverso elettronica o simili.

Edit: al riguardo ti consiglio una lettura completa del link che ho postato a Cren: Chinese room - Wikipedia, the free encyclopedia

Considerando noi stessi come macchine, il confine si fa piu' labile, quindi immagino la domanda sia proprio se possiamo considerarci tali, o se ci sia dell'altro (il solito cliche' insomma :) )

Tuttavia pensare che la capacità di comprensione dell'uomo non abbia limiti precisi e invalicabili e che "non ci sia dell'altro" è esattamente come credere a "qualcosa di metafisico". Illusioni per chi ne ha bisogno.
 
Ultima modifica:

Allegati

  • copy-bozza_manifesto31.jpg
    copy-bozza_manifesto31.jpg
    270,9 KB · Visite: 296
...riapro un attimo un tema che ha fatto cadere le braccia a PGP...

Proprio oggi mi è capitata sotto mano qualcosa di particolare che giustificherebbe razionalmente un acquisto DOTM unicamente allo scopo di abbassamento margini. Ed in tal caso seppur spread e commissioni vanno comunque valutati in percentuali, queste ultime non saranno relative al prezzo dell'opzione DOTM ma a quello della posizione complessiva.

Nonostante sia un caso particolare e mai qui citato, devo dartene atto ;)

...però qualche modo per evitarlo ci deve essere, perché al mondo c'è anche chi ne fatto poco di overfitting :) :
http://www.berkshirehathaway.com/letters/2013ltr.pdf

C'è un unico modo per evitare l'overfitting: a monte, lavorando su input e strutture (ovvero senza interpretazioni astrologiche degli output).

Esattamente come fa il tuo amico Warren.
 
Cren ha scritto:
Non c'è alcuna differenza con altre "scienze" (o sedicenti tali):
se tu sei un fisico e affermi che la velocità di una biglia su un piano inclinato è pari a x in corrispondenza di un coefficiente di attrito che varia da y a z, allora puoi ripetere l'esperimento 10,000 volte e usare strumenti mutuati dalla statistica per stabilire con che grado di confidenza è vera la tua congettura;
se tu sei un biologo e affermi che una cellula del tipo x è tale se ha 100 caratteristiche precise, allora puoi prendere un campione di 10,000 cellule e usare strumenti mutuati dalla statistica per stabilire con che grado di confidenza è vera la tua congettura;
se tu sei un ingegnere meccanico e affermi che la vita media di un utensile da tornitura è direttamente proporzionale alla velocità di rotazione del mandrino e all'angolo di taglio, allora puoi raccogliere dati da 10,000 torniture e usare strumenti mutuati dalla statistica per stabilire con che grado di confidenza è vera la tua congettura;
se tu sei un economista e affermi che il tasso di crescita del PIL di un Paese è dato da una combinazione di propensione marginale al consumo, aliquota fiscale sulle persone fisiche ed età media della popolazione, allora puoi prendere i dati di 1,000 Paesi diversi e usare strumenti mutuati dalla statistica per stabilire con che grado di confidenza è vera la tua congettura.
Che cosa noti di comune in tutto questo?

Al contrario io noto piuttosto un'enorme differenza: la biglia, le cellule e la vita media di un utensile rispettano leggi fisiche ben precise che consentono di effettuare previsioni praticamente senza overfitting, visto che non c'è alcuna influenza della volontà umana.

Il tasso di crescita del PIL, per quanto correlato ad altre variabili economiche, deriva invece da comportamenti umani, e quindi non sarà mai prevedibile come il movimento di una biglia, le qualità di una cellula, la durata di un utensile.

I limiti nella qualità previsionale dell'economia rispetto a quella della fisica, della biologia, della meccanica, oltre ad essere evidenti, sono l'esatto confine che non le consente di essere considerata alla loro stregua.

Tutto ciò detto con il massimo rispetto per l'economia, materia validissima e utilissima di cui voglio semplicemente sottolineare la diversità rispetto ad altre scienze ben più affidabili; per quanto comprenda gli sforzi (inutili) degli economisti nel voler annullare differenze che per quanto mi riguarda risultano lapalissiane.
 
Al contrario io noto piuttosto un'enorme differenza: la biglia, le cellule e la vita media di un utensile rispettano leggi fisiche ben precise che consentono di effettuare previsioni praticamente senza overfitting, visto che non c'è alcuna influenza della volontà umana.

Il tasso di crescita del PIL, per quanto correlato ad altre variabili economiche, deriva invece da comportamenti umani, e quindi non sarà mai prevedibile come il movimento di una biglia, le qualità di una cellula, la durata di un utensile.

I limiti nella qualità previsionale dell'economia rispetto a quella della fisica, della biologia, della meccanica, oltre ad essere evidenti, sono l'esatto confine che non le consente di essere considerata alla loro stregua.

Tutto ciò detto con il massimo rispetto per l'economia, materia validissima e utilissima di cui voglio semplicemente sottolineare la diversità rispetto ad altre scienze ben più affidabili; per quanto comprenda gli sforzi (inutili) degli economisti nel voler annullare differenze che per quanto mi riguarda risultano lapalissiane.
Capisco perfettamente la tua opinione, e per questo le considerazioni che voglio portarti in risposta non sono critiche, ma approfondimenti per farti capire come la vedo.

In particolare non confondere i seguenti tre oggetti:
- oggetto della previsione e sue caratteristiche peculiari;
- modelli utilizzati per validare ipotesi;
- bontà e affidabilità del risultato ottenuto.​
Quello che hai scritto è sicuramente vero nel senso che la componente di aleatorietà del tasso di crescita del PIL è infinitamente più grande di quella che classifica una cellula sulla base dei suoi attributi; ma, allo stesso modo, la componente di aleatorietà nelle caratteristiche di una cellula è infinitamente più grande di quella che predice la velocità istantanea di una biglia di acciaio che scivola lungo un piano inclinato di marmo bagnato.

Non per essere monotono negli argomenti, ma c'è un ottimo data set in R che è usato spesso per provare tutti i modelli di classificazione: Iris flower data set; è il famoso set di Ronald Fisher, è vecchio di quasi un secolo.

Hai tre specie di fiori e conosci un po' dei loro attributi, se ti do un nuovo fiore sulla base dei suoi attributi devi metterlo nella categoria giusta.

(Sono sicuro che conosci meglio di me questo genere di "addestramento", visto che il data set che ti ho descritto è spesso il primo banco di prova delle tecniche di machine learning, come NN e SVM).

Se la componente di casualità del tasso di crescita del PIL rispetto alla classificazione dei fiori è altissima a causa della enorme complessità dell'indole umana, allo stesso modo anche la classificazione dei fiori risente di tutti quella casualità che la vita biologica esprime generando nuove Iris con petali di forme e colori leggermente diversi gli uni dagli altri... e quindi sicuramente la casualità nelle caratteristiche di una cellula rispetto alla velocità istantanea di una biglia su un piano sono su due ordini di grandezza diversi.

Il punto è che, dalla prospettiva di uno scienziato che usa la statistica per analizzare dei dati, questo finisce per tradursi unicamente in dispersione degli errori commessi: quasi nulla per la biglia, altissima per le variazioni del PIL.

Ma questo non altera il metodo deduttivo (semmai nel caso di un modello che cercasse di spiegare le variazioni del PIL o, peggio ancora, dei mercati finanziari si finirebbe in un loop senza fine :D):
Metodo_scientifico.png

Quindi, concludendo: è verissimo che gli stessi metodi e strumenti usati sulle biglie non producono risultati altrettanto affidabili che se usati sullo S&P 500; è altrettanto vero, però, che il processo che ci porta eventualmente a usare quel metodo di indagine è lo stesso in entrambi i casi: osservazione, formulazione di una ipotesi, test dell'ipotesi con quante più informazioni abbiamo a disposizione.

Che poi ciò che vogliamo misurare non abbia caratteristiche tali da poter essere agevolmente indagato con gli stessi test di ipotesi e modelli che uso per la biglia è un caso che "fa parte del gioco" (vuoi per scarsità di dati, vuoi per eteroschedasticità, vuoi per distribuzioni dei dati pazzesche - ricordo Imar discutere con vampyro1 sul famoso esempio del latte e del FTSE MIB con varianza infinita...): bisognerà usare altro o alla fine ammettere a se stessi che non si dispone degli strumenti adatti per indagare fenomeni così complessi con sufficiente confidenza.

_________________________________​

Aggiungo un esperimento logico per assurdo che dovrebbe piacerti, un po' sulla falsariga di quelle cose in stile "paradosso di Zenone".

Per farti intendere che la transizione tra ciò che è effettivamente indagabile con la statistica e ciò che non lo è è "sfumata" e non "netta" come la intendi tu, considera sempre il caso di voler prevedere le variazioni del PIL con buona precisione.

Tu dici giustamente che questo sarà impossibile da fare come vorremmo: la natura umana e la componente di casualità saranno così grandi ed erratiche che al meglio potremo affermare che l'anno prossimo il PIL non crescerà del 20% né scenderà del 30% (ma anche in quel caso non ne saremmo così convinti se dovessimo giocarci la vita su quella previsione :D).

Allora io ti propongo questo esperimento logico: immagina una economia completamente chiusa agli scambi con l'esterno e supponi di sostituire una per una tutte le persone di un Paese con degli automi (automi che però consumano, lavorano etc. etc.) di cui conosci in modo deterministico i comportamenti.

Ad ogni individuo sostituito, rifai tutto il processo deduttivo per prevedere il PIL: ipotizzi, osservi, sottoponi a validazione, cerchi di correggere l'errore e via da capo.

Ecco, a forza di sostituire individui con automi, raggiungerai un livello di aleatorietà paragonabile a quello delle famose cellule di cui sopra; se vai avanti a sostituire tutte le persone con automi, arriverai alla fine ad avere una specie di programma in cui ogni individuo è una classe coi suoi metodi, cioè un "affare" che dovrebbe avere un comportamento non solo deterministico ma anche perfettamente noto (o comunque a bassissima varianza rispetto a quando c'erano solo umani in giro): siamo al livello di aleatorietà della biglia su un piano inclinato solo leggermente viscoso.

Vado in palestra, leggerò repliche stasera o domattina.
 
Ultima modifica:
Uhm,

ci sono alcune questioni.

Una è la difficoltà di isolare l'ambiente sperimentale. Io riesco a prevedere il moto di un pendolo perché riesco a isolare l'effetto che mi interessa, cioè il vettore g costante (oltre al fatto di trascurare generalmente il calcolo di un integrale ellittico). Se mettessi il pendolo vicino a una singolarità gravitazionale rotante avrei probabilmente troppe variabili e una probabile non conservazione della massa a livello locale.

Allora, venendo a noi, per sapere cosa farà il PIL quest'anno basta guardare il DEF, e tutte le stime se ci fai caso convergono verso certi valori. Il problema è che queste stime si possono fare solo con condizioni semplificative sull'insieme resto del mondo, ché altrimenti valgono poco.

La seconda questione, che non mi trova daccordo con la filosofia che credo sostenga PG, è che gli umani possono essere manipolati (lo vediamo abitualmente nei forum, quanto sia facile indurre certe risposte automatizzate negli interlocutori). E' vero che presi singolarmente sono dotati di quella sgradevole proprietà detta libero arbitrio, ma nei grandi numeri possono essere indotti a certi comportamenti. Quindi, nei grandi numeri, e almeno nel breve periodo, certi comportamenti sono predittibili.

by
 
Capisco perfettamente la tua opinione, e per questo le considerazioni che voglio portarti in risposta non sono critiche, ma approfondimenti per farti capire come la vedo.

Eppure dalle tue risposte sembra il contrario. Tuttavia anche io "credo" di capire perfettamente la tua opinione, quindi cercherò anche io di farti capire meglio la mia.

In particolare non confondere i seguenti tre oggetti:
- oggetto della previsione e sue caratteristiche peculiari;
- modelli utilizzati per validare ipotesi;
- bontà e affidabilità del risultato ottenuto.
Quello che hai scritto è sicuramente vero nel senso che la componente di aleatorietà del tasso di crescita del PIL è infinitamente più grande di quella che classifica una cellula sulla base dei suoi attributi; ma, allo stesso modo, la componente di aleatorietà nelle caratteristiche di una cellula è infinitamente più grande di quella che predice la velocità istantanea di una biglia di acciaio che scivola lungo un piano inclinato di marmo bagnato.

Ma il problema non è la quantità di rumore, ma la sua qualità. Era esattamente questo che cercavo di farti capire quando ti invitavo a darmi un numero a caso e poi a scrivere un algoritmo che lo facesse per te.

Il rumore a cui è soggetta una biglia, una cellula, o la classificazione di un fiore, è completamente diverso da quello a cui è soggetto un processo decisionale umano, soprattutto integrato.
Il rumore deterministico è generato da una legge, un algoritmo, un processo meccanico che, seppur ignorato per la sua complessità, ha uno schema preciso alla base che può risultare affrontabile con la statistica, con la AI, e con tutte le diavolerie algoritmiche lineari o non lineari che preferisci.
Il rumore generato da una mente umana è tutt'altra cosa: tant'è che siamo abbondantemente riusciti a modellare biglie e fiori, ma non certo quest'ultima.

Nota anche che tutti gli algoritmi, complessi a piacere, che vuoi utilizzare, per quanto voglia chiamarli "neurali" o "genetici", non hanno nulla a che vedere con neuroni e genetica, le cui leggi basilari siamo ben lontani dal conoscere.

Per questo stesso motivo, oltre questi algoritmi, anche la teoria del caos, tanto amata da FrankB che si illude di utilizzarla per modellare insiemi a piacere di teste pensanti, può ben funzionare con sistemi governati da leggi deterministiche, ma non certo con sistemi il cui livello intrinseco di indeterminismo è evidente (almeno per me).

Non per essere monotono negli argomenti, ma c'è un ottimo data set in R che è usato spesso per provare tutti i modelli di classificazione: Iris flower data set; è il famoso set di Ronald Fisher, è vecchio di quasi un secolo.
Hai tre specie di fiori e conosci un po' dei loro attributi, se ti do un nuovo fiore sulla base dei suoi attributi devi metterlo nella categoria giusta.
(Sono sicuro che conosci meglio di me questo genere di "addestramento", visto che il data set che ti ho descritto è spesso il primo banco di prova delle tecniche di machine learning, come NN e SVM).
Se la componente di casualità del tasso di crescita del PIL rispetto alla classificazione dei fiori è altissima a causa della enorme complessità dell'indole umana, allo stesso modo anche la classificazione dei fiori risente di tutti quella casualità che la vita biologica esprime generando nuove Iris con petali di forme e colori leggermente diversi gli uni dagli altri... e quindi sicuramente la casualità nelle caratteristiche di una cellula rispetto alla velocità istantanea di una biglia su un piano sono su due ordini di grandezza diversi.

Mi ripeto ancora. La casualità nelle caratteristiche di una cellula, nelle forze agenti sulla biglia, nella classificazione dei fiori, o in qualunque altro esempio in cui non intervengono "coscienze", è solo un costrutto. in realtà non esiste: è semplicemente l'estensione della nostra ignoranza (ci sarebbe da fare precisazioni quantistiche su misure infinitesime e trascurabili di "vera" casualità anche in oggetti "inanimati", ma credo sia qui inutile).
Nella nostra mente invece il caso è la base della nostra coscienza, volontà, libertà. E si estende in maniera esponenziale nella sua integrazione.

E' questo il confine netto tra i tuoi esempi "scientifici" e l'economia.

...è verissimo che gli stessi metodi e strumenti usati sulle biglie non producono risultati altrettanto affidabili che se usati sullo S&P 500; è altrettanto vero, però, che il processo che ci porta eventualmente a usare quel metodo di indagine è lo stesso in entrambi i casi: osservazione, formulazione di una ipotesi, test dell'ipotesi con quante più informazioni abbiamo a disposizione...

Il fatto che il processo analitico sia analogo, non significa che l'economia non sia profondamente diversa da fisica, chimica, biologia, ecc., visto che poi le sintesi, metodologicamente e qualitativamente, sono completamente diverse.

Geni dell'economia si possono sentire un po' tutti. Geni della fisica o della matematica direi molti meno! :D (non per niente ingegneria gestionale è la più facile di tutte!!! :lol: :prr:)


...immagina una economia completamente chiusa agli scambi con l'esterno e supponi di sostituire una per una tutte le persone di un Paese con degli automi (automi che però consumano, lavorano etc. etc.) di cui conosci in modo deterministico i comportamenti.
Ad ogni individuo sostituito, rifai tutto il processo deduttivo per prevedere il PIL: ipotizzi, osservi, sottoponi a validazione, cerchi di correggere l'errore e via da capo.
Ecco, a forza di sostituire individui con automi, raggiungerai un livello di aleatorietà paragonabile a quello delle famose cellule di cui sopra; se vai avanti a sostituire tutte le persone con automi, arriverai alla fine ad avere una specie di programma in cui ogni individuo è una classe coi suoi metodi, cioè un "affare" che dovrebbe avere un comportamento non solo deterministico ma anche perfettamente noto (o comunque a bassissima varianza rispetto a quando c'erano solo umani in giro): siamo al livello di aleatorietà della biglia su un piano inclinato solo leggermente viscoso.
Vado in palestra, leggerò repliche stasera o domattina.

Questo esempio mi ricorda moltissimo quando io ed Imar ti dicevamo che stavi sbagliando, e tu puntualmente rispondevi "ma se fosse vero?" :lol: (ricordi Imar? ;))

Se sostituisci automi alle menti ottieni quello che vuoi, ovviamente: il problema è che non ha senso farlo, visto che la base del ragionamento è esattamente che la mente non è un automa! :)

Detto questo ...

...Per farti intendere che la transizione tra ciò che è effettivamente indagabile con la statistica e ciò che non lo è è "sfumata" e non "netta" come la intendi tu,...

La distinzione tra cosa è indagabile con la statistica e cosa non lo è è tanto netta quanto lo è la distinzione tra scienze sociali e scienze naturali. Ovvero nettissima!

P.S. Siamo su un forum, non c'è bisogno che ci dai la tua agenda per dirci quando potrai rispondere :prr:
 

Users who are viewing this thread

Back
Alto