La Pseudomatematica - un'introduzione Mese della "Consapevolezza Matematica (e Statistica)", eh? La matematica può essere utile per l'autodifesa, o per la salute (mentale/finanziaria) pubblica, o per la lotta contro l'analfabetismo (o forse contro la snumeratezza o l'anabacetismo se preferite) La pseudoscienza si vede abbastanza in giro. I terrapiattisti, per esempio. (Confesso: non vedo perché dovrei fregarmi di loro. Sono assurdi, ma non sembrano pericolosi.) Esiste la pseudomatematica? Ci sono quelli che mandano dimostrazioni fasulle dell'ultimo teorema di Fermat ai matematici, ma c'è della pseudomatematica più diffusa? Non conto cose come la numerologia o la smorfia, il cui contenuto matematico è zero. Per lo stesso motivo non conto la "ciclometria", una forma di lottologia talmente priva di contenuto (matematico o altro) che non c'è niente di matematico da dire. Non è un abuso della matematica perché non finge nemmeno di avere della matematica dentro. Un esempio minore di pseudomatematica è "la legge del terzo" che sembra avere una qualche diffusione internazionale. In inglese si chiama "the law of the third" e in francese "la loi du tiers". Non metto alcun link qui: googlatela voi, eventualmente. Secondo i suoi sostenitori, la legge del terzo dice qualcosa del tipo: "Se hai una cosa tipo la roulette o la tombola con n possibili risultati, e fai n estrazioni/giri/quellocheè, circa 1/3 dei risultati possibili non apparirà, e quindi qualcosa qualcosa profitto". "qualcosa qualcosa" varia ma magari ti dicono che se guardi i risultati di 2n/3 giri/estrazioni puoi vincere soldi scommettendo sugli ultimi n/3 giri. Gli spacciatori della legge del terzo sono come gli gnomi rubamutande di South Park. Ovviamente un lettore maddmaths, come infatto più o meno qualsiasi studente delle scuole superiori minimamente sveglio, dirà "Allora questi non sanno cos'è l'indipendenza". E avrà ragione. Non c'è bisogno di fare alcun calcolo per vedere che quello che viene dopo "quindi" è una balla. Dal punto di vista della salute pubblica o l'autodifesa, fare in modo che si conosca l'indipendenza basta per difendersi dalle balle dei leggedelterzoisti, ritardisti et similia. Ma la parte divertente è che come succede qualche volta in questi casi, i balordi che spacciano questa roba invece di dire una cosa che è falsa e basta, o priva di alcun significato, stanno dicendo una cosa (quasi) vera ma irrilevante. Se facciamo n giri di una roulette con n numeri, potremmo ottenere da 1 a n numeri diversi. (Lo dice la matematica! Insieme al Capitan Ovvio!) Ma abbastanza spesso quelli mancanti saranno circa n/3 per un qualche senso di "circa". Un lettore maddmaths a questo punto probabilmente magari si chiede "Non sarà mica circa n/e?". In effetti sì. Il nostro vecchio amico e^-1. La probabilità che un dato numero non esca n volte di fila è ((n-1)/n)^n. Cioé (1 - 1/n)^n. Ci sono n numeri. La speranza matematica è lineare. Quindi la quantità media di numeri assenti è n(1-1/n)^n. Per n abbastanza grande, circa n/e. E la proporzione media di numeri assenti è chiaramente circa 1/e. Ma qui siamo su maddmaths. Non ci accontentiamo della media. Vogliamo sapere com'è tutta la distribuzione di quantità di numeri mancanti dopo vari numeri di giri. Possiamo farlo numericamente con un programmino Perl e una catena di Markov non particolarmente difficile. Gli stati della nostra catena di Markov sono le possibili quantità di numeri che non sono mai usciti. Inizialmente siamo sicuramente in stato n visto che nessun numero è uscito. Se siamo in stato i adesso, dopo il prossimo giro saremo ancora nello stato i se esce un numero che abbiamo già visto. Questo succede con probabilità (n-i)/n. Se esce un numero non ancora uscito, passiamo allo stato i-1. Questo con probabilità i/n. Scriviamo un programma per calcolare le probabilità di essere in stato i dopo n giri per i=0, 1, ..., 37. Anche per altri numeri di giri, se vogliamo. Ecco il programma: (meglio metterlo come link direi) #!/usr/bin/perl # prob distr of number of never-appeared numbers # after m draws from n, with replacement # starting with k numbers missing # parameters are size of pool # how many numbers missing # how many draws # same number for all three would be typical case # for looking at "law of the third" myth $|=1; $n=shift or die "what is n?"; $k=shift or die "how many numbers missing initially?"; $m=shift or die "how many spins/draws to make?"; #print "$n:\n"; $old=0; for (0..$n) { $p[$_][$old]=0; } $p[$k][$old]=1; for (1..$m) { $new=1-$old; $p[$n][$new]=0; for $i (0..$n-1) { $p[$i][$new]=$p[$i][$old]*($n-$i)/$n+$p[$i+1][$old]*($i+1)/$n; #print "round $_ $i $p[$i][$new]\n"; } $old=1-$old; } $max=0; $t=0; $mean=0; $flag=0; $median=0; $mode=0; for $i (0..$n) { $t+=$p[$i][$new]; if (($flag==0)&&($t>=0.5)) { $median=$i; $flag=1; } $mean+=$i*$p[$i][$new]; if ($p[$i][$new]>$p[$max][$new]) { $max=$i; } print "$i $p[$i][$new]\n"; } $mode=$max/$n; $mean=$mean/$n; $median=$median/$n; print "Mean $mean mode $mode median $median\n"; $estimate=(($n-1)/$n)**$n; print "Estimate of mean: $estimate\n" Lo si lancia con ./zerodist.p a b c dove a è la quantità di numeri nella nostra roulette b è la quantità di numeri mancanti inizialmente c è il numero di giri che vogliamo fare ./zerodist 37 37 37 ci fa 37 giri di una roulette con 37 numeri e inzialmente non abbiamo visto nulla quindi mancano 37 numeri. Ecco le probabiltà di avere da 0 a 36 numeri assenti dopo 37 giri della roulette, per esempio. (Non possiamo avere 37 numeri assenti, ovviamente) 0 1.30398646240825e-015 1 8.68454983963895e-013 2 1.34248666271086e-010 3 8.5404104360505e-009 4 2.82173007762461e-007 5 5.49214475155102e-006 6 6.81047323781155e-005 7 0.00056720089228635 8 0.00329342839765577 9 0.0137013298700464 10 0.0416753206012446 11 0.0940910790104586 12 0.159436676770486 13 0.204369002241182 14 0.199188503649915 15 0.148023219643352 16 0.0839160862084421 17 0.0362341129796662 18 0.0118719162519946 19 0.00293391179997579 20 0.000542269221350284 21 7.41182112863642e-005 22 7.38325242694127e-006 23 5.26166158674604e-007 24 2.62017686982174e-008 25 8.84865298526913e-010 26 1.95028689696947e-011 27 2.66881040667497e-013 28 2.12212191187977e-015 29 8.95921484234939e-018 30 1.76844172118233e-020 31 1.35345133852053e-023 32 3.00086296852856e-027 33 1.18182839605843e-031 34 3.31469257354771e-037 35 8.67202014891482e-045 36 3.50540283520928e-057 37 0 Ecco un grafico (immagine). La moda e la mediana sono 13. La media è 13,42qualcosa. Quale di questi valori è più utile? Dipende. Per fare cosa? Non serve per giocare a roulette. Magari possiamo scommettere sul numero di numeri che non appariranno nei prossimi 37 giri? Allora andrei con la moda. 37/3 è 12,qualcosa. Proviamo con altri numeri Lanciamo un dado con 6 facce volte: 0 0.0154320987654321 1 0.231481481481482 2 0.501543209876543 3 0.231481481481481 4 0.0199331275720165 5 0.000128600823045267 6 0 Mean 0.334897976680384 mode 0.333333333333333 median 0.333333333333333 Estimate of mean: 0.334897976680384 OK qui la cosa più probabile è davvero che manchi esattamente un terzo dei numeri! Compriamo 3000 adesivi per un albo della Panini con 3000 buchi... supponendo che tutti abbiano la stessa probabilità, sono indpendenti ecc. 3000/3 è 1000: 1000 2.27141054519829e-10 3000/e è 1103.638323514 il valore più probabile è 1103 1103 0.0233518721791427 Mean 0.367818119414099 mode 0.367666666666667 median 0.367666666666667 Estimate of mean: 0.36781811941414 1/e per la cronaca è 0.367879441 La differenza fra "mean" e "estimate of mean" dovrebbe essere un problema di arrotondamento. Proviamo con 30000: 30000/3 è 10000. 10000 2.7676752628941e-83 30000/e è 11036.383235143 Il valore più probabile è 11036 11036 0.00738738345422834 Mean 0.367873309762264 mode 0.367866666666667 median 0.367866666666667 Estimate of mean: 0.367873309762305 Quindi magari dovrebbe chiamarsi la legge del e-esimo? Ovviamente, non ha alcuna utilità per giocare a roulette perché indipendenza ecc. ecc. Se per qualche motivo dovete dire quanti numeri mancheranno dopo n giri di una roulette con n numeri, o usate un programma come questo o dite un intero vicino a n/e se n è grandino. Comunque, è un abuso o mancanza di comprensione di una cosa matematica vera e non, come la ciclometria, un esempio di assurdità scatenata e basta. Trovo più divertenti i casi in cui c'è della matematica, sebbene usata male, e non il nonsenso totale allo stato brado. Un esempio migliore e più divertente di pseudomatematica è la "Formula di Samaritani" ma è meno diffusa della legge del terzo ed è appena possibile che tutti i suoi sostentitori si siano suicidati nel 2017. Ho scritto un articolo per un pubblico angolofono qui http://www.ghira.mistral.co.uk/aatkinson-g4g12-samaritani-article-2017revision.pdf In italiano c'è un articolo nel numero 207 della rivista dei Rudi Mathematici http://www.rudimathematici.com/archivio/207.pdf Gli anglofoni mi dicono che questi articoli sono terribilmente scortesi. Alcuni italiani mi chiedono perchè mi sono trattenuto tanto. Magari stanno usando understatement britannico. Gli eventuali lettori di questo articolo che sono vittime della legge del terzo dovrebbero sentirsi presi in giro? Assolutamente sì. Ma non da me. Dai balordi che vanno in giro a raccontare queste balle alla gente. Qualcuno che cerca di raccontarti questa roba sta dicendo o "Io non so cosa sia l'indipendenza" o, secondo me più verosimilmente, "Spero che tu non sappia cosa sia l'indipendenza, vittima nata che non sei altro". Forse queste persone pensano che i giri della roulette non siano indipendenti. In questo caso dovrebbero dirlo abbastanza chiaramente. Non è un dato di fatto che i giri della roulette, i lanci di un dado, gli adesivi della Panini ecc. siano indipendenti. Più che matematica, questa è fisica, o una questione sul mondo reale. Le route della roulette non sono, o dovrebbero essere, costruite in modo che i giri siano indipendenti e che tutti i numeri abbiamo la stessa probabilità? Se sono truccate, né il nostro modello né quello fantomatico dei terzisti ha molta utilità. Nel caso degli adesivi della Panini vedo dei problemi: non sono stampati in quantità illimitate. Potrebbero essere stampati in quantità diversi. E gli adesivi della Panini forse non sono "indipendenti". Magari alcuni adesivi sono più comuni in alcuni posti. Se compri più adesivi in un "pacco" (ammetto di non sapere come funziona) forse è garantito che non ci siano duplicati all'interno del pacco. In questo caso, i singoli adesivi non sono indipendenti. Comunque potremmo usare il nostro modello di base come primo tentativo. Qualche volta trovi una versione estesa della legge del terzo: dopo n giri/ecc. circa 1/3 dei numeri non esce, circa 1/3 esce esattamente una volta, circa 1/3 esce almeno due volte. Dire che questa versione è vera ma irrilevante è un po' troppo. Andrei per "falsa" questa volta. I numeri veri per n grande mi sembrano 1/e, 1/e, 1-2/e. 1-2/e non è particolarmente vicono a 1/3 ed è assai diverso da 1/e. Come sempre, i dettagli non importano più di tanto. Volendo possiamo fare una catena di Markov con stati i,j dove i e j sono le quantità di numeri visti 0 volte e 1 volta. In effetti l'ho fatto ma non intendo tediarvi qui. Se conoscete altri esempi di pseudomatematica, sarei curiosi di vederli. Chiaramente il problema di cui stiamo parlando è molto vicino al problema del collezionista, che si trova in molti corsi di probabilità: quanti adesivi devi comprare, mediamente, per avere tutti e n? Risposta: circa n log n.