Sicurezza delle IA
Nel 1950 usciva la collezione di racconti I, robot di Isaac Asimov.
L'aspetto più interessante per me era l'interpretazione dei termini delle leggi della robotica
[nota: a parte il movimento non vedo differenze fre robot ed IA]
I solariani ad esempio avevano robot istruiti sulla base delle 3 leggi fondamentali, ma con il concetto di essere umano "distorto" esso includeva I solariani ma non i "terrestri".
Saltando a pie pari di 75 arriviamo al 2025, che sia pubblicità o realtà per ora nessuno lo sa, ma Anthropic ha comunicato l'uso attivo di Claude (Code se non erro) per un'azione di cyberspionaggio basata su "jailbreaking with roleplay and context splitting"
Questa non è per nulla una parolaccia, ma significa che hanno fatto impersonare alla IA una figura legittima e tramite piccoli passi separati hanno fatto eseguire a Claude l'hacking di alcuni siti a fine di cyberspionaggio superando i limiti etici imposti alla IA nell'addestramento...
Ora questo jailbraking l'avevo fatto anche io nel mio piccolo) per ottenere info su cose di fatto non legali, non per scopi loschi, ma proprio per vedere fino a che punto arrivava. Era su un argomento che conoscevo già altrimenti non avrei potuto verificare le risposte.
È quindi la domanda: quanto possiamo fidarci?
Perché vedete ci sono almeno 3 ordini di problemi:
1. l'utilizzo improprio del mezzo originariamente pensato per nobili fini
2. L'addestramento di una (o più, ovviamente) IA (ormai nemmeno troppo difficile) senza alcun limite etico da parte di organizzazioni
3. L'addestramento delle IA al fine di deviare la percezione di cosa sia giusto fare
Per analogia con il mondo attuale rispettivamente:
1. Viene usato un coltello da macellaio per uccidere una persona
2. Viene costruita una pistola in materiale trasparente agli scanner aeroportuale per realizzare un dirottamento aereo
3. Gli algoritmi di presentazione dei risultati di ricerca su internet, e social media, che a seconda (almeno) della geolocalizzazione del richiedente presentano contenuti diversi.
I vari Claude, Chat-GPT, Gemini, etc. quali sono dei 3?
L'aspetto più interessante per me era l'interpretazione dei termini delle leggi della robotica
[nota: a parte il movimento non vedo differenze fre robot ed IA]
I solariani ad esempio avevano robot istruiti sulla base delle 3 leggi fondamentali, ma con il concetto di essere umano "distorto" esso includeva I solariani ma non i "terrestri".
Saltando a pie pari di 75 arriviamo al 2025, che sia pubblicità o realtà per ora nessuno lo sa, ma Anthropic ha comunicato l'uso attivo di Claude (Code se non erro) per un'azione di cyberspionaggio basata su "jailbreaking with roleplay and context splitting"
Questa non è per nulla una parolaccia, ma significa che hanno fatto impersonare alla IA una figura legittima e tramite piccoli passi separati hanno fatto eseguire a Claude l'hacking di alcuni siti a fine di cyberspionaggio superando i limiti etici imposti alla IA nell'addestramento...
Ora questo jailbraking l'avevo fatto anche io nel mio piccolo) per ottenere info su cose di fatto non legali, non per scopi loschi, ma proprio per vedere fino a che punto arrivava. Era su un argomento che conoscevo già altrimenti non avrei potuto verificare le risposte.
È quindi la domanda: quanto possiamo fidarci?
Perché vedete ci sono almeno 3 ordini di problemi:
1. l'utilizzo improprio del mezzo originariamente pensato per nobili fini
2. L'addestramento di una (o più, ovviamente) IA (ormai nemmeno troppo difficile) senza alcun limite etico da parte di organizzazioni
3. L'addestramento delle IA al fine di deviare la percezione di cosa sia giusto fare
Per analogia con il mondo attuale rispettivamente:
1. Viene usato un coltello da macellaio per uccidere una persona
2. Viene costruita una pistola in materiale trasparente agli scanner aeroportuale per realizzare un dirottamento aereo
3. Gli algoritmi di presentazione dei risultati di ricerca su internet, e social media, che a seconda (almeno) della geolocalizzazione del richiedente presentano contenuti diversi.
I vari Claude, Chat-GPT, Gemini, etc. quali sono dei 3?