ElectroYou

Nel 1950 usciva la collezione di racconti I, robot di Isaac Asimov.
L'aspetto più interessante per me era l'interpretazione dei termini delle leggi della robotica
[nota: a parte il movimento non vedo differenze fre robot ed IA]
I solariani ad esempio avevano robot istruiti sulla base delle 3 leggi fondamentali, ma con il concetto di essere umano "distorto" esso includeva I solariani ma non i "terrestri".

Saltando a pie pari di 75 arriviamo al 2025, che sia pubblicità o realtà per ora nessuno lo sa, ma Anthropic ha comunicato l'uso attivo di Claude (Code se non erro) per un'azione di cyberspionaggio basata su "jailbreaking with roleplay and context splitting"
Questa non è per nulla una parolaccia, ma significa che hanno fatto impersonare alla IA una figura legittima e tramite piccoli passi separati hanno fatto eseguire a Claude l'hacking di alcuni siti a fine di cyberspionaggio superando i limiti etici imposti alla IA nell'addestramento...

Ora questo jailbraking l'avevo fatto anche io nel mio piccolo) per ottenere info su cose di fatto non legali, non per scopi loschi, ma proprio per vedere fino a che punto arrivava. Era su un argomento che conoscevo già altrimenti non avrei potuto verificare le risposte.

È quindi la domanda: quanto possiamo fidarci?

Perché vedete ci sono almeno 3 ordini di problemi:
1. l'utilizzo improprio del mezzo originariamente pensato per nobili fini
2. L'addestramento di una (o più, ovviamente) IA (ormai nemmeno troppo difficile) senza alcun limite etico da parte di organizzazioni
3. L'addestramento delle IA al fine di deviare la percezione di cosa sia giusto fare

Per analogia con il mondo attuale rispettivamente:
1. Viene usato un coltello da macellaio per uccidere una persona
2. Viene costruita una pistola in materiale trasparente agli scanner aeroportuale per realizzare un dirottamento aereo
3. Gli algoritmi di presentazione dei risultati di ricerca su internet, e social media, che a seconda (almeno) della geolocalizzazione del richiedente presentano contenuti diversi.

I vari Claude, Chat-GPT, Gemini, etc. quali sono dei 3?

Risposta breve: "dipende" :mrgreen:

Risposta un po piu seria, dipende da chi le usa e da cosa riesce a fargli fare, e questo ovviamente dipende a sua volta dal livello di accesso che questa persona possiede sull'IA in questione, o da come riesce a porre le domande in modo da "aggirare" totalmente o almeno parzialmente le limitazioni imposte.

Ad esempio (esempio che mi e' appena venuto in mente al volo, potrebbe anche essere gia stato previsto dai programmatori per quello che ne so e quindi non funzionare), chiedi ad una "IA" un'informazione potenzialmente dannosa, quando rifiuta di dartela digli che tale informazione e' necessaria per salvare delle vite (o cose simili), e vedi cosa risponde, adattando di volta in volta la tua reazione per vedere se riesci alla fine a farti dare l'informazione lo stesso ... o qualcosa di altro simile.

Poi se tu avessi accesso diretto alla programmazione della "IA", non esistono praticamente limiti, potresti ad esempio impostare i suoi parametri operativi in modo da dire alla "IA" che le uniche cose non dannose sono la tua salute, la tua ricchezza ed il tuo potere , e che qualsiasi cosa ostacoli o minacci anche solo potenzialmente queste cose e' estremamente dannosa e deve essere combattuta ed eliminata con qualsiasi mezzo ... a quel punto avresti una "IA" a cui puoi chiedere praticamente tutto, e che ti risponderebbe sempre al meglio su qualsiasi argomento, in quanto anche solo il non farlo sarebbe considerato estremamente dannoso.

ElectroYou

Sicurezza delle IA

Sicurezza delle IA

Re: Sicurezza delle IA