Google ha migliorato silenziosamente Bard e aggiunto nuove funzionalità ogni poche settimane, portando le sue capacità alla pari con ChatGPT. Ora, l’azienda ha aggiunto la possibilità di caricare immagini su Bard per un’esperienza molto più ampia oltre al testo. Non commettere errori, Google Bard è ancora un modello di linguaggio di grandi dimensioni solo testo. Tuttavia, il gigante della ricerca ha integrato Google Lens, la ricerca inversa di immagini e alcuni sistemi VQA (Visual Question Answering) per far sentire Bard come un modello multimodale. Tuttavia, l’attuale capacità visiva di Bard è davvero in qualche modo sorprendente e l’abbiamo testata di seguito per conoscere le sue capacità. In quella nota, diamo un’occhiata ad alcuni fantastici esempi di caricamenti di immagini in Google Bard.
1. Estrai i testi dalle immagini
La migliore utilità dell’abilità di gestione delle immagini di Bard è che ora puoi caricare un’immagine facendo clic su (+) pulsante. Può quindi acquisire rapidamente i testi dai caricamenti. Allora Google Bard esegue automaticamente l’OCR e fa un lavoro accurato. Detto questo, nonostante un lungo elenco di supporto linguistico in Bard, attualmente la funzionalità OCR funziona solo per la lingua inglese. Ho provato più lingue internazionali e regionali, ma non è riuscito a catturare i testi dalle immagini scansionate. Tuttavia, per una rapida estrazione del testo dalle immagini, Bard può essere molto utile.
2. Estrai tabelle con formattazione intatta
Facciamo tutti fatica quando dobbiamo estrarre tabelle da immagini o documenti scansionati. Tuttavia, Google Bard può estrarre facilmente tabelle con la formattazione intatta. In effetti, puoi esportare la tabella in Fogli Google e fare ulteriori modifiche o scricchiolii di dati. Quant’è fico? Detto questo, attualmente Bard ha molte allucinazioni e, in alcuni casi, riempie le celle con i dati sbagliati, quindi assicurati di verificarli prima di esportarlo.
3. Genera codice per siti Web/app utilizzando mockup
Per mostrare la funzionalità multimodale di GPT-4, nel marzo 2023, OpenAI ha dimostrato come funziona il suo modello capito la nota scarabocchiata e ha rapidamente creato un mockup del sito Web da un pezzo di carta. Mentre la funzione multimodale deve ancora arrivare a GPT-4, Google Bard è in grado di generare codice che corrisponda al mockup. Tieni presente che Bard non è un modello multimodale ma utilizza la segmentazione dell’immagine tramite Google Lens per comprendere l’immagine. Tuttavia, Bard ci ha sorpreso con i suoi risultati.
Ho caricato uno screenshot della pagina di destinazione di Facebook e si è generato rapidamente codice in HTML e CSS che sembrava in qualche modo simile. Ho anche caricato un’immagine di un semplice sito web che ho disegnato su carta e Google Bard ha fatto un lavoro abbastanza buono nel ricrearlo. Inoltre, puoi utilizzare metodi simili per ricreare interfacce utente per app per smartphone e altri siti Web.
4. Google Bard può spiegare le immagini
Google Bard è bravo a spiegare le immagini e riassumere cosa sta succedendo in esse. Puoi caricare immagini oscure e può farlo produrre informazioni attendibili velocemente. Ho caricato un’immagine di bassa qualità di un meccanismo biologico e l’ha identificata correttamente come mitosi cellulare. Ha inoltre spiegato il processo passo dopo passo.
In un altro esempio, I caricato un grafico, e ha compreso correttamente l’immagine e ha spiegato i dati. Ha persino creato una tabella dei punti dati in modo che potessi lavorarci sopra in Fogli Google. In particolare per gli studenti, Bard può essere utile per comprendere concetti scientifici e altri argomenti. Puoi semplicemente caricare un’immagine e chiedere informazioni a Bard.
5. Ottieni informazioni nutrizionali dalle immagini

Usando la capacità di gestione delle immagini di Bard, puoi ottenere il file valori nutrizionali degli alimenti. Basta caricare l’immagine del cibo nel piatto e lo farà calcolare le calorie totali in pochi secondi. Questo può essere immensamente utile per le persone che seguono una dieta regolamentata.
Nei miei test, non è stato possibile misurare la dimensione della porzione, ma ha fornito esempi in modo da poter calcolare da solo l’apporto calorico totale. Sembra che Google stia utilizzando la segmentazione delle immagini per classificare gli alimenti e fornire informazioni nutrizionali.
6. Improvvisare ricette alimentari
Un altro caso d’uso eccellente è aggiungere l’immagine di cibi crudi e chiedere a Google Bard di inventare varie ricette di cibo. Puoi anche aggiungere immagini di alimenti nel tuo frigorifero e creerà senza sforzo ricette personalizzate per te. Inoltre, puoi chiedere a Bard cucine particolari provenienti da varie parti del mondo. E se sei a dieta, puoi chiedere a Google Bard di creare ricette alimentari senza grassi e ipocaloriche per la sazietà.
7. Risolvi domande matematiche
Puoi utilizzare Google Bard anche per risolvere problemi matematici. Puoi caricare un’immagine dei tuoi problemi di matematica su Bard e lo farà prova a risolvere la questione per te. Nei miei test, l’approccio di Bard era giusto ma a causa di problemi di notazione, ha fornito solo risposte sbagliate. Penso che sarà necessario un aggiornamento del suo sistema di visione per rendere Bard più adatto a gestire annotazioni e domande matematiche.
8. Spiega meme e barzellette
Google Bard può anche spiegare meme e barzellette. Puoi caricare immagini di meme e cartoni animati divertenti e chiedi a Bard cosa c’è di divertente più o meno lo stesso, e fornirà la propria interpretazione. Ho caricato la stessa immagine mostrata da OpenAI durante la presentazione del GPT-4 e Bard ha giustamente compreso l’esilarante assurdità dietro l’immagine.
In un altro caso, ho caricato un’immagine su Google Bard da The New Yorker Cartoons e gliel’ho chiesto spiega la barzelletta. Tuttavia, questa volta, ha semplicemente spiegato la scena e non ha saputo dire perché l’immagine fosse divertente. Mancava completamente la frase e-mail comunemente usata nei luoghi di lavoro. Ti suggerirò di provare tu stesso Google Bard e verificare se è abbastanza intelligente da comprendere l’arguzia e l’umorismo.
9. Tradurre le equazioni in LaTeX
Non è un segreto che molte persone trovano difficile scrivere in LaTeX e preferiscono usare elaboratori di testi. Tuttavia, per i documenti di ricerca scientifica e la scrittura accademica, è richiesto LaTeX aggiunta di equazioni complesse e impaginazione di alta qualità. In uno scenario del genere, Google Bard può essere utile. Puoi aggiungere immagini di equazioni e Bard può tradurle in codice LaTeX. È fantastico, vero? Quindi, vai avanti e traduci le equazioni in codice LaTeX in pochissimo tempo.
10. Carica referti medici e fai domande
Infine, puoi caricare le immagini dei tuoi referti medici e scansionarle su Google Bard. È quindi possibile porre domande mediche basate su di esse. Alcuni medici su Twitter hanno dimostrato che Bard è tranquillo decente per la diagnosi differenziale. Può anche aiutare gli utenti a comprendere la propria salute e dare un senso ai referti medici
Detto questo, tieni presente che Google Bard è in esecuzione su a LLM per uso generale chiamato PaLM 2. Il gigante della ricerca ha sviluppato un modello Med-PaLM 2 di dominio medico separato, che è abbastanza accurato e avanzato, ma non è ancora disponibile per gli utenti generici. Quindi consiglierò agli utenti di stare alla larga da qualsiasi tipo di autodiagnosi usando Bard. Si consiglia vivamente di consultare un medico. Infine, se carichi i tuoi referti medici personali su Bard, assicurati di eliminare le chat di Bard per proteggere la tua privacy.
Come eliminare la cronologia chat di Google Bard
Come condividere le chat di Google Bard AI
Google Bard ora supporta l’hindi e nuove funzionalità
Che cos’è l’IA generativa e perché è importante?
Come ottenere Bard AI nei risultati di ricerca di Google