Čtvrtek, 24 října, 2024
Google search engine
DomůElektronikaZ videa nový text: AI dokáže extrahovat data z libovolného záznamu obrazovky...

Z videa nový text: AI dokáže extrahovat data z libovolného záznamu obrazovky – CHIP.cz

728x90

Z videa nový text: AI dokáže extrahovat data z libovolného záznamu obrazovky – CHIP.cz

Zdroj: Vygenerováno v Midjourney

Záznam obrazovky může sloužit jako zdroj informací. Tuto metodu vyzkoušel AI výzkumník Simon Willison, který vložil nahrávku procházení svého Gmailu do Gemini, aby snadno získal přesné informace o platbách. Získal všechna potřebná data a nestálo ho to téměř nic.

AI výzkumník Simon Willison chtěl sečíst poplatky za používání cloudové služby, ale hodnoty a data plateb, které potřeboval, byly rozptýleny mezi mnoha samostatnými e-maily. Ruční vkládání by tedy bylo zdlouhavé, a tak se rozhodl pro experiment, který nazval „video scraping“. Nahrál co se děje na obrazovce a vložil video do AI modelu AI Gemini. Výsledek ho příjemně překvapil.

Nedávno jsem se ocitl v situaci, kdy jsem potřeboval sečíst numerické hodnoty rozptýlené ve dvanácti různých emailech. Neměl jsem chuť ručně kopírovat a vkládat všechna čísla jedno po druhém, tak jsem se rozhodl vyzkoušet něco jiného: mohl bych nahrát záznam obrazovky při procházení mého účtu na Gmailu a poté extrahovat čísla z tohoto videa pomocí Google Gemini?“, popsal ve svém blogu.
 

AI Studio

Z videa nový text: AI dokáže extrahovat data z libovolného záznamu obrazovky – CHIP.cz

Zdroj: Simon Willison’s Weblog

AI Studio od Googlu umí zpracovat video a dostat z něj text a následně tabulku.

Ukázalo se, že tento postup funguje neuvěřitelně dobře. Video nahrál pomocí nástroje QuickTime Playeru na svém Macu. Označil oblast obrazovky obsahující Gmailový účet, pak postupně klikal na každý z emailů a na každém se na pár sekund zastavil. Výsledný soubor nahrál přímo do nástroje Google AI Studio a zadal následující prompt:
Turn this into a JSON array where each item has a yyyy-mm-dd date and a floating point dollar amount for that date“  (Převeď toto na JSON pole, kde každá položka má datum ve formátu rrrr-mm-dd a částku v dolarech jako desetinné číslo pro dané datum). … a fungovalo to. Výstupem bylo JSON pole, které převedl na formát CSV. 

Nedůvěřoval tomu, že by tyto nástroje neudělaly chybu, takže si 35sekundové video znovu přehrál a ručně zkontroloval čísla. Vše bylo správně. Původně měl v úmyslu použít Gemini 1.5 Pro, tedy nejlepší model od Googlu, ale zapomněl ho vybrat, takže celý proces proběhl na mnohem levnějším modelu Gemini 1.5 Flash 002.
 

Mohlo by vás zajímat


Gemini od Googlu nově i v Česku lépe generuje obrázky


Gemini

Podle AI Studia použil 11 018 tokenů, z nichž 10 326 bylo pro video. Gemini 1.5 Flash si účtuje 0,075 $ za 1 milion tokenů. Takže celé toto cvičení by ho mělo stát jen něco málo pod desetinou centu. A ve skutečnosti to bylo zdarma. Google AI Studio v současnosti „zůstává bezplatné bez ohledu na to, zda nastavíte fakturaci ve všech podporovaných regionech“.

Alternativy, které jinak připadají v úvahu:

  1. Proklikat emaily a ručně kopírovat data jeden po druhém. To je náchylné k chybám a nudné. Pro dvanáct emailů by to ještě šlo, ale pro sto by to bylo otravné.
  2. Programový přístup k datům v Gmailu. Stále je možné k datům přistupovat přes IMAP, pokud nastavíte vyhrazené heslo aplikace, ale to je spousta práce pro jednorázový úkol scrapingu. 
  3. Nějaký druh automatizace prohlížeče (Playwright nebo podobné), který by mohl proklikat účet Gmailu. I s pomocí LLM při psaní kódu je to stále mnohem více práce a nepomáhá to řešit rozdíly ve formátování emailů.
  4. Použití nějakého mnohem sofistikovanějšího předem existujícího AI nástroje, který má přístup k emailu. Samostatný produkt Googlu, také nazvaný Gemini, to dokáže, pokud mu udělíte přístup. A ale vědec s dosavadními výsledky nebyl spokojen. AI nástroje jsou ze své podstaty nepředvídatelné. 
     

Mohlo by vás zajímat


1581 Generování vlastních hudebních skladeb pomocí umělé inteligence


Gemini

Video scraping je mocný nástroj

Skvělá věc na této technice video scrapingu je, že funguje s čímkoli, co lze vidět na obrazovce. A máte kontrolu nad tím, co nakonec AI modelu předáte. Výsledky, závisí zcela na tom, jak pečlivě umístíte oblast zachycení obrazovky a jak přesně klikáte. 

Není zde žádná počáteční investice – přihlaste se na stránku, spustíte nahrávání, chvíli prohlížíte a pak nahrajte zachycené video do Gemini. A náklady jsou opravdu nízké. Metoda by jistě našla uplatnění v mnoha oblastech, například ve světě datové žurnalistiky, která často zahrnuje potřebu dostávat data z různých zdrojů.

Zdroj: Simon Willison’s Weblog, AI Studio
 

RELATED ARTICLES
- Advertisment -
Google search engine

Populární články

BLOG

Z videa nový text: AI dokáže extrahovat data z libovolného záznamu obrazovky – CHIP.cz

728x90

Z videa nový text: AI dokáže extrahovat data z libovolného záznamu obrazovky – CHIP.cz

Zdroj: Vygenerováno v Midjourney

Záznam obrazovky může sloužit jako zdroj informací. Tuto metodu vyzkoušel AI výzkumník Simon Willison, který vložil nahrávku procházení svého Gmailu do Gemini, aby snadno získal přesné informace o platbách. Získal všechna potřebná data a nestálo ho to téměř nic.

AI výzkumník Simon Willison chtěl sečíst poplatky za používání cloudové služby, ale hodnoty a data plateb, které potřeboval, byly rozptýleny mezi mnoha samostatnými e-maily. Ruční vkládání by tedy bylo zdlouhavé, a tak se rozhodl pro experiment, který nazval „video scraping“. Nahrál co se děje na obrazovce a vložil video do AI modelu AI Gemini. Výsledek ho příjemně překvapil.

Nedávno jsem se ocitl v situaci, kdy jsem potřeboval sečíst numerické hodnoty rozptýlené ve dvanácti různých emailech. Neměl jsem chuť ručně kopírovat a vkládat všechna čísla jedno po druhém, tak jsem se rozhodl vyzkoušet něco jiného: mohl bych nahrát záznam obrazovky při procházení mého účtu na Gmailu a poté extrahovat čísla z tohoto videa pomocí Google Gemini?“, popsal ve svém blogu.
 

AI Studio

Z videa nový text: AI dokáže extrahovat data z libovolného záznamu obrazovky – CHIP.cz

Zdroj: Simon Willison’s Weblog

AI Studio od Googlu umí zpracovat video a dostat z něj text a následně tabulku.

Ukázalo se, že tento postup funguje neuvěřitelně dobře. Video nahrál pomocí nástroje QuickTime Playeru na svém Macu. Označil oblast obrazovky obsahující Gmailový účet, pak postupně klikal na každý z emailů a na každém se na pár sekund zastavil. Výsledný soubor nahrál přímo do nástroje Google AI Studio a zadal následující prompt:
Turn this into a JSON array where each item has a yyyy-mm-dd date and a floating point dollar amount for that date“  (Převeď toto na JSON pole, kde každá položka má datum ve formátu rrrr-mm-dd a částku v dolarech jako desetinné číslo pro dané datum). … a fungovalo to. Výstupem bylo JSON pole, které převedl na formát CSV. 

Nedůvěřoval tomu, že by tyto nástroje neudělaly chybu, takže si 35sekundové video znovu přehrál a ručně zkontroloval čísla. Vše bylo správně. Původně měl v úmyslu použít Gemini 1.5 Pro, tedy nejlepší model od Googlu, ale zapomněl ho vybrat, takže celý proces proběhl na mnohem levnějším modelu Gemini 1.5 Flash 002.
 

Mohlo by vás zajímat


Gemini od Googlu nově i v Česku lépe generuje obrázky


Gemini

Podle AI Studia použil 11 018 tokenů, z nichž 10 326 bylo pro video. Gemini 1.5 Flash si účtuje 0,075 $ za 1 milion tokenů. Takže celé toto cvičení by ho mělo stát jen něco málo pod desetinou centu. A ve skutečnosti to bylo zdarma. Google AI Studio v současnosti „zůstává bezplatné bez ohledu na to, zda nastavíte fakturaci ve všech podporovaných regionech“.

Alternativy, které jinak připadají v úvahu:

  1. Proklikat emaily a ručně kopírovat data jeden po druhém. To je náchylné k chybám a nudné. Pro dvanáct emailů by to ještě šlo, ale pro sto by to bylo otravné.
  2. Programový přístup k datům v Gmailu. Stále je možné k datům přistupovat přes IMAP, pokud nastavíte vyhrazené heslo aplikace, ale to je spousta práce pro jednorázový úkol scrapingu. 
  3. Nějaký druh automatizace prohlížeče (Playwright nebo podobné), který by mohl proklikat účet Gmailu. I s pomocí LLM při psaní kódu je to stále mnohem více práce a nepomáhá to řešit rozdíly ve formátování emailů.
  4. Použití nějakého mnohem sofistikovanějšího předem existujícího AI nástroje, který má přístup k emailu. Samostatný produkt Googlu, také nazvaný Gemini, to dokáže, pokud mu udělíte přístup. A ale vědec s dosavadními výsledky nebyl spokojen. AI nástroje jsou ze své podstaty nepředvídatelné. 
     

Mohlo by vás zajímat


1581 Generování vlastních hudebních skladeb pomocí umělé inteligence


Gemini

Video scraping je mocný nástroj

Skvělá věc na této technice video scrapingu je, že funguje s čímkoli, co lze vidět na obrazovce. A máte kontrolu nad tím, co nakonec AI modelu předáte. Výsledky, závisí zcela na tom, jak pečlivě umístíte oblast zachycení obrazovky a jak přesně klikáte. 

Není zde žádná počáteční investice – přihlaste se na stránku, spustíte nahrávání, chvíli prohlížíte a pak nahrajte zachycené video do Gemini. A náklady jsou opravdu nízké. Metoda by jistě našla uplatnění v mnoha oblastech, například ve světě datové žurnalistiky, která často zahrnuje potřebu dostávat data z různých zdrojů.

Zdroj: Simon Willison’s Weblog, AI Studio
 

RELATED ARTICLES