Umělá inteligence Microsoftu kreslí objekty na základě detailního textového popisu

Software od Microsoftu lidem rozumí. Umí totiž nakreslit docela přesný obrázek toho, co máme na mysli.

Google možná naučil umělou inteligenci dělat čmáranice, ale malování je komplexnější level. A to je těžká práce i pro počítač. Představte si, že zadáte počítači, aby vám namaloval „žlutého ptáka s černými křídly a krátkým zobákem“. Zní to trochu záludně. Výzkumní pracovníci Microsoftu však vyvinuli technologii založenou na UI, která to jednoduše dokáže. Generuje obrázky podle textového popisu s překvapivou přesností. Minimálně se to tvrdí v nedávné zprávě Microsoftu, kterou publikoval tým společnosti.

Tento systém na základě vstupních informací nevyhledá již existující obrázek, ale vytvoří skutečný nákres. Když třeba na Bingu vyhledáte ptáka, objeví se vám ve výsledcích obrázek ptáka. Ale v tomto případě se jedná o něco zcela unikátního – obrázky vytváří počítač, pixel za pixelem. Tito ptáci ve skutečném světě vůbec nemusí existovat. Jsou to jen aspektem toho, jak si naše počítače ptáka představují.

V tuto chvíli samozřejmě zmíněná technologie nefunguje bezchybně. Ale není těžké si v budoucnu představit situace, kdy bude třeba užitečně asistovat například architektům a designérům. Kdy bude nástrojem pro úpravu fotografií, který bude reagovat na hlasové pokyny. Dalším krokem by podle výzkumníků mohly být třeba animované filmy generované na základě psaného scénáře.

Tým zahájil výzkum v oblasti počítačového vidění a počítačového zpracování přirozeného jazyka spolu s CaptionBot, systémem umělé inteligence, který automaticky sepisuje titulky pro fotografie. Poté vyvinul systém SeeingAI, který odpovídá na otázky týkající se konkrétních obrázků. Slovně dovede popsat svět kolem nás. Rozezná text, lidi a mnoho dalšího. Je proto extrémně užitečným pomocníkem pro nevidomé. Současná technologie sestává ze dvou částí – jedna generuje obrázky známé jako GAN (Generative Adversarial Network) a druhá, tzv. „diskriminátor“, posuzuje kvalitu generovaných obrázků. Program byl trénován a testován na obrázcích a jejich textových titulcích. Tímto způsobem se UI učí, která slova patří k jakým obrázkům. Výzkumníci také vytvořili matematickou reprezentaci lidské pozornosti, kterou všichni využíváme při kreslení, kdy vycházíme ze složitějších popisů: červené křídlo, ostrý zobák, žluté křídlo. Pozornost je samozřejmě lidský koncept. Tým Microsoftu však používá matematiku, aby pozornost dokázal vyjádřit pomocí výpočetního faktoru, se kterým je možné ve fascinující oblasti UI dále pracovat.

Zdroj: engadget.com

Michala Benešovská

Odborná novinářka a copywriterka na volné noze se zaměřuje výhradně na IT, které ji fascinuje a baví už více než dvě dekády, respektive od doby, kdy rozebrala svůj první počítač. Pracovala pro Seznam.cz, Unicorn Systems nebo Mafru. Nyní spolupracuje s odborným časopisem o prodejním ICT kanále a ve volném čase se věnuje PlayStationu 4.