谷歌最強大的(de)文生圖(tu)大模(mo)型 Imagen 2,可(ke)提供與用戶提示詞緊密結合且一致的(de)高質量(liang)、逼(bi)真(zhen)的(de)圖(tu)像輸出。它(ta)可(ke)以通過使用訓練數據的(de)自(zi)然分布來生成更逼(bi)真(zhen)的(de)圖(tu)像,而不是采(cai)用預先編程的(de)風(feng)格。
谷(gu)(gu)歌的增強模(mo)型 Imagen 2是利用(yong)谷(gu)(gu)歌旗艦(jian)人工智能實驗室Google DeepMind的技術開發的,該模(mo)型在(zai)5月份的科技巨頭(tou) I/O大(da)會上悄(qiao)悄(qiao)推出了預覽版。谷(gu)(gu)歌聲稱,與第一代(dai)Imagen相比,它在(zai)圖像(xiang)質量方面(mian)“顯著”提高,并引入了新(xin)功(gong)能,包括渲染文本和Logo的能力。
“Imagen 2 可(ke)以生成……徽(hui)章、字(zi)母(mu)標(biao)記(ji)和(he)抽(chou)象(xiang)徽(hui)標(biao)……[并且]能夠將(jiang)這些徽(hui)標(biao)覆蓋到(dao)產品、服裝、名片(pian)和(he)其他表面上。”
得(de)益于“新(xin)穎的訓練和建模(mo)技(ji)術(shu)”,Imagen 2還可以(yi)理(li)解(jie)更具描(miao)述性的長格式(shi)提(ti)示(shi),并對有關圖像中元素的問題提(ti)供“詳細答案”。谷歌表(biao)示(shi),這(zhe)些(xie)技(ji)術(shu)還增強(qiang)了 Imagen 2的多語(yu)(yu)言理(li)解(jie)能力——允許模(mo)型(xing)將一種語(yu)(yu)言的提(ti)示(shi)翻譯成另一種語(yu)(yu)言的輸出(例如Logo)。
Imagen 2利用SynthID(DeepMind開(kai)發(fa)的(de)一種方法(fa))將隱形水印(yin)應用到其創建的(de)圖(tu)(tu)像上。當然,檢測這些水印(yin)(谷歌聲稱這些水印(yin)能夠適應圖(tu)(tu)像編(bian)輯,包括(kuo)壓縮、濾鏡和顏色調整)需要谷歌提供的(de)工具,而第三方無法(fa)使用該工具。