字節(jié)豆包SeedEdit上線,AI修圖成大廠AI應(yīng)用新焦點?
首先,小雷是對設(shè)計一竅不通的,畢竟我不是干設(shè)計這一行的。
但是嘛,這只要浸淫在互聯(lián)網(wǎng)上的人,多少應(yīng)該都會對傳說中設(shè)計行業(yè)里那幾道百年難得一遇的亙古難題,還有各種奇葩甲方才會提出的變態(tài)要求有所耳聞。
有道是,你的圖片做得很好,那讓畫面里的大象轉(zhuǎn)個身應(yīng)該沒有什么困難吧。
有道是,你的黑色有些單調(diào),我希望能夠看到一種五彩斑斕的黑色呢。
就不說設(shè)計師們看到這些會不會氣血上涌了,我一個負(fù)責(zé)文字工作的人,看到這種批注都有點難頂。
重點是你也不能說些什么,要知道畫面另一頭就是金主爸爸,而且他們對這些是真的不懂。
到頭來,工作就是工作,不管甲方要求有多離譜都得去做,哪怕客戶要你把他照片里的拉鏈給拉上,你能做到的也只有截個圖發(fā)到社交媒體上給大伙樂一樂,然后為了生活想盡辦法去解決問題。
(圖源:新浪微博)
不過,凡是問題,終究是會有解決辦法的,只是這次的解決辦法可能有點特殊。
昨天,字節(jié)跳動的豆包大模型團(tuán)隊,在公眾號上秀出了最新的通用圖像編輯模型SeedEdit。
官方表示,這款模型主打的就是「讓一句話輕松P圖成為現(xiàn)實」,用戶只需輸入簡單的自然語言,便可對圖像進(jìn)行多樣化編輯操作,包括修圖、換裝、美化、風(fēng)格轉(zhuǎn)化以及在指定區(qū)域添加或刪除元素等。
聽起來很不可思議?其實我也是這么覺得的。
讓大象轉(zhuǎn)個身
想體驗這個功能的話,其實還蠻簡單的就是了。
根據(jù)官方的說法,目前該模型已經(jīng)在豆包PC端及即夢網(wǎng)頁端開啟測試,豆包手機端暫時還用不了這個功能。
接下來,只要點擊側(cè)邊欄的「圖片生成」,應(yīng)該就能看到上傳參考圖的選項了,這里就是SeedEdit模型的入口。
要做的事情很簡單,上傳圖片,然后輸入我們想要改變的內(nèi)容。
比方說,像畫面里面這種大象背對我們喝水的照片,如果我想讓它轉(zhuǎn)身的話,那應(yīng)該怎么做呢?
答案是,輸入「讓大象面對我」。
(圖源:雷科技)
對比一下兩張圖片。
可以看到,SeedEdit生成的大象正面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當(dāng)不錯,周圍的環(huán)境也保持了高度的一致,當(dāng)然部分石頭形狀存在差異這點,細(xì)心點還是能看出來的。
(圖源:雷科技)
生成后的圖片還可以再次編輯,這點真的很棒。
(圖源:雷科技)
不過進(jìn)一步的操作,似乎就無法實現(xiàn)了。
我在豆包修改過的圖片基礎(chǔ)上,繼續(xù)提出圖片編輯的要求,但不論是「讓大象跑起來」、「讓大象用鼻子噴水」或者是「讓大象側(cè)過身子」,基本上很難得到令人滿意的結(jié)果。
叫它噴水,結(jié)果這水確實是噴出來了,但卻不是從鼻子里噴出來的,而是從象牙的部分噴出來的。
想讓大模型理解啥叫作常識,確實不是件容易的事情。
(圖源:雷科技)
再換個人像,或者說模型的照片試試。
因為我家里環(huán)境有限嘛,所以一般來說,拍手辦的背景就比較湊合,沒有時間也沒有啥精力去造景拍攝。
不過現(xiàn)在嘛,我讓它「把背景換成城市」。
(圖源:雷科技)
效果有點平?那就改成「夕陽西下的光照質(zhì)感」。
你還真別說,這感覺馬上就到位了,整個過程中,我只對豆包說了簡單的兩句要求,體驗起來真的很絲滑。
對貧困的膠佬來說,布景和打光的繁瑣步驟或許真的能省略掉了。
(圖源:雷科技)
當(dāng)然,這些都是在原圖上的小打小鬧,如果我想直接更換畫面主體呢?
比如「指鹿為馬」。
(圖源:雷科技)
實際生成的效果確實很不錯,不僅草地背景保留得挺完整,連馬身上的紋理之類的都進(jìn)行了替換。
如果不看原圖,基本很難察覺比例上的問題。
換衣服也沒啥問題,連光影和褶皺都改得挺到位的。
(圖源:雷科技)
試了一下汽車,目前SeedEdit是不認(rèn)識小米SU7的。
不過我隨便傳了一張五菱宏光Mini EV的照片上去,然后輸入了一個異常復(fù)雜的編輯指令。
(圖源:雷科技)
最后生成的車子,雖然不像瑪莎拉蒂,但起碼也有個跑車形狀了。
AI修圖,爆發(fā)在即
事實上,如今AI在繪畫這塊兒,已經(jīng)能讓我們眼前一亮了。
但是在圖像編輯領(lǐng)域,AI技術(shù)其實是相對落后的,無法進(jìn)行精準(zhǔn)編輯,一直是行業(yè)的老大難問題。
在今年以前,這類需求一般通過Stable Diffusion的ControlNet插件來實現(xiàn)。
它可以獲取額外的輸入圖像,通過不同的預(yù)處理器轉(zhuǎn)換為控制圖,進(jìn)而作為Stable Diffusion擴(kuò)散的額外條件,只需使用文本提示詞,就可以在保持圖像主體特征的前提下任意修改圖像細(xì)節(jié)。
(圖源:新浪微博,識別特征并進(jìn)行重新繪制)
本地部署AI應(yīng)用這事,和大部分小白是基本無緣的。
所以在進(jìn)入今年后,包括ChatGPT/DALLE3、Midjourney、百度超能畫布都推出了局部重繪應(yīng)用,試圖充當(dāng)在線編輯圖片的功能。
不過這類應(yīng)用,大多數(shù)時候還得咱們手動涂抹,選定你要修改的對象,然后輸入各種提示詞來做修改。
(圖源:雷科技)
需要掌握正確的AI話術(shù),才能獲得理想的修圖質(zhì)量,門檻還是有點高了。
如果,我是說如果,我們只需要給定輸入圖像和告訴模型要做什么的文本描述,然后模型就能遵循描述指令來編輯圖像,那得多省事兒啊。
字節(jié)端出的SeedEdit,確實是朝著這個方向努力的。
不過圖修多了,問題也就出來了,目前這款模型在生成圖片時還是有一些問題存在的。
首先,缺乏人像前后的一致性。
只要涉及到人物面部的修圖,那么最終出來的圖像和原圖的差異會很夸張,基本上看不出來原來的樣子。
(圖源:雷科技)
其次,缺乏圖片內(nèi)容的方向性。
對于元素較多的圖像,目前SeedEdit很難判斷你要修改的是圖片里的哪個元素,即便偶然識別對了,出來的圖片效果也會異常扭曲。
(圖源:雷科技)
最后,文字處理能力依然不行。
就像早期AI繪畫那樣,目前SeedEdit會編造文字內(nèi)容,下面這三行小字看似有點邏輯,我看了半天,愣是沒認(rèn)出來寫的是個啥。
(圖源:雷科技)
在我看來,SeedEdit的出現(xiàn),算是彌補了國產(chǎn)大模型在語義AI修圖應(yīng)用這塊的空白。
可以預(yù)見的是,隨著AI圖像編輯技術(shù)的不斷發(fā)展,未來手機、電腦都可能會集成這項功能,就像AI消除、AI擴(kuò)圖那樣走進(jìn)尋常百姓家。無論是小白還是大咖,每個人都有機會輕松上手使用,讓自己對美的理解可以更直觀地展現(xiàn)出來。
修圖有手就行?或許真的不是夢。
來源:雷科技
原文標(biāo)題 : 字節(jié)豆包SeedEdit上線,AI修圖成大廠AI應(yīng)用新焦點?
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月20日火熱報名中>> 2024 智能家居出海論壇
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【在線會議】多物理場仿真助跑新能源汽車
推薦專題
- 1 腦機接口芯片,華為出了新專利!
- 2 今年諾獎對人工智能的重視,給我們的基礎(chǔ)教育提了個醒
- 3 銀行業(yè)AI大模型,從入局到求變
- 4 巨頭搶布局,VC狂撒錢,為了能讓「AI讀心」這些公司卷瘋了
- 5 阿斯麥ASML:“骨折級”洋相,又成AI第一殺手?
- 6 蘋果市值創(chuàng)新高,iPhone 16能否助力突破4萬億美元大關(guān)?
- 7 一場“載入史冊”的發(fā)布會,讓馬斯克失去了4700億
- 8 百度谷歌比較研究2024:中美“遠(yuǎn)古AI龍頭”的現(xiàn)狀與趨勢
- 9 洞見AI風(fēng)潮 第二屆vivo藍(lán)河操作系統(tǒng)創(chuàng)新賽開啟招募
- 10 地平線開啟配售,阿里百度各砸5000萬美金,市值最高超500億
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市