訂閱
糾錯
加入自媒體

字節(jié)豆包SeedEdit上線,AI修圖成大廠AI應(yīng)用新焦點?

2024-11-14 16:34
雷科技
關(guān)注

動動嘴都能修圖不是夢?

首先,小雷是對設(shè)計一竅不通的,畢竟我不是干設(shè)計這一行的。

但是嘛,這只要浸淫在互聯(lián)網(wǎng)上的人,多少應(yīng)該都會對傳說中設(shè)計行業(yè)里那幾道百年難得一遇的亙古難題,還有各種奇葩甲方才會提出的變態(tài)要求有所耳聞。

有道是,你的圖片做得很好,那讓畫面里的大象轉(zhuǎn)個身應(yīng)該沒有什么困難吧。

有道是,你的黑色有些單調(diào),我希望能夠看到一種五彩斑斕的黑色呢。

006APoFYly1gok20yfp32g30dc0dcmyx.jpg

就不說設(shè)計師們看到這些會不會氣血上涌了,我一個負(fù)責(zé)文字工作的人,看到這種批注都有點難頂。

重點是你也不能說些什么,要知道畫面另一頭就是金主爸爸,而且他們對這些是真的不懂

到頭來,工作就是工作,不管甲方要求有多離譜都得去做,哪怕客戶要你把他照片里的拉鏈給拉上,你能做到的也只有截個圖發(fā)到社交媒體上給大伙樂一樂,然后為了生活想盡辦法去解決問題。

image.png

(圖源:新浪微博)

不過,凡是問題,終究是會有解決辦法的,只是這次的解決辦法可能有點特殊。

昨天,字節(jié)跳動的豆包大模型團(tuán)隊,在公眾號上秀出了最新的通用圖像編輯模型SeedEdit。

官方表示,這款模型主打的就是「讓一句話輕松P圖成為現(xiàn)實」,用戶只需輸入簡單的自然語言,便可對圖像進(jìn)行多樣化編輯操作,包括修圖、換裝、美化、風(fēng)格轉(zhuǎn)化以及在指定區(qū)域添加或刪除元素等。

聽起來很不可思議?其實我也是這么覺得的。

讓大象轉(zhuǎn)個身

想體驗這個功能的話,其實還蠻簡單的就是了。

根據(jù)官方的說法,目前該模型已經(jīng)在豆包PC端即夢網(wǎng)頁端開啟測試,豆包手機端暫時還用不了這個功能。

接下來,只要點擊側(cè)邊欄的「圖片生成」,應(yīng)該就能看到上傳參考圖的選項了,這里就是SeedEdit模型的入口。

要做的事情很簡單,上傳圖片,然后輸入我們想要改變的內(nèi)容。

比方說,像畫面里面這種大象背對我們喝水的照片,如果我想讓它轉(zhuǎn)身的話,那應(yīng)該怎么做呢?

答案是,輸入「讓大象面對我」。

image.png

(圖源:雷科技)

對比一下兩張圖片。

可以看到,SeedEdit生成的大象正面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當(dāng)不錯,周圍的環(huán)境也保持了高度的一致,當(dāng)然部分石頭形狀存在差異這點,細(xì)心點還是能看出來的。

新建項目.jpg

(圖源:雷科技)

 

生成后的圖片還可以再次編輯,這點真的很棒。

image.png

(圖源:雷科技)

 

不過進(jìn)一步的操作,似乎就無法實現(xiàn)了。

我在豆包修改過的圖片基礎(chǔ)上,繼續(xù)提出圖片編輯的要求,但不論是「讓大象跑起來」、「讓大象用鼻子噴水」或者是「讓大象側(cè)過身子」,基本上很難得到令人滿意的結(jié)果。

叫它噴水,結(jié)果這水確實是噴出來了,但卻不是從鼻子里噴出來的,而是從象牙的部分噴出來的。

想讓大模型理解啥叫作常識,確實不是件容易的事情。

讓大象側(cè)站.png

(圖源:雷科技)

再換個人像,或者說模型的照片試試。

因為我家里環(huán)境有限嘛,所以一般來說,拍手辦的背景就比較湊合,沒有時間也沒有啥精力去造景拍攝。

不過現(xiàn)在嘛,我讓它「把背景換成城市」。

image.png

(圖源:雷科技)

效果有點平?那就改成「夕陽西下的光照質(zhì)感」。 

你還真別說,這感覺馬上就到位了,整個過程中,我只對豆包說了簡單的兩句要求,體驗起來真的很絲滑。

對貧困的膠佬來說,布景和打光的繁瑣步驟或許真的能省略掉了。

更換背景 (1).png

(圖源:雷科技)

 

當(dāng)然,這些都是在原圖上的小打小鬧,如果我想直接更換畫面主體呢?

比如「指鹿為馬」。

image.png

(圖源:雷科技)

 

實際生成的效果確實很不錯,不僅草地背景保留得挺完整,連馬身上的紋理之類的都進(jìn)行了替換。

如果不看原圖,基本很難察覺比例上的問題。

換衣服也沒啥問題,連光影和褶皺都改得挺到位的。

image.png

(圖源:雷科技)

 

試了一下汽車,目前SeedEdit是不認(rèn)識小米SU7的。

不過我隨便傳了一張五菱宏光Mini EV的照片上去,然后輸入了一個異常復(fù)雜的編輯指令。

image.png

(圖源:雷科技)

 

最后生成的車子,雖然不像瑪莎拉蒂,但起碼也有個跑車形狀了。

AI修圖,爆發(fā)在即

事實上,如今AI在繪畫這塊兒,已經(jīng)能讓我們眼前一亮了。

但是在圖像編輯領(lǐng)域,AI技術(shù)其實是相對落后的,無法進(jìn)行精準(zhǔn)編輯,一直是行業(yè)的老大難問題。

在今年以前,這類需求一般通過Stable Diffusion的ControlNet插件來實現(xiàn)。

它可以獲取額外的輸入圖像,通過不同的預(yù)處理器轉(zhuǎn)換為控制圖,進(jìn)而作為Stable Diffusion擴(kuò)散的額外條件,只需使用文本提示詞,就可以在保持圖像主體特征的前提下任意修改圖像細(xì)節(jié)。

v2-98c016a02aecfe8f73343672cd211694_r.jpg

(圖源:新浪微博,識別特征并進(jìn)行重新繪制)

本地部署AI應(yīng)用這事,和大部分小白是基本無緣的。

所以在進(jìn)入今年后,包括ChatGPT/DALLE3、Midjourney、百度超能畫布都推出了局部重繪應(yīng)用,試圖充當(dāng)在線編輯圖片的功能。

不過這類應(yīng)用,大多數(shù)時候還得咱們手動涂抹,選定你要修改的對象,然后輸入各種提示詞來做修改。

640.jpg

(圖源:雷科技

 

需要掌握正確的AI話術(shù),才能獲得理想的修圖質(zhì)量,門檻還是有點高了。

如果,我是說如果,我們只需要給定輸入圖像和告訴模型要做什么的文本描述,然后模型就能遵循描述指令來編輯圖像,那得多省事兒啊。

字節(jié)端出的SeedEdit,確實是朝著這個方向努力的。

不過圖修多了,問題也就出來了,目前這款模型在生成圖片時還是有一些問題存在的。

首先,缺乏人像前后的一致性。

只要涉及到人物面部的修圖,那么最終出來的圖像和原圖的差異會很夸張,基本上看不出來原來的樣子。

image.png

(圖源:雷科技

 

其次,缺乏圖片內(nèi)容的方向性。

對于元素較多的圖像,目前SeedEdit很難判斷你要修改的是圖片里的哪個元素,即便偶然識別對了,出來的圖片效果也會異常扭曲。

 

image.png

(圖源:雷科技

 

最后,文字處理能力依然不行。

就像早期AI繪畫那樣,目前SeedEdit會編造文字內(nèi)容,下面這三行小字看似有點邏輯,我看了半天,愣是沒認(rèn)出來寫的是個啥。

修改產(chǎn)品文字.png

(圖源:雷科技

在我看來,SeedEdit的出現(xiàn),算是彌補了國產(chǎn)大模型在語義AI修圖應(yīng)用這塊的空白。

可以預(yù)見的是,隨著AI圖像編輯技術(shù)的不斷發(fā)展,未來手機、電腦都可能會集成這項功能,就像AI消除、AI擴(kuò)圖那樣走進(jìn)尋常百姓家。無論是小白還是大咖,每個人都有機會輕松上手使用,讓自己對美的理解可以更直觀地展現(xiàn)出來。

修圖有手就行?或許真的不是夢。

     來源:雷科技

           原文標(biāo)題 : 字節(jié)豆包SeedEdit上線,AI修圖成大廠AI應(yīng)用新焦點?

    聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

    發(fā)表評論

    0條評論,0人參與

    請輸入評論內(nèi)容...

    請輸入評論/評論長度6~500個字

    您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

    暫無評論

    暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號