การอัปเกรด Google Gemini ใช้โมเดลภาพ “nano banana” ที่พัฒนาโดย Google DeepMind ฟีเจอร์นี้พร้อมใช้งานทั่วโลกทั้งสำหรับผู้ใช้ฟรีและผู้ใช้ที่ชำระเงินแล้ว จุดแข็งที่สุดของฟีเจอร์นี้คือความสามารถในการรักษาความสม่ำเสมอของใบหน้าและวัตถุในภาพถ่าย ซึ่งเป็นสิ่งที่เครื่องมือ AI อื่นๆ มักทำได้ยาก

“เราได้ยกระดับคุณภาพของภาพและความสามารถของโมเดลในการทำตามคำสั่ง” นิโคล บริชโทวา หัวหน้าฝ่ายผลิตภัณฑ์ของ DeepMind กล่าว “การอัปเดตนี้ทำให้การแก้ไขราบรื่นยิ่งขึ้น และผลลัพธ์ออกมาดีพอที่จะนำไปใช้งานได้ทุกวัตถุประสงค์”

เก็บคำว่า “คุณ” ไว้ในทุกภาพถ่าย

สิ่งหนึ่งที่ทำให้ภาพถ่าย AI ดูไม่สมจริงคือรายละเอียดเล็กๆ น้อยๆ ที่บิดเบี้ยว Google บอกว่า Gemini ช่วยแก้ปัญหานี้ ช่วยให้คุณเปลี่ยนฉากทั้งหมดได้ แต่ยังคงใบหน้าและสีหน้าไว้เหมือนเดิม คุณสามารถลองทรงผมใหม่ เปลี่ยนสีผนัง หรือพาสัตว์เลี้ยงเข้ามาในฉากได้โดยไม่ต้องกังวลเรื่องภาพบิดเบี้ยว

ผสมผสานภาพถ่ายเข้าด้วยกัน.gif
รวมรูปภาพกับบริบทใหม่จากรูปภาพที่มีอยู่สองรูปโดยใช้ Google Gemini แหล่งที่มา: Google

นอกจากนี้ Gemini ยังช่วยให้คุณอัปโหลดรูปถ่ายหลาย ๆ รูปเพื่อรวมเป็นหนึ่งเดียวได้ เช่น การรวมรูปถ่ายกับแมวของคุณเพื่อสร้างภาพของคุณสองคนที่กำลังขี่จักรยานด้วยกันบนท้องถนน

Gemini รองรับการแก้ไขแบบหลายรอบ ช่วยให้ผู้ใช้สามารถเพิ่มรายละเอียดทุกอย่างให้กับพื้นที่ได้ ตั้งแต่วอลเปเปอร์ เฟอร์นิเจอร์ ไปจนถึงสีทาบ้าน ข้อดีคือ มีเพียงส่วนที่ต้องแก้ไขเท่านั้นที่เปลี่ยนแปลง ส่วนที่เหลือยังคงเดิม

นอกจากนี้ ราศีเมถุนยังสามารถผสมผสานสไตล์ต่างๆ เข้ากับภาพถ่ายได้ เช่น เปลี่ยนรองเท้าบูทกันฝนให้เป็นรองเท้าลายดอกไม้ หรือสร้างชุดเดรสลายผีเสื้อ

การแข่งขันสร้างภาพ AI ระหว่างยักษ์ใหญ่ด้านเทคโนโลยี

การอัปเกรดของ Google เกิดขึ้นในขณะที่สงครามภาพ AI กำลังดุเดือดขึ้น ก่อนหน้านี้ OpenAI ได้เปิดตัว GPT-4o ซึ่งสามารถสร้างภาพได้โดยตรง และกลายเป็นไวรัลด้วยมีมสไตล์สตูดิโอจิบลิหลายชุด แซม อัลท์แมน ซีอีโอของ Google เปิดเผยว่าจำนวนผู้ใช้เพิ่มขึ้นมากจน GPU ของบริษัท "แทบจะละลาย"

เพื่อให้ทันกับสถานการณ์ Meta ได้ประกาศความร่วมมือกับ Midjourney ขณะที่บริษัทสตาร์ทอัพสัญชาติเยอรมันอย่าง Black Forest Labs ที่มีโมเดล FLUX กำลังครองชาร์ตต่างๆ มากมาย

การแก้ไขแบบหลายรอบ.gif
ความสามารถในการแก้ไขภาพหลายขั้นตอนของ Google Gemini ที่มา: Google

Google หวังว่า Gemini จะสามารถปิดช่องว่างนี้ได้ด้วย ChatGPT ปัจจุบัน Gemini มีผู้ใช้งานรายเดือน 450 ล้านคน ตามข้อมูลจาก Sundar Pichai ซีอีโอ ซึ่งยังห่างไกลจาก ChatGPT ซึ่งมีผู้ใช้งานรายสัปดาห์มากกว่า 700 ล้านคน

บริชโทวา กล่าวว่า Gemini ออกแบบมาเพื่อใช้กับสถานการณ์จริง ตั้งแต่การสร้างภาพห้องนั่งเล่นและสวน ไปจนถึงการสร้างภาพถ่ายที่สนุกสนาน โมเดลนี้มี “ความรู้เกี่ยว กับโลก ” ที่ดีกว่า และสามารถรวมภาพถ่ายและจานสีหลายชุดเข้าด้วยกันเป็นภาพเดียวได้

อย่างไรก็ตาม Google ก็มีข้อจำกัดที่เข้มงวดเช่นกัน รูปภาพที่สร้างขึ้นทั้งหมดจะมีลายน้ำที่ชัดเจนและเครื่องหมายระบุตัวตนซ่อนอยู่ในข้อมูลเมตา บริษัทห้ามมิให้สร้างรูปภาพที่ละเอียดอ่อนโดยไม่ได้รับอนุญาตอย่างเคร่งครัด เพื่อป้องกันการละเมิดสิทธิ์แบบดีปเฟก

ก่อนหน้านี้ Google ได้ออกมาขอโทษสำหรับภาพประวัติศาสตร์ของ Gemini ที่ไม่ถูกต้อง ครั้งนี้ Google เชื่อว่าได้สร้างสมดุลระหว่างความคิดสร้างสรรค์และความปลอดภัย “เราต้องการให้ผู้ใช้มีความคิดสร้างสรรค์ แต่ไม่ใช่ว่าทุกอย่างจะได้รับอนุญาต” Brichtova เน้นย้ำ

ด้วย Gemini 2.5 Flash Image Google กำลังเดิมพันกับการยกระดับประสบการณ์การแก้ไขภาพด้วย AI โดยหวังว่าจะรักษาผู้ใช้เก่าไว้และดึงดูดผู้ใช้ใหม่ในการแข่งขันด้านเทคโนโลยีที่ดุเดือดกับ OpenAI, Meta และคู่แข่งรายอื่นๆ

(ตาม TechCrunch, Tom's Guide)

ด้วยราคาเพียง 85 ล้านดองต่อ 'สมอง' Nvidia ได้ปูทางสู่ยุคที่มนุษย์สร้างหุ่นยนต์ Nvidia เพิ่งเปิดตัว Jetson AGX Thor ชิปที่ถูกขนานนามว่า "สมองหุ่นยนต์" ซึ่งสามารถช่วยให้เครื่องจักรมองเห็น คิด และกระทำได้เหมือนมนุษย์ เปิดศักราชใหม่ในการแข่งขันด้านปัญญาประดิษฐ์ (AI) ทางกายภาพด้วยราคา 3,499 ดอลลาร์สหรัฐ

ที่มา: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html