การอัปเกรด Google Gemini ใช้โมเดลภาพ “nano banana” ที่พัฒนาโดย Google DeepMind ฟีเจอร์นี้พร้อมใช้งานทั่วโลกทั้งสำหรับผู้ใช้ฟรีและผู้ใช้ที่ชำระเงินแล้ว จุดแข็งที่สุดของฟีเจอร์นี้คือความสามารถในการรักษาความสม่ำเสมอของใบหน้าและวัตถุในภาพถ่าย ซึ่งเป็นสิ่งที่เครื่องมือ AI อื่นๆ มักทำได้ยาก
“เราได้ยกระดับคุณภาพของภาพและความสามารถของโมเดลในการทำตามคำสั่ง” นิโคล บริชโทวา หัวหน้าฝ่ายผลิตภัณฑ์ของ DeepMind กล่าว “การอัปเดตนี้ทำให้การแก้ไขราบรื่นยิ่งขึ้น และผลลัพธ์ออกมาดีพอที่จะนำไปใช้งานได้ทุกวัตถุประสงค์”
เก็บคำว่า “คุณ” ไว้ในทุกภาพถ่าย
สิ่งหนึ่งที่ทำให้ภาพถ่าย AI ดูไม่สมจริงคือรายละเอียดเล็กๆ น้อยๆ ที่บิดเบี้ยว Google บอกว่า Gemini ช่วยแก้ปัญหานี้ ช่วยให้คุณเปลี่ยนฉากทั้งหมดได้ แต่ยังคงใบหน้าและสีหน้าไว้เหมือนเดิม คุณสามารถลองทรงผมใหม่ เปลี่ยนสีผนัง หรือพาสัตว์เลี้ยงเข้ามาในฉากได้โดยไม่ต้องกังวลเรื่องภาพบิดเบี้ยว

นอกจากนี้ Gemini ยังช่วยให้คุณอัปโหลดรูปถ่ายหลาย ๆ รูปเพื่อรวมเป็นหนึ่งเดียวได้ เช่น การรวมรูปถ่ายกับแมวของคุณเพื่อสร้างภาพของคุณสองคนที่กำลังขี่จักรยานด้วยกันบนท้องถนน
Gemini รองรับการแก้ไขแบบหลายรอบ ช่วยให้ผู้ใช้สามารถเพิ่มรายละเอียดทุกอย่างให้กับพื้นที่ได้ ตั้งแต่วอลเปเปอร์ เฟอร์นิเจอร์ ไปจนถึงสีทาบ้าน ข้อดีคือ มีเพียงส่วนที่ต้องแก้ไขเท่านั้นที่เปลี่ยนแปลง ส่วนที่เหลือยังคงเดิม
นอกจากนี้ ราศีเมถุนยังสามารถผสมผสานสไตล์ต่างๆ เข้ากับภาพถ่ายได้ เช่น เปลี่ยนรองเท้าบูทกันฝนให้เป็นรองเท้าลายดอกไม้ หรือสร้างชุดเดรสลายผีเสื้อ
การแข่งขันสร้างภาพ AI ระหว่างยักษ์ใหญ่ด้านเทคโนโลยี
การอัปเกรดของ Google เกิดขึ้นในขณะที่สงครามภาพ AI กำลังดุเดือดขึ้น ก่อนหน้านี้ OpenAI ได้เปิดตัว GPT-4o ซึ่งสามารถสร้างภาพได้โดยตรง และกลายเป็นไวรัลด้วยมีมสไตล์สตูดิโอจิบลิหลายชุด แซม อัลท์แมน ซีอีโอของ Google เปิดเผยว่าจำนวนผู้ใช้เพิ่มขึ้นมากจน GPU ของบริษัท "แทบจะละลาย"
เพื่อให้ทันกับสถานการณ์ Meta ได้ประกาศความร่วมมือกับ Midjourney ขณะที่บริษัทสตาร์ทอัพสัญชาติเยอรมันอย่าง Black Forest Labs ที่มีโมเดล FLUX กำลังครองชาร์ตต่างๆ มากมาย

Google หวังว่า Gemini จะสามารถปิดช่องว่างนี้ได้ด้วย ChatGPT ปัจจุบัน Gemini มีผู้ใช้งานรายเดือน 450 ล้านคน ตามข้อมูลจาก Sundar Pichai ซีอีโอ ซึ่งยังห่างไกลจาก ChatGPT ซึ่งมีผู้ใช้งานรายสัปดาห์มากกว่า 700 ล้านคน
บริชโทวา กล่าวว่า Gemini ออกแบบมาเพื่อใช้กับสถานการณ์จริง ตั้งแต่การสร้างภาพห้องนั่งเล่นและสวน ไปจนถึงการสร้างภาพถ่ายที่สนุกสนาน โมเดลนี้มี “ความรู้เกี่ยว กับโลก ” ที่ดีกว่า และสามารถรวมภาพถ่ายและจานสีหลายชุดเข้าด้วยกันเป็นภาพเดียวได้
อย่างไรก็ตาม Google ก็มีข้อจำกัดที่เข้มงวดเช่นกัน รูปภาพที่สร้างขึ้นทั้งหมดจะมีลายน้ำที่ชัดเจนและเครื่องหมายระบุตัวตนซ่อนอยู่ในข้อมูลเมตา บริษัทห้ามมิให้สร้างรูปภาพที่ละเอียดอ่อนโดยไม่ได้รับอนุญาตอย่างเคร่งครัด เพื่อป้องกันการละเมิดสิทธิ์แบบดีปเฟก
ก่อนหน้านี้ Google ได้ออกมาขอโทษสำหรับภาพประวัติศาสตร์ของ Gemini ที่ไม่ถูกต้อง ครั้งนี้ Google เชื่อว่าได้สร้างสมดุลระหว่างความคิดสร้างสรรค์และความปลอดภัย “เราต้องการให้ผู้ใช้มีความคิดสร้างสรรค์ แต่ไม่ใช่ว่าทุกอย่างจะได้รับอนุญาต” Brichtova เน้นย้ำ
ด้วย Gemini 2.5 Flash Image Google กำลังเดิมพันกับการยกระดับประสบการณ์การแก้ไขภาพด้วย AI โดยหวังว่าจะรักษาผู้ใช้เก่าไว้และดึงดูดผู้ใช้ใหม่ในการแข่งขันด้านเทคโนโลยีที่ดุเดือดกับ OpenAI, Meta และคู่แข่งรายอื่นๆ
(ตาม TechCrunch, Tom's Guide)

ที่มา: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
การแสดงความคิดเห็น (0)