Produkt rychle vyvolal rozruch ve vietnamské vědecké a technologické komunitě.
Zvolte si obtížnou cestu k řešení vietnamských problémů
Na konci roku 2022 ChatGPT způsobil „velký třesk“, který zahájil závod o dobytí umělé inteligence mezi zeměmi a giganty v technologické oblasti. V té době vietnamská technologická komunita také dychtila po vývoji vietnamských produktů, které by byly technologicky soběstačné a snižovaly závislost na mezinárodních produktech. Ne každá jednotka však má schopnosti a odhodlání tuto touhu realizovat jako VinBigdata.
„Generativní umělá inteligence je složitý problém. Velké společnosti jako OpenAI nebo Google musí také vynaložit spoustu zdrojů a času na výzkum, aby mohly vytvářet produkty, jaké vidíme my. Tyto produkty jsou velmi dobré, ale ve skutečnosti vědci stále plně nechápou jejich funkční mechanismus. Jen málokdo dokáže předvídat, kdy se v nich objeví chyby a jaké to budou. Vyvinout produkt podobný ChatGPT pro Vietnamce v krátkém čase, necelém roce, je spojeno s mnoha výzvami. Rozhodli jsme se však „riskovat“, protože pokud Vietnamci nevytvoří vietnamskou verzi ChatGPT, kdo ji pak vyrobí?“ – sdělil profesor Vu Ha Van, ředitel vědeckého oddělení VinBigdata.
Ve skutečnosti se jen velmi málo společností rozhodne vytvářet si vlastní velké jazykové modely od nuly. Například GPT 3 od OpenAI má 175 miliard parametrů, byl trénován na 45terabajtové datové sadě a stál 4,6 milionu dolarů. Podle výpočtů by náklady na vývoj GPT 4 mohly dosáhnout až 100 milionů dolarů. „S tak obrovským počtem parametrů je velmi obtížné najít společnost, která si může dovolit investovat do této technologie,“ řekl Dr. Nguyen Kim Anh – produktový ředitel společnosti VinBigdata.
Aby vietnamské firmy získaly přístup k technologiím umělé inteligence nové generace s optimálními náklady a infrastrukturou, zvolila společnost VinBigdata zcela jiný směr, a to vytvoření jazykového modelu s pouhými 1,6 miliardami parametrů, ale s funkcemi ekvivalentními velkým jazykovým modelům s miliardami parametrů. „Výsledky ukazují, že s architekturou vyvinutou samotnou společností VinBigdata je zcela možné optimalizovat a urychlit proces trénování jazykového modelu, snížit náklady na infrastrukturu (včetně nákladů na školení a nákladů na používání), ale zároveň zajistit kvalitu modelu,“ dodala Dr. Nguyen Kim Anh.
Poté, co tým VinBigdata vyřešil problém velké velikosti jazykového modelu, během procesu „koncepce“ ViGPT a po studiu zahraničních modelů si uvědomil další výzvu: „iluzi“, pramenící z inherentní povahy statistických pravděpodobnostních modelů.
Největší jazykové modely na světě jsou proto často trénovány s využitím anglických datových zdrojů. Tento model proto ve skutečnosti nerozumí kontextu a kultuře Vietnamců a nereaguje na ně správně. To vede k halucinacím, které způsobují, že velký jazykový model „vymýšlí“ nesprávné odpovědi.
Aby bylo možné v co nejkratším čase najít optimální řešení, byl tým pro zpracování přirozeného jazyka (NLP) společnosti VinBigdata rozdělen do malých skupin, které analyzovaly a diskutovaly o různých nápadech s cílem najít nejvhodnější konečný směr.
„Nakonec jsme se rozhodli vyvinout odlišnou architekturu od většiny současných rozsáhlých jazykových modelů a provést školení na 600GB vyladěné vietnamské datové sadě, abychom vytvořili „inteligentního virtuálního asistenta“ schopného porozumět kontextu Vietnamců a poskytovat odpovědi podle něj,“ dodal Dr. Nguyen Kim Anh.
Aspirace na vietnamský technologický ekosystém
Podle výsledků hodnocení ze standardů pro hodnocení vietnamské jazykové znalosti (VMLU) dosáhl ViGPT průměrného skóre 42,24 %, což je druhé místo za ChatGPT (48,54 %). Tento výsledek umožňuje ViGPT rychle vyhledávat informace a odpovídat na otázky týkající se konkrétních a specifických témat Vietnamu.
Kromě funkcí virtuálního asistenta chce vývojový tým integrovat ViGPT do známých, každodenních produktů, aby tak dosáhl změn v životech Vietnamců. To je hnací síla, která motivuje tým VinBigdata k budování ekosystému jazykových a hlasových produktů, které ViGPT využívají – ekosystém „Vi“ zahrnuje: ViChat, ViVoice, ViVi Virtual Assistant. Tyto produkty lze použít v mnoha odvětvích, od automobilového průmyslu, bankovnictví – financí, pojišťovnictví až po dopravu a mnoho dalších oblastí.
„Při práci s technologiemi, zejména s umělou inteligencí, nechceme jen zvládat zajímavé, složité systémy, které je těžké si představit. Chceme vytvářet hmatatelné, vysoce použitelné produkty, kde umělá inteligence je přímým činitelem, který vytváří změny v životě,“ potvrdil produktový ředitel VinBigdata.
Úspěšný vývoj ViGPT je proto pouze prvním krokem na cestě k tomu, aby „čistě vietnamské“ technologie a data sloužily životům milionů Vietnamců. Zástupce společnosti VinBigdata uvedl, že cílem této jednotky je integrovat ViGPT do multikognitivní platformy umělé inteligence VinBase 2.0, aby poskytovala špičková řešení pro organizace a podniky různých velikostí a odvětví.
Před ViGPT se tým expertů a inženýrů v oblasti technologií pro zpracování jazyka a řeči VinBigdata prosadil spuštěním ViVi - prvního komplexního vietnamského virtuálního asistenta (aplikovaného a nasazeného v elektromobilech VinFast , aplikacích Vinhomes Resident a e-commerce platformě Vinhomes Online), který zároveň kompletně ovládal nejmodernější technologie na světě, jako je hlasová biometrie nebo klonování hlasu.
Všechny tyto technologie jsou vyvíjeny na základě 3 500 terabajtové databáze, zaměřené především na vietnamská data, která shromažďuje, analyzuje a zpřesňuje společnost VinBigdata. Konečným cílem je přinést světové technologie do života Vietnamců s využitím vietnamských datových a znalostních systémů.
ViGPT je první „vietnamská verze ChatGPT“ pro koncové uživatele, postavená na vietnamském modelu velkých jazyků (LLM) vyvinutém společností VinBigdata. ViGPT disponuje vynikajícími funkcemi a je navržen tak, aby co nejlépe vyhovoval potřebám Vietnamců, jako je tvorba obsahu, vyhledávání informací a odpovídání na běžné otázky typické pro Vietnam. Zaregistrujte se a vyzkoušejte ViGPT na adrese: vigpt.vinbigdata.com |
Thanh Há
Zdroj
Komentář (0)