Optimizacija troškova generativne AI s AWS-om i RAG okvirom

Izvještaj "Ekonomski potencijal generativne umjetne inteligencije: Nova granica produktivnosti" koji je izradila McKinsey & Company predlaže da bi generativna AI mogla dodati između 2, 6 i 4, 4 bilijuna dolara vrijednosti globalnoj ekonomiji, značajno utječući na korisničke operacije, marketing i prodaju, softversko inženjerstvo te istraživanje i razvoj. Kako poduzeća razvijaju aplikacije generativne AI na AWS-u, sve više ih zanima razmatranje troškova i strategije optimizacije. Ovaj post istražuje aspekte povezane s troškovima kako bi optimizirali izdatke za generativnu AI na AWS-u, fokusirajući se na korištenje okvira Retrieval Augmented Generation (RAG) u Amazon Bedrocku. Naglašava stubove optimizacije kao što su izbor modela, korištenje tokena, cijene za zaključivanje i druge, kako bi se dizajnirale ekonomične AI aplikacije. Procesi generativne AI uključuju čitanje i dijeljenje podataka, generiranje vektorskih ugradnji, i njihovo pohranjivanje u vektorskoj bazi podataka. Amazon Bedrock olakšava te procese pružanjem pristupa temeljnim modelima visokih performansi putem API-ja.
Post također uključuje analizu troškova za različite operativne scenarije (od malih do ekstra velikih), ističući troškove Amazon Bedrocka i vektorske baze podataka. Ključni faktori koji utječu na troškove uključuju broj i broj znakova ulaznih/izlaznih tokena, troškove vektorskih ugradnji i Amazon Bedrock Guardrailse, koji osiguravaju sigurnost sadržaja filtriranjem neželjenih tema i osobnih podataka. Različite strategije podjele (standardna, hijerarhijska i semantička) utječu na troškove i točnost podataka, uz preporuke dane za svaku. Zaključno, post sažima faktore koji utječu na troškove aplikacija generativne AI na AWS-u, nudeći trenutni pregled mogućih izdataka temeljenih na pretpostavkama. Drugi dio serije obećava istraživanje izračuna poslovne vrijednosti i utjecajnih faktora. Vinnie Saini, viši specijalist za generativnu AI i arhitekt rješenja na AWS-u s više od 15 godina iskustva u AI/ML rješenjima, autor je ovog posta.
Brief news summary
Izvješće McKinsey & Company ističe kako generativna AI može značajno poboljšati globalnu ekonomiju, potencijalno dodajući između 2,6 trilijuna i 4,4 trilijuna dolara. Očekuje se rast u sektorima kao što su korisnička služba, marketing, prodaja, softversko inženjerstvo i istraživanje i razvoj. Unatoč ovom potencijalu, primjena generativne AI na platformama poput AWS-a uključuje izazove u upravljanju troškovima. Novi vodič nudi strategije za kontroliranje tih troškova, ciljajući čitatelje upoznate s temeljnim modelima, velikim jezičnim modelima, tokenima, vektorskim ugradnjama i bazama podataka. Fokusira se na rješenja za stvaranje uz dodatak pretrage (RAG) i naglašava Amazon Bedrock kao ključni resurs. Ključne točke za optimizaciju troškova uključuju: 1. **Odabir i prilagodba modela**: Odabrati modele koji odgovaraju specifičnim podacima za treniranje kako bi se optimizirali troškovi i performanse. 2. **Upravljanje upotrebom tokena**: Smanjiti troškove praćenjem upotrebe tokena i korištenjem predmemorije za učinkovitost. 3. **Planovi određivanja cijena za inferencu**: Odabrati između on-demand i provisioned throughput u zavisnosti od potrebe za fleksibilnošću ili konzistentnosti performansi. 4. **Dodatne razmatranje**: Rješavanje sigurnosnih pitanja, upravljanje rastom vektorske baze podataka i strateško razlomljavanje podataka radi pozitivnog utjecaja na troškove i učinkovitost. Amazon Bedrock podržava učinkovito upravljanje radnim tokovima generativne AI. Relevantni čimbenici troškova uključuju količine upita, upotrebu tokena i troškove baze podataka. Započinjanje s "on-demand" cijenama omogućuje početnu procjenu performansi, s mogućnošću prelaska na provisioned throughput kako potražnja raste. Mjere za uštedu uključuju optimizaciju upita, prilagodbu veličine razlomaka baze podataka i postavljanje strateških ograničenja. Odabrana metoda razlomka—semantička ili hijerarhijska—utječe na troškove i točnost. Vodič služi kao uvod u Drugi dio, koji će se baviti procjenom poslovne vrijednosti i razumijevanjem ključne dinamike troškova usred tehnološkog napretka.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

ICE želi više tehnologije za analitiku blockchain…
Američka imigracijska i carinska služba (ICE) povećava ulaganja u tehnologiju blockchain obavještajne tehnologije, uz ostale istraživačke platforme.

Otkrivanje lijekova uz pomoć umjetne inteligencij…
U povijesnom napretku u farmaceutskoj istraživanju, znanstvenici su predstavili platformu temeljenu na umjetnoj inteligenciji koja je osmišljena za predviđanje učinkovitosti raznih farmaceutskih spojeva, što obećava transformaciju procesa otkrića lijekova znatno smanjujući vrijeme i troškove potrebne za plasiranje novih lijekova na tržište.

Meta ulaguje 15 milijardi dolara u Scale AI kako …
Meta je finalizirala prekretnicu u dogovoru o preuzimanju 49 posto udjela u Scale AI, što vrijednost tvrtke procjenjuje na više od 29 milijardi dolara.

BTCS Inc. surađuje s Mack Institutom za inovacijs…
BTCS Inc., vodeća tvrtka specijalizirana za infrastrukturu i tehnologiju blokchaina, najavila je važan razvoj koji ističe njezinu predanost napretku ethereum ekosustava.

Pregledi umjetne inteligencije: Googleovi sažeci …
Google je pokrenuo inovativnu značajku nazvanu AI Pregledi unutar svog pretraživača kako bi poboljšao pristup online informacijama.

Pakistan osniva novo 'Vijeće za kriptovalute' za …
Pakistan je napravila značajan korak u prihvaćanju i reguliranju rastuće digitalne ekonomije osnivanjem Pakistanskog vijeća za kriptovalute (PCC).

S kvantnom isprepletenošću i blockchainom, napoko…
Nema uvrede glede Einsteina, ali bio je sigurno u krivu po pitanju kvantne teorije – ona nije samo opstala već je i pokazala da je neprocjenjivo korisna u računalstvu, biologiji, optici, pa čak i u igrama na sreću.