A inizio maggio avevamo ricostruito il quadro provvisorio nello speciale DeepSeek V4, sconto Pro fino al 31 maggio. Quel passaggio lasciava aperta una domanda concreta: cosa sarebbe accaduto al listino dopo la finestra promozionale. La risposta arrivata ora modifica la lettura economica del modello.
Nota di lettura: tutti i valori economici citati sono riferiti a 1 milione di token. Nei sistemi API il costo effettivo dipende dal rapporto tra input nuovo e input già presente in cache; l’output generato resta una voce separata.
Cosa cambia davvero dal 31 maggio
La trasformazione della promozione in prezzo stabile elimina il rimbalzo atteso dal mercato. V4-Pro era stato scontato come incentivo di adozione nella fase iniziale. Ora quel livello diventa la base commerciale su cui calcolare test e contratti cloud, con deployment interni. Il dato trova riscontro nel DeepSeek API Docs, che indica l’adeguamento ufficiale del prezzo di deepseek-v4-pro a un quarto del listino originale dopo la fine della promozione.
Il punto operativo è il cambio di certezza. Uno sconto temporaneo consente esperimenti brevi. Un prezzo stabilizzato permette invece di costruire budget ricorrenti, stimare margini di prodotto e decidere se un workflow lungo può restare su un modello avanzato senza essere spostato su una variante più economica.
Il nuovo listino effettivo: come leggere le voci di costo
V4-Pro va letto attraverso voci distinte. Il cache hit costa 0,003625 dollari per 1 milione di token quando il contesto è già stato riconosciuto dal sistema. Il cache miss costa 0,435 dollari quando l’input deve essere processato da zero. L’output costa 0,87 dollari, che è la voce più sensibile nei flussi in cui il modello produce report, codice o ragionamenti lunghi.
La differenza tra input nuovo e input riutilizzato è la parte che molti confronti frettolosi perdono. Un servizio che ripete istruzioni lunghe, documentazione tecnica e policy aziendali può avvicinarsi al costo cache. Un sistema che ricostruisce ogni volta il contesto paga la voce più alta e consuma margine prima ancora di arrivare alla generazione.
Perché la sfida ai modelli occidentali si gioca sul costo di output
Il confronto con i listini occidentali spiega perché la decisione pesa. OpenAI indica GPT-5.5 a 5 dollari per input e 30 dollari per output ogni 1 milione di token. Google AI for Developers colloca Gemini 3.5 Flash nello standard paid a 1,50 dollari in input e 9 dollari in output. Anthropic indica Claude Opus 4.7 a 5 dollari in input e 25 dollari in output.
Da questi numeri emerge una distanza netta sull’output. V4-Pro a 0,87 dollari costa circa 34,5 volte meno di GPT-5.5. Il rapporto è di circa 28,7 a 1 con Claude Opus 4.7 e di circa 10,3 a 1 con Gemini 3.5 Flash standard. La nostra lettura separa prezzo e qualità: il listino misura il costo industriale di accesso, la scelta finale resta legata a accuratezza e affidabilità sotto carico, con la latenza misurata separatamente.
La cache diventa una leva di progettazione
Con il nuovo assetto, 100 milioni di token input in cache hit su V4-Pro costano circa 0,36 dollari. Lo stesso volume in cache miss costa 43,50 dollari. La distanza nasce da come il prodotto viene progettato. Separare contesto stabile e richiesta variabile diventa quindi una decisione architetturale con impatto economico immediato.
Un agente per il coding che rilegge a ogni richiesta l’intero repository trasforma il lungo contesto in spreco. Un agente che mantiene in cache file ricorrenti e istruzioni di stile come contesto stabile usa il prezzo ridotto come memoria economica. I vincoli di progetto restano nella parte variabile. La stessa logica vale per contratti e fascicoli di compliance, oltre ai manuali tecnici.
Il taglio è credibile solo se il lungo contesto resta sostenibile
La scheda tecnica pubblicata su Hugging Face descrive DeepSeek V4 come famiglia Mixture-of-Experts con due varianti principali: V4-Pro ha 1,6 trilioni di parametri totali e 49 miliardi attivi per token, V4-Flash ha 284 miliardi di parametri totali e 13 miliardi attivi. Entrambi supportano una finestra di contesto da 1 milione di token.
La conseguenza economica è chiara. Un modello MoE può avere una capacità complessiva molto grande senza attivare ogni parametro a ogni token. Per l’utente finale questa scelta conta solo se si traduce in inferenza stabile e tempi prevedibili; i costi devono restare sotto controllo quando il contesto arriva a centinaia di migliaia di token.
Il nodo Huawei: capacità di calcolo e prezzo restano collegati
Il collegamento con la filiera Ascend era già emerso nella nostra ricostruzione DeepSeek V4: nuovo modello IA su chip Huawei. Ora la questione diventa costo unitario dell’inferenza, perché un modello economico richiede capacità reale per servire domanda continuativa.
Reuters ha inquadrato il taglio permanente nella fascia tra 0,025 e 6 yuan per 1 milione di token e ha segnalato il tema dell’offerta di chip Huawei Ascend 950, precisando che DeepSeek non ha attribuito formalmente il nuovo prezzo a un aumento di disponibilità hardware. Questa distinzione è decisiva: il rapporto tra chip e listino è plausibile sul piano industriale e va trattato come nesso di contesto, senza trasformarlo in causalità dichiarata.
La vera variabile sarà la capacità di servire domanda senza degradare il servizio. Prezzi aggressivi attirano sviluppatori. L’infrastruttura deve poi reggere picchi e concorrenza; le finestre lunghe richiedono capacità dedicata. Se la capacità resta limitata, il prezzo basso diventa uno strumento di acquisizione. Se la capacità cresce, diventa una barriera competitiva.
Per l’Italia resta il capitolo dati personali
Il prezzo API riguarda sviluppatori e imprese. In Italia il dossier DeepSeek conserva anche un profilo regolatorio. Il Garante per la protezione dei dati personali ha disposto il 30 gennaio 2025 la limitazione del trattamento dei dati degli utenti italiani nei confronti di Hangzhou DeepSeek Artificial Intelligence e Beijing DeepSeek Artificial Intelligence, dopo una risposta giudicata insufficiente alle richieste dell’Autorità.
Questo aspetto incide sulle valutazioni aziendali. Un team può testare modelli e endpoint, oltre ai pesi aperti. Deve distinguere uso API e trattamento di dati personali, con trasferimenti internazionali verificati a parte. Nei casi con dati sensibili o identificativi, il prezzo basso non sostituisce valutazioni di conformità, segregazione dei dati e controllo sui fornitori.
Cosa cambia per imprese e sviluppatori
La prima conseguenza pratica riguarda i prototipi che diventano produzione. Con un output a 0,87 dollari per 1 milione di token, attività come revisione di codice e riassunto di documenti lunghi entrano in una fascia di costo più facile da governare. La generazione di bozze operative diventa più sostenibile se il sistema riusa contesto in cache e limita output superflui.
La seconda conseguenza riguarda il procurement. Le aziende che confrontano modelli solo sul prezzo input rischiano di scegliere male. Nei flussi agentici il costo decisivo spesso si concentra sull’output e sul contesto ripetuto. La domanda corretta diventa quindi quanto costa completare un’attività verificabile, non quanto costa chiamare un modello una volta.
#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Junior Cristarella
Source link



