幽灵电影完整版在线观看,狠狠狠狠狠狠操,亚洲国产成人在线观看,日韩在线免费视频观看,鬼吹灯之昆仑神宫在线观看免费完整版电影 ,九九导航,亚洲人成网站在线

Token,這個(gè)藏在AI背后的計(jì)價(jià)單位,終于有人說清了
  •   

  • 來 源:科普中國
  • 時(shí) 間:2026-04-02 16:51:48

今日金價(jià),一克 1000.06 元;

95 號(hào)汽油,每升 8 塊 5 毛 7;

電費(fèi)是階梯計(jì)價(jià),家庭用電最多每千瓦時(shí) 8 毛 9;

……

克、升、千瓦時(shí)——單位一旦確定,便可以被標(biāo)注價(jià)格,而價(jià)格決定了消費(fèi),也潛移默化地塑造著每個(gè)人的生活。大多數(shù)時(shí)候,我們并不關(guān)心這些單位本身,只要它們足夠穩(wěn)定,穩(wěn)定到可以比較、可以結(jié)算,它們就會(huì)默默隱藏自己,退回到繳費(fèi)單和購物小票背后。

但現(xiàn)在,一種全新的、陌生的計(jì)量單位,正浮出水面,走入更多人的生活。

它叫 Token。

如果你最近玩過、聽說過,甚至自己試著調(diào)用過各種 AI 助手或“智能體”(比如近期流行起來的 Openclaw “小龍蝦”),那么你應(yīng)該已經(jīng)和它打過照面了。你與 AI 的每一次對(duì)話,無論是讓它回答一個(gè)問題、寫一封郵件,還是總結(jié)一篇論文,后臺(tái)那個(gè)默默跳動(dòng)的計(jì)價(jià)數(shù)字,單位就是 Token。

Token,就是 AI 世界的“克”“升”和“千瓦時(shí)”。

圖片

Token 到底在計(jì)量什么?

在 OpenAI 的官方頁面上,用一句話簡單地概括了 Token:Token 是自然語言的數(shù)學(xué)表示。

在中文里,Token 常被翻譯為“詞元”,你可以將它理解成為大模型用來處理自然語言的基本單位,或大模型處理信息的最小信息單元。一段話、一個(gè)問題在進(jìn)入 AI 模型被計(jì)算機(jī)處理前,首先要被“分詞器(Tokenizer)”拆分成一個(gè)個(gè) Token。

一個(gè) Token 可能是一個(gè)標(biāo)點(diǎn)、一個(gè)漢字、一個(gè)英文單詞,或者一個(gè)常見的詞組——這取決于不同 AI 模型分詞器的設(shè)計(jì)。比如“朋友買了西瓜手機(jī)!”可能被拆為“朋友”“買”“了”“西瓜”“手機(jī)”“!”,“Transformer”可能被拆成“Trans”“former”。

這些被拆分好的 Token,對(duì)于你我來說是有意義的文字,但對(duì)于大模型而言,它并不認(rèn)識(shí),更不理解。為了讓 AI “理解”,大模型會(huì)先給每個(gè) Token 分配一個(gè)數(shù)字編號(hào),然后將這個(gè)編號(hào)轉(zhuǎn)化為一組數(shù)字坐標(biāo)(向量)。這個(gè)坐標(biāo)決定了 AI 如何“理解”這個(gè)詞。

更重要的是,AI 理解任何一個(gè)詞,都要看它和其他詞的關(guān)系。比如“西瓜”這個(gè)詞,AI 在訓(xùn)練中既見過它和“手機(jī)”“汽車”“公司”“發(fā)布會(huì)”一起出現(xiàn),也見過它和“吃”“食物”“好吃”一起出現(xiàn)。當(dāng) AI 看到“西瓜手機(jī)”這個(gè)組合時(shí),它會(huì)通過“汽車”這個(gè)詞的坐標(biāo),來調(diào)整“西瓜”在當(dāng)前這句話里的含義——讓它的坐標(biāo)更接近“品牌”,遠(yuǎn)離“食物”。

AI 的整個(gè)“思考”過程,就是計(jì)算一整句話里所有 Token 坐標(biāo)之間的復(fù)雜關(guān)系。它不會(huì)死記硬背“西瓜=品牌”或“西瓜=食物”,而是根據(jù)上下文動(dòng)態(tài)計(jì)算。

圖片圖源:用 AI 生成的

聊到這里,你還會(huì)以為,Token 的消耗就是你輸入和輸出的字?jǐn)?shù)簡單相加嗎?接下來,我們通過一次普通對(duì)話,看看 Token 到底是如何被消耗掉的。

我們讓 AI 寫一封信給十年后的自己:

圖片圖片來源:自己截取的

指令輸入十幾個(gè)字,AI 回復(fù)四五百字,看起來不過幾百個(gè)Token,但事實(shí)上消耗的 Token 遠(yuǎn)不止屏幕上那幾行字:

系統(tǒng)預(yù)設(shè)指令(System prompt):在你開口之前,AI 已經(jīng)被輸入了一段看不見的指令,被用來規(guī)定和你聊天的 AI 的身份,語氣,回復(fù)用詞特征和安全邊界。很多人會(huì)感覺不同公司的 AI 產(chǎn)品有不同的性格特征,秘密就在這里。這段指令不會(huì)顯示在對(duì)話中,但是也參與了模型的計(jì)算,會(huì)消耗掉一部分 Token。

對(duì)話的歷史上下文(Context):如果你不是第一次提問,模型通常就需要考慮之前的上下文信息,才能知道整個(gè)對(duì)話在聊什么,保證對(duì)話的連續(xù)性。所以之前的提問與它之前的回答,都會(huì)進(jìn)入最新這輪對(duì)話的計(jì)算。也就是說,對(duì)話越長,對(duì)話的輪次越多,最新的單輪請(qǐng)求消耗的 Token 也就越多。

思考過程(Reasoning):這是更隱蔽的消耗,很多具備深度推理模式的模型,在回答之前,它會(huì)進(jìn)行一輪內(nèi)部計(jì)算去比較推演不同的回答,最終將它認(rèn)為最優(yōu)的回答呈現(xiàn)出來。這些不展示出來的“思考步驟”,同樣消耗資源。

總之,Token 計(jì)量的,并不只是你看到 AI 模型給出的答案,而是生成這個(gè)答案所需的全部計(jì)算資源。而進(jìn)入以 Openclaw 為代表的 agent 場(chǎng)景,這種 Token 的消耗會(huì)被指數(shù)級(jí)擴(kuò)大。

比如讓一只小龍蝦替你干活,把“幫我整理一下文件夾”這句話甩給它之后,它可能需要先讀懂這個(gè)要求,然后拆解成十幾個(gè)子任務(wù),每個(gè)子任務(wù)分別調(diào)用一次 AI,每次調(diào)用都帶著完整的系統(tǒng)指令和上下文,必要的時(shí)候還要反復(fù)檢查有沒有做對(duì),是否需要修正。

這背后可能是幾十輪對(duì)話、幾萬個(gè) Token 的連鎖消耗,這也是它看起來只干了點(diǎn)普通的活,但卻格外消耗 Token 的原因。

為什么“輸出 Token”

比“輸入 Token”貴 6 倍?

關(guān)于 Token 的價(jià)格,很多人可能沒什么感知,畢竟無論和哪個(gè) AI 聊天,對(duì)話 Token 的消耗都打包在了免費(fèi)額度或者訂閱制里,很難直接感受到。

我們以 OpenAI 為例,來研究一下它的價(jià)格表:

ScreenShot_2026-03-29_204517_521.png圖源:自己做的

可以看出,模型越強(qiáng)大,Token 越貴,從 Nano 到標(biāo)準(zhǔn)版,每百萬 Token 價(jià)格差距高達(dá)十倍。這很容易理解:參數(shù)規(guī)模越大、模型能力越強(qiáng),越能解決越復(fù)雜問題的模型,Token 的價(jià)格當(dāng)然越貴。

而對(duì)比起不同公司,同為目前頂級(jí)的 AI 模型,每百萬 TokenGPT-5.4 的報(bào)價(jià)是 15 美元,Claude Opus 4.6 是 25 美元,Gemini 3.1 Pro 的報(bào)價(jià)則根據(jù) prompt 長度不同列出了 12 美元和 18 美元兩個(gè)價(jià)格。差距依然存在,這里的定價(jià)策略就比較復(fù)雜了,公司的定位與商業(yè)模式,模型的成本、受眾、能力都會(huì)有所影響。

這些道理都很容易理解,但真正的謎題還不是這個(gè)。仔細(xì)看看,同一個(gè)模型的“輸入 Token”和“輸出 Token”竟然也存在 6 倍的定價(jià)差距,這是怎么回事?

輸入(prefill)的時(shí)候,AI 要理解你的全部問題,每個(gè)詞都要和其他所有詞做關(guān)聯(lián)計(jì)算(即“自注意力機(jī)制”,計(jì)算量會(huì)隨著文本長度的增加急劇增長);而輸出(decode)時(shí),模型已經(jīng)將輸入的內(nèi)容分析計(jì)算完畢,只需要把結(jié)果一個(gè)字一個(gè)字“吐”出來即可,似乎應(yīng)該更輕松才對(duì)。

其實(shí),答案并不在計(jì)算量,而在計(jì)算效率上。

處理輸入時(shí),所有的 Token 都是同時(shí)送入處理器的,成千上萬個(gè)計(jì)算核心并行運(yùn)行,這是大規(guī)模的矩陣乘矩陣運(yùn)算,GPU 本來就是為了這種大規(guī)模并行計(jì)算而設(shè)計(jì)的。所以在應(yīng)對(duì)這類任務(wù)時(shí),計(jì)算效率極高,甚至可以說在允許范圍內(nèi),Token 輸入越長,越容易讓 GPU 的計(jì)算核心接近滿載工作狀態(tài)。

但輸出的時(shí)候,情況截然相反了。模型必須一個(gè) Token 一個(gè) Token 生成回答,每一個(gè)都需要依賴上一個(gè)生成的結(jié)果,無法并行展開。每次生成,模型都需要從顯存中讀取一次參數(shù),同時(shí)結(jié)合已經(jīng)生成的上下文進(jìn)行計(jì)算,整體更接近矩陣乘向量的運(yùn)算。

這個(gè)過程的瓶頸取決于內(nèi)存帶寬,也就是說,GPU 絕大多數(shù)時(shí)間沒有在計(jì)算,而是在等待數(shù)據(jù)從顯存被傳過來,真正做計(jì)算的時(shí)間占比僅有 1%~5%,計(jì)算效率驟降。

用更準(zhǔn)確的話說,處理輸入是計(jì)算密集型(compute-intensive)工作,GPU 在做它最擅長的事,生成輸出是內(nèi)存帶寬密集型(memory-bound)工作,GPU 的計(jì)算核心大部分時(shí)間在空轉(zhuǎn)等數(shù)據(jù)。

所以,輸出 Token 的高昂價(jià)格,本質(zhì)上是在為一塊每小時(shí)租金幾美元的芯片,以不到百分之一的效率運(yùn)轉(zhuǎn)而被迫等待的時(shí)長付費(fèi)。

這也就是為什么即使是同一種模型,輸出 Token 的價(jià)格會(huì)比輸入 Token 貴那么多,這是算力和內(nèi)存帶寬之間根深蒂固的不對(duì)稱不匹配。

圖片圖源:nvidia

GPU 的計(jì)算能力在飛速增長,但是顯存的傳輸速度卻跟不上,這種矛盾由來已久。它源于馮·諾依曼架構(gòu)中計(jì)算與存儲(chǔ)分離帶來的瓶頸問題,而幾乎所有現(xiàn)代計(jì)算機(jī)都沒能徹底繞開它。

算力每一代翻倍,內(nèi)存帶寬的進(jìn)步速度大約只有它的一半,這意味著每一代新芯片出來,處理輸入會(huì)變得更快更便宜,但生成輸出的改善幅度要小得多。

業(yè)界當(dāng)然有在試圖緩解這個(gè)問題。例如投機(jī)采樣(Speculative Decoding)讓一個(gè)小模型先快速猜出幾個(gè)詞,再讓大模型一次性驗(yàn)證,把串行計(jì)算的一部分變成并行計(jì)算。又或者 MoE 架構(gòu)讓每個(gè) Token 只激活一小部分參數(shù),減少每次需要搬運(yùn)的數(shù)據(jù)量。

這些技術(shù)都在緩解癥狀,但沒有一種能根治病因,只要計(jì)算和存儲(chǔ)還是物理上分開的兩個(gè)東西,數(shù)據(jù)搬運(yùn)的瓶頸就會(huì)一直存在。這也就是為什么 Groq、Cerebras、Etched 這些推理芯片創(chuàng)業(yè)公司,本質(zhì)上都在賭自己能繞開這個(gè)七十多年前的設(shè)計(jì)遺產(chǎn)。

Token 價(jià)格到底由什么決定?

為什么近幾年一直暴跌?

在聊這個(gè)問題之前,我們要先理清楚 Token 的成本由什么決定。

我們可以用一個(gè)簡單的思路來分析,以目前數(shù)據(jù)中心主流使用的 Nvidia H100 為例,云租賃的價(jià)格大約在每小時(shí) 2.5~3.5 美元之間。這筆錢里,電費(fèi)的花銷占 10%~20%,水冷、網(wǎng)絡(luò)、運(yùn)維這些加在一起也沒有多少,大頭還是在芯片本身的采購成本、硬件折舊以及服務(wù)商的利潤上

一度電能產(chǎn)出多少 Token,和電本身的關(guān)系不大,主要取決于這度電供給了什么芯片、跑的是什么架構(gòu)、優(yōu)化做到了什么程度。同樣一度電,喂給一塊在處理輸入時(shí)滿載運(yùn)行的 GPU,和一塊在生成輸出時(shí)空轉(zhuǎn)百分之九十九的 GPU,處理的 Token 數(shù)就可以差出數(shù)量級(jí)。

所以當(dāng)我們問“Token 的價(jià)格由什么決定”時(shí),最準(zhǔn)確的回答是:由一塊芯片在單位時(shí)間內(nèi)能處理多少 Token 決定。

問題來了:既然 Token 的價(jià)格不是被某一個(gè)因素單獨(dú)決定的,而是由芯片物理結(jié)構(gòu)、能源成本、模型架構(gòu)甚至是市場(chǎng)競(jìng)爭(zhēng)共同作用的結(jié)果。那它的價(jià)格按說應(yīng)該相對(duì)穩(wěn)定,畢竟電費(fèi)不會(huì)一年跌十倍,芯片也不會(huì)每個(gè)季度降價(jià)一半。

那么,為什么這幾年 Token 的價(jià)格在暴跌?

2023 年初,要達(dá)到 GPT-4 水平的性能,每百萬 Token 大約要 20 美元。到 2026 年,同等性能已經(jīng)降到了 0.4 美元附近,五十倍的差距是怎么來的?

這并非來自某一項(xiàng)技術(shù)的突破,而是幾個(gè)因素在同時(shí)影響,其影響結(jié)果是以乘法體現(xiàn)的。

首先是硬件在更新?lián)Q代,GPU 更快更便宜了,H100 的云租賃價(jià)格也從 2023 年峰值的接近 8 美元/小時(shí)降到了 2.5~3.5 美元。

然后是軟件的優(yōu)化,連續(xù)批處理和 PagedAttention 這類改進(jìn),提高了 KV cache 的利用率和并發(fā)能力,在合適的負(fù)載下,吞吐提升可達(dá)數(shù)倍。

接下來,模型架構(gòu)也在變聰明,混合專家架構(gòu)(MoE)讓模型不用為處理每個(gè) Token 動(dòng)用所有參數(shù),這一項(xiàng)又能將推理成本顯著降低。

單獨(dú)每一項(xiàng)看都不算太驚人,乘起來效果就很明顯,硬件一層、系統(tǒng)一層、架構(gòu)一層,再加上開源帶來的價(jià)格競(jìng)爭(zhēng),推理成本就被一層層壓了下去。

同時(shí),模型本身在用更少的參數(shù)做到更多的事。過去的模型往往依賴不斷擴(kuò)大參數(shù)規(guī)模來提升能力,但近兩年,更多數(shù)據(jù)、更好的訓(xùn)練方法以及更成熟的架構(gòu)設(shè)計(jì),使得較小規(guī)模的模型也能逼近甚至在部分任務(wù)上超過上一代更大的模型。

這意味著,同樣的能力不再需要同樣規(guī)模的計(jì)算資源。模型變小,帶來的不僅是顯存占用下降,更重要的是每一步推理所需的數(shù)據(jù)搬運(yùn)和計(jì)算開銷都隨之降低了。

所以 Token 便宜了。

便宜了多少?

或許可以拿我們更熟悉的手機(jī)流量來對(duì)比。從 2014 年到現(xiàn)在,中國的手機(jī)流量價(jià)格降了幾十倍甚至幾百倍。雖然大家的話費(fèi)賬單差距不大,但流量便宜后催生的各色使用方式,網(wǎng)絡(luò)應(yīng)用、短視頻、手機(jī)游戲,已經(jīng)完全改變了我們的生活。

盡管 Token 并不算一個(gè)完美的計(jì)量單位,價(jià)格細(xì)節(jié)繁復(fù),變化太多,大多數(shù)用戶對(duì)它無比陌生,但它也應(yīng)該也會(huì)和流量走上同一條路,可能速度更快,可能帶來的變化更大。

克、升、千瓦時(shí),從現(xiàn)在開始,你或許需要多認(rèn)識(shí)一個(gè)計(jì)量單位——Token。

策劃制作

來源 | 臨界點(diǎn)Post(id:AIBIooooooooom)

作者丨antares 計(jì)算機(jī)圖形學(xué)碩士、游戲行業(yè)從業(yè)者、科普作家

審核丨曹俊杰 大連理工大學(xué)數(shù)學(xué)科學(xué)學(xué)院副教授 遼寧省計(jì)算數(shù)學(xué)與數(shù)據(jù)智能重點(diǎn)實(shí)驗(yàn)室秘書

        于乃功 北京工業(yè)大學(xué)教授 中國人工智能學(xué)會(huì)理事

        于旸 騰訊玄武實(shí)驗(yàn)室負(fù)責(zé)人

策劃丨張林林

責(zé)編丨張林林

審校丨徐來

本文封面圖片及文內(nèi)圖片來自版權(quán)圖庫

轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

內(nèi)容來自:臨界點(diǎn)Post


版權(quán)所有:晉風(fēng)網(wǎng)  晉ICP備2021005604號(hào)-1