魔屋未删减电影完整版在线观看,一本久久青青,国产精品一区自拍

今日金價(jià)，一克 1000.06 元；

95 號(hào)汽油，每升 8 塊 5 毛 7；

電費(fèi)是階梯計(jì)價(jià)，家庭用電最多每千瓦時(shí) 8 毛 9；

……

克、升、千瓦時(shí)——單位一旦確定，便可以被標(biāo)注價(jià)格，而價(jià)格決定了消費(fèi)，也潛移默化地塑造著每個(gè)人的生活。大多數(shù)時(shí)候，我們并不關(guān)心這些單位本身，只要它們足夠穩(wěn)定，穩(wěn)定到可以比較、可以結(jié)算，它們就會(huì)默默隱藏自己，退回到繳費(fèi)單和購物小票背后。

但現(xiàn)在，一種全新的、陌生的計(jì)量單位，正浮出水面，走入更多人的生活。

它叫 Token。

如果你最近玩過、聽說過，甚至自己試著調(diào)用過各種 AI 助手或“智能體”（比如近期流行起來的 Openclaw “小龍蝦”），那么你應(yīng)該已經(jīng)和它打過照面了。你與 AI 的每一次對(duì)話，無論是讓它回答一個(gè)問題、寫一封郵件，還是總結(jié)一篇論文，后臺(tái)那個(gè)默默跳動(dòng)的計(jì)價(jià)數(shù)字，單位就是 Token。

Token，就是 AI 世界的“克”“升”和“千瓦時(shí)”。

Token 到底在計(jì)量什么？

在 OpenAI 的官方頁面上，用一句話簡單地概括了 Token：Token 是自然語言的數(shù)學(xué)表示。

在中文里，Token 常被翻譯為“詞元”，你可以將它理解成為大模型用來處理自然語言的基本單位，或大模型處理信息的最小信息單元。一段話、一個(gè)問題在進(jìn)入 AI 模型被計(jì)算機(jī)處理前，首先要被“分詞器（Tokenizer）”拆分成一個(gè)個(gè) Token。

一個(gè) Token 可能是一個(gè)標(biāo)點(diǎn)、一個(gè)漢字、一個(gè)英文單詞，或者一個(gè)常見的詞組——這取決于不同 AI 模型分詞器的設(shè)計(jì)。比如“朋友買了西瓜手機(jī)！”可能被拆為“朋友”“買”“了”“西瓜”“手機(jī)”“！”，“Transformer”可能被拆成“Trans”“former”。

這些被拆分好的 Token，對(duì)于你我來說是有意義的文字，但對(duì)于大模型而言，它并不認(rèn)識(shí)，更不理解。為了讓 AI “理解”，大模型會(huì)先給每個(gè) Token 分配一個(gè)數(shù)字編號(hào)，然后將這個(gè)編號(hào)轉(zhuǎn)化為一組數(shù)字坐標(biāo)（向量）。這個(gè)坐標(biāo)決定了 AI 如何“理解”這個(gè)詞。

更重要的是，AI 理解任何一個(gè)詞，都要看它和其他詞的關(guān)系。比如“西瓜”這個(gè)詞，AI 在訓(xùn)練中既見過它和“手機(jī)”“汽車”“公司”“發(fā)布會(huì)”一起出現(xiàn)，也見過它和“吃”“食物”“好吃”一起出現(xiàn)。當(dāng) AI 看到“西瓜手機(jī)”這個(gè)組合時(shí)，它會(huì)通過“汽車”這個(gè)詞的坐標(biāo)，來調(diào)整“西瓜”在當(dāng)前這句話里的含義——讓它的坐標(biāo)更接近“品牌”，遠(yuǎn)離“食物”。

AI 的整個(gè)“思考”過程，就是計(jì)算一整句話里所有 Token 坐標(biāo)之間的復(fù)雜關(guān)系。它不會(huì)死記硬背“西瓜=品牌”或“西瓜=食物”，而是根據(jù)上下文動(dòng)態(tài)計(jì)算。

圖源：用 AI 生成的

聊到這里，你還會(huì)以為，Token 的消耗就是你輸入和輸出的字?jǐn)?shù)簡單相加嗎？接下來，我們通過一次普通對(duì)話，看看 Token 到底是如何被消耗掉的。

我們讓 AI 寫一封信給十年后的自己：

圖片來源：自己截取的

指令輸入十幾個(gè)字，AI 回復(fù)四五百字，看起來不過幾百個(gè)Token，但事實(shí)上消耗的 Token 遠(yuǎn)不止屏幕上那幾行字：

系統(tǒng)預(yù)設(shè)指令（System prompt）：在你開口之前，AI 已經(jīng)被輸入了一段看不見的指令，被用來規(guī)定和你聊天的 AI 的身份，語氣，回復(fù)用詞特征和安全邊界。很多人會(huì)感覺不同公司的 AI 產(chǎn)品有不同的性格特征，秘密就在這里。這段指令不會(huì)顯示在對(duì)話中，但是也參與了模型的計(jì)算，會(huì)消耗掉一部分 Token。

對(duì)話的歷史上下文（Context）：如果你不是第一次提問，模型通常就需要考慮之前的上下文信息，才能知道整個(gè)對(duì)話在聊什么，保證對(duì)話的連續(xù)性。所以之前的提問與它之前的回答，都會(huì)進(jìn)入最新這輪對(duì)話的計(jì)算。也就是說，對(duì)話越長，對(duì)話的輪次越多，最新的單輪請(qǐng)求消耗的 Token 也就越多。

思考過程（Reasoning）：這是更隱蔽的消耗，很多具備深度推理模式的模型，在回答之前，它會(huì)進(jìn)行一輪內(nèi)部計(jì)算去比較推演不同的回答，最終將它認(rèn)為最優(yōu)的回答呈現(xiàn)出來。這些不展示出來的“思考步驟”，同樣消耗資源。

總之，Token 計(jì)量的，并不只是你看到 AI 模型給出的答案，而是生成這個(gè)答案所需的全部計(jì)算資源。而進(jìn)入以 Openclaw 為代表的 agent 場(chǎng)景，這種 Token 的消耗會(huì)被指數(shù)級(jí)擴(kuò)大。

比如讓一只小龍蝦替你干活，把“幫我整理一下文件夾”這句話甩給它之后，它可能需要先讀懂這個(gè)要求，然后拆解成十幾個(gè)子任務(wù)，每個(gè)子任務(wù)分別調(diào)用一次 AI，每次調(diào)用都帶著完整的系統(tǒng)指令和上下文，必要的時(shí)候還要反復(fù)檢查有沒有做對(duì)，是否需要修正。

這背后可能是幾十輪對(duì)話、幾萬個(gè) Token 的連鎖消耗，這也是它看起來只干了點(diǎn)普通的活，但卻格外消耗 Token 的原因。

為什么“輸出 Token”

比“輸入 Token”貴 6 倍？

關(guān)于 Token 的價(jià)格，很多人可能沒什么感知，畢竟無論和哪個(gè) AI 聊天，對(duì)話 Token 的消耗都打包在了免費(fèi)額度或者訂閱制里，很難直接感受到。

我們以 OpenAI 為例，來研究一下它的價(jià)格表：

圖源：自己做的

可以看出，模型越強(qiáng)大，Token 越貴，從 Nano 到標(biāo)準(zhǔn)版，每百萬 Token 價(jià)格差距高達(dá)十倍。這很容易理解：參數(shù)規(guī)模越大、模型能力越強(qiáng)，越能解決越復(fù)雜問題的模型，Token 的價(jià)格當(dāng)然越貴。

而對(duì)比起不同公司，同為目前頂級(jí)的 AI 模型，每百萬 TokenGPT-5.4 的報(bào)價(jià)是 15 美元，Claude Opus 4.6 是 25 美元，Gemini 3.1 Pro 的報(bào)價(jià)則根據(jù) prompt 長度不同列出了 12 美元和 18 美元兩個(gè)價(jià)格。差距依然存在，這里的定價(jià)策略就比較復(fù)雜了，公司的定位與商業(yè)模式，模型的成本、受眾、能力都會(huì)有所影響。

這些道理都很容易理解，但真正的謎題還不是這個(gè)。仔細(xì)看看，同一個(gè)模型的“輸入 Token”和“輸出 Token”竟然也存在 6 倍的定價(jià)差距，這是怎么回事？

輸入（prefill）的時(shí)候，AI 要理解你的全部問題，每個(gè)詞都要和其他所有詞做關(guān)聯(lián)計(jì)算（即“自注意力機(jī)制”，計(jì)算量會(huì)隨著文本長度的增加急劇增長）；而輸出（decode）時(shí)，模型已經(jīng)將輸入的內(nèi)容分析計(jì)算完畢，只需要把結(jié)果一個(gè)字一個(gè)字“吐”出來即可，似乎應(yīng)該更輕松才對(duì)。

其實(shí)，答案并不在計(jì)算量，而在計(jì)算效率上。

處理輸入時(shí)，所有的 Token 都是同時(shí)送入處理器的，成千上萬個(gè)計(jì)算核心并行運(yùn)行，這是大規(guī)模的矩陣乘矩陣運(yùn)算，GPU 本來就是為了這種大規(guī)模并行計(jì)算而設(shè)計(jì)的。所以在應(yīng)對(duì)這類任務(wù)時(shí)，計(jì)算效率極高，甚至可以說在允許范圍內(nèi)，Token 輸入越長，越容易讓 GPU 的計(jì)算核心接近滿載工作狀態(tài)。

但輸出的時(shí)候，情況截然相反了。模型必須一個(gè) Token 一個(gè) Token 生成回答，每一個(gè)都需要依賴上一個(gè)生成的結(jié)果，無法并行展開。每次生成，模型都需要從顯存中讀取一次參數(shù)，同時(shí)結(jié)合已經(jīng)生成的上下文進(jìn)行計(jì)算，整體更接近矩陣乘向量的運(yùn)算。

這個(gè)過程的瓶頸取決于內(nèi)存帶寬，也就是說，GPU 絕大多數(shù)時(shí)間沒有在計(jì)算，而是在等待數(shù)據(jù)從顯存被傳過來，真正做計(jì)算的時(shí)間占比僅有 1%~5%，計(jì)算效率驟降。

用更準(zhǔn)確的話說，處理輸入是計(jì)算密集型（compute-intensive）工作，GPU 在做它最擅長的事，生成輸出是內(nèi)存帶寬密集型（memory-bound）工作，GPU 的計(jì)算核心大部分時(shí)間在空轉(zhuǎn)等數(shù)據(jù)。

所以，輸出 Token 的高昂價(jià)格，本質(zhì)上是在為一塊每小時(shí)租金幾美元的芯片，以不到百分之一的效率運(yùn)轉(zhuǎn)而被迫等待的時(shí)長付費(fèi)。

這也就是為什么即使是同一種模型，輸出 Token 的價(jià)格會(huì)比輸入 Token 貴那么多，這是算力和內(nèi)存帶寬之間根深蒂固的不對(duì)稱不匹配。

圖源：nvidia

GPU 的計(jì)算能力在飛速增長，但是顯存的傳輸速度卻跟不上，這種矛盾由來已久。它源于馮·諾依曼架構(gòu)中計(jì)算與存儲(chǔ)分離帶來的瓶頸問題，而幾乎所有現(xiàn)代計(jì)算機(jī)都沒能徹底繞開它。

算力每一代翻倍，內(nèi)存帶寬的進(jìn)步速度大約只有它的一半，這意味著每一代新芯片出來，處理輸入會(huì)變得更快更便宜，但生成輸出的改善幅度要小得多。

業(yè)界當(dāng)然有在試圖緩解這個(gè)問題。例如投機(jī)采樣（Speculative Decoding）讓一個(gè)小模型先快速猜出幾個(gè)詞，再讓大模型一次性驗(yàn)證，把串行計(jì)算的一部分變成并行計(jì)算。又或者 MoE 架構(gòu)讓每個(gè) Token 只激活一小部分參數(shù)，減少每次需要搬運(yùn)的數(shù)據(jù)量。

這些技術(shù)都在緩解癥狀，但沒有一種能根治病因，只要計(jì)算和存儲(chǔ)還是物理上分開的兩個(gè)東西，數(shù)據(jù)搬運(yùn)的瓶頸就會(huì)一直存在。這也就是為什么 Groq、Cerebras、Etched 這些推理芯片創(chuàng)業(yè)公司，本質(zhì)上都在賭自己能繞開這個(gè)七十多年前的設(shè)計(jì)遺產(chǎn)。

Token 價(jià)格到底由什么決定？

為什么近幾年一直暴跌？

在聊這個(gè)問題之前，我們要先理清楚 Token 的成本由什么決定。

我們可以用一個(gè)簡單的思路來分析，以目前數(shù)據(jù)中心主流使用的 Nvidia H100 為例，云租賃的價(jià)格大約在每小時(shí) 2.5～3.5 美元之間。這筆錢里，電費(fèi)的花銷占 10%~20%，水冷、網(wǎng)絡(luò)、運(yùn)維這些加在一起也沒有多少，大頭還是在芯片本身的采購成本、硬件折舊以及服務(wù)商的利潤上。

一度電能產(chǎn)出多少 Token，和電本身的關(guān)系不大，主要取決于這度電供給了什么芯片、跑的是什么架構(gòu)、優(yōu)化做到了什么程度。同樣一度電，喂給一塊在處理輸入時(shí)滿載運(yùn)行的 GPU，和一塊在生成輸出時(shí)空轉(zhuǎn)百分之九十九的 GPU，處理的 Token 數(shù)就可以差出數(shù)量級(jí)。

所以當(dāng)我們問“Token 的價(jià)格由什么決定”時(shí)，最準(zhǔn)確的回答是：由一塊芯片在單位時(shí)間內(nèi)能處理多少 Token 決定。

問題來了：既然 Token 的價(jià)格不是被某一個(gè)因素單獨(dú)決定的，而是由芯片物理結(jié)構(gòu)、能源成本、模型架構(gòu)甚至是市場(chǎng)競(jìng)爭(zhēng)共同作用的結(jié)果。那它的價(jià)格按說應(yīng)該相對(duì)穩(wěn)定，畢竟電費(fèi)不會(huì)一年跌十倍，芯片也不會(huì)每個(gè)季度降價(jià)一半。

那么，為什么這幾年 Token 的價(jià)格在暴跌？

2023 年初，要達(dá)到 GPT-4 水平的性能，每百萬 Token 大約要 20 美元。到 2026 年，同等性能已經(jīng)降到了 0.4 美元附近，五十倍的差距是怎么來的？

這并非來自某一項(xiàng)技術(shù)的突破，而是幾個(gè)因素在同時(shí)影響，其影響結(jié)果是以乘法體現(xiàn)的。

首先是硬件在更新?lián)Q代，GPU 更快更便宜了，H100 的云租賃價(jià)格也從 2023 年峰值的接近 8 美元/小時(shí)降到了 2.5~3.5 美元。

然后是軟件的優(yōu)化，連續(xù)批處理和 PagedAttention 這類改進(jìn)，提高了 KV cache 的利用率和并發(fā)能力，在合適的負(fù)載下，吞吐提升可達(dá)數(shù)倍。

接下來，模型架構(gòu)也在變聰明，混合專家架構(gòu)（MoE）讓模型不用為處理每個(gè) Token 動(dòng)用所有參數(shù)，這一項(xiàng)又能將推理成本顯著降低。

單獨(dú)每一項(xiàng)看都不算太驚人，乘起來效果就很明顯，硬件一層、系統(tǒng)一層、架構(gòu)一層，再加上開源帶來的價(jià)格競(jìng)爭(zhēng)，推理成本就被一層層壓了下去。

同時(shí)，模型本身在用更少的參數(shù)做到更多的事。過去的模型往往依賴不斷擴(kuò)大參數(shù)規(guī)模來提升能力，但近兩年，更多數(shù)據(jù)、更好的訓(xùn)練方法以及更成熟的架構(gòu)設(shè)計(jì)，使得較小規(guī)模的模型也能逼近甚至在部分任務(wù)上超過上一代更大的模型。

這意味著，同樣的能力不再需要同樣規(guī)模的計(jì)算資源。模型變小，帶來的不僅是顯存占用下降，更重要的是每一步推理所需的數(shù)據(jù)搬運(yùn)和計(jì)算開銷都隨之降低了。

所以 Token 便宜了。

便宜了多少？

或許可以拿我們更熟悉的手機(jī)流量來對(duì)比。從 2014 年到現(xiàn)在，中國的手機(jī)流量價(jià)格降了幾十倍甚至幾百倍。雖然大家的話費(fèi)賬單差距不大，但流量便宜后催生的各色使用方式，網(wǎng)絡(luò)應(yīng)用、短視頻、手機(jī)游戲，已經(jīng)完全改變了我們的生活。

盡管 Token 并不算一個(gè)完美的計(jì)量單位，價(jià)格細(xì)節(jié)繁復(fù)，變化太多，大多數(shù)用戶對(duì)它無比陌生，但它也應(yīng)該也會(huì)和流量走上同一條路，可能速度更快，可能帶來的變化更大。

克、升、千瓦時(shí)，從現(xiàn)在開始，你或許需要多認(rèn)識(shí)一個(gè)計(jì)量單位——Token。

策劃制作

來源 | 臨界點(diǎn)Post（id：AIBIooooooooom）

作者丨antares 計(jì)算機(jī)圖形學(xué)碩士、游戲行業(yè)從業(yè)者、科普作家

審核丨曹俊杰大連理工大學(xué)數(shù)學(xué)科學(xué)學(xué)院副教授遼寧省計(jì)算數(shù)學(xué)與數(shù)據(jù)智能重點(diǎn)實(shí)驗(yàn)室秘書

于乃功北京工業(yè)大學(xué)教授中國人工智能學(xué)會(huì)理事

于旸騰訊玄武實(shí)驗(yàn)室負(fù)責(zé)人

策劃丨張林林

責(zé)編丨張林林

審校丨徐來

本文封面圖片及文內(nèi)圖片來自版權(quán)圖庫

轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

幽灵电影完整版在线观看,狠狠狠狠狠狠操,亚洲国产成人在线观看,日韩在线免费视频观看,鬼吹灯之昆仑神宫在线观看免费完整版电影 ,九九导航,亚洲人成网站在线

科海聽濤

Token，這個(gè)藏在AI背后的計(jì)價(jià)單位，終于有人說清了

視頻更多>>

站內(nèi)公告更多>>

熱點(diǎn)推薦

友情鏈接