1月15日,“AI六小虎”之一的MiniMax發(fā)布并開(kāi)源了新一代01系列模型,包含基礎(chǔ)語(yǔ)言大模型MiniMax-Text-01和視覺(jué)多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項(xiàng)突破性創(chuàng)新,以大規(guī)模應(yīng)用線性注意力機(jī)制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。
未來(lái),AI智能體有望成為最重要的產(chǎn)品形態(tài),由于智能體處理的任務(wù)變得越來(lái)越復(fù)雜,涉及的數(shù)據(jù)量也越來(lái)越大,單個(gè)智能體的記憶以及多個(gè)智能體協(xié)作間的上下文都會(huì)變得越來(lái)越長(zhǎng)。因此,長(zhǎng)上下文能力與多模態(tài)處理能力的提升至關(guān)重要。
技術(shù)上,MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長(zhǎng)輸入的時(shí)候具有非常高的效率,接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理400萬(wàn)token的上下文,將有效替代Transformer傳統(tǒng)架構(gòu)并開(kāi)啟超長(zhǎng)文本輸入時(shí)代。相較于Gemini等一眾全球頂級(jí)模型,MiniMax-01隨著輸入長(zhǎng)度變長(zhǎng),性能衰減最慢。
值得注意的是,MiniMax還開(kāi)源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開(kāi)發(fā)者做有價(jià)值、突破性的研究。MiniMax方面表示,“我們認(rèn)為這有可能啟發(fā)更多長(zhǎng)上下文的研究和應(yīng)用,從而更快促進(jìn)Agent時(shí)代的到來(lái),二是開(kāi)源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開(kāi)展后續(xù)的模型研發(fā)工作。”
關(guān)于我們| 客服中心| 廣告服務(wù)| 建站服務(wù)| 聯(lián)系我們
中國(guó)焦點(diǎn)信息網(wǎng) 版權(quán)所有 滬ICP備2022005074號(hào)-20,未經(jīng)授權(quán),請(qǐng)勿轉(zhuǎn)載或建立鏡像,違者依法必究。