- 微軟推出三款自主研發的 AI 基礎模型,分別用於轉錄、語音產生和影像創建,以減少對 OpenAI 的依賴。
- MAI-Transcribe-1 支援 25 種語言,運作速度比微軟目前的 Azure Fast 轉錄服務快約 2.5 倍。
- MAI-Voice-1 可以在大約一秒鐘內生成 60 秒的可自訂音頻,而 MAI-Image-2 則針對高級圖像和視頻生成。
- 這些模型可整合到 Microsoft Foundry、MAI Playground、Teams 和 Azure 中,定價極具競爭力,並制定了到 2027 年推出大型前沿模型的路線圖。
微軟正朝著這個方向邁出明確的一步 人工智慧的更大自主性 透過推出三個自主研發的基礎模型,分別用於轉錄、語音生成和圖像創建,該公司表明其希望構建一個更深入、更全面的多模態人工智慧技術棧,並完全掌控該技術棧,同時繼續與OpenAI保持緊密的商業合作關係。
這些新系統是在…的指導下開發的 微軟AI/MAI超智能 團隊旨在直接接入 Teams 和 Azure 等產品 以及內部實驗平台。實際上,微軟正在為長期戰略奠定基礎,該戰略旨在… 它本身的模型涵蓋了日益增長的日常工作負載份額。而將 OpenAI 等外部模型保留給那些能帶來明顯差異化價值的情況。
微軟建構的三種轉錄、語音和圖像基礎模型
此次發表會圍繞著三個核心模型展開: MAI-轉錄-1 用於語音轉文本, MAI-語音-1 用於文字轉語音和 MAI-圖像-2 用於視覺生成。它們共同構成了一個內部系統的第一層,也是非常直覺的一層。 多模態人工智慧堆疊 能夠在微軟生態系統內處理文字、音訊和影像。
微軟並非只依賴大型通用模型,而是押注在… 更便宜、更快捷的以任務為中心的系統 適用於常見的企業用例。隨著 Copilot 使用者數量以及 Office、Teams 和 Azure 中 AI 功能數量的持續成長,這種方法尤其重要,因為成本原本會隨著 API 使用量幾乎線性增長。
基礎模型 這類模型使用大型且多樣化的資料集進行訓練,以便後續能夠適應各種不同的應用場景。這意味著它們可以為從呼叫中心轉錄、會議摘要到合成語音、輔助功能工具和自動化內容創建流程等各種應用提供支援。
MAI-Transcribe-1:速度更快、支援 25 種語言的多語言語音轉文字工具
MAI-Transcribe-1 是微軟的新產品。 語音轉文本引擎 這是此次推廣活動的核心組成部分之一。此模型支持轉錄。 25不同的語言 內部基準測試結果約為 比該公司現有的 Azure Fast 轉錄服務快 2.5 倍這已成為其當前投資組合的參考點。
這種性能提升之所以重要,是因為 轉錄工作量對延遲高度敏感。尤其是在即時字幕、客戶支援或混合會議等即時場景中,這一點尤其重要。更廣泛的語言覆蓋範圍也與微軟的全球佈局相契合,使跨國客戶更容易採用單一供應商的服務,而無需混合使用不同地區的工具。
從產品角度來看,微軟計劃將 MAI-Transcribe-1 直接連接到 微軟團隊 用於處理會議記錄和即時字幕。隨著時間的推移,預計同樣的引擎將出現在其他生產力工具的底層,以便… 用戶無需注意到品牌變化,即可享受更快的速度和更低的成本。.
定價策略非常激進:MAI-Transcribe-1 的起價約為 每小時處理音訊費用為 0.36 美元該價格旨在低於Google和 OpenAI 的同類報價,同時仍在微軟自己的雲端基礎設施上運行。
MAI-Voice-1:超高速文字轉語音,支援自訂語音
在音訊生成方面, MAI-語音-1 是微軟的新模型 將文字轉換為語音據該公司稱,其產量約為 60秒的音頻處理時間約為1秒對於響應速度至關重要的使用場景來說,這是一個顯著的飛躍。
除了速度之外,一項關鍵承諾是提供支持 客製化的、與品牌一致的語音組織機構將能夠根據自身定位或特定應用場景定義語音,涵蓋從客服熱線、對話代理到培訓材料、播客和輔助功能等各種應用場景。隨著合成語音日益普及,聽眾對音調和清晰度的要求也越來越高,這種控制權變得愈發重要。
微軟將 MAI-Voice-1 的目標明確地瞄準了… 開發者和企業正在建立大量使用語音功能的產品適用於呼叫中心、應用程式內助理、語言學習工具、媒體平台或任何需要可擴展旁白的服務。定價從……起。 每百萬個字元 22 美元此模式旨在無論交易量大小,都能在財務上可行。
從基礎設施角度來看,MAI-Voice-1 是透過以下方式提供的: Azure API微軟 Foundry 和 MAI Playground這樣一來,團隊就可以快速測試語音,然後無需切換環境即可投入生產。其理念是簡化從實驗到部署的整個流程,使其完全融入微軟的技術堆疊中。
MAI-Image-2:將影像和視訊生成功能整合到微軟的技術堆疊中
第三種模型, MAI-圖像-2, 專注於 根據文字提示產生圖像(在某些情況下,還包括影片)雖然該公司尚未披露所有技術細節,但它將該模型定位為其文字和音訊系統的視覺對應物,旨在自動創建行銷資產、產品視覺效果、分鏡和其他媒體。
有趣的是,MAI-Image-2 最初出現得比較低調。 MAI遊樂場微軟早在三月中旬就推出了大型模型的實驗環境。此次公告正式確立了其在更廣泛的…中的作用。 Foundry 和 Azure 在生態系統中,企業可以將其作為標準組件而非純粹的研究演示來使用。
定價策略同樣旨在參與競爭:該公司給出的入門價格約為 每百萬個文字輸入令牌收費 5 美元 和周圍 每百萬個生成圖像的輸出代幣收費 33 美元這些數據表明,它們與競爭對手的類似級別持平或更低,同時受益於微軟的企業安全和合規性堆疊。
使用案例範圍很廣 自動化創意工作流程 從個人化行銷視覺效果到產品設計的快速原型製作,Azure 都能勝任。對於許多已經採用 Azure 的客戶而言,其關鍵賣點在於,他們無需引入額外的外部供應商即可嘗試影像生成。
跨 Azure、Foundry、MAI Playground 和 Microsoft 365 的集成
此次發表會的一個顯著特徵是新車型與現有車型之間的緊密聯繫。 微軟現有的雲端和生產力平台MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2 這三個系統正在逐步推廣中。 微軟 Foundry公司用於存取和擴展基礎模型的環境。
開發人員可以從 MAI遊樂場其中,相同的模型以更具實驗性的介面呈現。這種設定旨在降低團隊嘗試轉錄、合成語音或視覺生成等功能的門檻,而無需立即進行全面整合。
在產品方面,微軟已經指出… 微軟團隊 作為早期受益者,MAI-Transcribe-1 將用於生成會議記錄和字幕,而 MAI-Voice-1 和 MAI-Image-2 預計將在未來陸續應用於各種場景。 Copilot 和 Microsoft 365 體驗即使最終用戶可能看不到明確的型號品牌標誌。
對公司而言,這項承諾是 單一、連貫的堆疊 在 Azure 中,轉錄、語音和影像與語言模型、資料服務和分析功能並存。與整合多個外部 AI 提供者相比,這可以簡化合規性、安全審查和供應商管理。
定價策略以及與 OpenAI 和 Google 的競爭
除了技術規格之外,微軟也非常重視… 定價競爭力該公司公開將這些車型定位為可與同類產品媲美甚至更低的替代品。 OpenAI 和 Google尤其適用於持續、大量使用。
公佈的價格點—— 每音頻小時 0.36 美元 對於 MAI-Transcribe-1, 每百萬個字元 22 美元 適用於 MAI-Voice-1 和 每百萬枚代幣 5 美元/33 美元 MAI-Image-2 的結構不僅僅是技術細節,它們也是微軟希望被視為的更廣泛訊息的一部分。 提供高性價比端對端產生式人工智慧解決方案的供應商 而不僅僅是合作夥伴型號的經銷商。
在越來越多的企業將人工智慧融入日常營運的市場中, 每次請求的成本很快就會成為一個策略變數。透過擁有自己的模型,微軟可以更好地調整運算成本、模型複雜性和用戶定價之間的權衡,而無需向外部供應商支付高額加價。
此外,還有一種訊號效應:透過突出展示自己的基準和價格表,微軟實際上是在告訴客戶,如果他們已經選擇 Azure,那麼對於轉錄、語音和圖像等核心工作負載,他們就不再需要預設使用第三方模型。
Mustafa Suleyman 和「以人為本」的人工智慧願景
這三款新車型來自以下團隊: 微軟AI/MAI超智能由...領導 穆斯塔法·蘇萊曼(Mustafa Suleyman)現任微軟人工智慧負責人蘇萊曼,先前在人工智慧產業擔任要職,他一直在公開闡述一個他稱之為「人工智慧願景」的願景。 “人文主義人工智慧” 或以人為中心的人工智慧。
在微軟圍繞此次發表會的宣傳中,蘇萊曼強調這些模型的設計目的是為了 反映人們實際的溝通方式,優先考慮 實用性和安全性用他的話來說,目標是創建不再是抽象的研究項目,而是能夠融入工作和家庭日常工作流程的工具的系統。
他還暗示,目前的這三位模特兒是 這只是更廣泛投資組合的開始微軟計劃透過 Foundry 和產品內部直接推出更多基礎模型,逐步將其內部能力從語音和影像擴展到更多模態和更專業的任務。
這張路線圖凸顯了微軟的意圖,即不僅要被視為其他人的 AI 平台,還要成為建立自身先進模型的廠商,這些模型可以與 OpenAI 等長期合作夥伴的產品並駕齊驅。
重新調整與 OpenAI 的關係,並設定 2027 年前沿模型目標
該策略最微妙的方面之一是它與…的關係 微軟與OpenAI的高調合作兩家公司關係依然密切:微軟已投資超過 的美元13億元 OpenAI 將其模型託管在 Azure 上,並將 GPT 等系統整合到 Copilot 等產品中。
然而,最近的報告指出… 重新協商關係 這使得微軟有更多空間並行進行自身的人工智慧研究和產品線。蘇萊曼將這種轉變描述為一種自然演進,而非斷裂——更像是公司在繼續從外部供應商採購的同時,自主設計部分晶片。
根據彭博社和其他媒體報道,微軟的目標是擁有 其自身的大規模前沿模型將於2027年左右投入運作。新發布的系統與這一目標略有差距:它們尚未定位為通用、前沿的語言模型,而是作為… 專用元件可減少日常工作負載對合作夥伴 API 的依賴.
實際上,這意味著微軟可以在適當的地方繼續使用像 GPT-5.4 這樣的 OpenAI 模型,同時逐步地 換上自己的模型 只要成本效益比或策略考量有利於內部技術,使用者可能會注意到,隨著後台技術的逐步改進,某些功能變得更快或更便宜。
對於更廣泛的人工智慧市場而言,這種雙軌制凸顯了一個明顯的趨勢:大型科技公司正在尋求… 合作與自給自足之間的平衡他們利用聯盟快速發展,同時建立自身能力,以避免長期被單一供應商束縛。
透過這三大模型,微軟實際上是在表明其戰略意圖:它希望在人工智慧技術堆疊的多個層面展開競爭——從基礎設施和工具到基礎模型本身——同時仍然為像 OpenAI 這樣的合作夥伴保留空間,讓他們發揮各自的獨特優勢。對客戶而言,這可能意味著更多選擇、更具競爭力的價格,以及逐步過渡到由微軟品牌人工智慧支撐的、用戶熟悉的產品和服務。

