LangChain《2024人工智慧全景報告出爐》:OpenAI依舊是龍頭 開源模型採用率上升
騰訊科技 / 何渝婷編譯
2024-12-24 12:00

當地時間12月20日,美國人工智慧公司LangChain日前發布了《2024年人工智慧全景報告》(State of AI Report 2024)。

自2018年開始,LangChain團隊已連續七年發布當年的《人工智慧全景報告》,成為人工智慧產業流行的風向儀。

在今年的報告中,通過深入探究大模型應用開發平台LangSmith產品的使用模式,LangChain團隊揭示出人工智慧生態系統以及人們建構大型語言模型應用的方式是如何演變的。

LangChain團隊在報告中指出,隨著用戶在LangSmith中進行追蹤、評估和迭代,他們觀察到了幾個顯著的變化,其中包括開源模型採用率的急劇上升,以及從以檢索工作流程為主轉向具有多步驟、代理性工作流程的智慧體應用。

LangChain團隊通過深入研究以下統計數據,整理出開發者正在構建、測試和優先考慮的內容。

大語言模型使用分析

在全球範圍內,大語言模型正迅速普及,這也引發了一個普遍的疑問,類似於童話中王后對魔鏡提出的問題:「在所有模型中,哪一個是最常被使用的?」LangChain團隊通過深入分析收集的數據,揭示出這一問題的答案。

(一)大語言模型頂級供應商:

注:2024年十大語言模型供應商排名如同前一年的數據所示,OpenAI在LangSmith用戶群中繼續穩居最常使用的大語言模型供應商寶座,其使用率是排名第二的Ollama的六倍以上。

注:2024年十大大語言模型供應商排名特別引人注意的是,Ollama和Groq(這兩家公司都支持用戶運行開源模型,Ollama側重於本地執行,而Groq則專注於雲端部署)在今年的成長勢頭迅猛,成功躋身行業前五。這一趨勢反映了市場對於更加靈活的部署選擇和個性化人工智慧基礎設施的日益成長的需求。在開源模型供應商方面,與去年相比,頂級供應商的排名相對穩定——Ollama、Mistral和Hugging Face等公司為開發者提供了便捷的平台,以便他們能夠輕鬆地運行開源模型。這些開源軟體供應商的合計使用量佔據了前20名大語言模型供應商中的20%。

(二)頂級向量檢索/儲存系統:

注:2024年十大頂級向量檢索/儲存系統排名

在眾多生成式人工智慧(GenAI)的工作流程中,執行高效的檢索操作依然扮演著關鍵角色,今年的頂級向量存儲系統排名與去年相比保持穩定,Chroma和FAISS繼續佔據最受歡迎的前兩位。

此外,Milvus、MongoDB和Elastic的向量數據庫也在今年成功躋身前十,這反映出業界對於靈活部署選項和可訂製化人工智慧基礎設施的興趣日益成長。

使用LangChain產品建構應用

注:組織如何使用LangSmith建構應用

隨著開發者對生成式人工智慧的運用經驗日益豐富,他們正在建構更多動態的應用,從工作流程的日益複雜化,到人工智慧體(AI agents)的興起,LangChain觀察到幾個趨勢,這些趨勢指向了一個不斷創新發展的生態系統。

(一)可觀測性不僅限於LangChain應用程式

開源框架LangChain雖然是眾多開發者構建大語言模型應用的首選,但根據LangSmith今年的追蹤數據,有15.7%的追蹤來自非LangChain框架。

這一現象揭示了一個更廣泛的趨勢:無論使用哪種框架來建構大語言模型應用,對可觀測性的需求都是普遍存在的,LangSmith通過支持不同框架間的互操作性,滿足了這一需求。

(二)Python繼續佔據主導地位,JavaScript使用率穩步上升

在調試、測試和監控領域,Python SDK深受Python開發者的青睞,佔據了84.7%的使用率;與此同時,隨著開發者越來越多地投身於Web優先的應用開發,JavaScript的使用興趣也在顯著提升。

今年,JavaScript SDK在LangSmith中的使用比例達到了15.3%,與去年相比成長了三倍。

(三)智慧體正逐漸受到關注

隨著企業越來越重視在各個行業中整合智慧體,我們可控的智慧體框架LangGraph的採用率也在上升。

自2024年3月發佈以來,LangGraph的受歡迎程度穩步成長,現在有43%的使用LangSmith平台的組織正在發送LangGraph追蹤數據。

這些追蹤數據代表了複雜、協調的任務,超越了基本的大語言模型互動。

這一成長與智慧體行為的增加相一致,LangChain團隊發現,平均有21.9%的追蹤現在涉及工具調用,而2023年的平均值僅為0.5%。

工具調用允許模型自主調用函數或外部資源,標誌著更多的智慧體行為,即模型決定何時採取行動,增加工具調用的使用可以增強智慧體與外部系統交互的能力,並執行如寫入數據庫等任務。

性能與優化

在應用程式開發領域,尤其是在利用大語言模型資源的應用中,實現速度與複雜性的平衡是一個核心挑戰,LangChain團隊分析了組織如何與他們的應用程式互動,確保其需求的複雜性與性能效率相匹配。

(一)複雜性的提升並未影響任務處理的效率

與此同時,每個追蹤中大語言模型的平均調用次數成長較為溫和—從1.1次增至1.4次,這表明開發者在設計系統時,正努力在減少大語言模型調用次數的同時,實現更多的功能,既維持了系統的功能性,又有效控制了成本較高的大語言模型請求。

注:LangChain團隊觀察到每個追蹤的平均步驟數有了顯著的成長在過去的一年裡,LangChain團隊觀察到每個追蹤的平均步驟數有了顯著的成長,從2023年的2.8步上升至2024年的7.7步。

LangChain團隊將這些步驟定義為追蹤中的獨立操作,包括對大語言模型、檢索器或工具的調用,這一成長趨勢揭示了組織正在採用更加複雜和多層次的工作流程。

用戶所建構的系統已經超越了簡單的問答交互,轉而將多個任務串聯起來,如資訊檢索、訊息處理以及產出可執行的結果。

與此同時,每個追蹤中大語言模型的平均調用次數成長較為溫和,從1.1次增至1.4次,這表明開發者在設計系統時,正努力在減少大語言模型調用次數的同時,實現更多的功能,既維持了系統的功能性,又有效控制了成本較高的大語言模型請求。

大語言模型測試與評估

注:頂級評估數據排名面對如何確保大語言模型應用不產生不準確或低品質響應的挑戰,組織採取了哪些措施?

雖然維持大語言模型應用的高標準品質是一項艱鉅任務,但調查發現組織正利用LangSmith的評估工具來自動化測試流程,並建構用戶回饋機制,以開發出更加穩健和可靠的應用程式。

通過LangSmith的評估功能,組織能夠自動執行測試,並收集用戶反饋,確保大語言模型應用輸出的品質。

這不僅包括對大語言模型生成響應的準確性和品質進行測試,還涉及根據用戶回饋不斷調整和優化應用性能。

這樣的做法使得組織能夠在應對複雜需求的同時,確保大語言模型應用的性能保持高效。

(一)大語言模型作為評審員:關鍵要素評估使用大語言模型作為評審員的評估工具將評分準則整合進大語言模型的提示中,並通過大語言模型來評定輸出結果是否滿足特定的評估標準。

LangChain團隊觀察到開發者在測試中最為關注以下幾個特性:相關性、正確性、精確匹配以及有用性。

這些特性強調出大多數開發者正在進行初步的響應品質檢驗,以確保人工智慧生成的內容不會嚴重偏離預期目標。

(二)利用人類回饋進行迭代在建構大語言模型應用的過程中,人類回饋扮演著至關重要的角色,LangSmith通過加速收集和整合人類回饋至追蹤和執行過程中(即執行跨度),幫助用戶建構出更豐富的數據集,以便於改進和優化應用。

在過去一年裡,標注的執行次數成長了18倍,這一成長與LangSmith使用量的增加成正比。

儘管每次執行的回饋數量從2.28條上升到2.59條,顯示出輕微的成長,但相對於每次執行來說,回饋量仍然較少,這可能意味著用戶在審查執行時更傾向於追求速度,而不是提供詳盡的回饋,或者他們可能只針對那些最關鍵或存在問題的執行提供評論。

結論

在2024年,開發者在建構大語言模型應用時,更加傾向於採用多步驟智慧體來增加應用的複雜性;他們通過減少大語言模型的調用次數來提升效率,並引入品質檢查機制,通過回饋和評估方法來確保輸出結果的品質。

隨著大語言模型應用的不斷增多,我們期待看到開發者如何進一步探索更智慧的工作流程、提升性能表現以及增強應用的可靠性。

本文為AI新智界授權刊登,原文標題為「LangChain《2024人工智能全景報告出爐》:OpenAI依舊是龍頭 開源模型採用率上升