分支機構動態
分支機構動態丨生態環境大模型應用評估基準測試(ELLE)第1賽季結果發布:12款模型誰更“懂”環境?
近日,中國環境科學學會生態環境人工智能專委會發布生態環境大模型應用評估基準測試(Environmental large language model Evaluation, ELLE)第1賽季結果。2025年3月28日-4月3日期間,ELLE對12款主流大語言模型及應用的生態環境專業能力進行多維度測評。測評覆蓋污染治理、政策分析等核心場景,最終結果顯示:TianGong-Agent-2025-04-01以綜合94.3分領跑榜單,緊隨其后的DeepSeek-reasoner(93.8分)、ChatGPT-4o-2024-11-20(91.7分)與ChatGPT-o1-2024-12-17(91.0分)展現出頭部模型的技術優勢,其余模型得分集中在80-90分區間,點擊訪問完整測評結果:生態環境大模型測試(ELLE)排名。


12款主流大語言模型ELLE綜合得分排名
本次測試包括多領域、多難度的生態環境專業題目,旨在考察大模型在專業計算、邏輯推理以及政策分析等多方面的綜合能力。
計算題(約35%)。涉及公式推導、濃度換算、工程參數計算等,如溶解氧濃度計算、污泥體積縮減以及燃料燃燒的理論空氣量計算。
邏輯推理題(約30%)。要求對污染物特征匹配、環境機制分析或治理策略選擇,如分析光化學煙霧前體匹配、水質模型選擇等。
專業基礎知識題(約25%)。涉及環境現象解釋、技術原理或政策影響,如生物吸附劑在重金屬治理中的原理、碳泄漏機制及其國際貿易影響。
混合類型(約10%)。結合了計算與邏輯推理,典型案例如健康風險評估中日均暴露量公式的推導與應用。
此次TianGong-Agent-2025-04-01智能體架構(https://github.com/linancn/tiangong-ai-langgraph-server)憑借其智能協作框架在評測中表現突出。該架構設計了一套“問題分類→專業化處理→評估迭代”的三階段問題解決流程。大語言模型首先對問題進行分類,隨后將問題分配至相應的處理模塊。在這一環節,智能體針對不同類型問題可以靈活調用相應工具,包括自動檢索知識庫,從而更高效、準確地實現復雜問題的動態處理。在得到初步答案后,智能體不會直接輸出初步結果,而是進入評估環節,通過多維度評分體系對答案質量進行客觀評價,并提出具體改進建議。若評分未達到預設閾值,問題將重新進入分類環節,形成閉環優化機制,確保最終輸出的質量和可靠性。此外,相較于上一賽季,TianGong-Agent在部分環節使用了推理模型。通過以上策略,使TianGong-Agent能夠像專業人士一樣處理復雜問題,識別需求、調用專業工具、評估反思并持續改進,顯著提高了問題解決的準確性,實現比原生大語言模型更優的領域專業性。
隨著領域數據的不斷補充,大語言模型及其應用在生態環境領域的學科專業度、應用廣度與解題深度方面都有望迎來進一步的提升。我們誠摯歡迎更多研究者與開發者參與到ELLE基準測試工作中,共同推動AI在綠色發展和生態文明建設中發揮更加積極的作用。



供稿丨中國環境科學學會生態環境人工智能專業委員會