近年來,人工智能大模型快速迭代與深度應(yīng)用,正加速重塑各行業(yè)發(fā)展模式,數(shù)據(jù)作為人工智能核心三要素之一,其質(zhì)量直接決定模型的訓(xùn)練效果與應(yīng)用價值,高質(zhì)量數(shù)據(jù)集已成為驅(qū)動AI模型性能提升、賦能千行百業(yè)的關(guān)鍵基礎(chǔ)資源。
根據(jù)國家數(shù)據(jù)局指導(dǎo)發(fā)布的《高質(zhì)量數(shù)據(jù)集建設(shè)指引》,高質(zhì)量數(shù)據(jù)集是指:經(jīng)過采集、加工等數(shù)據(jù)處理,可直接用于開發(fā)和訓(xùn)練人工智能模型,能有效提升模型表現(xiàn)的數(shù)據(jù)的集合。數(shù)據(jù)顯示,截至2025年年底,全國范圍內(nèi)已建成的高質(zhì)量數(shù)據(jù)集超過10萬個,總體量突破890PB,這一方面彰顯了國家在高質(zhì)量數(shù)據(jù)集建設(shè)上的堅(jiān)定決心,另一方面也預(yù)示著高質(zhì)量數(shù)據(jù)集未來將在各領(lǐng)域發(fā)揮更多作用。
為加快推動高質(zhì)量數(shù)據(jù)集建設(shè),充分發(fā)揮我國海量數(shù)據(jù)資源和豐富應(yīng)用場景的優(yōu)勢,國家和地方層面紛紛發(fā)力,密集啟動高質(zhì)量數(shù)據(jù)集征集、典型案例評選及先行先試項(xiàng)目,旨在匯聚一批具備先進(jìn)性、創(chuàng)新性、示范性、合規(guī)性的數(shù)據(jù)資源,總結(jié)推廣先進(jìn)建設(shè)經(jīng)驗(yàn),進(jìn)一步釋放數(shù)據(jù)要素價值。據(jù)湖南國脈原道數(shù)據(jù)科技有限公司研究團(tuán)隊(duì)不完全統(tǒng)計(jì),截至目前網(wǎng)上公開的高質(zhì)量數(shù)據(jù)集征集材料涵蓋國家及40余個地區(qū),共計(jì)60余份。為幫助相關(guān)單位精準(zhǔn)掌握各地高質(zhì)量數(shù)據(jù)集申報(bào)要求,規(guī)避申報(bào)過程中的難點(diǎn)痛點(diǎn),研究團(tuán)隊(duì)對申報(bào)主體資質(zhì)、征集方向、數(shù)據(jù)集要求等核心要點(diǎn)進(jìn)行系統(tǒng)梳理、提煉匯總,并提出了幾點(diǎn)申報(bào)建議,供各相關(guān)單位申報(bào)參考、借鑒使用。
通過公開渠道共收集涵蓋國家、省、市、縣(市)四個層級,合計(jì)42個地區(qū)的69份高質(zhì)量數(shù)據(jù)集征集文件,具體情況如下:
1.從發(fā)布機(jī)構(gòu)來看,近80%的征集文件由各級數(shù)據(jù)部門發(fā)布,體現(xiàn)了數(shù)據(jù)主管部門的核心統(tǒng)籌推動作用,工信、住建部門主要發(fā)布與其相關(guān)專項(xiàng)行業(yè)領(lǐng)域高質(zhì)量數(shù)據(jù)集征集文件,呈現(xiàn)出“數(shù)據(jù)部門主導(dǎo)、行業(yè)部門協(xié)同”的特點(diǎn)。

2.從發(fā)布時間來看,2024年為啟動階段,征集量較少,湖北省、山東省、廣東省、河北省4個地區(qū)共計(jì)發(fā)布了7份征集文件;2025年進(jìn)入發(fā)布高峰期,國家數(shù)據(jù)局綜合司于當(dāng)年6月發(fā)布了《關(guān)于征集高質(zhì)量數(shù)據(jù)集典型案例的通知》,地方層面也積極推進(jìn),全年共發(fā)布44份征集文件,成為高質(zhì)量數(shù)據(jù)集征集工作的核心推進(jìn)期;2026年征集工作持續(xù)深化,截至4月初已發(fā)布18份征集文件,展現(xiàn)出良好的延續(xù)性與深入態(tài)勢。

3.從發(fā)布地區(qū)來看,湖北省、廣東省、山東省發(fā)布的征集文件數(shù)量較多,且三地均從2024年就率先啟動征集工作;其次為福建省、浙江省、江蘇省等地??傮w而言,東部沿海區(qū)域征集文件發(fā)布最為密集,其發(fā)布數(shù)量占總數(shù)的50%以上,與該區(qū)域數(shù)字經(jīng)濟(jì)發(fā)展水平高、數(shù)據(jù)資源富集、政策推進(jìn)力度大密切相關(guān)。
1.主體資質(zhì):大部分要求申報(bào)主體為對應(yīng)申報(bào)地轄區(qū)注冊登記的企事業(yè)單位、科研機(jī)構(gòu)、高等院校、社會組織等,具有獨(dú)立法人資格,個別地區(qū)未限制主體性質(zhì),如海南省住建廳、湖北省住建廳2026年2月份發(fā)布的征集公告明確單位和個人均可;此外,部分地區(qū)還要求稅務(wù)征管關(guān)系或生產(chǎn)經(jīng)營活動在轄區(qū)范圍內(nèi)。
2.經(jīng)營與信用狀況:大部分要求近三年經(jīng)營狀況良好,在信用、質(zhì)量、安全、環(huán)保等方面無不良記錄,部分地區(qū)還要求財(cái)務(wù)管理制度健全,近三年未發(fā)生重大網(wǎng)絡(luò)、數(shù)據(jù)安全事件等。
3.能力與資源:部分地區(qū)對申報(bào)主體專業(yè)能力與資源保障提出要求,如申報(bào)單位應(yīng)從事數(shù)字經(jīng)濟(jì)領(lǐng)域研發(fā)、制造或應(yīng)用,或具備行業(yè)領(lǐng)先的數(shù)據(jù)匯聚能力、技術(shù)先進(jìn)的數(shù)據(jù)治理能力,配備穩(wěn)定專業(yè)的技術(shù)團(tuán)隊(duì)、具備持續(xù)的資金投入等。
4.申報(bào)形式:允許聯(lián)合申報(bào)為多數(shù)地區(qū)通行規(guī)則,須明確牽頭單位及各成員權(quán)責(zé)分工;個別地區(qū)對聯(lián)合體成員數(shù)量提出限制要求,如江蘇省數(shù)據(jù)局2026年征集文件要求聯(lián)合申報(bào)成員單位最多3家;少數(shù)地區(qū)不接受聯(lián)合申報(bào),如上海市數(shù)據(jù)局2025年征集文件、湖南省數(shù)據(jù)局2026年征集文件。
5.其他限制性要求:一是重復(fù)申報(bào)限制,江蘇省、上海市等地區(qū)明確,已入選2025年度國家數(shù)據(jù)局行業(yè)高質(zhì)量數(shù)據(jù)集先行先試項(xiàng)目的,不得在本批次重復(fù)申報(bào);二是申報(bào)數(shù)量限制,部分地區(qū)對同一單位在同一批次申報(bào)中牽頭或參與項(xiàng)目數(shù)量設(shè)上限,如北京市不超過5個、寧波市僅限1個,避免過度申報(bào)擠占資源。
1.核心征集領(lǐng)域:以“數(shù)據(jù)要素×”12個重點(diǎn)行業(yè)為核心征集領(lǐng)域,包括工業(yè)制造、現(xiàn)代農(nóng)業(yè)、商貿(mào)流通、交通運(yùn)輸、金融服務(wù)、科技創(chuàng)新、文化旅游、醫(yī)療健康、應(yīng)急管理、氣象服務(wù)、城市治理、綠色低碳,加上教育教學(xué)、智慧能源、人力資源、公共安全等常駐領(lǐng)域。
2.創(chuàng)新熱點(diǎn)領(lǐng)域:創(chuàng)新熱點(diǎn)征集方向集中在低空經(jīng)濟(jì)、具身智能、智能駕駛、生物制造、智慧海洋等新興領(lǐng)域,各地也會結(jié)合本地產(chǎn)業(yè)特色(如上海市“五個中心”相關(guān)行業(yè)領(lǐng)域、湖南的“4×4”現(xiàn)代化產(chǎn)業(yè)體系、蘇州的“1030”產(chǎn)業(yè)、廣州的“12218”體系)細(xì)化細(xì)分領(lǐng)域,貼合區(qū)域產(chǎn)業(yè)布局。
3.行業(yè)專項(xiàng)征集:部分行業(yè)開展了專項(xiàng)高質(zhì)量數(shù)據(jù)集征集,精準(zhǔn)破解重點(diǎn)行業(yè)數(shù)據(jù)供給不足問題,提升數(shù)據(jù)集的針對性和應(yīng)用價值。目前已開展專項(xiàng)征集的行業(yè)為住建行業(yè)(圍繞城市治理、住房與房地產(chǎn)、城鄉(xiāng)建設(shè)、建筑業(yè)等細(xì)分領(lǐng)域)和工業(yè)和制造業(yè)領(lǐng)域(圍繞行業(yè)研發(fā)設(shè)計(jì)、中試驗(yàn)證、生產(chǎn)制造、經(jīng)營管理、產(chǎn)業(yè)協(xié)同等關(guān)鍵場景)。
1.實(shí)施進(jìn)程:各地對數(shù)據(jù)集建設(shè)階段要求存在差異化標(biāo)準(zhǔn),以已建成并具備常態(tài)化更新能力為核心導(dǎo)向。多數(shù)地區(qū)要求申報(bào)數(shù)據(jù)集已完成建設(shè),建立穩(wěn)定、可持續(xù)的定期更新機(jī)制;部分地區(qū)允許在建或擬建數(shù)據(jù)集申報(bào),但需明確建設(shè)計(jì)劃與完工時限,如溫州市要求2026年6月底前完成,武漢市要求2026年10月31日前完成。
2.規(guī)模量級:整體以實(shí)用夠用、支撐應(yīng)用為原則,多數(shù)地區(qū)未設(shè)置硬性數(shù)據(jù)條數(shù)或體量門檻,統(tǒng)一強(qiáng)調(diào)數(shù)據(jù)集需達(dá)到一定規(guī)模與量級,可滿足模型訓(xùn)練、算法驗(yàn)證、業(yè)務(wù)落地等實(shí)際使用需求。下表整理了部分明確數(shù)據(jù)規(guī)模地區(qū)的要求:
3.數(shù)據(jù)質(zhì)量:大部分地區(qū)未提出明確數(shù)據(jù)質(zhì)量要求,普遍要求數(shù)據(jù)在真實(shí)性、完整性、規(guī)范性、準(zhǔn)確性、及時性、一致性、相關(guān)性方面達(dá)到較高水準(zhǔn);少數(shù)地區(qū)明確量化要求,如北京市工信局2026年高質(zhì)量數(shù)據(jù)集需求清單按領(lǐng)域細(xì)分質(zhì)量標(biāo)準(zhǔn),貴州省大數(shù)據(jù)局2025年征集文件要求數(shù)據(jù)重復(fù)率≤5%、近5年數(shù)據(jù)占比≥50%;寧波市發(fā)布《高質(zhì)量數(shù)據(jù)集建設(shè)評價體系指引(試行)》,對真實(shí)性、完整性、規(guī)范性、準(zhǔn)確性等維度制定具體評價細(xì)則。
此外,根據(jù)全國數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會2025年8月發(fā)布的《高質(zhì)量數(shù)據(jù)集質(zhì)量 評測規(guī)范》,高質(zhì)量數(shù)據(jù)集質(zhì)量評測涵蓋三大維度:說明文檔、數(shù)據(jù)質(zhì)量和模型應(yīng)用。每個維度下設(shè)若干子指標(biāo),采用百分制評分,要求各維度得分均達(dá)到90分及以上方可認(rèn)定為高質(zhì)量數(shù)據(jù)集。
4.應(yīng)用價值:申報(bào)數(shù)據(jù)集需場景落地、價值可證、示范可推。應(yīng)具有實(shí)際的業(yè)務(wù)應(yīng)用場景,具備一定的先進(jìn)性、創(chuàng)新性、規(guī)模性和示范性,并取得了一定的經(jīng)濟(jì)效益或社會效益,成果可復(fù)制、可推廣,能夠支持開展人工智能大模型開發(fā)訓(xùn)練或支撐專業(yè)算法應(yīng)用,具備可持續(xù)更新或服務(wù)能力。
5.安全合規(guī):合規(guī)性是申報(bào)的第一生命線,所有數(shù)據(jù)集建設(shè)必須嚴(yán)格遵守《數(shù)據(jù)安全法》《個人信息保護(hù)法》等法律法規(guī)要求;數(shù)據(jù)來源合法,權(quán)屬清晰,申報(bào)單位對申報(bào)項(xiàng)目所用的技術(shù)、產(chǎn)品擁有明晰的知識產(chǎn)權(quán),無知識產(chǎn)權(quán)糾紛;不涉及個人隱私、商業(yè)秘密、國家秘密;不得包含違反社會主義核心價值觀的內(nèi)容。
6.測試樣本:部分地區(qū)要求隨申報(bào)提供測試樣本,數(shù)量要求100-1000條不等,如北京市要求不少于1000條樣本數(shù)據(jù),安徽省要求200-500條,湖北省要求不少于100條。
1.政策密集,窗口期有限:各地征集公告發(fā)布時間申報(bào)窗口通常較短,通常為15~30天,部分緊急征集甚至不足一周,對申報(bào)單位的響應(yīng)速度提出了挑戰(zhàn)。有意向的單位提前準(zhǔn)備,建立常態(tài)化跟蹤機(jī)制,密切關(guān)注屬地大數(shù)據(jù)局、工信部門、發(fā)改部門及國家級相關(guān)平臺的官方通知。
2.標(biāo)準(zhǔn)趨嚴(yán),質(zhì)量優(yōu)先:從規(guī)模要求到質(zhì)量評測,各地對數(shù)據(jù)集的“量”和“質(zhì)”均提出更高門檻。建議申報(bào)單位在數(shù)據(jù)清洗、標(biāo)注、合規(guī)審查等環(huán)節(jié)引入專業(yè)評測工具或第三方服務(wù),確保達(dá)到高質(zhì)量標(biāo)準(zhǔn)。同時,建立質(zhì)量自評體系,留存數(shù)據(jù)溯源、清洗日志、抽樣檢驗(yàn)等過程記錄。對于涉及敏感信息的數(shù)據(jù),還需完成脫敏處理及合規(guī)性審查。
3.場景驅(qū)動,價值導(dǎo)向:單純“堆數(shù)據(jù)”已不具競爭力,“數(shù)據(jù)+場景+應(yīng)用+成效”成為評審核心,能支撐大模型訓(xùn)練、解決行業(yè)痛點(diǎn)、產(chǎn)生實(shí)際價值的數(shù)據(jù)集更易入選。申報(bào)材料需突出實(shí)際業(yè)務(wù)場景、落地成效、可推廣性,提供量化成效數(shù)據(jù),如模型精度提升比例、效率提升幅度、成本降低金額等,附上應(yīng)用案例、用戶證明、合作協(xié)議、獲獎證書等材料,增強(qiáng)說服力。
4.合規(guī)先行,規(guī)避風(fēng)險(xiǎn):數(shù)據(jù)來源合法性、知識產(chǎn)權(quán)歸屬、隱私保護(hù)及安全合規(guī)是評審中的“一票否決項(xiàng)”。建議提前開展數(shù)據(jù)資產(chǎn)盤點(diǎn)與合規(guī)審計(jì),確權(quán)、授權(quán)、溯源全程留痕,完善授權(quán)協(xié)議、采購合同、知識產(chǎn)權(quán)證明;建立數(shù)據(jù)安全管理制度,完成等保備案、數(shù)據(jù)分類分級、隱私保護(hù)認(rèn)證,配備安全防護(hù)措施。
5.聯(lián)合申報(bào),優(yōu)勢互補(bǔ):高質(zhì)量數(shù)據(jù)集的構(gòu)建往往需要數(shù)據(jù)資源、行業(yè)知識、技術(shù)能力等多方協(xié)作,對于數(shù)據(jù)資源豐富但技術(shù)能力不足,或技術(shù)領(lǐng)先但數(shù)據(jù)分散的單位,可考慮聯(lián)合體申報(bào),整合互補(bǔ)資源,提升數(shù)據(jù)集綜合質(zhì)量,但需注意,各地對聯(lián)合申報(bào)的成員數(shù)量、牽頭單位資質(zhì)的限制。
來源:湖南國脈原道數(shù)據(jù)科技有限公司研究團(tuán)隊(duì)
凡本網(wǎng)注明“來源:國脈電子政務(wù)網(wǎng)” 、“來源:國脈原道”的所有作品,版權(quán)均屬于國脈電子政務(wù)網(wǎng)(本網(wǎng)另有聲明的除外);未經(jīng)本網(wǎng)授權(quán),任何單位及個人不得轉(zhuǎn)載、摘編或以其它 方式使用上述作品;已經(jīng)與本網(wǎng)簽署相關(guān)授權(quán)使用協(xié)議的單位及個人,在授權(quán)范圍內(nèi)使用時應(yīng)注明來源。違反者本網(wǎng)將追究其相關(guān)法律責(zé)任。
更多精彩,請關(guān)注“官方微信”

國脈,是營商環(huán)境、數(shù)字政府、數(shù)字經(jīng)濟(jì)、低空經(jīng)濟(jì)、民營經(jīng)濟(jì)、產(chǎn)業(yè)發(fā)展、數(shù)字企業(yè)等領(lǐng)域的專業(yè)提供商。創(chuàng)新提出"軟件+咨詢+數(shù)據(jù)+平臺+創(chuàng)新業(yè)務(wù)"五位一體服務(wù)模型,擁有營商環(huán)境督查與考核評估系統(tǒng)、政策智能服務(wù)系統(tǒng)、數(shù)據(jù)資源目錄系統(tǒng)、數(shù)據(jù)基因、數(shù)據(jù)母體、數(shù)據(jù)智能評估系統(tǒng)等幾十項(xiàng)軟件產(chǎn)品,長期為中國城市、政府和企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務(wù),廣泛服務(wù)于發(fā)改委、營商環(huán)境局、考核辦、數(shù)據(jù)局、行政審批局等政府客戶、中央企業(yè)和高等院校。
