在企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程中,大模型業(yè)務(wù)適配需求愈發(fā)迫切,但數(shù)據(jù)準(zhǔn)備卻成為關(guān)鍵阻礙。一方面,大模型訓(xùn)練需高質(zhì)量、充足的數(shù)據(jù)支撐,而垂類場(chǎng)景下,高質(zhì)量標(biāo)注數(shù)據(jù)稀缺且成本高,隱私合規(guī)也限制了數(shù)據(jù)來(lái)源;另一方面,數(shù)據(jù)類別不平衡也會(huì)影響模型效果,且多數(shù)企業(yè)團(tuán)隊(duì)缺乏算法背景,傳統(tǒng)數(shù)據(jù)增強(qiáng)技術(shù)門檻高,難以實(shí)現(xiàn)小數(shù)據(jù)量下的高效能。
為此,百度智能云千帆ModelBuilder重磅升級(jí)文本數(shù)據(jù)集“數(shù)據(jù)增強(qiáng)”功能,業(yè)界首創(chuàng)智能生成+人工篩選雙軌增強(qiáng)鏈路。直擊精調(diào)數(shù)據(jù)樣本稀疏與分布偏差兩大痛點(diǎn),通過(guò)Evol-Instruct等算法產(chǎn)品化實(shí)現(xiàn)能力多元拓展,結(jié)合自動(dòng)化效率與人工質(zhì)控雙重保障,大幅降低訓(xùn)練集構(gòu)建門檻與成本,讓非技術(shù)用戶也能高效打造優(yōu)質(zhì)數(shù)據(jù),推動(dòng)模型效果顯著提升。
在大模型訓(xùn)練中,訓(xùn)練數(shù)據(jù)的樣本量和多樣性直接影響模型的表現(xiàn)和泛化能力。數(shù)據(jù)增強(qiáng)是指通過(guò)對(duì)已有的種子數(shù)據(jù)施加特定的變換、擾動(dòng)或生成策略,創(chuàng)造出一系列內(nèi)容合理、語(yǔ)義和風(fēng)格保持一致但形式多樣的增強(qiáng)數(shù)據(jù)。通過(guò)這種方式擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,增強(qiáng)訓(xùn)練數(shù)據(jù)的多樣性,引導(dǎo)模型在訓(xùn)練中學(xué)習(xí)到更豐富的語(yǔ)言模式與語(yǔ)義變體,從而降低過(guò)擬合風(fēng)險(xiǎn),增強(qiáng)模型在真實(shí)場(chǎng)景中的泛化能力。
百度智能云千帆模型開(kāi)發(fā)平臺(tái)ModelBuilder支持對(duì)文本數(shù)據(jù)集進(jìn)行靈活的增強(qiáng)操作,支持分步生成多樣化的Prompt和高質(zhì)量的Response訓(xùn)練數(shù)據(jù),改善模型訓(xùn)練效果。
百度智能云千帆ModelBuider“數(shù)據(jù)增強(qiáng)”擁有四大核心優(yōu)勢(shì):一是精準(zhǔn)解決精調(diào)數(shù)據(jù)樣本稀疏與分布偏差兩大痛點(diǎn),有效提升模型泛化能力;二是集成Evol-Instruct等前沿算法并實(shí)現(xiàn)產(chǎn)品化落地,提供豐富預(yù)置增強(qiáng)方向與高度自定義配置,適配各類差異化業(yè)務(wù)場(chǎng)景;三是獨(dú)創(chuàng)“Prompt自動(dòng)生成→人工篩選優(yōu)化→Response智能生成”增強(qiáng)鏈路,兼顧效率與數(shù)據(jù)質(zhì)量;四是通過(guò)零代碼、可視化操作界面,降低技術(shù)門檻與經(jīng)濟(jì)成本,讓非算法背景人員也能高效構(gòu)建訓(xùn)練集。
在輿論媒體文本情感分析場(chǎng)景,情感分析(也被稱為意見(jiàn)挖掘)是自然語(yǔ)言處理的重要分支,需判斷文本情感傾向,應(yīng)用廣泛但面臨數(shù)據(jù)差異大、文本形式復(fù)雜等挑戰(zhàn)。
經(jīng)實(shí)驗(yàn),基于目前平臺(tái)的數(shù)據(jù)增強(qiáng)功能,在原始數(shù)據(jù)量有限或質(zhì)量不足時(shí),通過(guò)創(chuàng)造多樣化的“新”數(shù)據(jù),能夠針對(duì)具體業(yè)務(wù)場(chǎng)景,結(jié)合模型精調(diào)有效提高模型的性能。本實(shí)驗(yàn)僅采用輕量化模型ERNIE-Tiny-8K和默認(rèn)參數(shù)配置作為參考,僅使用20條數(shù)據(jù),準(zhǔn)確率已經(jīng)能夠從基礎(chǔ)模型的23%提升到85%,二次優(yōu)化后,也能提升至86%,并幾乎追平“人工準(zhǔn)備數(shù)據(jù)3000條”的模型效果。
目前,百度智能云千帆ModelBuilder “數(shù)據(jù)增強(qiáng)”功能已正式上線。開(kāi)發(fā)者可訪問(wèn)百度智能云千帆官網(wǎng)體驗(yàn),建議在數(shù)據(jù)增強(qiáng)后,開(kāi)發(fā)者人工審核標(biāo)注結(jié)果以及數(shù)據(jù)分布情況,確保數(shù)據(jù)質(zhì)量及分布均滿足要求,然后發(fā)起模型精調(diào)。
評(píng)論列表(已有條評(píng)論)
最新評(píng)論