123,123

在企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程中，大模型業(yè)務(wù)適配需求愈發(fā)迫切，但數(shù)據(jù)準(zhǔn)備卻成為關(guān)鍵阻礙。一方面，大模型訓(xùn)練需高質(zhì)量、充足的數(shù)據(jù)支撐，而垂類場景下，高質(zhì)量標(biāo)注數(shù)據(jù)稀缺且成本高，隱私合規(guī)也限制了數(shù)據(jù)來源；另一方面，數(shù)據(jù)類別不平衡也會(huì)影響模型效果，且多數(shù)企業(yè)團(tuán)隊(duì)缺乏算法背景，傳統(tǒng)數(shù)據(jù)增強(qiáng)技術(shù)門檻高，難以實(shí)現(xiàn)小數(shù)據(jù)量下的高效能。

為此，百度智能云千帆ModelBuilder重磅升級文本數(shù)據(jù)集“數(shù)據(jù)增強(qiáng)”功能，業(yè)界首創(chuàng)智能生成+人工篩選雙軌增強(qiáng)鏈路。直擊精調(diào)數(shù)據(jù)樣本稀疏與分布偏差兩大痛點(diǎn)，通過Evol-Instruct等算法產(chǎn)品化實(shí)現(xiàn)能力多元拓展，結(jié)合自動(dòng)化效率與人工質(zhì)控雙重保障，大幅降低訓(xùn)練集構(gòu)建門檻與成本，讓非技術(shù)用戶也能高效打造優(yōu)質(zhì)數(shù)據(jù)，推動(dòng)模型效果顯著提升。

在大模型訓(xùn)練中，訓(xùn)練數(shù)據(jù)的樣本量和多樣性直接影響模型的表現(xiàn)和泛化能力。數(shù)據(jù)增強(qiáng)是指通過對已有的種子數(shù)據(jù)施加特定的變換、擾動(dòng)或生成策略，創(chuàng)造出一系列內(nèi)容合理、語義和風(fēng)格保持一致但形式多樣的增強(qiáng)數(shù)據(jù)。通過這種方式擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模，增強(qiáng)訓(xùn)練數(shù)據(jù)的多樣性，引導(dǎo)模型在訓(xùn)練中學(xué)習(xí)到更豐富的語言模式與語義變體，從而降低過擬合風(fēng)險(xiǎn)，增強(qiáng)模型在真實(shí)場景中的泛化能力。

百度智能云千帆模型開發(fā)平臺(tái)ModelBuilder支持對文本數(shù)據(jù)集進(jìn)行靈活的增強(qiáng)操作，支持分步生成多樣化的Prompt和高質(zhì)量的Response訓(xùn)練數(shù)據(jù)，改善模型訓(xùn)練效果。

百度智能云千帆ModelBuider“數(shù)據(jù)增強(qiáng)”擁有四大核心優(yōu)勢：一是精準(zhǔn)解決精調(diào)數(shù)據(jù)樣本稀疏與分布偏差兩大痛點(diǎn)，有效提升模型泛化能力；二是集成Evol-Instruct等前沿算法并實(shí)現(xiàn)產(chǎn)品化落地，提供豐富預(yù)置增強(qiáng)方向與高度自定義配置，適配各類差異化業(yè)務(wù)場景；三是獨(dú)創(chuàng)“Prompt自動(dòng)生成→人工篩選優(yōu)化→Response智能生成”增強(qiáng)鏈路，兼顧效率與數(shù)據(jù)質(zhì)量；四是通過零代碼、可視化操作界面，降低技術(shù)門檻與經(jīng)濟(jì)成本，讓非算法背景人員也能高效構(gòu)建訓(xùn)練集。

圖片1.jpg

在輿論媒體文本情感分析場景，情感分析（也被稱為意見挖掘）是自然語言處理的重要分支，需判斷文本情感傾向，應(yīng)用廣泛但面臨數(shù)據(jù)差異大、文本形式復(fù)雜等挑戰(zhàn)。

經(jīng)實(shí)驗(yàn)，基于目前平臺(tái)的數(shù)據(jù)增強(qiáng)功能，在原始數(shù)據(jù)量有限或質(zhì)量不足時(shí)，通過創(chuàng)造多樣化的“新”數(shù)據(jù)，能夠針對具體業(yè)務(wù)場景，結(jié)合模型精調(diào)有效提高模型的性能。本實(shí)驗(yàn)僅采用輕量化模型ERNIE-Tiny-8K和默認(rèn)參數(shù)配置作為參考，僅使用20條數(shù)據(jù)，準(zhǔn)確率已經(jīng)能夠從基礎(chǔ)模型的23%提升到85%，二次優(yōu)化后，也能提升至86%，并幾乎追平“人工準(zhǔn)備數(shù)據(jù)3000條”的模型效果。

圖片2.jpg

目前，百度智能云千帆ModelBuilder “數(shù)據(jù)增強(qiáng)”功能已正式上線。開發(fā)者可訪問百度智能云千帆官網(wǎng)體驗(yàn)，建議在數(shù)據(jù)增強(qiáng)后，開發(fā)者人工審核標(biāo)注結(jié)果以及數(shù)據(jù)分布情況，確保數(shù)據(jù)質(zhì)量及分布均滿足要求，然后發(fā)起模型精調(diào)。

人已贊

···

業(yè)界首創(chuàng)！百度智能云千帆升級數(shù)據(jù)增強(qiáng)功能，20條數(shù)據(jù)即可實(shí)現(xiàn)大模型高效訓(xùn)練

相關(guān)文章

評論列表(已有條評論)

最新評論

業(yè)界首創(chuàng)！百度智能云千帆升級數(shù)據(jù)增強(qiáng)功能，20條數(shù)據(jù)即可實(shí)現(xiàn)大模型高效訓(xùn)練

相關(guān)文章

評論列表(已有條評論)

最新評論

業(yè)界首創(chuàng)！百度智能云千帆升級數(shù)據(jù)增強(qiáng)功能，20條數(shù)據(jù)即可實(shí)現(xiàn)大模型高效訓(xùn)練