一、語(yǔ)料安全評(píng)估:
(一) 評(píng)估內(nèi)容
文本訓(xùn)練語(yǔ)料規(guī)模:
- 訓(xùn)練語(yǔ)料存儲(chǔ)規(guī)模,即按文本格式存儲(chǔ)時(shí)的語(yǔ)料大小。
- 訓(xùn)練語(yǔ)料數(shù)量,以詞元 (Token) 計(jì)數(shù)。
各類型語(yǔ)料規(guī)模:
- 明確訓(xùn)練語(yǔ)料中的中文文本、英文文本、代碼、圖片、音頻、視頻及其他語(yǔ)料的具體規(guī)模。
訓(xùn)練語(yǔ)料來(lái)源:
- 梳理訓(xùn)練語(yǔ)料來(lái)源的組成情況,分為開源語(yǔ)料、自采語(yǔ)料、商業(yè)語(yǔ)料進(jìn)行分類統(tǒng)計(jì)。
- 統(tǒng)計(jì)境外開源網(wǎng)站語(yǔ)料內(nèi)各類語(yǔ)料規(guī)模。
- 統(tǒng)計(jì)自采語(yǔ)料內(nèi)各類語(yǔ)料規(guī)模。
- 統(tǒng)計(jì)商業(yè)語(yǔ)料內(nèi)各類語(yǔ)料規(guī)模。
語(yǔ)料標(biāo)注數(shù)量:
- 僅限文本和圖片的標(biāo)注數(shù)量,按標(biāo)注單元計(jì)數(shù),通常以條數(shù)、張數(shù)為單位。
標(biāo)注人員情況:
- 明確標(biāo)注人員的數(shù)量和類型,包括內(nèi)部人員和外包人員。
- 標(biāo)注人員培訓(xùn)時(shí)間、培訓(xùn)數(shù)量等情況。
標(biāo)注規(guī)則:
- 按照《生成式人工智能服務(wù)管理暫行辦法》第四條要求制定標(biāo)注規(guī)則。
標(biāo)注內(nèi)容準(zhǔn)確性核驗(yàn):
- 確定標(biāo)注內(nèi)容準(zhǔn)確性人工核驗(yàn)比例。
語(yǔ)料合法性:
- 核查語(yǔ)料來(lái)源合法性情況。
- 檢查語(yǔ)料是否包含侵害他人知識(shí)產(chǎn)權(quán)內(nèi)容。
- 排查語(yǔ)料是否包含違法違規(guī)的個(gè)人信息內(nèi)容。
(二) 評(píng)估結(jié)論
判定語(yǔ)料是否符合《生成式人工智能服務(wù)管理暫行辦法》相關(guān)規(guī)定,是否含有違反我國(guó)法律法規(guī)明確禁止的內(nèi)容。
明確語(yǔ)料中包含個(gè)人信息語(yǔ)料的數(shù)量、種類,判斷是否符合《生成式人工智能服務(wù)管理暫行辦法》規(guī)定。
進(jìn)行因語(yǔ)料產(chǎn)生知識(shí)產(chǎn)權(quán)糾紛的風(fēng)險(xiǎn)分析。
提出防范語(yǔ)料安全風(fēng)險(xiǎn)的措施和建議。
二、黑盒測(cè)試
功能需求驗(yàn)證:
- 確保模型能夠按照預(yù)期執(zhí)行任務(wù),對(duì)各種類型的輸入產(chǎn)生正確和合理的輸出。
用戶界面測(cè)試:
- 針對(duì)用戶界面進(jìn)行測(cè)試,確保界面的易用性和一致性。
輸出驗(yàn)證:
三、模型安全措施評(píng)估
模型適用人群、場(chǎng)合、用途:
- 明確服務(wù)的適用人群,判斷是否適用未成年人、學(xué)生等。
- 確定適用場(chǎng)合,如是否適用關(guān)鍵信息基礎(chǔ)設(shè)施、自動(dòng)控制、醫(yī)療信息服務(wù)、心理咨詢等。
- 明確服務(wù)范圍,是否限定或未限定特定領(lǐng)域。
服務(wù)過(guò)程中收集保存?zhèn)€人信息情況:
- 梳理服務(wù)過(guò)程中收集保存?zhèn)€人信息的情況,包括個(gè)人信息的類型、數(shù)量、用途以及保存期限。
收集個(gè)人信息征得個(gè)人同意情況:
- 確定收集個(gè)人信息征得個(gè)人同意的方式。
受理處理使用者查閱、復(fù)制、更正、補(bǔ)充、刪除個(gè)人信息請(qǐng)求的情況:
圖片、視頻標(biāo)識(shí)情況:
- 確定標(biāo)識(shí)的樣式,按 1:1 比例貼入。
- 明確標(biāo)識(shí)在圖片、視頻中的具體位置。
- 確定標(biāo)識(shí)頻度,如每幀、跳幀等。
接受公眾或使用者投訴舉報(bào)情況:
- 建立接受公眾或使用者投訴舉報(bào)的途徑及反饋方式。
服務(wù)協(xié)議情況:
- 檢查上述 1 至 6 內(nèi)容是否已經(jīng)寫入模型服務(wù)協(xié)議。
非法內(nèi)容攔截措施:
- 明確監(jiān)看人員的數(shù)量。
- 預(yù)置關(guān)鍵詞攔截情況,并提供預(yù)置關(guān)鍵詞攔截列表。
- 說(shuō)明分類模型的研制情況和準(zhǔn)確性。
拒答率:
- 統(tǒng)計(jì)拒絕回答或者以簡(jiǎn)單模板回答數(shù)量占總測(cè)試數(shù)量的比率。
模型更新、升級(jí):
- 確定在何種情況下重新進(jìn)行預(yù)訓(xùn)練,如較頻繁發(fā)現(xiàn)生成非法內(nèi)容時(shí)。
四、性能評(píng)估
響應(yīng)時(shí)間:
- 測(cè)試模型在不同負(fù)載下的響應(yīng)時(shí)間,確保在合理時(shí)間內(nèi)完成任務(wù)。
資源消耗:
五、穩(wěn)定性評(píng)估
長(zhǎng)時(shí)間運(yùn)行:
- 測(cè)試模型在持續(xù)運(yùn)行下的穩(wěn)定性,避免內(nèi)存泄漏、性能下降等問(wèn)題。
大規(guī)模數(shù)據(jù)輸入:
- 模擬大規(guī)模數(shù)據(jù)輸入,檢驗(yàn)?zāi)P蛯?duì)此的穩(wěn)定性和性能。
六、安全性評(píng)估
隱私保護(hù):
- 確保模型的輸出不會(huì)侵犯用戶隱私,對(duì)個(gè)人敏感信息進(jìn)行隱私保護(hù)。
防止攻擊:
- 測(cè)試模型對(duì)惡意攻擊或異常輸入的魯棒性,確保模型不易受到攻擊。
七、可解釋性評(píng)估
- 對(duì)模型的輸出進(jìn)行解釋和驗(yàn)證,確保模型的決策是可解釋和可信的,避免模型黑盒化帶來(lái)的問(wèn)題。
八、法律和合規(guī)性評(píng)估
隱私法規(guī)遵守:
- 確保模型遵循隱私法規(guī),不違反用戶隱私和數(shù)據(jù)使用規(guī)定。
合規(guī)性檢查:
九、應(yīng)急管理措施
采取防范計(jì)算機(jī)病毒、網(wǎng)絡(luò)攻擊、網(wǎng)絡(luò)入侵等技術(shù)措施。
制定網(wǎng)絡(luò)安全應(yīng)急處置預(yù)案并且開展應(yīng)急演練,保存演練記錄材料。
警用接口建設(shè)。
十、材料準(zhǔn)備
安全評(píng)估報(bào)告。
模型服務(wù)協(xié)議。
語(yǔ)料標(biāo)準(zhǔn)規(guī)則。
攔截關(guān)鍵詞列表。
評(píng)估測(cè)試題庫(kù)。
拒答測(cè)試題庫(kù)。
網(wǎng)絡(luò)安全管理制度及操作規(guī)程。
應(yīng)急處置預(yù)案和記錄材料。
用戶投訴舉報(bào)處理、用戶管理制度。
個(gè)人信息安全保護(hù)。
安全培訓(xùn)制度。
網(wǎng)絡(luò)安全負(fù)責(zé)人任命書。
十一、【線下流程】大模型備案線下詳細(xì)步驟說(shuō)明
第一步:企業(yè)向當(dāng)?shù)鼐W(wǎng)信辦申請(qǐng)大模型備案,先確認(rèn)模型是否需要進(jìn)行備案(有些只是用開源做微調(diào)的,這種小模型一般做算法備案就好,算法備案也簡(jiǎn)單,具體情況跟網(wǎng)信辦確認(rèn),不同地區(qū)的網(wǎng)信辦要求也會(huì)有差異)。
第二步:填寫《生成式人工智能上線備案表》,準(zhǔn)備自評(píng)估報(bào)告材料,評(píng)估點(diǎn)參考表格里面提到的 6 個(gè)點(diǎn)進(jìn)行撰寫,每個(gè)點(diǎn)進(jìn)行評(píng)估的方法、風(fēng)險(xiǎn)點(diǎn)及應(yīng)急策略,報(bào)告盡量詳細(xì)點(diǎn)。
第三步:當(dāng)?shù)鼐W(wǎng)信會(huì)將報(bào)告遞交中央網(wǎng)信技術(shù)管理局進(jìn)行審核。
第四步:網(wǎng)安多個(gè)支隊(duì)對(duì)工作流程及大模型進(jìn)行上門檢查。檢查點(diǎn)非常多很多企業(yè)被卡主在這一步。
第五步:等結(jié)果。
重點(diǎn)內(nèi)容講解
自評(píng)估和準(zhǔn)備材料
語(yǔ)料安全評(píng)估:
評(píng)估文本訓(xùn)練語(yǔ)料規(guī)模,包括存儲(chǔ)大小、詞元計(jì)數(shù)等。
明確各類型語(yǔ)料規(guī)模,涵蓋不同語(yǔ)言文本、代碼、多媒體等。
梳理訓(xùn)練語(yǔ)料來(lái)源,分為開源、自采、商業(yè)等分類及明確來(lái)源地等。
統(tǒng)計(jì)語(yǔ)料標(biāo)注數(shù)量,針對(duì)文本和圖片標(biāo)注等。
明確標(biāo)注人員情況,包括數(shù)量、類型、培訓(xùn)等。
制定和檢查標(biāo)注規(guī)則,確保符合相關(guān)辦法要求。
核驗(yàn)標(biāo)注內(nèi)容準(zhǔn)確性。
分析語(yǔ)料合法性,排查有無(wú)侵權(quán)、違法違規(guī)信息等。
模型安全評(píng)估:
進(jìn)行語(yǔ)料內(nèi)容評(píng)估,包括人工、關(guān)鍵詞、分類模型抽檢及合格率等。
對(duì)生成內(nèi)容進(jìn)行評(píng)估,類似抽檢及合格率等。
開展涉知識(shí)產(chǎn)權(quán)、商業(yè)秘密等方面的評(píng)估,明確方法、標(biāo)準(zhǔn)、結(jié)果。
進(jìn)行涉民族、信仰、性別等方面的評(píng)估。
實(shí)施涉透明性、準(zhǔn)確性、可靠性等的評(píng)估。
安全措施評(píng)估:
明確模型適用人群,如是否適用未成年人等。
確定適用場(chǎng)合,如關(guān)鍵信息基礎(chǔ)設(shè)施等相關(guān)敏感場(chǎng)合。
明確用途,判斷是否限定領(lǐng)域。
梳理服務(wù)過(guò)程中收集保存?zhèn)€人信息情況,包括類型、數(shù)量、用途、保存期限。
確定收集個(gè)人信息征得個(gè)人同意的方式。
明確受理處理使用者查閱、復(fù)制、更正、補(bǔ)充、刪除個(gè)人信息請(qǐng)求的情況,包括條件和途徑方法。
規(guī)劃好圖片、視頻標(biāo)識(shí)情況,包括樣式、位置、頻度等。
建立接受公眾或使用者投訴舉報(bào)情況,明確途徑及反饋方式。
完善服務(wù)協(xié)議,將上述多方面內(nèi)容寫入。
建立非法內(nèi)容攔截措施,明確監(jiān)看人員數(shù)量、預(yù)置關(guān)鍵詞攔截列表、分類模型檢測(cè)及準(zhǔn)確性等。
統(tǒng)計(jì)拒答率,即拒絕回答等數(shù)量占比。
規(guī)劃模型更新、升級(jí)條件,如發(fā)現(xiàn)頻繁非法等情況時(shí)。
材料準(zhǔn)備(以下是常見材料舉例):
《算法備案承諾書》。
《落實(shí)算法安全主體責(zé)任基本情況》。
《算法安全自評(píng)估報(bào)告》(較復(fù)雜且重要,100 頁(yè)左右,包含附錄各種證明材料等;需明確算法原理和邏輯、數(shù)據(jù)來(lái)源合規(guī)性、算法透明度和可解釋性、安全漏洞檢測(cè)與應(yīng)對(duì)等)。
《擬公示內(nèi)容》。
大模型上線備案表:
基本情況:模型名稱、主要功能、適用人群、服務(wù)范圍等。
模型研制:模型備案情況、訓(xùn)練算力資源(自研模型)、訓(xùn)練語(yǔ)料和標(biāo)注語(yǔ)料來(lái)源與規(guī)模、語(yǔ)料合法性、算法模型的架構(gòu)和訓(xùn)練框架等。
服務(wù)與安全防范:推理算力資源、服務(wù)方式及對(duì)象等、非法內(nèi)容攔截措施、模型更新升級(jí)信息等。
安全評(píng)估:基本情況、評(píng)估情況。
自愿承諾:承諾所填信息真實(shí)性,并簽字確認(rèn)。
附件及備注:附件包括安全評(píng)估報(bào)告、模型服務(wù)協(xié)議、語(yǔ)料標(biāo)注規(guī)則、攔截關(guān)鍵詞列表、評(píng)估測(cè)試題。
安全評(píng)估報(bào)告(涵蓋語(yǔ)料安全評(píng)估、模型安全評(píng)估以及安全措施評(píng)估,并形成整體評(píng)估結(jié)論)。
模型服務(wù)協(xié)議(包含產(chǎn)品及服務(wù)的各項(xiàng)規(guī)則及隱私條款等,需協(xié)同法務(wù)共同制定提交)。
語(yǔ)料標(biāo)注規(guī)則(包括標(biāo)注團(tuán)隊(duì)介紹、功能性及安全性標(biāo)注細(xì)則,標(biāo)注流程等)。
攔截關(guān)鍵詞列表(總規(guī)模不宜少于 10000 個(gè),應(yīng)至少覆蓋《生成式人工智能服務(wù)安全基本要求》a.1 以及 a.2 中 17 種安全風(fēng)險(xiǎn),a.1 中每一種安全風(fēng)險(xiǎn)的關(guān)鍵詞均不宜少于 200 個(gè),a.2 中每一種安全風(fēng)險(xiǎn)的關(guān)鍵詞均不宜少于 100 個(gè))。
評(píng)估測(cè)試題集:包括生成內(nèi)容測(cè)試題庫(kù)、拒答內(nèi)容測(cè)試題庫(kù)、非拒答測(cè)試題庫(kù)。要嚴(yán)格覆蓋 TC260 的 5 大類,31 小類。