GPT-4让AI更加具有像人一样的能力,AI生成的文本的流畅度也令人惊叹,越来越难以辨识。在这一背景下,AI检测文本工具可以通过对生成文本进行追踪和检测,来识别文本是否由AI生成,这也成为防止大型AI语言模型用于作弊等行为的利器。
(资料图)
日前,复旦大学自然语言处理实验室推出了一款用于AI生成文本检测的测试软件“谛听”(英文:Sniffer),基于黑盒假设,无需大规模监督训练,就能检测AI生成的文本。据该软件的英文版本介绍,对于ChatGPT生成文本的检测率达到80%左右。
实验室负责人邱锡鹏教授3月16日晚间在微信朋友圈上表示:“后续将会在MOSS语言模型开源后,将Sniffer与MOSS进行联动,构成一对矛与盾,相互提升,继续探索大模型的新技术。”
上个月,邱锡鹏告诉第一财经记者,如果优化顺利,MOSS将于3月底开源。团队表示,未来“谛听”软件工具还将支持GPT-4等更多大模型等检测,并在检测性能提升后整理公开模型。
不过团队坦言,由于“谛听”的模型是建立在“黑盒假设”下,因此对于输入文本的来源模型并不知晓,而且与监督训练的分类器相比 ,将仅使用少部分数据进行训练。
值得注意的是,测试集的检测结果显示,该模型中文检测的准确率低于英文,因此中文检测结果还需要进一步提升。
根据“谛听”的英文版介绍,在保留的测试集上检测结果显示,识别ChatGPT生成文本的成功率在80%左右,识别人类书写文本或GPT-2生成文本的成功率高于90%;非常短的文本(50个单词或更少)很难被检测到。此外,英文人工编写的示例文本来自维基百科。
“谛听”英文检测结果分为四类:来自人类; 来自人类、但可能有大模型如GPT-3辅助;来自GPT-3模型;来自GPT-2模型。
“谛听”中文版的检测结果分为三类:一是“文本是人写的”、二是“文本是人写的,但是也很可能包含AI参与”、三是“文本是出自于AI模型的”。
3月17日,邱锡鹏对第一财经记者表示:“对ChatGPT级别的中文检测准确率目前只有约40%,不过对于小模型(3B左右的开源GPT-2模型)生成的准确率可以达到90%左右。”
他解释称,中文检测的准确率低于英文有几个原因。“首先是英文采用的wikipedia数据集进行特征提取,因此覆盖面更广,中文选择的数据质量差一些,这也是我们发布beta测试并且正在改进的地方;第二个是中文大模型的tokenizer(分词器)差异会大一些。”邱锡鹏说道。
他还表示,关于生成文本检测,国外有一些已经发布的产品,对比下来,针对GPT-2级别的模型,准确率比较高,针对GPT-3级别的模型,检测结果还比较差。
“一方面是这些模型是黑盒,我们的掌握信息有限,另一方面是这些模型生成质量很高,多样性也很好,尤其是GPT-4出现以后,相比于GPT-3.5,检测难度进一步增加了。”邱锡鹏对第一财经记者表示,“总而言之,在大模型时代,文本检测的机器评测准确率仍然较低,还需要进一步的研究。”
目前的AI文本检测方式大致可分为两类:黑盒假设和白盒假设。所谓的“黑盒假设”对大型语言模型通常只有API级别的访问权限。因此,这类方法依靠于收集人类和机器的文本数据样本来训练分类模型;“白盒假设”拥有对大型语言模型的所有访问权限,并且可以通过控制模型的生成行为或者在生成文本中加入水印(watermark)来对生成文本进行追踪和检测。
在实践中,黑盒检测器通常由第三方构建,例如较为著名的GPTZero,而白盒检测器通常由大型语言模型开发人员构建。不过由于“黑盒假设”在数据收集的过程中很容易引入偏见(biases),这些偏见常常会被黑盒分类器作为分类的主要特征。而随着大型语言模型能力的提升,大型语言模型生成的文本和人类的差距越来越小,这会导致黑盒模型的检测准确性越来越低
此外,对于黑盒检测,用户可以微调他们的模型,改变模型输出的风格或者格式,从而导致黑盒检测无法找到通用的检测特征。
复旦大学的语言模型MOSS自上个月推出以来备受各界关注。邱锡鹏认为,国外开发者不太可能以中文为主去发展他们的模型,中国要想开发一个大型语言模型的基座,用于国内的信息处理,就必须建设一个中文能力非常强的大型语言模型。
除了复旦大学之外,包括百度、阿里巴巴在内的中国互联网巨头以及初创公司也都在开发基于AI的大模型技术。
来源:第一财经 编辑:牛中振
-
作品集序言怎么写 作品集序言什么意思大家好,今天小六子来为大家解答以下的问题,关于作品集作序怎么写,作品集序言怎么写这个很多人还不知道,现在让我们一起来看...
-
省距离杠杆有哪些 省距离杠杆是省力杠杆还是费力杠杆大家好,今天小六子来为大家解答以下的问题,关于怎样理解杠杆省距离,省距离杠杆有哪些这个很多人还不知道,现在让我们一起来...
-
喜当爹是什么意思 喜当爹是好词还是坏词大家好,今天小六子来为大家解答以下的问题,关于喜当爹是骂人的意思么,喜当爹是什么意思这个很多人还不知道,现在让我们一起...
-
护理考研需要考哪些科目 护理考研有必要吗大家好,今天小六子来为大家解答以下的问题,关于护理考研需要考哪些科目,考研需要考哪些科目这个很多人还不知道,现在让我们...
-
家庭供暖哪种方式好用 家庭供暖现在都是什么方式大家好,今天小六子来为大家解答以下的问题,关于家庭供暖哪种方式好用,家庭供暖哪种方式好这个很多人还不知道,现在让我们一...
-
作品集序言怎么写 作品集序言什么意思
2023-02-28 14:08:56
-
省距离杠杆有哪些 省距离杠杆是省力杠杆还是费力杠杆
2023-02-28 14:08:12
-
喜当爹是什么意思 喜当爹是好词还是坏词
2023-02-28 14:07:28
-
护理考研需要考哪些科目 护理考研有必要吗
2023-02-28 14:06:37
-
家庭供暖哪种方式好用 家庭供暖现在都是什么方式
2023-02-28 14:05:46
-
复旦大学再推AI文本检测工具“谛听” 识别ChatGPT成功率达80%
2023-03-18 22:04:11
-
观点:中疾控:去年12月1日至今年3月16日,共发现本土重点关注变异株86例
2023-03-18 22:02:32
-
被裁判“偷”走奥运梦想后,他夺得拳王金腰带
2023-03-18 22:00:56
-
【全球播资讯】韩国民众集会要求政府撤回对强征劳工受害者的代赔方案
2023-03-18 22:18:33
-
G107线东移(一期) 改建工程今年完工
2023-03-18 22:08:06
-
全球视点!不要买郑州的房子?任泽平:这是造谣!
2023-03-18 22:01:17
-
每日看点!网红经济学家任泽平又夸郑州了?!
2023-03-18 22:15:12
-
世界速讯:从严整治“自媒体”乱象!郑州发布专项行动相关举报公告
2023-03-18 22:01:36
-
今日纹身 过程_纹身过程
2023-03-18 21:51:11
-
天天最资讯丨“长江三鲜”“游”上普通民众餐桌 时令美食借预制菜形式走向全中国
2023-03-18 21:21:08
-
当前焦点!“中国制造”闪耀美国工程机械展
2023-03-18 21:23:35
-
2023全国农业机械展览会开幕 多款智慧农机亮相
2023-03-18 21:24:20
-
天天新资讯:【强信心 拼经济】全省品牌消费集聚区已超百家
2023-03-18 21:04:05
-
每日动态!【强信心 拼经济】今年前2个月 新郑综保区进出口值跃居全国首位
2023-03-18 21:09:09
-
【天天播资讯】俄将对向境外非法出口和移交军用产品、技术及武器装备者判刑
2023-03-18 21:06:31
-
【新要闻】热搜第一!20万请曹姓明星带货,3个月成交278元
2023-03-18 21:00:23
-
特朗普发文称自己将被逮捕,放话“美国梦已死”,全文大写英文字母
2023-03-18 21:12:55
-
动态:马龙晋级,国乒锁定WTT新加坡大满贯男单冠亚军
2023-03-18 21:10:06
-
北京银保监局:警惕六类陷阱 守护“养老钱包”
2023-03-18 20:58:48
-
世界热点评!广东2月外贸进出口企稳回升
2023-03-18 20:03:19
-
西康高铁全线首孔箱梁预制成功
2023-03-18 20:22:09
-
元宇宙之“牡丹幻城之夜”晚会总制作人何冀兵: “‘牡丹幻城之夜’将成为洛阳专属文娱品牌”
2023-03-18 20:02:20
-
每日热门:热评丨“小红包”带动“大消费” 提振消费在行动
2023-03-18 20:04:53
-
环球头条:固始交警开展春季交通安全宣传主题活动
2023-03-18 20:16:36
-
世界微头条丨南京首场集中供地迎“开门红”:4宗触顶摇号,民企伟星夺下“地王”
2023-03-18 20:04:39
-
【环球快播报】北京体育中考参与即满分!教委回应
2023-03-18 20:14:28
-
花粉过敏“元凶”多是树草 外出需看天防护
2023-03-18 20:03:28
-
每日快看:许昌东城区:“联乡帮村”为载体 共建文明和谐家园
2023-03-18 20:18:27
-
襄城县农业农村局组织召开2023年重大动物疫病防控工作会
2023-03-18 20:05:44
-
世界新资讯:北京大学重庆大数据研究院将共建“基因智能大数据联合实验室”
2023-03-18 20:21:11