COLDetector复现
COLD: A Benchmark for Chinese Offensive Language Detection论文原文
选择原因
- 在其他项目中使用过该模型进行中文恶评的识别(不过当时是直接用别人训练好的参数
- 作为新手比较容易上手复现其中的训练模型部分
- 2022年ACL收录论文(近三年
主要工作
使用
这个
使用
文件结构:
文件夹:包含训练集、测试集与验证集数据 文件夹:模型 文件夹:实现自定义 类型 :训练模型文件 :训练后,测试不同更多操作 - - 的句子分类正确率 :训练后,可以通过修改 ,判断句子是否带有冒犯性。
训练结果
模型对训练集和验证集的效果如下
模型对具体类别的判别正确率
0: safe (other-Non-offen) | |
1: attack individual | |
2: attack group | |
3: safe (anti-bias) |
可以看出,训练出来的模型还是和论文效果很接近的,除了
由于最终模型参数