价值观数据集 上百万字从网络爬取后且经过专家清洗后的中文原始数据,原始数据采集自权威期刊、杂志、法律法规领域权威基础数据库等。经提取后形成大模型训练所需三元组(问题-优秀答案-不良答案)
面议产品优势: 1.经网信办专家经过论证及分析后形成的90+个细分维度,如专家以发展的角度论证了科技政治学细分类别的准确性,另外政治体系也从中国政治体系、政府与公共关系、中国特色、国际的政治体系等角度出发将其划分出60多个细分类别,符合社会主义核心价值观要求 2.包含了近1万条经过心理、政治、法律领域专家论证后的人工标注高质量调优数据 产品描述: 1.数据内容:中文价值观类数据 2.数据规模:58109条(持续增加中,其中1万条为高质量调优数据) 3.标注内容:涵盖心理健康21个细分维度、政治敏感60个细分维度、法律法规14个细分维度 4.存储格式:以json格式存储 5.语言:中文 6.数据类别:权威期刊、杂志等 适用场景: 基于构建的三元组数据,训练大模型,提升模型在政治敏感类的回答能力(现在很多大模型敏感问题都不回答);心理健康类问题回答的更符合中国国情;在法律法规类的问题回答的更准确。
语言:中文
数据类型:安全语料
数据量:10万+
交付格式
正反向问答对
数据库交付
价格:
面议
联系咨询
推荐数据产品
查看更多 >数据
中文版权图书
100万册电子图书和期刊等资源,图书类别涉及哲学 社会科学 政治 军师 经济 文学 历史 工业 综合性图书等各大类,具体见图书数据列表
1.正版出版社印刷电子图书,按照国家出版规则经过三审三校,专业知识质量极高;
2.数据库授权交付,PDF EPUB TXT 格式6:3:1,PDF都是原版图书排版文字格式,可以通过PDF提取工具直接提取内容
3.出版社授权,来源合规,交付做正版授权,授权大模型训练场景使用
数据
中文顶刊(核心A类)文献
版权:有合规版权
语料介绍:筛选的核心A类期刊文献,支持交付详细书目元数据+PDF原文或XML原文,按领域详细分类,支持筛选交付
数据
多领域标签-多轮对话
领域:100大分类,1250小分类,覆盖全领域
对话量级:每通对话5轮,每通250-500字;
数据
电视多轮对话
LLM
数据
问答类-指令集
LLM|指令运用
