OPC 企业快捷查找、订阅和使用数据

对于数据使用者，可快速查找所需数据，用于 AI 及大模型训练、数据分析、应用程序开发等；对于数据提供者，简化数据产品发布、定价、交付、授权等流程，降低技术门槛和操作成本。

数据查找

方便用户查找高质量数据

数据类型

服务多角色支持多种数据类型

数据采购

简化数据采购及加工工作

数据应用

提高数据训练及应用效率

开源数据集

TheoremQA

MIT问答

由STEM定理驱动的问答数据集。我们注释了800对QA，涵盖了350多个定理，涵盖了数学、EE和CS、物理和金融。数据集由人类专家以非常高的质量收集。

作者：opencompass

更新时间：2025-02-02

下载：12

免费

Osprey-724K is an instruction dataset with mask-text pairs, containing around 724K GPT-generated multimodal dialogues to encourage MLLMs for fine-grained pixel-level image understanding. It contains object-level, part-level and additional instruction samples for robustness and flexibility.

作者：AntGroup

更新时间：2024-11-29

下载：12

免费

common_corpus

文本生成

Common Corpus is the largest open and permissible licensed text dataset, comprising over 2 trillion tokens (2,003,039,184,047 tokens). It is a diverse dataset, consisting of books, newspapers, scientific articles, government and legal documents, code, and more.

作者：jingzhi

更新时间：2024-11-20

下载：12

免费

MathVista

cc-by-sa-4.0文本分类

MathVista是可视化环境中的一个综合数学推理基准。它由三个新创建的数据集组成，IQTest、FunctionQA和PaperQA，分别解决了缺失的视觉领域，并专门用于评估谜题测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理。它还整合了文献中的9个MathQA数据集和19个VQA数据集，极大地丰富了我们基准测试中视觉感知和数学推理挑战的多样性和复杂性。MathVista总共包括从31个不同数据集中收集的6141个示例。

作者：AI4Math

更新时间：2025-02-02

下载：10

免费

bigbench

Apache-2.0文本分类

作者：tasksource

更新时间：2024-12-02

下载：9

免费

no_robots

CC BY-NC 4.0文本生成

这个 lora 是在TheBloke/Llama-2-13B-fp16上使用Doctor-Shotgun/no-robots-sharegpt数据集进行训练的。

作者：HuggingFace

更新时间：2024-06-13

下载：8

免费

orpo-dpo-mix-40k

Apache-2.0文本生成

作者：mlabonne

更新时间：2024-12-02

下载：7

免费

OPC 企业快捷查找、订阅和使用数据

数据查找

数据类型

数据采购

数据应用

开源数据集

SVAMP

TheoremQA

Osprey-724K

common_corpus

MathVista

bigbench

no_robots

orpo-dpo-mix-40k

热门数据产品

中文版权图书

中文顶刊（核心A类）文献

多领域标签-多轮对话

电视多轮对话

问答类-指令集

多轮对话-指令集

逻辑推理-指令集

代码-指令集

OPC 企业快捷查找、订阅和使用数据

数据查找

数据类型

数据采购

数据应用

开源数据集

SVAMP

TheoremQA

Osprey-724K

common_corpus

MathVista

bigbench

no_robots

orpo-dpo-mix-40k

热门数据产品

中文版权图书

中文顶刊（核心A类）文献

多领域标签-多轮对话

电视多轮对话

问答类-指令集

多轮对话-指令集

逻辑推理-指令集

代码-指令集