加载中...
加载中...
对于数据使用者,可快速查找所需数据,用于 AI 及大模型训练、数据分析、应用程序开发等;对于数据提供者,简化数据产品发布、定价、交付、授权等流程,降低技术门槛和操作成本。
方便用户查找高质量数据
服务多角色支持多种数据类型
简化数据采购及加工工作
提高数据训练及应用效率
由STEM定理驱动的问答数据集。我们注释了800对QA,涵盖了350多个定理,涵盖了数学、EE和CS、物理和金融。数据集由人类专家以非常高的质量收集。
Osprey-724K is an instruction dataset with mask-text pairs, containing around 724K GPT-generated multimodal dialogues to encourage MLLMs for fine-grained pixel-level image understanding. It contains object-level, part-level and additional instruction samples for robustness and flexibility.
Common Corpus is the largest open and permissible licensed text dataset, comprising over 2 trillion tokens (2,003,039,184,047 tokens). It is a diverse dataset, consisting of books, newspapers, scientific articles, government and legal documents, code, and more.
MathVista是可视化环境中的一个综合数学推理基准。它由三个新创建的数据集组成,IQTest、FunctionQA和PaperQA,分别解决了缺失的视觉领域,并专门用于评估谜题测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理。它还整合了文献中的9个MathQA数据集和19个VQA数据集,极大地丰富了我们基准测试中视觉感知和数学推理挑战的多样性和复杂性。MathVista总共包括从31个不同数据集中收集的6141个示例。
这个 lora 是在TheBloke/Llama-2-13B-fp16上使用Doctor-Shotgun/no-robots-sharegpt数据集进行训练的。
100万册电子图书和期刊等资源,图书类别涉及哲学 社会科学 政治 军师 经济 文学 历史 工业 综合性图书等各大类,具体见图书数据列表 1.正版出版社印刷电子图书,按照国家出版规则经过三审三校,专业知识质量极高; 2.数据库授权交付,PDF EPUB TXT 格式6:3:1,PDF都是原版图书排版文字格式,可以通过PDF提取工具直接提取内容 3.出版社授权,来源合规,交付做正版授权,授权大模型训练场景使用