加载中...
加载中...
该数据集是使用配备三指灵巧手的Unitree G1人形机器人收集的,其中包含堆叠红色、黄色和绿色木块的数据。使用了三个摄像头:头部的立体摄像头和左右手腕的RealSense D405摄像头。摄像头通过特殊结构牢固地安装在头部和手腕上;有关3D打印模型和安装说明,请参阅官方文档。每张图像的分辨率为640x480。每只手臂和灵巧手的状态和动作维度为7。
All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents。论文作者来自于鹏城实验室多智能体与具身智能研究所及南方科技大学、中山大学的师生团队,包括林倞教授(研究所所长,国家杰青,IEEE Fellow),郑锋教授,梁小丹教授,王志强(南科大),郑浩(南科大),聂云双(中大),徐文君(鹏城),叶华(鹏城)等。鹏城实验室林倞教授团队致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。
OakInk2是一个面向人与场景中多个物体的交互的数据集,旨在进一步理解在复杂任务完成中的双手物体操作。OakInk2的特点在于同时采集了对于Primitive Tasks(基础任务)以及Complex Tasks(复杂任务)的演示;其中,对基础任务的演示捕捉了操作物体时可满足物体使用属性的最小交互,而对复杂任务的演示展示了复杂任务完成中具有一定依赖关系的基础任务的组合。OakInk2提供了多视角图像流和对人体、手和各种交互物体的精细姿态标注,以支持如手物重建;动作合成;场景解读,复杂任务目标解析以及在复杂操作任务完成范畴内的人类示范复现和组合等应用。
该数据集是使用配备三指灵巧手的Unitree G1人形机器人收集的,其中包含将相机放入相应包装箱的数据。使用了三个摄像头:头部的立体摄像头和左右手腕的RealSense D405摄像头。摄像头通过特殊结构牢固地安装在头部和手腕上;有关3D打印模型和安装说明,请参阅官方文档。每张图像的分辨率为640x480。每只手臂和灵巧手的状态和动作维度为7。
中文科技文献数据集(CSL)取自中文论文摘要及其关键词,论文选自部分中文社会科学和自然科学核心期刊,任务目标是根据摘要判断关键词是否全部为真实关键词(真实为1,伪造为0)。
CV-Bench (Cambrian Vision-Centric Benchmark) 是一个全面的视觉评估基准数据集,包含 2,638 个经过人工验证的样本。
AI-TOD 航空图像数据集。在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比,AI-TOD 中目标的平均大小约为 12.8 像素,远小于其他数据集。
This repository contains information about AGIEval, data, code and output of baseline systems for the benchmark.
由STEM定理驱动的问答数据集。我们注释了800对QA,涵盖了350多个定理,涵盖了数学、EE和CS、物理和金融。数据集由人类专家以非常高的质量收集。
Osprey-724K is an instruction dataset with mask-text pairs, containing around 724K GPT-generated multimodal dialogues to encourage MLLMs for fine-grained pixel-level image understanding. It contains object-level, part-level and additional instruction samples for robustness and flexibility.
该仓库包含用于使用 Oxford Spires 数据集评估定位、3D 重建和辐射场方法的脚本。
Common Corpus is the largest open and permissible licensed text dataset, comprising over 2 trillion tokens (2,003,039,184,047 tokens). It is a diverse dataset, consisting of books, newspapers, scientific articles, government and legal documents, code, and more.
This is the dataset used for OpenCoder Stage1 training.
全称Massive Multi-discipline Multimodal Understanding,这是一个新的基准测试,旨在评估多模态模型在需要大学级学科知识和深思熟虑推理的大规模多学科任务上的表现。
BRIGHT是第一个需要密集推理来检索相关文档的文本检索基准。这些查询来自不同的领域,都来自真实的人类数据。实验表明,现有的检索模型在BRIGHT上表现不佳,最高得分仅为22.1nDCG@10.BRIGHT为未来在更现实和更具挑战性的环境中进行检索研究提供了良好的试验台。更多细节见论文。
MathVista是可视化环境中的一个综合数学推理基准。它由三个新创建的数据集组成,IQTest、FunctionQA和PaperQA,分别解决了缺失的视觉领域,并专门用于评估谜题测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理。它还整合了文献中的9个MathQA数据集和19个VQA数据集,极大地丰富了我们基准测试中视觉感知和数学推理挑战的多样性和复杂性。MathVista总共包括从31个不同数据集中收集的6141个示例。
TextVQA是一个专注于视觉问答(Visual Question Answering, VQA)领域的数据集,它旨在推动VQA模型在理解和处理图像中文本信息方面的能力。 TextVQA数据集包含了45,336个问题,这些问题是基于28,408张图像提出的,这些问题需要对图像中的文本进行推理才能回答。
MMLU-Pro包括来自不同知识分支的多项选择题,相当于大型多任务测试数据集MMLU的一个升级版本: 首先选项由原来的4个增加到10个,大大降低了“蒙对”答案的可能。
PublicBenchHub是多模态大型语言模型的公共基准(如MMMU、TouchStone)的集合。我们在WildVision Arena中包含了这些随机数据样本。
这个 lora 是在TheBloke/Llama-2-13B-fp16上使用Doctor-Shotgun/no-robots-sharegpt数据集进行训练的。
该数据集包含从WayveAI下载的图片的向量嵌入,分为完整图像和图像子部分的嵌入。数据集未经过预训练、标注或微调,适用于数据探索、图像聚类和构建基于嵌入的系统。
ManiSkill2 is a unified benchmark for learning generalizable robotic manipulation skills powered by SAPIEN. It features 20 out-of-box task families with 2000+ diverse object models and 4M+ demonstration frames. Moreover, it empowers fast visual input learning algorithms so that a CNN-based policy can collect samples at about 2000 FPS with 1 GPU and 16 processes on a workstation.
三维分子预训练下游数据。该数据集用于三维蛋白小分子预训练模型,参考: Uni-Mol。
Parrot数据集是一个多语言、多模态数据集,由两部分组成:多模态训练数据集sharegpt-4v-ar、sharegpt-4v-pt、sharegpt-4v-ru、sharegpt-1v-tr和sharegpt-4f-zh,以及多模态评估基准MMBench和MMMB。
该模型是生成器数据集上mistralai/Mistral-7B-v0.3的微调版本
TSEC-Dataset是为训练和测试驾驶场景视频字幕方法而开发的,旨在描述自我车辆、道路环境和其他交通参与者的关键事件。数据集通过选择不同的视频来源,包括车载摄像头、公共数据集视频以及从BiliBili和Youtube下载的交通事故视频,来获取多样化的交通场景。视频被分割成包含1到3个关键事件的独立片段,总计8,000个视频片段,总时长11.5小时。
ManiSkill PickCube Demonstrations Contains the following demonstrations: Motion Planning demonstrations Human (via interactive motion planning) demonstrations Reinforcement Learning demonstrations
XStoryCloze consists of the professionally translated version of the English StoryCloze dataset (Spring 2016 version) to 10 non-English languages. This dataset is released by Meta AI.
BioInstructQA数据集是一个多语言的医疗和生物学问答数据集,涵盖了从临床知识图谱到解剖学等多个医学和生物学子领域。
CrossWOZ是第一个面向任务的大型中文跨域Wizard-of-Oz向导数据集。它包含 5 个领域的 6K 对话会话和 102K 话语,包括酒店、餐厅、景点、地铁和出租车。此外,语料库包含丰富的对话状态注释和用户和系统双方的对话行为。
MPII 人体姿势数据集是用于评估关节式人体姿势估计的最先进的基准。该数据集包括大约 25K 幅图像,其中包含超过 40K 人带有注释的身体关节。这些图像是使用已建立的日常人类活动分类法系统地收集的。总体而言,该数据集涵盖了 410 个人类活动,并且每个图像都带有一个活动标签。
The MMLU is a widely recognized benchmark of general knowledge attained by AI models. It covers a broad range of topics from 57 different categories, covering elementary-level knowledge up to advanced professional subjects like law, physics, history, and computer science.
包含1.3w真实亚洲人脸数据,且每张人脸包含8个属性(年龄、性别、脸型、发型、表情、肤色、视角、遮挡情况)
ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;
RLAIF-V-Dataset is a large-scale multimodal feedback dataset. The dataset provides high-quality feedback with a total number of 83,132 preference pairs, where the instructions are collected from a diverse range of datasets including MSCOCO, ShareGPT-4V, MovieNet, Google Landmark v2, VQA v2, OKVQA, and TextVQA.
A collection of multilingual sentiments datasets grouped into 3 classes -- positive, neutral, negative.
Uni-Fold-Data 开源的蛋白质折叠训练数据。该数据集适用于Uni-Fold-Multimer蛋白质复合物结构预测模型,以及Uni-Fold-Monomer蛋白质单体结构预测模型,以上模型均已在modelscope社区开放。
可解释知识密集型类比推理基准 (E-KAR)。我们的基准测试包括来自公务员考试的 1,655 个(中文)和 1,251 个(英文)问题,这些问题需要深入的背景知识才能解决。
VLFeedback is a large-scale vision-language preference dataset, annotated by GPT-4V. It consists of 80k multi-modal instructions from various souces that encompass various capabilities of LVLMs.
This is a pre-processed version of the OpenOrca dataset. The original OpenOrca dataset is a collection of augmented FLAN data that aligns, as best as possible, with the distributions outlined in the Orca paper. It has been instrumental in generating high-performing preference-tuned model checkpoints and serves as a valuable resource for all NLP researchers and developers!
为了使人形机器人的运动更加自然,我们将LAFAN1运动捕捉数据重定向到Unitree的人形机器人,支持三种型号:H1、H1_2和G1。这种重定向是通过基于交互网格和IK的数值优化实现的,考虑了末端效应器姿势约束以及关节位置和速度约束,以防止脚部打滑。
Places365-Standard数据集是一个场景识别数据集,具有1,800,000张来自K=365个场景类的训练图像和36,500张验证图像。从原训练集中采样18,000张图像构成验证集,其余图片作为训练集,原验证集作为测试集。
MFE-ETP数据集由天津大学智能与计算学部创建,是一个针对具身任务规划的多模态基础模型综合评估基准。该数据集包含1184个高质量测试案例,覆盖100个具身任务,涉及对象理解、时空感知、任务理解和具身推理等多个能力维度。数据集的创建过程结合了从BEHAVIOR-100和VirtualHome平台收集的典型家庭任务数据,并通过人工标注和设计任务指令进行精细化处理。MFE-ETP数据集主要应用于提升多模态基础模型在具身人工智能领域的任务规划能力,旨在解决模型在复杂任务场景中的性能瓶颈问题。
RoboTurk 真实机器人数据集收集了有关三个不同现实世界任务的大型数据集:洗衣房布局、塔楼创建和对象搜索。 所有三个数据集都是使用 RoboTurk 平台收集的,由众包工作人员远程收集。 我们的数据集包含来自 54 个不同用户的 2144 个不同演示。 我们提供用于训练的完整数据集和用于探索的数据集的较小子样本。
现有的 Earth Vision 数据集要么适用于语义分割,要么适用于对象检测。iSAID 是第一个用于航空图像实例分割的基准数据集。这个大规模和密集注释的数据集包含 2,806 张高分辨率图像的 15 个类别的 655,451 个对象实例。
This dataset is a machine translated version of the MMLU dataset.
This dataset is a machine translated version of the ARC dataset.
This dataset is a machine translated version of the TruthfulQA dataset, translated using GPT-3.5-turbo. This dataset was created by the University of Oregon.
Ancient Chinese Language Understanding Evaluation (ACLUE) 是一个面向古代汉语的评估基准,旨在帮助评估大型语言模型在古代汉语上的表现。
LooGLE is a comprehensive evaluation benchmark for LLM long context understanding which contains up-to-date (all after 2022) and extremely long realistic documents (over 24k tokens per document, many of which exceed 100k words) and 6,000 newly generated questions spanning diverse domains and categories. Details statistics of our dataset can be seen in the table below.
医疗类多轮问答数据集包含203,029组医疗场景下的多轮问答数据,每组对话记录了患者和医生的对话过程,包括疾病类别和问答过程。
This dataset is a collection of multimodal datasets used for training Ovis. Ovis is a novel Multimodal Large Language Model (MLLM) architecture, designed to structurally align visual and textual embeddings. For a comprehensive introduction, please refer to the Ovis paper and the Ovis GitHub repo.
Large Movie Review Dataset. This is a dataset for binary sentiment classification containing substantially more data than previous benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for testing. There is additional unlabeled data for use as well.
This dataset consists in annotations of a 10K hours subset of English version of the Multilingual LibriSpeech (MLS) dataset.
MiniPile is a 6GB subset of the deduplicated The Pile corpus. To curate MiniPile, we perform a simple, three-step data filtering process: we (1) infer embeddings for all documents of the Pile, (2) cluster the embedding space using k-means, and (3) filter out low-quality clusters.
这个 repo 包含一个使用UltraChat 200k数据集针对聊天任务进行微调的Llama 2 7B。
本数据集为生成式3D人物模型数据集,包含所有3D模型均由通用3D人物框架生成得到,支持自动绑定驱动。
MS-COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集。COCO数据集涵盖了150万个对象实例,80个目标类别以及91个物体类别,用于目标检测、分割、文本生成图像、图像描述等等场景
CLVR Jaco Play Dataset 是一个专注于遥控机器人领域的数据集,共 14.87 GB,由南加州大学和 KAIST 的研究团队发布,它提供了 1,085 个遥控机器人 Jaco2的片段,并配有相应的语言注释。
Socially Interactive Pedestrian Trajectory Dataset for Social Navigation Robots
The official implementation of our NeurIPS 2024 paper: Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation
This dataset consists of 27K Python programming exercises (in English), covering hundreds of Python-related topics including basic syntax and data structures, algorithm applications, database queries, machine learning, and more.
MMBench Video是个定量基准,用于评估LVLM在视频理解方面的熟练程度。
斯坦福3D室内场景数据集 (S3DIS) 包含6个大型室内区域,拥有271个房间。场景点云中的每个点都使用13个语义类别之一进行注释
用于20.1小时中文男声客服合成库 中文男声客服合成识别模型”模型的测试任务
Evol-instruction-66k数据基于论文“WizardCoder: Empowering Code Large Language Models with Evol-Instruct”中提到的方法。它通过添加复杂的代码指令来增强预训练代码大模型的微调效果。
Grasp-Anything-6D数据集。基于我们之前的Grasp-Anything数据集,Grasp-Anything-6D是一个用于语言驱动的6-DoF抓取检测任务的大规模数据集。
这是一个使用Unitree G1人形机器人的数据集,该机器人具有双臂灵巧的手来抓取红色木块;头部具有双眼视觉。机器人通过遥控操作,用双臂抓住红色木块,并将其放入黑色矩形中。
GUI Grounding Benchmark: ScreenSpot. Created researchers at Nanjing University and Shanghai AI Laboratory for evaluating large multimodal models (LMMs) on GUI grounding tasks on screens given a text-based instruction.
This dataset is just lambdalabs/pokemon-blip-captions but the captions come from GPT-4 (Turbo).
This is a computational efficiency benchmark. Please consider citing our paper: https://arxiv.org/abs/2402.07844
该数据集用于实时目标检测-自动驾驶领域(image-object-detection-auto)算法模型测试.
retrieval由Flickr30k(F30k)构成,是一个图像-句子成对数据集,图像来自Flickr网站,句子来自人工标注,每张图像标注5个不同的英文句子。Flickr30k是一个小型的视觉-语言多模态训练与测试基准数据集,可以用于评测图文匹配/跨模态检索等任务,图像内容多来自生活场景,句子描述通常是对于图像内容的直观描述。
MATHVISTA数据集是一个为了评估大型语言模型(LLMs)和大型多模态模型(LMMs)在视觉背景下的数学推理能力而设计的基准测试。该数据集由6,141个示例组成,这些示例来源于28个现有的多模态数据集,这些数据集涉及数学问题,以及3个新创建的数据集(IQTest、FunctionQA和PaperQA)。完成这些任务需要深入的视觉理解能力和组合推理能力,这些能力即使是最先进的基础模型也难以应对。
这是一个大型的多任务测试数据集,包括来自不同知识分支的多项选择题。测试涵盖了人文科学、社会科学、自然科学以及其他一些重要领域。它涵盖了57个任务,包括初等数学、美国历史、计算机科学、法律等。
MARPLE是由斯坦福大学开发的一个用于评估长时推理能力的基准数据集。该数据集通过模拟家庭环境中的智能体交互,支持视觉、语言和听觉等多模态证据,旨在测试模型在日常家庭场景中解决“whodunit”类型问题的能力。数据集内容包括多模态观察数据和智能体行为轨迹,通过Mini-BEHAVIOR模拟器生成。创建过程涉及多层次的规划和模拟,以生成多样化的环境和智能体行为。MARPLE主要应用于机器学习和认知科学领域,旨在解决复杂场景中的长时多模态推理问题。
QT-Opt 数据集是为训练机器人的视觉抓取策略而收集的大规模数据集,通过 7 个机器人在四个月内收集了超过 580k 次真实世界的抓取尝试,旨在让机器人学习通用的抓取技能,能够在未见过的物体上实现高成功率的抓取。
This dataset repo contains all of the latest ManiSkill demonstration datasets as well as some pretained model weights used to generate some demonstrations.
This dataset is a machine translated version of the HellaSwag dataset.
MIRACL 🌍🙌🌏 (Multilingual Information Retrieval Across a Continuum of Languages) is a multilingual retrieval dataset that focuses on search across 18 different languages, which collectively encompass over three billion native speakers around the world.
Logiqa2.0 dataset - logical reasoning in MRC and NLI tasks
TACO(Topics in Algorithmic COde generation dataset)是一个专注于算法的代码生成数据集,旨在为代码生成模型领域提供一个更具挑战性的训练数据集与评测基准。
10,000条中文新闻事件标注数据 该数据可用于自然语言理解等任务。
This model is a fine-tuned version of meta-llama/Meta-Llama-3.1-8B on the mlabonne/orca-agentinstruct-1M-v1-cleaned dataset.
HumanEvalPack is an extension of OpenAI's HumanEval to cover 6 total languages across 3 tasks. The Python split is exactly the same as OpenAI's Python HumanEval. The other splits are translated by humans (similar to HumanEval-X but with additional cleaning, see here). Refer to the OctoPack paper for more details.
该模型是mistralai/Mistral-7B-Instruct-v0.2在 nthakur/multilingual-deita-10k-v0-sft-v0.1 数据集上的微调版本,
MathVerse 是一个专门用于评估多模态大语言模型(MLLMs)在数学视觉问题解决能力的基准数据集。该数据集包含 2,612 个高质量的数学视觉问题,涵盖平面几何、立体几何和函数三个主要领域,并细分为 12 个详细类别。每个问题都被转化为 6 个不同版本,提供不同程度的多模态信息内容,总计产生 15,000 个测试样本。数据集的独特之处在于它能全面评估模型是否真正理解数学图表进行推理。
中文多模态多题型理解及推理评测基准,当前发布的 CMMU v0.1 版本从中国教育体系规范指导下的全国小学、初中、高中考试题中抽取并制作了 3603道题目
CMMMU包括了来自大学考试、测验和教科书的12,000个手动收集的多模态问题,涵盖了艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程等六个核心学科,与其伴侣MMMU类似。这些问题涉及30个学科,包括39种高度异构的图像类型,如图表、图表、地图、表格、乐谱和化学结构。
C-Eval是目前权威的中文AI大模型评测数据集之一,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。C-Eval数据集由13948道多选题组成,涉及4个学科大类,52个学科小类,分别对应四个难度等级。
BridgeData V2是一个用廉价易购买的机器人平台采集的大规模数据集,包含对100多个物体执行的操作任务。作者使用BridgeData V2数据集,训练了共6个SOTA的模仿学习或离线强化学习方法。在不同的任务上,评估了它们完成多任务和泛化的能力。同时说明了模型性能与数据量、任务多样性和模型容量的正相关关系。
This dataset is designed for pose estimation tasks, focusing on determining the position and orientation of an object in 3D space. The dataset includes images, masks, and labels for both training and validation, making it suitable for machine learning applications in 3D object tracking and computer vision. This dataset was generated using Duality.ai simulation software: FalconEditor
EmbodiedCity是由清华大学构建的一个用于评估具身智能在真实城市环境中表现的基准平台。该数据集基于北京市的一个商业区,构建了高度逼真的3D模拟环境,包含真实的街道、建筑、城市元素、行人和交通流量。数据集结合了历史收集的真实世界交通数据和模拟算法,模拟了行人和车辆的流动。
TMMLU+, a traditional Chinese massive multitask language understanding dataset. TMMLU+ is a multiple-choice question-answering dataset featuring 66 subjects, ranging from elementary to professional level.
13个模块实体名单句标注数据 该数据集可用于命名实体识别任务
The Mathematics Aptitude Test of Heuristics (MATH)数据集由数学竞赛中的问题组成,包括AMC 10、AMC 12、AIME等。
6,348 samples of data for the 10 domains in the SummEdits.
CodeFuseEval是结合CodeFuse大模型多任务场景,在开源的HumanEval-x、MBPP、DS1000评测基准基础上,开发的面向大模型代码垂类领域的企业级多类型编程任务评估基准。
用于2,657小时普通话自然对话手机采集语音数据 中文语音识别模型”模型的测试任务
DevOps Eval是一个中文评估套件,专门为DevOps领域的基础模型而设计。它由4850个多项选择题组成,涵盖53个不同的类别。
开源并由数千万个样本组成的大规模多模态指令数据集Infinity MM。通过质量过滤和重复数据删除,数据集具有高质量和多样性。我们提出了一种基于开源模型和标签系统的合成数据生成方法,使用详细的图像注释和多样化的问题生成。
数据集目的是用于训练文档ocr识别;3w张中文文档图片,磁盘占用3.4G。 文档内容类型丰富,覆盖教育,考试,商业,医学,办公等领域。 包含格式多种多样,包含计划书,考试题,会议纪要,课件,作文,论文,简历等。 数据经过了严格的清洗,剔除了垃圾格式内容,质量低下内容以及无法识别内容。 该数据收集自互联网,虽然经过了算法清洗,但受限于算法的准确率,该数据集可能包含个人敏感信息,例如电子邮件,电话号码等信息。如果涉及版权和隐私,请联系我们进行删除。
OpenMathInstruct-2 is a math instruction tuning dataset with 14M problem-solution pairs generated using the Llama3.1-405B-Instruct model.
A-Eval is a benchmark designed to evaluate Chat LLMs of various scales from a practical application perspective. The dataset includes 678 question-and-answer pairs spanning 5 categories, 27 sub-categories, and 3 difficulty levels. A-Eval offers clear empirical and engineering guidelines for choosing the “best” model for real-world applications.
ChID是一个大规模的汉语完形测试数据集,该数据集用于研究汉语中独特的语言现象成语的理解。在这个语料库中,段落中的习语被空白符号取代,以成语完形填空形式实现,文中多处成语被mask,候选项中包含了近义的成语。
该数据集由Google、斯坦福等研究人员开发,BBH的全称是BIG-Bench Hard,它是BIG-Bench数据集的一个子集,它专注于23个具有挑战性的任务,这些任务超出了当前语言模型的能力范围。homepage: https://github.com/suzgunmirac/BIG-Bench-Hard
47,811句交互场景单句意图标注数据 该数据可用于意图识别等相关领域研究。
CMMU是一个新颖的多模态大模型评测基准,旨在评估七门基础学科的特定领域知识:数学、生物学、物理、化学、地理、政治和历史。它包括3603道题,包括文字和图片,取自一系列中文考试。从小学到高中,CMMU对不同教育阶段的模型能力进行了全面评估。CMMU is a novel multi-modal benchmark designed to evaluate domain-specific knowledge across seven foundational subjects: math, biology, physics, chemistry, geography, politics, and history. It comprises 3603 questions, incorporating text and images, drawn from a range of Chinese exams. Spanning primary to high school levels, CMMU offers a thorough evaluation of model capabilities across different educational stages.
HallusionBench是一个高级诊断套件,专为评估图像-上下文推理而设计。该数据集对先进的大型视觉-语言模型(LVLMs)提出了重大挑战,例如GPT-4V(ision)、Gemini Pro Vision、Claude 3和LLaVA1.5,强调对视觉数据的细微理解和解释。
CII-Bench (Chinese Image Implication Understanding Benchmark) 是首个专门评估多模态大语言模型对中国图像深层含义理解能力的基准数据集。
BLINK 是多模态语言模型 (LLM) 的新基准,侧重于其他评估中未发现的核心视觉感知能力。大多数 BLINK 任务都可以由人类“在眨眼之间”解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,这些对感知要求高的任务给当前的多模态 LLM 带来了重大挑战,因为它们无法通过自然语言进行调解。BLINK 将 14 个经典计算机视觉任务重新格式化为 3,807 个多项选择题,搭配一个或多个图像和视觉提示。虽然人类的平均准确率为 95.70%,但 BLINK 对现有的多模态 LLM 来说却极具挑战性:即使是表现最好的 GPT-4V 和 Gemini 也实现了 51.26% 和 45.72% 的准确率,仅比随机猜测高 13.17% 和 7.63%,这表明这种感知能力尚未在最近的多模态 LLM 中“出现”。
11k Hands 数据集,包含 190 名受试者的 11,076 张手部图像(1600 x 1200 像素),年龄在 18 至 75 岁之间。 每个受试者都被要求张开和合上右手和左手的手指。 每只手都从背侧和手掌侧拍摄,背景为均匀的白色,并放置在距相机大致相同的距离处。
Multilingual Grade School Math Benchmark (MGSM) is a benchmark of grade-school math problems, proposed in the paper Language models are multilingual chain-of-thought reasoners.
The dataset is oriented toward visual question answering of multilingual text scenes in nine languages, including Korean, Japanese, Italian, Russian, Deutsch, French, Thai, Arabic, and Vietnamese. The question-answer pairs are labeled by native annotators following a series of rules.
FullStack Bench is a multilingual benchmark for full-stack programming, covering a wide range of application domains and 16 programming languages with 3K test samples, which substantially pushes the limits of code LLMs in code-related abilities of the real-world code development scenarios.
GPTDynamics is a dataset designed for training and evaluating GPT simulators using structured training curriculums. It supports both fine-tuning and instruction-tuning scenarios and provides comprehensive test metrics (such as loss, BLEU, and ROUGE scores) for each test sample at various training steps. T
ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information. This directory contains the ChineseWebText2.0 dataset, and a new tool-chain called MDFG-tool for constructing large-scale and high-quality Chinese datasets with multi-dimensional and fine-grained information.
To address the scarcity of high-quality safety datasets in the Chinese, we open-sourced the CCI (Chinese Corpora Internet) dataset on November 29, 2023. Building on this foundation, we continue to expand the data source, adopt stricter data cleaning methods, and complete the construction of the CCI 3.0 dataset. This dataset is composed of high-quality, reliable Internet data from trusted sources. And then with more stricter filtering, The CCI 3.0 HQ corpus released is about 500GB in size.
2,937人面部遮挡多姿态人脸识别数据 可应用于遮挡人脸检测及识别等计算机视觉任务。
中文金融资讯数据集,包括: (1)上市公司公告 announcement_data.jsonl 20G; (2)金融资讯/新闻 fin_news_data.jsonl 30G;fin_articles_data.jsonl 10G; (3)金融试题 fin_exam.jsonl 370M。
ASCEND (A Spontaneous Chinese-English Dataset) introduces a high-quality resource of spontaneous multi-turn conversational dialogue Chinese-English code-switching corpus collected in Hong Kong. ASCEND consists of 10.62 hours of spontaneous speech with a total of ~12.3K utterances. The corpus is split into 3 sets: training, validation, and test with a ratio of 8:1:1 while maintaining a balanced gender proportion on each set.
Dataset for O1 Replication Journey: A Strategic Progress Report
Dataset Repository of Awesome ChatGPT Prompts
In this work, we introduce the AmazonProducts-3m dataset for evaluation. This dataset comes with the release of our state-of-the-art embedding models for ecommerce products: Marqo-Ecommerce-B and Marqo-Ecommerce-L.
This code-related data from Fineweb was specifically used in OpenCoder pre-training
At 12.4 million image-caption pairs, PD12M is the largest public domain image-text dataset to date, with sufficient size to train foundation models while minimizing copyright concerns. Through the Source.Plus platform, we also introduce novel, community-driven dataset governance mechanisms that reduce harm and support reproducibility over time.
This is the dataset used for OpenCoder Stage2 training.