行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据下载 > 数据工具 正文

BRAT文本语料标注工具

时间:2019-06-26
数据类型:工具软件 热度
★★★☆☆

文件类型: .zip              文件大小:31.1 MB

授权方式: 公共开源     发布时间:2019-06-26

数据来源:brat             界面语言:英文

数据介绍:

brat是一个基于Web的文本注释工具; 也就是说,用于向现有文本文档添加注释。 copyright dedecms

brat特别适用于结构化 注释,其中注释不是自由形式的文本,而是具有可由计算机自动处理和解释的固定形式。 织梦好,好织梦

下面的屏幕截图显示了一个简单的例子,其中一个句子被注释以识别一些真实世界实体(事物)及其类型的提及,以及两者之间的关系。

织梦内容管理系统

示例注释
示例注释(部分遵循ACE 2005实体和关系注释指南)

此示例说明了两个基本类别的注释: dedecms.com

  • 文本跨度注释,例如在示例中标有“ 组织”和“ 人员”类型的 注释
  • 关系注释,例如 示例中的Family关系

简单类型文本跨度类别适用于为命名实体识别创建注释,以及用于简单关系信息提取任务的二元关系等。 织梦内容管理系统

brat还支持n- association关联的注释,这些关联可以将参与特定角色的任意数量的其他注释链接在一起。此类注释可用于事件注释,例如以下示例中的TRANSFER:

织梦内容管理系统

示例注释
示例注释(部分遵循ACE 2005实体,关系和事件注释指南)

可以通过使用可以在注释上设置的属性来进一步指定其他注释的详细类型和属性,例如将事件标记为事实或推测,或者将实体提及标记为引用组或个体。

内容来自dedecms

为了允许特定文本表达式引用的真实世界实体的唯一标识,brat还支持 将其他注释与Wikipedia等资源中的条目相关联的规范化注释(brat v1.3(Crunchy Frog)和更新版本): copyright dedecms

示例注释
用于标准化注释的信息弹出窗口,显示来自维基百科的信息(图片©AndrésMonroy,获得许可的CC-BY-SA)

最后,尽管不是该工具的主要焦点,但是brat还允许将自由形式的文本“ 注释 ”添加到注释中。 织梦内容管理系统

应用的注释类别,它们的类型以及关于它们的使用的 约束(例如, Family关系必须始终连接Person类型的注释)都是完全可配置的,允许brat几乎应用于任何文本注释任务。 copyright dedecms

brat还实现了许多依赖 自然语言处理技术的功能,以支持人类注释工作。
 

copyright dedecms

全面可视化

小写注释可视化基于“你看到的就是你得到的”的概念:基础注释的所有方面都以直观的方式直观地表示。

copyright dedecms

功能示例
注释可视化

直观的编辑

注释编辑是基于鼠标的,并使用文本编辑器,演示软件和许多其他工具熟悉的直观“手势”。要标记文本范围,只需通过“拖动”或双击单词鼠标选择它。 内容来自dedecms

功能示例
选择注释文本

连接注释(例如,在两个注释之间添加关系)同样简单:在一个注释上单击鼠标并将连接拖到另一个注释上。 本文来自织梦

功能示例
连接注释

与外部资源集成

从v1.3(Crunchy Frog)开始,brat包括对规范化的支持 以及用于将注释与外部数据库,词汇和本体资源(如Freebase,Wikipedia和Open Biomedical Ontologies)中的数据相关联的各种功能。

copyright dedecms

规范化的例子
显示来自维基百科的信息

零设置

brat完全基于标准Web技术构建,没有必要安装任何本地软件或浏览器插件来使用它。

内容来自dedecms

注释器可以“设置”并开始使用brat,只需在浏览器的地址栏中输入brat安装的地址即可。

织梦内容管理系统

(设置一个全新的brat服务器确实需要一些操作,但是在运行Web服务器的任何系统上只需五分钟即可完成。)

织梦内容管理系统

任何语言的文本注释

brat服务器和客户端都实现了完整的 Unicode 支持,从而支持近100种不同的脚本。 copyright dedecms

功能示例
汉字中的文本注释

任何语言的文本文档都可以转换为 UTF-8编码的 Unicode,可以用与ASCII 格式的文本相同的方式注释。

内容来自dedecms

集成注释比较

从版本1.3开始,brat包含许多用于比较相同文档的多组注释的功能,包括用于识别和标记差异的自动比较以及并排可视化。 织梦好,好织梦

功能示例
注释的并排比较。

这种比较可用于评估自动系统或人类注释器之间的协议,差异的可视化可帮助快速识别常见的错误来源。 copyright dedecms

每个注释的地址

每个brat注释都可以在brat服务器中唯一地寻址。与服务器的URL一起,这种寻址形式为每个brat注释提供全局唯一的地址。

本文来自织梦

功能示例
使用给定的URL聚焦注释

功能示例 织梦好,好织梦

在浏览器中输入这样的地址不仅会显示相关文档,而且还会进一步突出显示特定注释并使其居中。因此,这些地址可用于电子邮件和在线文档和讨论,以简单明确地引用小子中的任何注释。 dedecms.com

通过双击注释,可以从显示的对话框轻松访问每个注释的地址。 本文来自织梦

与自动注释工具集成

brat实现了一个简单的界面,用于将可作为Web服务访问的自动文本注释工具的输出集成到注释工作中。 织梦好,好织梦

功能示例
只需单击一下,即可将自动注释工具作为Web服务调用

brat还具有与最先进的基本注释支持方法的透明集成,例如句子分割(英语和日语)和标记化(日语)。 dedecms.com

任何规模的高质量可视化

brat的可视化基于可缩放矢量图形(SVG),可以以任意细节和精度呈现。 本文来自织梦

功能示例
放大注释

因此,小写注释可视化本身就是打印质量,可以用作出版物中的数字来说明注释。

dedecms.com

SVG允许浏览器的内置缩放功能用于特写或文档注释的高级视图。

dedecms.com

功能示例
缩小概述

轻松导出多种格式

在brat中创建的注释可以通过界面中的几次单击以简单的对峙格式导出 ,可以轻松分析,处理和转换为其他格式。

内容来自dedecms

可视化可以类似地以其原生SVG格式导出,呈现为位图(PNG格式),或转换为其他矢量格式以嵌入到文档(PDF或EPS)中。 dedecms.com

始终保存,始终保持最新状态

brat通过透明地将注释器的所有编辑操作传递给brat服务器,消除了工具崩溃,忘记保存工作,甚至完成注释器计算机失败的注释工作的风险。 dedecms.com

类似地,在维护由项目上的所有注释器共享的单个权威版数据时,brat服务器消除了出现注释版本冲突或使用过时数据的可能性以及注释器使用a的需要。单独的版本控制系统,用于协调他们的工作。

织梦内容管理系统

实时协作

brat客户端 - 服务器体系结构和设计允许多个注释器同时在同一文档集合上工作,甚至在同一文档上,看到彼此的编辑几乎就像它们一样(某些延迟是通信中固有的)。 织梦好,好织梦

所有编辑操作都由服务器协调,以确保即使多个用户尝试同时修改单个注释,注释仍保持一致。 copyright dedecms

详细的注释过程测量

brat可以选择性地配置为记录注释器打开文档的精确时间,每个编辑操作,甚至是在选择放置注释的位置后选择要分配给注释的类型所花费的时间。 dedecms.com

丰富的注释原语集

brat提供了一组丰富的基本注释类别:文本跨度标记(例如实体注释),二元关系,等价类,n元关联(例如事件注释)和属性可以任意组合应用于定义特定注释任务。

本文来自织梦

可以应用brat的许多注释任务中的一些在示例页面上呈现。

本文来自织梦

完全可配置

注释的所有方面都使用简单的声明性配置语言进行配置。每个文档集合都有自己的配置,允许单个brat服务器托管具有不同注释目标的许多项目。

本文来自织梦

此外,可以使用记录良好且广为人知的HTML / CSS样式规范来详细控制可视化的大多数方面,例如字体,注释“框”和“弧”颜色以及箭头和弧形绘制样式。 织梦内容管理系统

始终有效

brat结合了注释验证,能够检查可以在其表达配置中定义的所有约束。

本文来自织梦

在brat中创建的注释的验证不会被隔离到单独的过程中,而是紧密集成到注释过程中:在每个编辑选项之后检查注释的有效性,通过简单的视觉提示为注释者提供即时反馈。 织梦好,好织梦

功能示例
示例不完整的注释和详细信息

没有强制部分的注释没有给出彩色填充并给出灰色突出显示。将鼠标放在这样的注释上可提供注释验证器检测到的问题的详细信息。 织梦内容管理系统

功能示例
带有错误和详细信息的示例注释

具有额外或错误部分的注释被赋予红色“光环”,其指示注释的问题。同样,将鼠标放在这样的注释上会详细说明检测到的问题。 本文来自织梦

搜索

brat实现了一整套函数,用于搜索文档或文档集合,以获得具有一组详细可配置约束的任何类型的注释。

本文来自织梦

功能示例
显示高级设置的文本搜索

语料库检索

brat支持搜索结果的基本关键词 - 上下文(KWIC)风格的协调。 织梦内容管理系统

 

织梦内容管理系统

功能示例
搜索结果与协调

下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
转发量:


人工智能交流群扫码邀请
人工智能交流群扫码邀请

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部
扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部