Doccano是一款开源的标注工具,用于自然语言处理和机器学习任务。它提供了用户友好的界面,使用户能够轻松地标注文本、序列标注、文本分类和文本配对等任务。doccano支持多种标注格式,并且可以方便地与其他机器学习工具集成。它的简单性和灵活性使得它成为研究人员和开发者的理想选择。下面我们来看下如何使用工具~
Github-doccano
1. 拉取镜像
我们可以通过拉取docker镜像快速完成部署
docker pull doccano/doccano
2. 创建容器
docker container create --name doccano \-e "ADMIN_USERNAME=admin" \-e "ADMIN_EMAIL=admin@example.com" \-e "ADMIN_PASSWORD=password" \-v doccano-db:/data \-p 8090:8000 doccano/doccano
3. 启动容器
docker container start doccano
可以看到后台已经正常运行起来
docker ps
4. 打开页面
http://xx.xx.xx.xx:8090
5. 登录Doccano
使用上文中设置的账号密码就行登录
6. 创建标注任务
7. 导入待标数据
如果没有数据可以下载
CLUE Fine-Grain NER
的数据集 。这个数据集是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.下载链接如下👇🏻
样例数据下载
导入json数据
查看待标注数据
8. 创建标签
因为我需要做用户个人信息的识别,所以生成了
银行卡
、身份证
、QQ号
等信息
9.开始标注
滑动文本标注内容,接下来就是漫长的达标工作。
参考:
- CLUE Fine-Grain NER
- doccano-github