华为Could API人工智能系列——分词


前言

云原生时代,开发者们的编程方式、编程习惯都发生了天翻地覆的变化,大家逐渐地习惯在云端构建自己的应用。作为新一代的开发者们,如何更快速了解云,学习云,使用云,更便捷、更智能的开发代码,从而提升我们的开发效率,是当前最热门的话题之一,而Huawei Cloud Toolkit,作为连接华为云的百宝箱,是集成在各大IDE平台上的插件集合,会在方方面面提升着开发者的效率。

华为云API开发套件助力开发者快速集成华为云,可做到便捷连接200+的华为云服务,引用7000+的华为云API服务,在IDE中集成华为云的功能,让开发者与云端华为云建立连接。

智能编码方面集成了华为云自主研发的代码大模型和软件分析技术,全场景函数级、行级代码生成,同规模算力一次通过业界第一,这会帮助开发者更为高效的使用自动语义生成,达到快速开发的目的,使整个过程更智能。

环境准备

开发语言:Python

开发工具:PyCharm Community Edition 2023.1.4

PyCharm插件:

1、Chinese (Simplified) Language Pack /中文语言包

2、Huawei Cloud API:华为云API插件提供华为云服务全量API检索、调试、SDK代码自动补全、集成华为云CLI、示例代码等功能

3、Huawei Cloud CodeArts Check:华为云代码检查插件提供业界规范(含华为云)检查,支持一键格式化和代码自动修复,当前支持Java、C++、C,这个使您使用的环境操作即可,我这里用的python没有提示。

4、Huawei Cloud CodeArts Snap:华为云 CodeArt Snap 智能编程助手致力于打造现代化开发新范式,通过将自然语言转化为规范可阅读、无开源漏洞的编程语言,提升开发者编码效率,助力企业快速响应市场不确定性;

5、Huawei Cloud Toolkit Platform:华为云底座插件为华为云各类云服务插件提供公共能力,比如单点登录、UI集成、API访问等功能;

PyCharm环境的搭建:https://laoshifu.blog.csdn.net/article/details/135279145

API接口开通地址:https://console.huaweicloud.com/nlp/#/nlp/overview


分词

对文本进行分词和词性标注处理。

开通地址:https://console.huaweicloud.com/nlp/#/nlp/overview

开通效果:

请求参数

名称类型IN必选描述
X-Auth-Tokenstringheadertrue

用户Token。 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。

project_idstringpathtrue

来自公有云的Project ID,用于资源隔离。

Body参数

名称类型必选描述
textstringtrue

待分词文本,长度为1~512,文本编码为UTF-8。

pos_switchintegerfalse

是否开启词性标注功能,1为开启,0为关闭,默认为关闭。

langstringfalse

支持的文本语言类型,目前支持中文(zh)和英文(en),默认为中文。

criterionstringfalse

支持的分词规范。 中文分词标准目前支持PKU(北大分词标准)、CTB(宾州中文树库标准),默认为PKU。 英文分词标准默认为Penn TreeBank(宾州树库标准),不需要传入该参数。

API调试

测试文本:【今天天气不错,心情挺好的。】

返回结果:

{ "words": [{ "content": "今天", "pos": "t"},{ "content": "天气", "pos": "n"},{ "content": "不错", "pos": "a"},{ "content": ",", "pos": "wd"},{ "content": "心情", "pos": "n"},{ "content": "挺", "pos": "d"},{ "content": "好", "pos": "a"},{ "content": "的", "pos": "ude1"},{ "content": "。", "pos": "wj"} ]}

本地访问

这里需要AK/SK。

本地测试成功,可以看到分词全部遍历出来了。