Python批量解析字符串中的Emoji并进行特征工程及衍生

本文介绍了如何使用advertools库来解析和分析字符串中的Emoji,包括根据关键词搜索Emoji、提取和统计 Emoji,以及如何在实际数据处理中创建相关特征。通过案例展示了如何在DataFrame中应用这些功能,例如创建`emoji_count`、`have_emoji`、`emoji_counts_with_freq`和`texts_with_emoji`等特征。

Python 解析字符串中的Emoji

最近发现了一个可以批量解析字符串中emoji的包,分享给大家。

1. advertools 解析Emoji简单教程

1.1 安装

pip install advertools

1.2 文档链接

advertools 官方文档

1.3 Emoji 搜索

advertools支持根据关键词搜索相关emoji

>>> import advertools as adv
>>> adv.emoji_search('dog')
          codepoint           status  emoji          name             group        sub_group
0             1F436  fully-qualified     🐶      dog face  Animals & Nature    animal-mammal
1             1F415  fully-qualified     🐕           dog  Animals & Nature    animal-mammal
2             1F9AE  fully-qualified     🦮     guide dog  Animals & Nature    animal-mammal
3  1F415 200D 1F9BA  fully-qualified     🐕‍🦺   service dog  Animals & Nature    animal-mammal
4             1F32D  fully-qualified     🌭       hot dog      Food & Drink    food-prepared

1.4 Emoji 提取分析

>>> import advertools as adv
# 测试用例
>>> posts = ['I am grinning 😀','A grinning cat 😺',
         'hello! 😀😀😀 💛💛', 'Just text']
# extract_emoji 方法返回值为包含字符串列表所含emoji信息的字典
>>> emoji_summary = adv.extract_emoji(posts)
>>> emoji_summary.keys()
dict_keys(['emoji', 'emoji_text', 'emoji_flat', 'emoji_flat_text',
'emoji_counts', 'emoji_freq', 'top_emoji', 'top_emoji_text',
'top_emoji_groups', 'top_emoji_sub_groups', 'overview'])
# emoji 中为每个字符串对应包含的Emoji列表
>>> emoji_summary["emoji"]
[['😀'], ['😺'], ['😀', '😀'
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值