pandas 从文本中提取数字（正则表达式）

2022-10-08 12:56:52

需要从text特征中提取形如 13.5/10 这样的字符串，再分别提取分子分母。
1）可以利用str.extract() 方法。
2）利用正则表达式\d+.?\d/\d+* 进行匹配
3）再利用.split() 方法提取分子分母

代码：
在这里插入图片描述

test.text.tolist()# output['This is Bella. She hopes her smile made you smile. If not, she is also offering you her favorite monkey. 13.5/10 https://t.co/qjrljjt948',"This is Logan, the Chow who lived. He solemnly swears he's up to lots of good. H*ckin magical af 9.75/10 https://t.co/yBO5wuqaPS","This is Sophie. She's a Jubilant Bush Pupper. Super h*ckin rare. Appears at random just to smile at the locals. 11.27/10 would smile back https://t.co/QFaUiIHxHq",'Here we have uncovered an entire battalion of holiday puppers. Average of 11.26/10 https://t.co/eNm2S6p9BD']

test['rating']= test['text'].str.extract(r'(\d+\.?\d*\/\d+)', expand=False)# 提取分子
test['rating_numerator']= test.rating.apply(lambda x: eval(x.split('/')[0]))# 提取分母
test['rating_denominator_fix']= test.rating.apply(lambda x: eval(x.split('/')[1]))# 删除中间量
test.drop(['rating'], axis=1, inplace=True)

在这里插入图片描述

————————————————
原文链接：https://blog.csdn.net/Guo_ya_nan/article/details/80920007

作者：少奶奶的猪
原文链接：https://blog.csdn.net/qq_41551450/article/details/104940466
更新时间：2022-10-08 12:56:52

相关文章

SpringCloud使用时异常解决
文章目录微服务向 eureka 注册中心注册时出现 Caused by: java.net.ConnectE
2022-08-13

Spring Security + JWT 入门实战
Spring Security + JWT 入门实战##主要步骤搭建基础的springboot工程，导入相关依
2022-08-13

Python 不定长函数参数列表
python中实现函数不定长函数参数列表一般采用星号*，而星号又有两种方式：单星号*一般在不指定参数时使用，而
2022-08-13

YOLOV5训练模型报错：OSError: [WinError 1455] 页面文件
一、原因：根本原因就是GPU配置不够，导致报错二、解决办法1修改yolov5代码，修改文件在 yolov5\u
2022-08-13

随机文章

python --类中的方法
类中的方法：动作普通方法格式def 方法名（self[,参数，参数] ）：pass#所有类名要求首字母大写，多
2022-06-20

pytorch torch.manual_seed()的用法详解
描述设置CPU生成随机数的种子，方便下次复现实验结果。语法torch.manual_seed(seed) →
2022-06-20

springboot整合rabbitmq（发送基本和对象数据）
1、前言SpringBoot整合RabbitMQ非常简单，官网有对应的starter，可以自动装配。本文使用概
2022-06-20

java实现对excel文件的处理合并单元格
jxl一、依赖引入一、依赖引入<dependency> <groupId>net.so
2022-06-21

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录