如何基于首次出现的下划线分割 Pandas 列为两部分
#技术教程 发布时间: 2026-01-17
本文介绍如何在 pandas 中精准地按**第一个下划线 `_`** 将字符串列拆分为两个新列(如 `gender` 和 `age`),避免 `str.split()` 默认行为导致的嵌套列表或多余下划线干扰问题。
在数据清洗中,常需将类似 Male_85__and_over 这样的复合标识符按首个分隔符拆解为语义明确的字段。若直接使用 str.split('_', n=1),虽可限制分割次数,但 .str[1:] 会返回一个包含单个字符串的列表(如 ['85__and_over']),导致结果为 list 类型而非纯字符串,影响后续分析。
✅ 正确做法是使用正则提取 str.extract(),配合捕获组精准匹配「第一个 _ 前」和「第一个 _ 后(且不包含后续 _)」的内容:
test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_([^_]+)')
- ([^_]+):匹配一个或多个非下划线字符(即首个 _ 前的所有内容);
- _:字面量下划线,作为分隔符;
- ([^_]+):匹配首个 _ 后、下一个 _ 之前的所有非下划线字符(即只取第一段有效内容)。
? 注意:此正则适用于「首个 _ 后仍有至少一个非 _ 字符」的场景(如 Male_85__and_over → gender="Male", age="85")。若需保留 _ 后全部内容(包括后续下划线),应改用:
test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_(.*)')
其中 (.*) 表示“任意字符(含 _)零次或多次”,可完整捕获 85__and_over。
? 总结:
- ✅ 优先用 str.extract() 替代链式 str.split().str[],语义清晰、结果类型安全;
- ✅ 正则模式需根据业务逻辑选择:[^_]+(截断至下一 _)或 .*(捕获全部剩余内容);
- ⚠️ 若原始数据存在无 _ 的行,str.extract() 对应位置将返回 NaN,建议提前用 test["column_Name_pivoted"].str.contains('_').all() 校验。
上一篇 : 无醇啤酒不含酒精吗 蚂蚁庄园1月17日答案
下一篇 : 《完美音浪》的NS评级刚出!这款超爽动作音游会登陆NS平台吗?
-
SEO外包最佳选择国内专业的白帽SEO机构,熟知搜索算法,各行业企业站优化策略!
SEO公司
-
可定制SEO优化套餐基于整站优化与品牌搜索展现,定制个性化营销推广方案!
SEO套餐
-
SEO入门教程多年积累SEO实战案例,从新手到专家,从入门到精通,海量的SEO学习资料!
SEO教程
-
SEO项目资源高质量SEO项目资源,稀缺性外链,优质文案代写,老域名提权,云主机相关配置折扣!
SEO资源
-
SEO快速建站快速搭建符合搜索引擎友好的企业网站,协助备案,域名选择,服务器配置等相关服务!
SEO建站
-
快速搜索引擎优化建议没有任何SEO机构,可以承诺搜索引擎排名的具体位置,如果有,那么请您多注意!专业的SEO机构,一般情况下只能确保目标关键词进入到首页或者前几页,如果您有相关问题,欢迎咨询!
