鈥榟 鈥淒等csv乱码怎么解决???

🏰 体育365地址 📅 2025-10-16 21:46:58 👤 admin 👁️ 3079 👑 949
鈥榟 鈥淒等csv乱码怎么解决???

打开csv文件我就慌了,我做文本分析,最后居然要处理的文本里这么多乱码,关键是某些单词的部分由于乱码而确实,如hom,少了个e,这还怎么分析。

我首先一顿百度猛如虎,查找了如下几个办法,感觉最让人看到希望的是这一条:

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

'''

@Author : {Jack Zhao}

@Time : 2019/11/11 13:26

@Contact : {zc_dlmu@163.com}

@Desc : 测试

'''

from io import StringIO

import pandas as pd

# Read the csv file into a StringIO object

sio = StringIO()

with open('../data/test.csv', 'r', encoding='unicode-escape') as f:

for line in f:

print(line)

line = line.encode('latin1').decode('utf8')

print(line)

sio.write(line)

sio.seek(0) # Reset file pointer to the beginning

# Call read_csv, passing the StringIO object

df = pd.read_csv(sio, encoding="utf8")

没有任何卵用

下面第二次尝试:

x = b"it\\xe2\\x80\\x99s time to eat"

x = x.decode('unicode-escape').encode('latin1').decode('utf8')

print(x) # it’s time to eat

并没有什么卵用

上述说的都是Unicode字符编码的问题,但我不是很懂,反正没效果就对了。

解决办法:

Notepad++打开csv文件-》Ctrl+A全选,修改为ANSI编码-》再修改为UTF-8 BOM编码/UTF-8编码-》另存为

转变结果如下图:

这样就不会影响分析了(注意home变的完整了)。

然后操作https://blog.csdn.net/weixin_40539952/article/details/102994822

皇家推荐

中国12个最佳居住地
体育365地址

中国12个最佳居住地

📅 08-12 👁️ 1826
苹果纪念日怎么设置
体育365地址

苹果纪念日怎么设置

📅 08-19 👁️ 1211
平面模特兒是什麼?深入了解平面模特兒的工作和行業
必定赢365线路检测

平面模特兒是什麼?深入了解平面模特兒的工作和行業

📅 06-30 👁️ 2494
剑网三网络延迟高💥怎么办?❌解决方法来了!🔥
必定赢365线路检测

剑网三网络延迟高💥怎么办?❌解决方法来了!🔥

📅 08-03 👁️ 9939
三步舞曲歌曲大全100首
必定赢365线路检测

三步舞曲歌曲大全100首

📅 06-28 👁️ 8307
【攻略:骨戒】为何人人都要骨戒,用数字解读骨戒提升率