技術(shù)實(shí)踐｜數(shù)據(jù)遷移中GBK轉(zhuǎn)UTF8字符集問題分析

發(fā)布人：中電金信人時(shí)間：2024-03-04 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

導(dǎo)語：在國產(chǎn)化創(chuàng)新的大背景下，數(shù)據(jù)庫遷移項(xiàng)目逐漸增多，在數(shù)據(jù)庫遷移過程中，源數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫字符集有時(shí)會不同，這時(shí)如何進(jìn)行字符集轉(zhuǎn)換則成為了一個(gè)重要的問題，同時(shí)在轉(zhuǎn)換過程中還需要確保數(shù)據(jù)的完整性和一致性。

字符集轉(zhuǎn)換算法是一個(gè)復(fù)雜的領(lǐng)域，因此各個(gè)操作系統(tǒng)和庫實(shí)現(xiàn)可能會有所不同。此外，一些特定的字符集轉(zhuǎn)換還可能會涉及更復(fù)雜的操作。例如字符替換、丟棄或使用替代字符表示無法轉(zhuǎn)換的字符等。因此，實(shí)際的字符集轉(zhuǎn)換結(jié)果可能會因使用的庫、操作系統(tǒng)版本以及具體的轉(zhuǎn)換需求而有所差異。

1. 字符集介紹

■ASCII：

ASCII（American Standard Code for Information Interchange）是一個(gè)基于拉丁字母的字符集編碼方案，使用7位（8位的擴(kuò)展ASCII）來表示字符。

ASCII字符集包含了基本的拉丁字母、數(shù)字、標(biāo)點(diǎn)符號和一些特殊控制字符，共計(jì)128個(gè)字符。

ASCII是一個(gè)較為簡單和有限的字符集，主要適用于英語及其他使用基本拉丁字母的語言。

■　Latin-1：

Latin-1是一種拉丁字符集編碼方案，使用8位（一個(gè)字節(jié)）來表示每個(gè)字符。

Latin-1（ISO 8859-1）覆蓋了ASCII字符集的范圍，并擴(kuò)展了一些額外的特殊字符和符號，包括重音符號、貨幣符號、擴(kuò)展的拉丁字母等。

Latin-1適用于多種西歐語言，如英語、法語、德語、西班牙語等，能夠表示這些語言中常見的字符需求。

■　GBK：

GBK是一種中文字符集編碼，主要用于表示中文字符和標(biāo)點(diǎn)符號。它是GB2312（國標(biāo)2312）的擴(kuò)展版本，支持更多的漢字字符。

GBK使用雙字節(jié)編碼，每個(gè)字符占用兩個(gè)字節(jié)。其中，ASCII字符的編碼與ASCII字符集兼容，非ASCII字符則使用兩個(gè)字節(jié)來表示。

GBK能夠表示包括繁體中文、簡體中文在內(nèi)的大部分中文字符。

■　UTF-8：

UTF-8是一種通用的字符集編碼，支持全球范圍內(nèi)的幾乎所有字符，包括各種語言的文字、符號和表情符號。

UTF-8使用變長編碼，根據(jù)字符的Unicode值，使用1到4個(gè)字節(jié)來表示字符。其中，ASCII字符使用一個(gè)字節(jié)表示，非ASCII字符使用多個(gè)字節(jié)表示。

UTF-8兼容ASCII字符集，可以表示所有ASCII字符，因此它是廣泛使用的字符集編碼方案。

2. 數(shù)據(jù)遷移背景介紹

早期的數(shù)據(jù)倉庫字符集一般都是GBK，而現(xiàn)在的數(shù)據(jù)倉庫都使用UTF8字符集，所以字符集轉(zhuǎn)換是遷移過程中最關(guān)鍵的一個(gè)步驟。正常情況下如果源數(shù)據(jù)庫沒有亂碼，那么字符集轉(zhuǎn)換不會出現(xiàn)問題，GBK可以正常轉(zhuǎn)換為UTF8。但如果源數(shù)據(jù)庫有亂碼存在，那么在字符集轉(zhuǎn)換過程中就會出現(xiàn)很多不確定的問題，而且不同的字符集轉(zhuǎn)換方式不同，結(jié)果也不同。

3. 字符集轉(zhuǎn)換方法介紹

目前字符集轉(zhuǎn)換采用兩種方式：

■　Linux系統(tǒng)的iconv

■　編寫程序?qū)崿F(xiàn)字符集轉(zhuǎn)換，推薦使用Golang、Python、C，考慮到項(xiàng)目實(shí)施的可操作性和技術(shù)通用性，一般可以采用Python語言，且可以通過多線程提高轉(zhuǎn)碼效率。

●　iconv

iconv是一個(gè)在Linux和其他類Unix操作系統(tǒng)上廣泛使用的命令行工具。它用于進(jìn)行字符編碼之間的轉(zhuǎn)換。iconv的名稱是“character set conversion”（字符集轉(zhuǎn)換）的縮寫。

在Linux系統(tǒng)中，iconv命令使用的字符集轉(zhuǎn)換算法主要依賴于GNU C庫（GNU C Library，簡稱為glibc）提供的轉(zhuǎn)換功能。glibc是Linux系統(tǒng)的標(biāo)準(zhǔn)C庫，為許多基本操作提供了支持，包括字符集轉(zhuǎn)換。

glibc中的字符集轉(zhuǎn)換算法主要基于Unicode標(biāo)準(zhǔn)：Unicode是一種字符編碼標(biāo)準(zhǔn)，它為世界上幾乎所有的字符提供了唯一的編碼值。glibc使用Unicode標(biāo)準(zhǔn)作為內(nèi)部字符表示，以實(shí)現(xiàn)不同字符集之間的轉(zhuǎn)換。

●　Python的codecs模塊

codecs是Python標(biāo)準(zhǔn)庫中的一個(gè)模塊，用于字符編碼和解碼操作。它提供了一組函數(shù)和類，用于在不同的字符編碼之間進(jìn)行轉(zhuǎn)換。在處理文本數(shù)據(jù)時(shí)，經(jīng)常需要將文本從一種編碼格式轉(zhuǎn)換為另一種編碼格式。這可能涉及到將文本從Unicode轉(zhuǎn)換為其他編碼（如UTF-8、ASCII等），或者將文本從其他編碼轉(zhuǎn)換為Unicode。codecs模塊提供了一種簡單而一致的方式來執(zhí)行這些編碼和解碼操作。

以下是codecs模塊的一些主要特性和功能：

編碼和解碼函數(shù)：codecs模塊提供了一組函數(shù)，如codecs.encode()和codecs.decode()，用于執(zhí)行字符編碼和解碼操作。這些函數(shù)接受輸入文本和目標(biāo)編碼格式作為參數(shù)，并返回編碼或解碼后的文本。

多種編碼支持：codecs模塊支持許多常見的字符編碼格式，包括ASCII、UTF-8、UTF-16、UTF-32等。它還提供了對其他編碼格式的支持，如Base64、Quoted-Printable、ROT13等。

錯(cuò)誤處理：在進(jìn)行字符編碼和解碼時(shí)，可能會出現(xiàn)無法處理的字符或編碼錯(cuò)誤。codecs 模塊允許指定不同的錯(cuò)誤處理策略，以處理這些錯(cuò)誤情況。例如，可以選擇忽略無法處理的字符，替換它們或引發(fā)異常。

使用codecs模塊，可以便捷地進(jìn)行不同編碼之間的轉(zhuǎn)換，處理文本數(shù)據(jù)的編碼問題，并確保數(shù)據(jù)在不同環(huán)境中正確地傳輸和解釋。

4. 項(xiàng)目實(shí)施中字符集轉(zhuǎn)換介紹

以TERADATA(TD)數(shù)據(jù)庫遷移到高斯數(shù)據(jù)庫為例，一般TD數(shù)據(jù)庫默認(rèn)是使用latin1的字符集，而應(yīng)用一般使用中文GBK字符集在TD數(shù)據(jù)庫中存儲數(shù)據(jù)，所以當(dāng)從TD數(shù)據(jù)庫遷移到其他數(shù)據(jù)庫時(shí)，應(yīng)該以GBK字符集作為源數(shù)據(jù)庫字符集。

數(shù)據(jù)遷移主要流程如下：

■從TD數(shù)據(jù)庫中導(dǎo)出數(shù)據(jù)并以GBK字符集落地為數(shù)據(jù)文件。

■將GBK數(shù)據(jù)文件轉(zhuǎn)換為UTF8文件。

■將UTF8數(shù)據(jù)文件導(dǎo)入到高斯數(shù)據(jù)庫（高斯數(shù)據(jù)庫的外表加載也可以將GBK字符集轉(zhuǎn)換為UTF8字符集，在此不做討論）

某證券公司的業(yè)務(wù)表部分示例數(shù)據(jù)如下，從TD數(shù)據(jù)庫中導(dǎo)出的數(shù)據(jù)是GBK字符集，數(shù)據(jù)中有3個(gè)字段，字段分隔符為：||，數(shù)據(jù)的第三個(gè)字段是中文。在遷移過程中中文字段可能會存在亂碼，所以在使用不同的字符集轉(zhuǎn)換方式后其轉(zhuǎn)換的結(jié)果也會有所不同。

示例數(shù)據(jù)中第一行的第三個(gè)中文字段有亂碼，正確的數(shù)據(jù)如下：

G000A||10000||廣東省廣州市天河區(qū)天河北路437號

E000D||20000||上海市浦東新區(qū)來安路685號

Q000D||20000||山東省青島市嶗山區(qū)仙霞嶺路17~21號

第一行中文字段的GBK十六進(jìn)制編碼如下：

數(shù)據(jù)中“州”字的GBK編碼：D6 DD，但是實(shí)際的數(shù)據(jù)中由于某種原因造成D6丟失，由于GBK是雙字節(jié)編碼，所以DD和后面的字節(jié)（CA）重新組成了另一個(gè)漢字：菔，而以此類推后面的漢字，每兩個(gè)字節(jié)組成一個(gè)漢字，但B7 34在GBK編碼中不能組成漢字，34在GBK編碼中是：4，也正是“437號”中的“4”。

當(dāng)使用iconv轉(zhuǎn)換此帶有亂碼的GBK文件時(shí)，效果如下所示。

iconv系統(tǒng)內(nèi)核版本、os版本、自身版本如下：

[root@imo tmp]# uname -r
3.10.0-514.el7.x86_64
[root@imo tmp]# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 7.3 (Maipo)
[root@imo tmp]# iconv -V
iconv (GNU libc) 2.17

轉(zhuǎn)換命令如下：

[root@imo tmp]# iconv -f gbk -t utf8 -c  sec_acc_gbk.txt  -o sec_acc_utf8.txt

所以經(jīng)過iconv轉(zhuǎn)換后，B7和34不能組成漢字，所以B7被丟棄，而實(shí)際的內(nèi)容如下：

G000A||10000||廣東省廣菔刑旌憂旌穎甭437號

E000D||20000||上海市浦東新區(qū)來安路685號

Q000D||20000||山東省青島市嶗山區(qū)仙霞嶺路17~21號

當(dāng)python程序使用內(nèi)置庫codecs進(jìn)行代碼轉(zhuǎn)換后，可以有2個(gè)參數(shù)選項(xiàng)errors='replace'和errors='ignore'，‘replace’表示當(dāng)出現(xiàn)亂碼后可以把亂碼替換成“？”，而'ignore'表示當(dāng)出現(xiàn)亂碼后，會把亂碼丟棄（和iconv特性相同）。

當(dāng)使用codecs做代碼轉(zhuǎn)換時(shí)，使用'replace'參數(shù)，部分代碼如下：

codecs.open(fileGbkAPName, 'r', encoding='{0}'.format(gbkFileEncoding),errors='replace')

轉(zhuǎn)換后的結(jié)果如下：

G000A||10000||廣東省廣?菔刑旌憂?天河北路437號

E000D||20000||上海市浦東新區(qū)來安路685號

Q000D||20000||山東省青島市嶗山區(qū)仙霞嶺路17~21號

當(dāng)使用codecs做代碼轉(zhuǎn)換時(shí)，使用'ignore'參數(shù)，部分代碼如下：

codecs.open(fileGbkAPName, 'r', encoding='{0}'.format(gbkFileEncoding),errors='ignore')

轉(zhuǎn)換后的結(jié)果如下：

G000A||10000||廣東省廣菔刑旌憂天河北路437號

E000D||20000||上海市浦東新區(qū)來安路685號

Q000D||20000||山東省青島市嶗山區(qū)仙霞嶺路17~21號

5. 總結(jié)

■　iconv 2.17版本就是根據(jù)glibc庫進(jìn)行字符集轉(zhuǎn)換，不能轉(zhuǎn)換的就丟棄，且當(dāng)文件中有半個(gè)字節(jié)丟失后，后面轉(zhuǎn)換的中文字符很可能是不準(zhǔn)確的。如在本示例中，遇到亂碼后，最終轉(zhuǎn)換的字符為：“菔刑旌憂旌穎甭437號”

■　Python的內(nèi)置庫codecs對中文轉(zhuǎn)換時(shí)采用一種“轉(zhuǎn)換最多中文字符”的策略，所以codecs在本示例中，遇到亂碼后，最終轉(zhuǎn)換的字符為：“菔刑旌憂天河北路437號”。

6. Python程序示例

# -*- coding: utf-8 -*-
import codecs
import sys


## 定義常量
fileGbkAPName="/DATA/GBK_FILES/sec_acc_gbk.txt"
fileUtf8APName="/DATA/UTF8_FILES/sec_acc_utf8.txt"
gbkFileEncoding='gbk'
utf8FileEncoding='utf8'


def main():


    try:  # open TD數(shù)據(jù)文件(使用codecs庫)
        gbkFileStream = codecs.open(fileGbkAPName, 'rb', encoding='{0}'.format(gbkFileEncoding),errors='replace')
        # gbkFileStream = codecs.open(fileGbkAPName, 'rb', encoding='{0}'.format(gbkFileEncoding),errors='ignore')


    except Exception as e :


        print("不能Open數(shù)據(jù)文件{0},報(bào)錯(cuò)信息{1},程序異常退出!!".format(fileGbkAPName,e))
        sys.exit(-1)


    tmpGbkCont = gbkFileStream.readlines()


    # 轉(zhuǎn)換為utf8字符
    utf8FileStream= open(f'{fileUtf8APName}','w',encoding=f'{utf8FileEncoding}')
    for gbkLine in tmpGbkCont:


        utf8Line = gbkLine.encode('{0}'.format(utf8FileEncoding)).decode('{0}'.format(utf8FileEncoding)).split('\n')[0]
        print(utf8Line)


        # 寫入utf8文件
        utf8FileStream.write(utf8Line+'\n')


    gbkFileStream.close()
    utf8FileStream.close()


if __name__ == '__main__':
    main()
else:
    print("程序執(zhí)行非法調(diào)用，異常退出??！")
    sys.exit(-1)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

技術(shù)實(shí)踐｜數(shù)據(jù)遷移中GBK轉(zhuǎn)UTF8字符集問題分析

相關(guān)推薦

技術(shù)專區(qū)