pdflib：使用pdflib输出中文生僻字和繁体字乱码问题

原创已于 2024-03-28 16:47:57 修改 · 3.4k 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#html #前端

于 2023-02-21 17:33:00 首次发布

pdflib 专栏收录该内容

1 篇文章

订阅专栏

文章讲述了在使用PDFlib库生成PDF时遇到的中文生僻字和繁体字乱码问题，原因是字体编码设置不当。解决方案是将编码从GB-EUC-H更改为GBK-EUC-H或GBK2K-H，以支持更多汉字和字符。GB-EUC-H仅支持GB2312字符集，不包含繁体字和部分生僻字，而GBK和GB18030则提供了更广泛的汉字覆盖。

使用pdflib输出中文生僻字和繁体字乱码问题。

添加中文字体语句，如下：

pdf->obj[2+i].offset = pdf->offset;
length = LPDF_SPRINTF(pdf_buf,"%d 0 obj\n<<\n/Type /Font\n/Subtype /Type0\n"
                      "/BaseFont /SimSun\n/Encoding /GB-EUC-H\n/DescendantFonts [ %d 0 R ]\n"
                      ">>\nendobj\n\n",3+i,4+i);
LPDF_FWRITE(&pdf->file,pdf_buf,length,&writeBytes);

参考pdf说明文档：

PDFlib自带STSong-Light，AdobeSongStd-Light-Acro，及STSongStd-Light-Acro三种简体中文字体。这三种字体同时也是Acrobat的简体中文标准字体。
以上三种字体均支持以下几种编码（Encoding）：UniGB-UCS2-H，UniGB-UCS2-V，UniGB-UTF16-H，UniGB-UTF16-V，GB-EUC-H，GB-EUC-V，GBpc-EUC-H，GBpc-EUC-V，GBK-EUC-H，GBK-EUC-V，GBKp-EUC-H，GBKp-EUC-V，GBK2K-H，及GBK2K-V。

各编码定义如下：

Encoding Character	set and text format
UniGB-UCS2-H UniGB-UCS2-V	Unicode (UCS-2) encoding for the Adobe-GB1 character collection
UniGB-UTF16-H UniGB-UTF16-V	Unicode (UTF-16BE) encoding for the Adobe-GB1 character collection. Contains mappings for all characters in the GB18030-2000 character set.
GB-EUC-H GB-EUC-V	Microsoft Code Page 936 (charset 134), GB 2312-80 character set, EUC-CN encoding
GBpc-EUC-H GBpc-EUC-V	Macintosh, GB 2312-80 character set, EUC-CN encoding, Script Manager code 2
GBK-EUC-H GBK-EUC-V	Microsoft Code Page 936 (charset 134), GBK character set, GBK encoding
GBKp-EUC-H GBKp-EUC-V	Same as GBK-EUC-H, but replaces half-width Latin characters with proportional forms and maps code 0x24 to dollar ($) instead of yuan (¥).
GBK2K-H GBK2K-V	GB 18030-2000 character set, mixed 1-, 2-, and 4-byte encoding