对文件编码(UTF-8、ANIS、GB2312)详细完整讲解的文章有哪些推荐?

-

经常会遇到文件出现乱码的情况,有时候是 ANIS 的时候中文乱码,有时候是 utf-8 时候是中文乱码,都把我搞晕乎了。
Google 了一下,也没找到自己需要的,请知乎的朋友帮忙了!推荐篇介绍详细的文章最好了。

imkevinyang.com/2009/02
很带感的文章

程序员 字符编码 程序员修养

计算机系统是如何显示一个字符的?

-

始终没明白字符集/字符编码/区位码/内码/字体等等这一系列的概念。不要讲历史,因为我已经看得够多了,请直接用某一特定操作系统讲机制,从键盘按下一个按键开始,各个相关部分是怎么工作的,如unicode在什么时候起什么作用,freetype在什么时候起什么作用,计算机要在哪里查找什么信息。越细致越好。

我来就 Linux + Xorg 系统回答一下吧。我不知道,也没办法知道 Windows 上的情况是怎么样的。我的回答在细节方面可能不会太详细,一方面是因为细节并不影响理解,另一方面也是因为我对一些细节的了解也不是那么深。

从按键到字符在屏幕上显示,其实是一个很复杂的过程……我粗略估计了一下,这个过程中执行的指令,对应到源代码,可能要超过10万行。

那,就从按下键开始讲起吧。当你按下键后,一个电信号从键盘通过 USB 接口或者 PS/2 接口送到了总线,然后引起了一个中断。如果是在老机子上,管理中断的可能是8259A 芯片,新的机子上则可能是 APIC 。CPU 收到中断之后,会暂停当前的程序的执行,调用事先设定好的中断处理过程。Linux系统的中断处理一般分为两个部分,Top half 和 bottom half。其中直接响应中断的是 top half,因为系统不能在中断处理过程中停太久,所以 top half 只是记录中断的发生,真正中断处理过程是在 bottom half 中完成的。

bottom half 在 top half 之后执行,具体执行取决于进程调度。在 bottom half 中内核会找来负责的驱动,比如说 USB HID 驱动,处理键盘输入。这个键盘输入会反映在 /dev 下面某一个字符设备中,比如说 /dev/input/event0 。Xorg 为了获取键盘输入,会对这个设备进行 select() 。select 这个系统调用会将进程 block ,直到有可用输入。在内核中的反应就是,内核会将进程的状态设为 TASK_INTERRUPTIBLE ,然后调用 schedule() 将运行权让给别的进程。当键盘输入到来的时候,内核会查看是否有进程正在 select /dev/input/event0 这个设备,如果有,内核会将对应的进程从select 中唤醒,以便处理这个输入。

于是Xorg就被唤醒了,我们也终于从 kernel space 里逃了出来,来到了 user space 。Xorg 会从 /dev/input/event0 读出一组数据。这组数据的定义如下:

struct input_event {
	struct timeval time;
	unsigned short type;
	unsigned short code;
	unsigned int value;
};
time 是事件发生的时间,type 是事件类型,对应键盘就是 EV_KEY ,code 在这种情况下是一个 key code,value 则代表是按下键还是放开键。

Xorg 在读到事件之后,还需要将来自 kernel 的 key code 翻译成 Xorg 自己的 key code 。完成这个的是 libxkb ,键盘布局也是在这个阶段起作用的。然后,Xorg 会找出当前焦点所在的窗口,然后将事件发给它——这是简单的情况。如果你运行着一个窗口管理器的话,这个事件很可能还需要在窗口管理器中过一遍,并且由窗口管理器决定是否要发给窗口。如果接受按键的程序支持输入法,这个按键可能还要在输入法里走一圈。这个过程中的事件发送/接受都是通过 socket ,使用的协议是 Xorg 的协议,使用的库(归根结底)一般是 xlib 或者 libxcb 。

(补充一段关于编码的)

应用程序在接到 Xorg 发来的事件之后,就会对事件作出反应。比如说一个文本编辑器,在接到按下‘X’的事件之后,需要在文件中插入一个‘X’。那么这个‘X’是怎样在文件中表示的呢?你应该知道,内存也好硬盘也好,是用二进制来保存数据的。要表示一个‘X’,我们必须先给它分配一个对应的数字。幸好,早在近60年前,就有人帮我们把这件事办好了。这就是所谓的 ASCII 码。‘X’在其中对应的数字是120。

但是,如果我通过我的输入法,输入了一个中文字的话怎么办?当然,我们还是用一样的办法,给每个中文字一个编号。这个编号,在中国的国标码中被称作区位码,在 unicode 中被称作一个code point。比如说,国标码给“啊”字编的号就是1601。

虽然现在我们给中文字也编上了号,我们还不知道应该怎么把它存到文件中去。你可能会觉得这很简单,直接把编号存进去不就是了?比如1601就存两个字节0x06和0x41。但是这会造成一个问题。假如你的文本编辑器同时支持ASCII码和我们设计的这个中文编码,它要怎样才能知道某个文件是按什么编码的?0x16和0x41在 ASCII 中都是合法编码,这样就会造成一个文件存在歧义。不过幸好,ASCII 只使用了0~127来编码字符,所以只要我们只用128~255,就可以和ASCII区分开来。比如说,我们可以将编号按7位二进制分段,然后在第一位添上一个1:

1601 -> 11001000001 -> 0001100/1000001 -> 10001100 11000001 -> 0x8c 0xc1

在国标码里,这个编码后的结果就是这个字符的内码,注意内码和区位码的区别。而 unicode 和 UTF8,UTF16 也是类似。unicode 是一种给字符编号的方法,UTF8、UTF16则是把这个编号记录到文件里的方法。

到这里,我们的旅程才完成了一半。而且是比较简单的一半。

现在你的输入已经跑完前半程,终于到达应用程序了,不过等等——这个程序,是什么程序?是一个终端虚拟器,文本编辑器,还是chrome里头的某个文本框?取决于对这个问题的回答,后半程的路线会非常不一样。

假如说这个程序是 xterm ,它会通过 X core font API ,将这个字符直接送给 Xorg ,由 Xorg 来完成字体渲染(当然现在 xterm 也支持 libXft 了,不过先不管这个)。Xorg 拿到应用程序送来的请求之后,会在字体中检索每个字对应的字形,然后渲染出来。这个检索过程中用到的索引,就是我们之前给字符编上的号。如果要指定字体,需要向Xorg提供一个长得像这样:“-adobe-times-medium-r-normal--12-120-75-75-p-64-iso8859-1” 的字符串来指定字体。当然,这样渲染出来的字体不会很好看,像这样:
(我不是很清楚 X core font 是否有反锯齿一类的能力,应该是没有,欢迎纠正。)

如果这个应用程序是 gedit,那么它就会选择自己渲染字体,然后将渲染结果直接发给 Xorg,由 Xorg 呈现。在 Linux 下,你想用这种方式渲染字体,有两个库你是逃不过的:fontconfig 和 FreeType2 。大致上来说,fontconfig 让你能通过一个字体名找到对应的字体,FreeType2 则进行具体的渲染。

那么字体是怎么被渲染的呢?不管你用的字体是TrueType还是OpenType还是什么格式,从根本上来说,(除掉点阵字体)都是一些矢量图的集合。渲染字体,只是把矢量图画出来而已——说的轻松!

渲染文字是个复杂的工作,我也不能说我对此了解很深,只能大致讲讲。

字体如果是显示在屏幕上,因为屏幕的dpi和纸张没法比,所以必须反锯齿,否则就会这样:


这只是通过灰度进行反锯齿,我们还可以做的更好。如果你是在使用LCD显示器的话,你屏幕上的像素,长的可能是这个样子的(图片来源,wikipedia):
灰度反锯齿只是在整个像素尺度上进行的,但是既然像素中还可以分为更小的成分,那么我们为什么不通过这更小的单位进行反锯齿?这种方法就叫做 Subpixel Rendering,或者一个更被人熟知的叫法:ClearType。下面是两种反锯齿的比较,图还是来自 Wiki :
可以看到 subpixel 渲染的结果会让边缘带一点色彩。一般来说 subpixel 渲染可以字体看起来更清晰一点,你可在自己的系统上开启/关闭 subpixel redenering 比较一下。

人们为了让字体在屏幕上看起来能清晰一点,真是用尽了心思。因为反锯齿会让字体的边缘变得模糊,让人觉得字体看起来不是那么“锐利”,人们又想出来要给字体做Hinting(不知道如何翻译)。Hinting将字体微调,让横和竖都对齐像素,来尽量减少反锯齿带来的模糊。下面是个(应该一下就能看明白的)例子(图还是来自 Wiki):

Hinting 的具体实现是很复杂的。因为不同字体需要不同的 Hinting 对策,所以字体中会存一些 Hinting 数据来指导 Hinting。而这些数据,每一个都是一个用特定汇编语言写成的小程序!FreeType2中则包含了一个虚拟机,来运行这些程序,来将字体对齐到像素。

当然也有些字体会不带 Hinting 数据,但是 FreeType2 还是可以进行 Hinting ,也就是 Auto-hinting。具体的算法我就不清楚了。

值得一提的是,因为 Apple 拿着很多有关 Hinting 的专利,FreeType2 默认是关闭 Hinting 的,而只使用 Auto-hinting 。直到2011年这些专利全都过期之后,FreeType2才默认支持 Hinting 。

好了,不管你是让Xorg进行字体渲染,还是让应用程序自己进行渲染,最后的结果都是一小块比特图。我们要怎么把这块图显示在屏幕上呢?

Xorg 之中,有一个部件叫做 EXA,是用来提供硬件加速的2D渲染的。EXA的历史很长,最早可以追溯到1996年 Harm Hanemaayer 给 Xorg 实现的 XAA。XAA 后来被 EXA 所接替。现在 EXA 又开始要被 UXA 取代。这些部件虽然都有同样的目的,但是实现都有所不同。具体的区别在这里就不展开了。总的来说,他们的功能是,在显卡驱动的帮助下,将二维图形显示在屏幕上。

到这里,好像就结束了。但其实还没有。2011年的光棍节,Glamor诞生了。Glamor试图将2D的渲染也用 OpenGL 来完成。一张二维图,大概会被转变成 OpenGL 的贴图,然后渲染在屏幕上。目前这个项目还在开发中,性能(在大部分情况下)还不如EXA。

如果所有的渲染都由 OpenGL 也就罢了。如果你还在用 EXA,但是你的某个程序(比如说Chrome)非想用 OpenGL 来显示文字怎么办?显然的办法可以是让程序把所有的 OpenGL 请求都发给 Xorg,让 Xorg 代理。这种方法就叫做间接渲染(Indirect rendering),Xorg 的一个扩展:AIGLX,就是用来完成这个工作的。

有一个额外的中介大概是会影响性能。虽然我没有具体的数据来证明这一点,不过既然后来 DRI 的出现大概是一个佐证。DRI 是 Direct Rendering Infrastructure 的缩写,分为两个部分,分别存在于内核与 Xorg 中。内核的部分叫做 DRM,用来协调多个程序对 GPU 的访问;Xorg 的部分则是一个驱动,也叫 DRI 。程序想要使用 OpenGL ,先要通过 DRI 向 Xorg 申请一块缓冲区,然后通过 DRM 访问 GPU 向这个缓冲区进行渲染。当然这些事不会直接让程序去做,都是通过 Mesa 这个 GL 库完成的。

到这里,还是没有结束。

万一你不幸有个带 NVIDIA® Optimus™ 的本子怎么办?使用 Optimus 技术的独显不会直接和显示器连接,所以想要直接让独显渲染是不行的。现有的解决方案是 BumbleBee,就是之前那个删了用户 /usr 目录,出了点小名的那个。BumbleBee 的做法是再启动一个独立的、跑在独显上的 Xorg,然后用它进行渲染。但是独显没法输出到屏幕,怎么办呢——只好把渲染结果在两个 Xorg 之间传来传去了。BumbleBee 用了 VirtualGL 来完成这个任务。

另外一个还在开发中的解决方案叫做 Prime(开发者就是喜欢和变形金刚过不去)。Prime 利用的是一个还在开发中的内核功能:DMA-BUF,让两个硬件共享一块内存区域。我不清楚具体的原理,不过大概是让一块显卡渲染完之后,DMA 写到内存里,再让连接显示器的显卡 DMA 读出,输出到屏幕吧。

用来 Optimus 以后,感觉本来的长跑,直接就变成了马拉松……

以上差不多就是全部了。不知道你们是不是还有兴趣,要是把场景换成 Wayland ,还有很多可以讲。

操作系统 Unicode 字符编码 计算机科学 字符集

python3.x 如何从str中提取bytes?

-

例如 s = "b'\xe4\xb8\xad\xe6\x96\x87'"
如何把 s 转换为 b = b'\xe4\xb8\xad\xe6\x96\x87‘

@依云 提到的 eval 是不安全的,ast.literal_eval 是按 Python 语法来解析字面量的函数,这个场景可以使用这个方法来解决。

import ast
s = r"b'\xe4\xb8\xad\xe6\x96\x87'"
print(ast.literal_eval(s)))

末尾吐槽:\是转义符,题目有误。

Python 字符编码

人民币符号是「U+FFE5」还是「U+00A5」?

-

Unicode Character 'FULLWIDTH YEN SIGN' (U+FFE5)
Unicode Character 'YEN SIGN' (U+00A5)

CSS规范:CSS Fonts Module Level 3
unicode-range: U+A5;
a single code point, the yen/yuan symbol

相关问题:人民币货币符号是 Y 加一横还是两横?

因为人民币符号多是与半角阿拉伯数字相邻使用而非在汉字文本流中独自出现,所以建议通常使用其半角版本,以保证货币符号与数字的空间关系及字体设计协调。
全角人民币符号「¥」只是个历史遗留字符,如今通常不会用到,它和半角人民币符号「¥」也没有语义差异。

前端开发 字体 CSS 字符编码 汉字编码字符集

为什么不少网站使用 UTF-8 编码?

-

UTF-8 的几个优势

1. 乱码不会扩散, GB2312 在丢失一字节等情况下会造成后续所有文字变成乱码
2. 不会产生错误的搜索结果, GB2312 在搜索的时候相邻两个中文会拼出一个新的字符,导致出现错误的搜索结果
3. 更大的字符集
4. 很多语言直接支持 UTF-8,部分语言存储字符串到内存时直接使用 UTF-8编码。
5. 与 GB2312/GB18030 相比, UTF-8是一个通用解决方案
6. Unicode 一直有人维护,而 GB18030 下一次更新不知道会是什么时候了。对于中文, UTF-8 和 GB2312 在 gzip 压缩后都差不多,所以用来做网页对带宽影响很小

----
补充一下 @程序员 提到的宽字节注入漏洞: 宽字节注入_广外网络安全小组 , 这个也是 GB2312/GB18030 编码下的问题 (UTF-8 下没问题)

互联网 Unicode 字符编码 UTF-8

gbk编码的文件,在utf-8编码下打开,为什么英文不乱码,而中文乱码?

-

主要想知道为什么英文不乱码?
最好能举个英文字母gbk转utf-8的例子。
小白一枚,跪求大神!!!

----------------------
之前理解错误的原因是:认为GBK(所有字符,包括ASCII字符)都是两个字节,UTF-8(所有字符,包括ASCII字符都是三个字节

GBKASCII字符是编码是一个字节,继承自ASCII码,而汉字编码是两个字节
UTF-8ASCII字符依然是一个字节,和ASCII码一样,而汉字编码是三或四个字节
所以,关于ASCII字符并不存在转码问题,其表示方式一致,而汉字需要重新转码。

<---------------今天一看这么多赞,又认真的查了些资料---2015.12.15更新---------------->

UTF-8是变长编码,主旨是用最少的位数表示最多的信息,类似于霍夫曼编码理念。用1-6个字节编码字符,常用的大致52156个汉字(基本上可满足大多数场景需要)编码是三个字节,还有64029个其他汉字用四个字节编码,详情可以看字符映射表

Linux 字符编码 计算机科学 UTF-8 GBK

windows中文件或者文件名是按照什么原则排序的?命名时有什么技巧?

-

比如我知道:
一般是文件夹优先于普通文件,特殊字符(标点、符号)> 数字 > 字母顺序 > 汉字拼音。
但是具体到每一项怎么排的?如特殊字符的顺序是怎么排的等。

其次,在命名的时候有什么技巧而言使得名称看起来规整美观显眼?
谢谢。

并不是按照ASCII码排序的,刚才测试了一下- - 注意 文件名中不能包含 \ / : * ? " < > | 因此将这几个符号排除测试范围 英文字符及数字字母排列顺序为: ! # $ % & ( ) , . ' - ; @ [ ] ^ _ ` { } ~ + = 0 1 2 … 9 A B C … Z 系统不区分大小写字母 刚才测试了一下中文字符,日语假名,汉字,部分其他语种等 中文英文日文字符混编顺序如下(半角) ! ! # $ % & ( ( ) ) , , . ' - — 。 : ; ; @ [ ] ^ _ ` { } ~ ~ ‘ “ 《 》 ¥ 『 』 【 】 + = × ÷ · … 0 1 2 9 A B C Z 吖 啊 八 压 作 (汉字应该是按照拼音排序,如果是多音字,则取其中一种发音作为排序音) 经过测试,日文假名排在汉字之前,其排序规则如下 (无论平片假名按照五十音图排列,不过浊音与半浊音排列在ya、wa、n等音前,且同一假名中片假名位于平假名前) 经过测试,绝大多数韩文字符排列在汉字之后,粗略测试只有子音ㄱ排在汉字之前 韩文字母、复合字母及单字均按照其第一个构成字母排序,第一个相同按照第二个,以此类推 排序方式是从子音 ㄱ 到 ㅎ 然后是母音 ㅏ 到 ㅣ (由于韩语只学了皮毛,因此我的判断并不一定准确) 经过测试,希腊语字符排在英文字母之后,日语假名之前,且按照希腊语字母标准排序方式排列,并且不区分大小写 经过测试阿拉伯语字符排列在日文假名之后,汉字及韩文之前 (由于没学过阿拉伯语,因此无从判断阿拉伯语字符排序方式) 由于时间关系,先是测试了这些字符排序方式 关于数学等专用符号,经过简单测试混杂于英文字符及中文字符后半段,甚至有些混杂到数字以及英文字母中 以下是其中几个专用符号插在中英文普通标点中的排序位置(因为数量实在庞大,无法全部测试,只能选择了几个) 【 】 + = ≠ ± × ÷ ∴ ∵ ≈ △ ◆ ◇ ○ ◎ ● ↑ → ↓ ← § · … 〓 ☆ ★ 0 1 2 3 9 ∞ A B C M N Na Nz № O P Z
参考:zhidao.baidu.com/questi

Microsoft Windows 计算机 命名 月光博客 字符编码 排序 文件名

Windows 下怎样方便地输入带音调的汉语拼音字母?

-

比如ēéěè

使用「自定义短语」,可以一劳永逸地将所有字母添加进来。比如定义「pyx」,x 为待输入的字母。按问题描述中,可以定义 pye,排列第一个的为 ē,第二个为 é,以此类推。

关于拼音输入法的其他好用的办法,可以参见我的博客《调教拼音输入法》cuikai-wh.com/blog/829

Microsoft Windows 输入法 汉语拼音 Windows 7 字符编码

这样一个类似屏幕漏液一样的字符是什么东西?

-

;̷̸̨̀͒̏̃ͦ̈́̾̀́̎͢҉̵̶͚̼͉͖̺̥͔͇̰̹̮͙͉̻̼̭̻͕̮͇ͨͬͪ͗̇̑̽͋̀̋̊͌ͧͨͭ̓̅͐ͥ̂̔̊ͧ͊҉̶̵̷̞̩̦̳̺̳̬̬̩̣̫͇̯̥͖͍͕̠̦̼̗ͯ̽͌̔ͪͯ́́͋̍ͨ̿̿̎͒ͤ̓̅̀͂ͧ͋̏ͫͣ̔͘͜͠͏̶̥͓͘

我发现它可以被一点一点的删除,这是一种特殊的字符吗还是什么?

这种文字实际是泰文,而泰文中会在字符上面扣帽子的现象。出现这种情况是目前国际码泰语字符的一个设计失误——因为实际上泰语拼音不可能出现有两个或以上相同位置元音符号的情况。如果你将小尾巴复制出来然后退格删除,那你可能需要按很多次才能删掉。
教你自己制作那些奇奇怪怪的泰文字符~~~~~~~~~~~~~~_firefox吧
o͡͡͡͡͡͡͡͡͡͡͡͡͡͡╮比如这样

计算机 科技 字符编码 特殊字符 泰语

为什么apple设备的颜文字要比windows丰富?

-

很多好玩的颜文字在windows下都无法显示
在同样的文字编码系统下,微软和苹果在处理上有什么差异?

大家可以搜索“颜文字”这个话题,里面好多回答的颜文字无法在pc正常显示
====================================
补充:
应该和字库有一些关系,而windows下的不同应用程序,或同一应用程序的不同界面,有的支持某种字符,复制到另一个界面中就变为?或口

结论应该是苹果对应用程序提供了较完整的字库,而微软对应用程序提供的是基本字库,附加字库(例如小语种)需要应用程序自己去完善

字库不同而已~

我们常见的是黑体字~ 微软雅黑里面支持不到 藏蒙语言,连德语都不支持。(好吧,确实是支持的,只是形状好像变得很奇怪了)
所以玩不起来。

--------------------------------

只是一个单纯的多语言支持而已,可以拉到政府级别,我突然不知道如何认识世界了。

Mac Microsoft Windows Unicode 字符编码 颜文字

Unicode字符集中有哪些神奇的字符?

-

包括控制字符、有趣图案等等。
不限Unicode字符集,其他可以在PC显示的字符集也可以作答。谢谢分享~

unicode.org/charts/
Unicode官网字符大全,可任意浏览与下载,任君挑选

一般来说,名字里带Miscellaneous(杂项)的列表中奇葩字符率较高,比如unicode.org/charts/PDF/,祝您寻找愉快!
以下是我个人感兴趣的:
一些国际音标符号unicode.org/charts/PDF/
音符unicode.org/charts/PDF/
货币unicode.org/charts/PDF/
麻将unicode.org/charts/PDF/
扑克unicode.org/charts/PDF/
易经六十四卦(八卦在上面的杂项列表里)unicode.org/charts/PDF/
太玄经……unicode.org/charts/PDF/

Unicode 字符编码 特殊字符 编码 字符

关于Python下的编码问题?

-

请问哪位大牛能详细而又通俗的解释下,
Python2下unicode、utf-8、decode、encode之间的关系。

我感觉我在这方面的认识还不够清晰,希望大牛们能帮帮忙,谢谢!!

py2的编码其实是最最贴近实际的编码形式了。反倒是py3,如果遇到个编码标记错误之类的问题,直接让你自杀……

先说编码是什么:我们知道计算机里存储任何数据都是存储的二进制,但是一串文字若是当图片那样存储太浪费空间不说,也会难以解析,所以ascii标准码使用了7位二进制标记了128个字符和控制符号。当然7位不利于数据对齐,所以干脆以8位存储,最高位补个0就好,正好一个字节,此即为基础ascii编码。

但是这128个字符里,虽然包含了常见英文符号和必须的控制符号(比如换行、回车、EOLN、EOF),却对使用其它语言的用户而言没法用,毕竟各家字符不同哇……

首先是欧系拉丁语系指出,既然一个字节一个字符,只用到7位,那么还有128个编号可以用,于是规定了相应的拉丁语系主要符号,同样单字节表示,这样就用到了多出来的一位,这套编码称之为latin-1

再往后,大多数其他拼音语言的国家表示,我们不用拉丁文符号,那么把那128个额外字符改成别的符号,映射自己的文字就没问题了。于是出现了多编码页,也就是最初的codepage。

但是中日韩为首的字形语言系的国家不行啊,你们丫的就几十个符号,可中文之类光常用字就好几千啊……于是针对中文出现了codepage936/gb2312,通过两个字节表示一个汉字,其中包含数千常用字,并且规定最高位为0的部分完全兼容ascii,但是若最高位为1,则必须是两个字节连续出现,用以表示一个汉字——随后还出现了GBK,规定的字符更多,兼容gb2312,同样是个双字节纪录。

然而有两件事情形成了阻碍:一是中文博大精深,汉字实在太多,算上生僻字,两个字节其实也不够用;另一方面,在GB系编码下,所有双字节字符都会被解释成汉字,因此最多做到英汉混排,多语言没戏,同时还会影响到诸如网络传输等等场景,因为同样的双字节二进制数据,对应GBK中文与对应的日文韩文显然不同,这就必须带着编码类型跑,稍不注意就不知道是个啥语言的玩意。

于是出现了unicode,是ANSI标准下的多国语言文字编码。unicode使用32位二进制表示每一个字符,且任意语言任意符号都有独立编码,这样就可以做到使用一套编码同时处理多种不同语言。

unicode是个编码方式,只涉及编号,并不管传输和存储。针对需求,unicode产生了若干传输用编码,其中比较普及的有utf32,utf16和utf8。utf32是每字符32位固定编码,完整映射unicode原编码而不做改变(当然,规定了一下传输时的端序问题);utf16则是最少16位最多32位,属于变长unicode传输方案,以实现对部分codepage的兼容;而utf-8则是最小8位最大32位的编码,变长,且英文部分完全兼容ascii。由于省空间及ascii兼容这两点,使得改用utf8代价最小,才成为了主流。

python2里,与编码有关的有三个部分:

一是源代码识别问题。原本python解释器纯粹把源码使用ascii编码进行解析生成语法树。考虑到源码里可能存在其他语言的字符串量,提供了setdefaultencode接口,但是非常容易引发各类问题。PEP263指出在文件第一行或者第二行(仅限第一行为Unix脚本标注的情况下)写入特殊格式的注释# coding:xxx可以指定解释器解释源码时使用的字符编码。

第二部分则是内置类型转换:python2里的str类,其实是个不存储编码信息的类型。也就是说它把内容二进制按照逐个字节来处理和比对、运算。str类型的「字符串」如果拿来迭代一下,会直接拆成一个个字节来处理。但是,一旦我们需要对非单字节编码的单个字进行处理的时候,python只提供了一个类型来解决问题,即unicode类(注意,实质上py里这个类是utf8进行内存存储的,并不是utf32/unicode原编码),所以常常需要相互转换,将用到encode/decode两个方法。原则上是,decode方法是将一个str按照指定编码解析后转换为unicode,encode方法则是把一个unicode对象用指定编码表示并存储到一个str对象里。

第三点是输入输出。Python2的print的实质是将str里的东西输出到PIPE,如果你print的是一个unicode对象,它会自动根据LOCALE环境变量进行encode之后变成str再输出。然而一般在Windows上都没有设置locale环境变量,py2就按照默认的ascii编码进行处理,于是对中文自然就编码错误了。解决方法是手动encode成对应的输出端可接受的编码后输出。win下一般都是gbk,linux下一般都是utf8

py3中的str则是unicode,bytes才类似于原str,默认代码解析用utf8,默认输出编码也是utf8。

Python 编程 Unicode 字符编码 Python 2.x

人民币货币符号是「Y」加一横还是两横?

-

人民币货币符号:¥(注:这是 U+FFE5,不是 U+00A5 的 ¥)。
在中易宋体(SimSun)中,这个符号是 Y 加一横,在微软雅黑和其它大部分字体中是 Y 加两横。
最好指出相关国家标准。

在第五套人民币 2005 年版的「全息磁性开窗安全线(100 元)」上,人民币符号的造型为:Y 字母加两道水平线。(50、20 元一样。)

如果希望跟「国家标准」靠齐,眼下应该优先考虑上述造型。

- - -

讨论人民币符号的「视觉造型」,首先不应纠缠于字符(Unicode 码位),以及特定字体中、特定字符的造型。Unicode 中的 U+00A5 (¥) 和 U+FFE5 (¥),在语义上没有区分。这一对码位,都意图统合日元和人民币的符号。

真想采用「一道水平线」造型的人,甚至会用 U+04B0 (Ұ) 去 hack。

- - -

可以顺带一提的是,央行网页选用了半角字符 U+00A5 (¥)。另见:人民币符号是「U+FFE5」还是「U+00A5」?

标点符号 字符编码

为什么 Unicode 中会存在「凉」和「凉」这样两个极其相像的字符?

-

在贴吧里看到两个一模一样的 ID,仔细看才发现这两个字不一样。
第一个「凉」是 U+F979,第二个「凉」是 U+51C9。

我来补充一下为什么韩语里“凉”会是多音字,以及怎样用“正常”的方法打出这两个“凉”字。

韩语中“凉”字本来的读音是량(liang)。
这里我姑且用英文字母l来表示韩文字母ㄹ的发音,内行人不要挑漏儿。

韩语有一定阿尔泰语系的特征,其中有一条就是单词不能以l开头。
韩语的固有词的确没有以l开头的,但是对于外来语,处理方式就不同了。
来自西方的外来语单词,开头的l会保留,比如라이터(la-i-teo,打火机);
来自汉语的单词,在朝鲜会保留的开头的l,但在韩国,需要按照如下的“头音法则”把l换掉:

 • 如果l后面接的是元音i或者以i开头的双元音,则l要去掉,比如“梨花”:리화(li-hwa)-> 이화(i-hwa)。韩国人的姓“李”拼作이(i)也是这个道理。
 • 如果l后面接的是其它元音,则l要换成n,比如“骆驼”:락타(lag-ta)-> 낙타(nag-ta)。
另外,以n开头的汉字词,如果n后面接的是元音i或者以i开头的双元音,也要把n去掉,比如“女子”:녀자(nyeo-ja)-> 여자(yeo-ja)。

根据头音法则可以发现,所有声母为l的汉字,在韩语中都是多音字。
韩国的KS X 1001字符集比较奇葩,给多音字的每个读音都分配了一个编码。
而Unicode为了与所有已有字符集兼容,必须也给韩语中多音字的每个读音分配一个编码。
每个字的多个编码中,有一个是放在正常的汉字区(4E00 ~ 9FA5)的,其它的都放到了“中日韩兼容字符”区(F900 ~ FAFF)。
于是在这个兼容区可以看到大量声母为l(或n)的汉字:

Windows自带的韩语输入法,在输入一个韩文字符后按右Ctrl键,可以将这个字符换成对应的汉字,如下图:
如果输入량(liang),那么打出的就是“凉”字(U+51C9);
如果输入经过头音法则变换后的양(yang),那么打出的就是“凉”字(U+F979)。

@刘松泉已经发现了Unicode中有四个“樂”,这同样也是韩语多音字搞的鬼。
韩语中“樂”字的四种读音以及对应的Unicode编码、意义如下:
 • 악(ag),U+6A02(樂),对应普通话读音yuè,名词,音乐意;
 • 락(lag),U+F95C(樂),对应普通话读音lè,形容词,快乐意;
 • 낙(nag),U+F914(樂),为lag经头音法则变换后的结果;
 • 요(yo),U+F9BF(樂),对应普通话读音yào,动词,喜爱意。

字体 字体设计 Unicode 字符编码

部分少数民族人士因姓名有间隔号(·)无法申请银行账户等,技术上有办法解决吗,需要多久?

-

【少数民族名字长登机难 南航副总称将研究解决】finance.china.com.cn/sp
光一家航空公司解决不了太多问题吧,得改进全国民航、银行、公共服务等机构的网络系统。不知是否可能?需要多长时间才能完成改进?

现实案例:

以下内容摘选自 twitter 用户 @barrywey :(图片点击放大)

怒答。

「名字长登机难」仅仅是因为机票姓名栏太短,改设置就行,这不是中间点带来的问题。
@barrywey 问说为什么 5 年前没问题现在有问题,其实,同一天在同一个银行,换个柜员都可能遇到不同的问题及对应的不同解决,关键就是姓名中间点问题从来还没有一个统一的解决方案,柜员妹子只能靠猜。

下边讲的都是中间点问题。

为举例方便,本回答中,我的姓名叫做「努尔麦麦提·卡卡西」。
请注意,「努尔麦麦提」是个普通突厥男名,但「卡卡西」并不真的是突厥民族的常用姓/名。

请思考,平时用到需要输入「史蒂夫·乔布斯」时,你是怎么输入这个中间点的?

如果你使用过超过一种的输入法、超过一种的系统,你可能知道,「·」(Unicode 00B7)这款符号在不同的输入法下对应不同的按键,并不是所有的人都能准确找到。
正确的输入方式参见 @王童鹤 的这个回答:英文名中间那个点,不用输入法能打出来吗?老外是怎么做的?
引用如下:

「乔治·布什」、「齐·宝力高」、「迪里拜尔·尤努斯」这样的名字里,中间的那个点,中国大陆事实上的规范字符是 Unicode 00B7 (middle dot)。和大陆常用的「间隔号」是同一个字符。

任何主流输入法都能输入(通常是「Shift-2」或数字「1」左边那个键「`」),Mac OS 里可以用 shift option 9 输入。
够复杂了,且确实不直接、不常用,所以有人会用其他符号代替,比如,招商银行信用卡中心给我的账户名字添加的点,就是个正方形黑点。
其他符号中,至少有四个可能被混淆用于姓名的居中圆点:「∙」「•」「・」「●」,分别叫做「Bullet Operator」、「Bullet」、「Katakana Middle Dot」、「Black Circle」附图:
为什么「王柯伦」可以被所有银行柜台、所有网银后台、支付宝实名验证系统、机票网站、微博实名管理后台、公安系统身份证验证系统等毫无障碍地接受呢?因为「王柯伦」是三个在任何字符编码系统中都有唯一对应编码的字符。
银行开户时,需要联系公安系统的身份证验证平台,以保证实名开户。柜台妹妹输入的「王柯伦」跟派出所大叔为你输入并伴你一生的「王柯伦」一定是可以对得上的,不会有任何问题。
但「努尔麦麦提·卡卡西」则不同了,首先柜台妹妹不一定会输入,其次妹妹不一定能够运气好输入了跟公安身份证验证平台一致的点,所以麻烦非常多。
从我个人的经验看,北京招商银行、中国银行的柜台都不会输入这个点,但经过指点都能最终正确输入;招商银行信用卡中心的妹子输错了,客服一度以系统限制一类的理由拒绝修正,所以很长时间里我的招商银行借记卡和信用卡的用户名字都不一致:「努尔麦麦提·卡卡西」/「努尔麦麦提・卡卡西」。这非常麻烦,比如,因为「帐户名不一致」,我的借记卡不能直接向信用卡还款。

我的公积金联名卡是招行的,他们已经因为「姓名不符」跟我重新要过身份证复印件,但向公积金中心提交资料时还是被卡住。后来有个小伙子打电话说这事儿搞不定,要为我一个人单独提交一次材料。之后又耽误了非常长的时间,我在入职一年后、离职前一周终于拿到了公积金联名卡。

很多网站的「真实姓名」栏默认所有非中文字符都是非法字符,所以:(这是新浪最初推出实名注册时候的界面,我知道我的名字肯定不会通过,所以试着玩)

支付宝实名验证系统也没有考虑姓名中出现标点符号的情况,所以我这边输入「努尔麦麦提·卡卡西」,客服妹子在后台看到的却是「努尔麦麦提·卡卡西」
……这事儿说太多次说不动了,请移步这里看详情:有少数民族人士说「尼玛」在他们的语言里是「太阳」的意思,所以请大家不要用这个词来骂人。你怎么看?
但支付宝是态度最好、最快解决的。

啊居然说到了解决……其实这个问题很好解决,公安系统的这个点肯定是统一的,只需要公安系统公布这个点的 Unicode 编码和常见输入方法,之后一切就都理顺了,银行据此培训柜员、网站据此设置姓名栏合法字符,等等。

其实,国内单单维吾尔人口就已经超过了 1000 万人。银行可以淡定无视这一千万用户,是因为这一千万人大多不是他们的用户。
少数民族在以汉人为绝对主导的社会,绝大多数时候是春晚的歌舞、新闻联播的「团结」和「亚克西」、网帖里的切糕和小偷。我们太少介入你们丫的日常生活,所以在你们丫的日常生活里处处碰壁。
不过这种状况正在改善,北京一些交行、中行等的 ATM 都出现了维吾尔文界面:
所以,颤抖吧,地球人。

姓名 Unicode 字符编码 少数民族

全角和半角的区别,以及字符编码中全角半角关系?

-

相关说明:中文输入法为什么会有全角和半角的区别? - 字符编码
全角半角说明:zh.m.wikipedia.org/wiki
1,根据wiki,中文编码里面,除了数字,字母和一些符号既有全角又有半角,其他的都是只有全角,
2,日文里面是数字,字母,符号和片假名(如果那个确实是叫片假名的话)是全角半角都有的
3,yes
谢谢.重新编辑了一下,这样没错吧
-----------------------------------------------------------原问题分割线--------------------------------------------------------------
是不是可以这么认为:
1,即在显示上占两个英文字母大小空间的都是全角,如在utf8中或gbk中,所有的汉字和如下的1 2 !等
2,utf8,SJIS,gbk中都有全角字符和半角字符,但是,同时拥有全角和半角的字,是不是只有0~9,a~z,A~Z,以及各种标点符号,还有其他的,比如sjis中日文的,
ガード(这个是全角的) ガード(这个是半角的)
3,这个认识是对的吗:当一个页面是用sjis编码时,用户提交的任何信息都是sjis编码的,当时utf8,提交的都是utf8编码的.

1,2: wikipedia.org 全形和半形 3: yes

编程语言 PHP 字符编码 PHP 开发

「=͟͟͞͞这=͟͟͞͞种=͟͟͞͞效=͟͟͞͞果」是怎么实现的?

-

这̳是̳由̳在̳文̳字̳间̳插̳入 Unicode Combining Diacritical Marks 区̳字̳符̳所̳形̳成̳的̳效̳果.

这͜些͜字͜符͜是͜为͜正͜常͜字͜符͜添͜加͜例͜如͜重͜音͜符, ͜下͜划͜线͜之͜类͜使͜用͜的.


unicode.org/charts/PDF/


p.s. 中文字体里没这些东西, 之所以能显示是拜某些系统基础西文字体所赐, 比如 Arial 之类的.

Unicode 字符编码 特殊符号

如何让使用 utf8 的 MySQL 表支持 CJK EXT-B 字符?

-

向 MySQL 中插入这个区的字符时都会被截断,号称对 Unicode 支持很好的 MySQL 5.5 也不例外。

根据dev.mysql.com/doc/refma的文档,你需要使用utf8mb4, utf16或utf32这三种charset中的任一种来支持supplementary characters。你提到的问题在去年曾有人report过,bugs.mysql.com/bug.php?,但开发人员指出这在5.5里应该不是问题。

MySQL Unicode 字符编码 CJK 编码

nodejs中 如何将一个utf8 字符串转为gbk字符串?

-

None

var biz_content = "欢迎关注!";
var gbkBytes = iconv.encode(biz_content,'gbk');

res.setHeader('Content-Type', 'text/html; charset=gbk')
res.end(gbkBytes)
注意确保你的源代码文件是utf-8正确编码。

JavaScript的字符串本来就是unicode的,只要encode就好了。你上面写的代码是得到了字符串的utf-8字节后按照gbk解码,得到的必然是乱码字符串。


补充:

许多同学对字符串理解有误。PHP的字符串不是真正的“字符”串,而是“字节”串。在nodejs里(以及在java、C#等现代语言中),字符串是真的unicode字符串。(内部以utf-16编码保存,虽然严格意义上其实也存在代理对这样的问题,但是绝大多数情况下我们只用基本平面内的字符,所以算是比较好的性能和功能的折中。)

因此JavaScript中不存在gbk字符串或utf8字符串这样的东西(可以认为只有utf-16的字符串)。你可以认为php中的所谓字符串等价于nodejs的 Buffer,尽管使用上有一些不同。

字符编码 Node.js UTF-8 GBK

为什么藏语字母ཪ要对应两个 Unicode 码?

-

Unicode 码的 0F62 和 0F6A 都是藏语字母ཪ,字形完全一样。其目的,按国家语言文字工作委员会的说法:
藏文字符“ཪ”(r,0F6A)与“ར”(ra,0F62)是藏文同一个字母,国际编码标准(ISO/IEC 10646 : 2003)另列此字符仅用于拉丁转写。
那么,如此区分有什么必要?
或者说,什么时候无法区分字母ཪ到底表示 r 还是 ra 而需要用代码来区分呢?

Unicode 问题能学会去看 Unicode 官方的文档吗?啊?!
呵呵呵「按国家语言文字工作委员会的说法」,Unicode 是国家语委的吗?国家语委那帮人的 Unicode 技术水平能信个蛋啊!「拉丁转写」鬼啊!

先看 code chart,然后去看 core spec。

Code chart: unicode.org/charts/PDF/

Core spec: unicode.org/versions/la

其实我都不该直接把关键内容截图出来。这有什么难找的?

另外,这是两个 Unicode 字符,不是两个「Unicode 码」。

Unicode 字符编码 藏语 字符集

为何在汇编语言、字符编码等领域大量使用十六进制,是因为位数的原因吗?位数对于汇编有何意义?

-

从数学角度,三进制最佳,可以表达最多的状态

从成本角度,二进制最佳。可以稳定三个状态的元器件比稳定两个状态的成本和制造难度高出太多。在二进制基本可以满足需求的情况下,不考虑三进制。

从位数角度,相等得数,进制数越高,所需位数越小。

从习惯角度,人有10根手指,人类之始技术用手指,由此开始了十进制。

因为一个十六进制字符可以表示4 bit,一个byte刚好可以用两个字符表示。八进制表示3bit,不能整除8,用来表示1byte需要3个字符且不够直观。四进制和二进制表示起来太长。用256进制可以用一个字符就表示1byte,但没有这么多ascii字符可以用。所以十六进制是最佳的。
这些都是“数的n进制表示法”,是给人类看的,计算机内部用的都是二进制元件。

编程语言 汇编语言 字符编码 二进制 十六进制

为什么 iOS 微信中简化字用「❝ (U+275D)」和「❞ (U+275E)」括起来后会变样?

-

问题描述可能并不准确。

非程序员,仅以使用者层面尝试做试验寻找一下规律,也许能帮助组成到梁海所说的错误报告。


先说结论,试验失败了,没有找出规律,没能正常地回答提主题问。

只想知道答案不想浪费时间的请无视本答案。


有兴趣看我是怎么被虐的欢迎。有错误也欢迎指出。(感谢梁海对U+201C/D并非全角独有的指正)


首先探索一下iOS上微信/QQ等一些环境下多语种共存时的显示规律。

QQ同样出现这样的问题,为了发送文字、截图方便,使用QQ。(微信需要打扰别人,QQ可以发给自己)

iOS像OSX一样可以设定语言顺序,不过默认仅有主显示语言,所以一般用户很少去添加其他语言。实验中手动定义语言顺序。


测试使用了三个汉字,同码,各地写法不同,可按照字形判定所用的语言/字体。

遍:简繁日韩都存在,很典型的。

 横起笔=日,点起笔=简,撇起笔两点方形走之=韓,撇起筆一點フフ型走之=繁。

浅:仅在简中和日文中存在,两横=简,三横=日。

简:仅简中存在。


以简中为第一语言,这是多数中国人的手机状态。

语言顺序定义=简日繁韩

通常无引号的情况:在微信、QQ这种没有定义字体的环境下,并不是能用首语言显示的都用首语言显示。

你看,当行首是韩文时,接下来的汉字「遍」明明可以包含在简中的范围内,却使用了韩文字体,也就是延续前面文字的字体了。然后到了「浅、简」,韩文字体没有了,使用语言列表的首选语言(简中),以简中字体显示。到了后面那个「遍」,韩文字体可以显示了,又回复到韩文字体显示。

也就是说,通常情况是按照行首的第一个字符能用哪个语言的字体显示(多语言通用字是根据首选语言列表的)而定义了整行的首选语言。虽然我们现在系统首选语言是简中,但由于行首的字符仅有韩文包含,于是该行文字的首选语言是韩文而不是系统定义的简中。


奇葩的是只定义一行,而不是整段落。就算没有手动回车换行,当一行显示不下时的自动换行后,下一行重新以该行的第一个字符定义语言。即第二行因为第一个字符不再是韩文独有的,所以第二行整行都是以简中作为主要语言,第二行的「遍」字全都是简中写法。

第三、四行行首的汉字都是包含简中在内的多语言共有字,这里正确地显示为简中写法而不是日/韩/繁中写法,说明在「以行首字符定义语言」的行为中遵循了系统语言优先顺序。

第五行以안开头,所以第五行首选语言被定义成韩文。


如果以一个日语里有而简中里没有的中点「・」(U+30FB)开头的话,该行就被定义为日语啦。

所以这里引出了一个在简中环境下以日文字体显示日文的方法,行首加个U+30FB的中点。

比如黑体-简/繁的假名太烂,你需要一个正常大小与位置的不与大字混淆的小字假名,或者日本写法的汉字。

勉强总结一下微信/QQ的情况。就是由行首的第一个字符决定整行所使用的首要语言/字体。而行首第一个字符若是多语言共存的字符,则以系统语言列表为准来决定。


===================下面开始说引号====================


实际上不仅仅是修饰引号❝❞(U+275D/E)存在特殊性(姑且先认为是特殊性而不是错误)。常用的蝌蚪引号“”(U+201C/D)也存在特殊性。


带上引号继续「안녕遍浅简」。


一、方引号「」(U+300C/D)


语言顺序=简日繁韩

方引号是东亚共有的,在简中为首语言情况下,方引号中文存在,定义该行=简中,汉字全部简中,韩文fallback,没有问题。


语言顺序=日简繁韩

在日文为首语言情况下,也没有问题。方引号日语存在,定义该行=日语,「遍、浅」两字和引号以日文字体显示,韩文和「简」字日语字体没有,fallback,没有问题。方引号是普通的字符。


二、蝌蚪引号“”(U+201C/D)


语言顺序=简日繁韩

蝌蚪引号简中包含,但作为第一个字符的蝌蚪左引号,并没有被用作定义语言,用来定义语言的是左引号后面的안。


更新:根据梁海在回复中指出U+201C/D包含于西文,与西文处理方式相似。于是测试了下以西文开头。的确西文是不被算作中文字符从而影响全行的,且蝌蚪引号“”(U+201C/D)是被作为普通西文看待的。


这种情况以第一个非西文字符作为整行的语言决定字符。

且每次出现西文(包括空格)都以下一个字符重新定义语言。


我们在引号外面再写字呢?

似乎明了了。蝌蚪引号是一个特殊的存在,引号出现后被视为另起一个行。

左引号开始以接下来的第一个字符定义语言,右引号出现后重新定义语言。也就是说,两颗蝌蚪引号的下一个文字,都被用来定义语言。所以就算不封口,左引号开始的该行所有文字也都会以左引号开始的第一个文字为首选语言。

所以之前认为的特殊存在实际上并不特殊。就是以普通的西文字符对待。即「无国籍身分」,且下一个非西文字符重新取「国籍」。


同样只能维持行内,换行失效。


三、神奇的修饰区蝌蚪引号❝❞(U+275D/E)


语言顺序=简日韩繁

首先这货必须成对儿才能生出奇葩的效果,这跟通常的蝌蚪引号“”(U+201C/D)又不一样了。不成对儿的话,还是以引号后的第一个字定义语言,跟“”(U+201C/D)一样。

虽然看起来是在成对儿的❝❞内,强制日语优先,但又不完全是这样的:

❝❞非行首时,是不起效果的,后三行遵循行首字符定义语言的普遍规律。

也就是说❝❞出现时,不会以其后面的字符定义语言。❝出现在行首,并该行有❞出现(同样不能换行,后边有验证),才会生效。效果奇葩,表现为❝❞内的汉字无视系统语言优先级设定,日语优先,而且fallback的文字都要小一号,无论是简中专用汉字还是韩文。


❝❞不在同一行没有该奇葩效果。


但是一旦有英文,大小又都正常了窝草?更新:❝❞内有英文时不仅大小正常,语言的定义也回到了「西文无国籍,以下一个字符定义语言」的规律。另外说另一个更加奇葩的奇葩,更加完全摸不到头脑的——电话本。

上图是日语为首语言时,正常时姓名是加粗的。

楊浅海:很正常地使用了系统首选语言,即日语字体。

杨浅海:而当第一个字是简体「杨」时,并不遵循前文的规律,「浅海」两字还是fallback回日文写法,但是加粗却和「杨」一起没了。而且注意看会发现,「浅海」字的字形跟粗体的不完全一样,三横的斜度,以及「每」左下是直的,并没有向左撇出来。

经过比对,细字并不是ヒラギノ角ゴ(iOS中的日文字体)的字形,是与黑体-简/黑体-繁同一套的华文产的 黑体-日(Heiti J)


这尼玛是什么鬼?怎么这时候会用这么一个平时不会用甚至我都以为新版iOS已经去掉了的字体?


更奇葩的是杨戬(我能想到拿杨戬做实验也很奇葩)

仅「戬」字简体时,其他都有好好加粗,缺字fallback简中,这也正常。


但是当全是简体时,按理说跟简体「杨浅海」一样,「杨戬」二字简中,「二郎神」三个字日本,或者像QQ微信那种,全变成简中。

但实际情况却是:首先全没有加粗了这跟简体「杨浅海」一样,然后「杨、戬」简中没问题,「二」没有特点看不出来用的谁的字体,「郎」这个日本也有的字显示成简中(点起笔),「神」显示成日文字体(竖起笔),这是闹哪样?


我想静静。


不过好在以中文为系统语言,主要记录全汉字的中国人姓名的绝大多数中国人,是基本不会碰上这种奇葩情况的。


总之这个探究发现了正常字符的一些情况下的规律,主要还是失败,留给研究的人作为资料或者引子吧。

字体 iOS 设备 微信 字符编码

将文字转换为 Unicode 时,能转换为 &#XXXXX,也能转换为 \uXXXX,它们有什么区别?还有没有其它的转换?

-

比如,将「初」转换为 Unicode,可以表示为「初」或者「\u521d」。

谢谢邀请。

这两种格式背后的编码一致,不过适用于不同的场合。前者用于 HTML/XML (另外需要注意的是,前者必须以分号结尾);后者是 C/C++ 和 Python 家族对 Unicode 字符的表示法。其他的表示法当然也有,比如 Scheme 的 #xABCD 表示法。只是语法区别而已,含义还是一样的。

Unicode 字符编码

为什么这么使用 C 语言 fgetc() 函数会出现乱码?

-

为什么用 putchar(fgetc(fp)); 读取文件会返回乱码?
代码:
#include <stdio.h> 
int main() { 
   char ch; 
   FILE *fp; 
   if((fp = fopen("text.txt", "r")) != NULL) { 
     while((ch = fgetc(fp)) != EOF){ 
        putchar(fgetc(fp)); }
     }else{
          printf("fail to open! \n");
         }
     fclose(fp); 
     return 0; 
}

1、楼上都说了,while中的判断执行了一次fgetc,导致顶端的字符从流中提取出来了,写回去的时候只写入了(偶数字节)部分;
2、文件用读方式打开,是不应该回写的;
3、同一个文件的读写是不能交替进行的,会产生不可知的后果,在Windows中就是乱码。

编程 C(编程语言) 字符编码 GB2312

© COPYRIGHT BY i How And Why.com 2015