韵律结构_语音信号分组编码

【论文正文：请往上滚动看全文】

【论文】韵律结构-语音信号的分组编码

丁以民中国南京 18260060980@163.com 2026.02.01

你喜爱音乐吗，了解七个音符CDEFGAB的数理关系吗。古希腊Pythagoras说，四度五度之音是宇宙间天籁之音，由此我们对神奇的韵律结构展开研究。

[正文]：

Fig1.four_way response 1 韵律结构的定义

韵律结构是一种数据关系结构，记作“PS”。它也是语音信号的分组编组的方式。

1.1 韵律比与韵律网

在正实数域中，设X1是任意一点（见Fig.1），则总有四点X2, X3, X4, X5, 它们与X1的数值之比分别是 [2/3, 3/4, 4/3, 3/2]。这四个比称作 “韵律比” 或 “四向比”，该四点称作X1的“四向点”。它们之间的关系称作 “韵律关系”，或称“韵律相关”，是双向的（见图Fig.1）。同样，这四个点在各自周边也有四个点与之是韵律关系。同样...。不难证明，在韵律比下这些韵律相关点都收敛在同一网上，称作：“韵律网”，记作“pW”。在正实数域中，逻辑上并存着许多pW，它们都是相似的。

韵律结构PS的一个韵律区PA中的网点被人类意识理解为音乐。人类意识中存在韵律结构！

1.2. 韵律区与音乐：

韵律网自然地形成着一个个的韵律区，记作“pA”（见Fig.2黑点区)，韵律区中韵点关系可以由下式表达：

pA=[1,k,k*k,4/3,3/2,3/2*k,3/2*k*k]; (其中k=9/8)。

Fig.1是Fig.2的一部分（说明：图中的短弧线表示韵律比关系（逻辑关系）)。

上式pA中的“1”是“基点”，记作"C1"。当某音Xi作为基音BF时，即C1=BF，称作“基音实例化”，此时pA就是人类理解的音乐点[CDEFGAB]（生理原因不详），因此pA称作“乐点系数”。

人类乐感并不依赖基音C1，有时候一段乐曲中无C1出现照样能听出该段乐感，由此可见，音乐感主要依赖乐点之间的韵律比结构。

在图Fig_2中，两条红色弧线分别是各级F点的连线（示意线）和各级B点的连线，构成韵律区的左右边界，两条界线之间是C1的主韵律区。在主韵区的两侧是韵律网的“阴律区”。阴律区就象主韵区的一个个阴子，例如左侧是“下阴-1区”（蓝色弧线内），右侧是“上阴+1区”（绿色弧线内）...。任何韵区都具有主韵区的一切性质，它们是相似的。相邻韵区之间比是3^7 / 2^11。

1.3 蜗节系统vkSy：

听觉能在短时内获取该语音的基音BF。听觉更重视的是随之而来的语音之间的“相对比”，它就是韵律比pA。pA可以细化为蜗节，简称为"VK"：

VK=[pA(2:3)*2^11/3^7，pA(1:3)，pA(4:7)，pA(4:6)*3^7/2^11];

上行12点是“蜗节系数”排序后是[CdDeEFfGgAaB],显然乐点集pA是蜗节VK的子集。vkSy称作“蜗节系统”：vkSy=VK*2^n;（n为整数，称作“级”）。

vkSy把频谱划分成许多段小区域，该区域可以理解为两个蜗点之间的频区，也可以理解为该蜗

点的频域，称作“蜗点域vkPD”：从本点开始（闭区）到下一个蜗点（开区）的频区。

1.4 语音共振峰与蜗点域vkPD关系密切

用一例说明： "Me1"是元音[e]的音例，下表是它的第12时段的主要部分。（表中的主峰>12.0；它的最强峰1312 Hz(70.2)在第9时段）

分析：在这个时段中，元音“Me1”的主要共振峰Formant的主要部分与蜗点域vkPD关系密切。

其中三个主要共振峰Formant “896~928(F)”; “1072~1104(g)”; “1248~1296(B)” 由三个蜗点域vkPD分别一峰一蜗采样，它们是（F,g,B），可以写成vkPD（F,g,B）。这几个vkPD中的能量比起它们的两侧强很多；三个Formant的主要部分（红色）分别落在三个vkPD(F,g,B 蓝色）的频区内。三个vkPD(F,g,B)分别采中了三个Formant能量的主要部分。另外，Formant "352~368~384"由两个相邻的vkPD(d,D)联合采样，各为“左山坡”“右山坡”; Formant "528~544~576" 由两个相邻的vkPD (g,A) 联合采样，也是各为“左山坡”“右山坡”。

本例的5个主要Formant的采样事实，给我们提供了两方面的信息：1）这些主要“Formant”的音是按照该“vkPD”（频段）产生的音，该vkPD称作该Formant的“目标vkPD”（发音目标）；2）这5个Formant所在频段就是蜗节系统的7个vkPD（这给后续研究提供了重要线索）。

1.5 语音单元的“特征蜗点组”vG：

在蜗节系统vkSy中同时蕴含着各语音单元的“特征蜗点组vG”模型。在此只用两个韵母[a][ao]说明此事（它们只是粗略表明研究的方向方法，数据需要优化与深化）

1.5.1 元音[a]：先看它的音例一“za7”，下一行是摘取它的第57,59时段的主要频域信号：（本文只分析频域信号中前几个较强频点之间的关系。该音用自相关函数计算基音频KF=204Hz）

在57时段，[832 (27.5), 1040(41.9), 1248(48.9), 1456(25.1)]四个强点的最大公约数是208。显然这四点都准确地扣住了BF*[4,5,6,7]的关系！(其中BF=208)

在59时段，[848 (23.3), 1056(40.5), 1264(41.8), 1472(19.5)]四峰点的最大公约数是211（误差小于5），而且224(46.9)升为最强音，可见基音在升调：204-208-211-224，但是四点之间的关系“抱团”不变：都尽量保持与基音的倍数关系BF * [4,5,6,7]。

元音[a]的特征蜗点组是vG(a)=BF * [4,5,6,7]; 本例中是几个多倍谐音。但是元音[a]的表现不全是这样，多数呈“等差数列”关系式：An=A1+D*(n-1); D是公差与基音相近。

再看元音[a]的音例二“Ma2”第34帧：（基音BF＝320Hz，KF=150Hz）

四个强蜗点(红色的[e,f, A, B])公差大约是160。值得注意的是其中频率数有误差，但是被蜗点域音团包容了（粗略！）。其实上式BF * [4,5,6,7]是下式等差数列的特例。

1.5.2 韵母[ao]：例如它的音例"oao2"第20帧的强点部分：

其中４个红色蜗点的关系是：

vG(ao)=[BF,BF*2, BF*2*Vk(7),BF*2*Vk(12)]; [ao]的特征蜗点组vG是[C/2,C,f,B]。用这4个蜗点重构的音正是[ao]音。（请点击中间栏“附件_vG”看更多的音例）

2. 蜗节系统vkSy的工作原理

以上3例可见：我们听语音主要是听它们的关系！该关系就是它的“特征蜗点组vG”。

vG是口“说”耳“听”各个语音单元的模型，“幼儿学语”其实就是在努力掌握vG这个区域社会共同约定的韵律比模型。

2.1 蜗节系统vkSy由各级蜗节及其蜗点构成。在获得基音之后，vkSy被实例化，并且vkSy动态地映射在耳蜗螺旋器相应的部位之间，包括通路上核团以及听皮层，vkSy随时汇集与归纳语音流的反应信息，传递给意识。

蜗节系统vkSy相似于“刻度尺”。语音的韵母是周期信号，被vkSy分组编码。汉语的声母是启动音，由跳变的音色组成。声母与韵母组合成了丰富的语音。

2.2 用一句汉语作例：门口有人在喊“到（Dao）！”，母亲听到了（即，注意到了），其接受的过程是：首先感受到“启动音团”，其音色表明是出自舌尖部位的声母“D”；紧跟着的音团，耳蜗螺旋器明显感觉到了他的基音BF，听者的vkSy被BF实例化（“注意力”）：其C1映射到了螺旋器的BF位。该音团还伴随着三个周期性的信号[BF, BF*Vk(7), BF*Vk(12)]在螺旋器相应的特征频率部位附近共振。映射中vkSy立刻感觉到了它们与基音BF的关系：用蜗符表示是[C, f, B]三个蜗点（请区别蜗符与拼音字母）。根据已有的印象，这是韵母[ao]的特征蜗点组vG，vkSy使意识知道刚才听到的音是“到(Dao)”。这熟悉的音色，母亲意识到是儿子到家了！而且还能进一步地关联到曾经有印象的词组，甚至于情感故事。

结束语：vkSy是意识的前沿。这些语音印象，即，大脑存储记忆的内容，是由一系列的韵律比构成的关系，而不是具体的频率！这篇文章中的这些假设是肯定存在的，因为人类对音乐敏感而且很有兴趣，而音乐就是vkSy（韵律结构）的化身。人类意识利用韵律结构对语音信号的分组编码，用以控制语言的发音,听音,存储。

The End