| 人类意识中存在韵律结构PS。 语音信号被蜗节系统vkSy分组编码。vkSy同时蕴含着各语音单元的特征蜗点组vG。 大脑存储记忆的语音“印象”是由一系列韵律比构成的关系,而不是具体的频率。 |
韵律结构网站 |
![]() |
【论文正文:请往上滚动看全文】
【论文】韵律结构-语音信号的分组编码 丁以民 中国南京 18260060980@163.com 2026.02.01 你喜爱音乐吗,了解七个音符CDEFGAB的数理关系吗。古希腊Pythagoras说,四度五度之音是宇宙间天籁之音,由此我们对神奇的韵律结构展开研究。 [正文]:
韵律结构是一种数据关系结构,记作“PS”。它也是语音信号的分组编组的方式。 1.1 韵律比与韵律网 在正实数域中,设X1是任意一点(见Fig.1),则总有四点X2, X3, X4, X5, 它们与X1的数值之比分别是 [2/3, 3/4, 4/3, 3/2]。这四个比称作 “韵律比” 或 “四向比”,该四点称作X1的“四向点”。它们之间的关系称作 “韵律关系”,或称“韵律相关”,是双向的(见图Fig.1)。同样,这四个点在各自周边也有四个点与之是韵律关系。同样...。不难证明,在韵律比下这些韵律相关点都收敛在同一网上,称作:“韵律网”,记作“pW”。在正实数域中,逻辑上并存着许多pW,它们都是相似的。 韵律结构PS的一个韵律区PA中的网点被人类意识理解为音乐。人类意识中存在韵律结构!1.2. 韵律区与音乐: 韵律网自然地形成着一个个的韵律区,记作“pA”(见Fig.2黑点区),韵律区中韵点关系可以由下式表达: pA=[1,k,k*k,4/3,3/2,3/2*k,3/2*k*k]; (其中k=9/8)。 Fig.1是Fig.2的一部分(说明:图中的短弧线表示韵律比关系(逻辑关系))。
上式pA中的“1”是“基点”,记作"C1"。当某音Xi作为基音BF时,即C1=BF,称作“基音实例化”,此时pA就是人类理解的音乐点[CDEFGAB](生理原因不详),因此pA称作“乐点系数”。 人类乐感并不依赖基音C1,有时候一段乐曲中无C1出现照样能听出该段乐感,由此可见,音乐感主要依赖乐点之间的韵律比结构。在图Fig_2中,两条红色弧线分别是各级F点的连线(示意线)和各级B点的连线,构成韵律区的左右边界,两条界线之间是C1的主韵律区。在主韵区的两侧是韵律网的“阴律区”。阴律区就象主韵区的一个个阴子,例如左侧是“下阴-1区”(蓝色弧线内),右侧是“上阴+1区”(绿色弧线内)...。任何韵区都具有主韵区的一切性质,它们是相似的。相邻韵区之间比是3^7 / 2^11。 1.3 蜗节系统vkSy: 听觉能在短时内获取该语音的基音BF。听觉更重视的是随之而来的语音之间的“相对比”,它就是韵律比pA。pA可以细化为蜗节,简称为"VK": VK=[pA(2:3)*2^11/3^7,pA(1:3),pA(4:7),pA(4:6)*3^7/2^11]; 上行12点是“蜗节系数”排序后是[CdDeEFfGgAaB],显然乐点集pA是蜗节VK的子集。vkSy称作“蜗节系统”:vkSy=VK*2^n;(n为整数,称作“级”)。 vkSy把频谱划分成许多段小区域,该区域可以理解为两个蜗点之间的频区,也可以理解为该蜗 点的频域,称作“蜗点域vkPD”:从本点开始(闭区)到下一个蜗点(开区)的频区。 1.4 语音共振峰与蜗点域vkPD关系密切 用一例说明: "Me1"是元音[e]的音例,下表是它的第12时段的主要部分。(表中的主峰>12.0;它的最强峰1312 Hz(70.2)在第9时段)
分析:在这个时段中,元音“Me1”的主要共振峰Formant的主要部分与蜗点域vkPD关系密切。 其中三个主要共振峰Formant “896~928(F)”; “1072~1104(g)”; “1248~1296(B)” 由三个蜗点域vkPD分别一峰一蜗采样,它们是(F,g,B),可以写成vkPD(F,g,B)。这几个vkPD中的能量比起它们的两侧强很多;三个Formant的主要部分(红色)分别落在三个vkPD(F,g,B 蓝色)的频区内。三个vkPD(F,g,B)分别采中了三个Formant能量的主要部分。另外,Formant "352~368~384"由两个相邻的vkPD(d,D)联合采样,各为“左山坡”“右山坡”; Formant "528~544~576" 由两个相邻的vkPD (g,A) 联合采样,也是各为“左山坡”“右山坡”。 本例的5个主要Formant的采样事实,给我们提供了两方面的信息:1)这些主要“Formant”的音是按照该“vkPD”(频段)产生的音,该vkPD称作该Formant的“目标vkPD”(发音目标);2)这5个Formant所在频段就是蜗节系统的7个vkPD(这给后续研究提供了重要线索)。 1.5 语音单元的“特征蜗点组”vG: 在蜗节系统vkSy中同时蕴含着各语音单元的“特征蜗点组vG”模型。在此只用两个韵母[a][ao]说明此事(它们只是粗略表明研究的方向方法,数据需要优化与深化) 1.5.1 元音[a]:先看它的音例一“za7”,下一行是摘取它的第57,59时段的主要频域信号:(本文只分析频域信号中前几个较强频点之间的关系。该音用自相关函数计算基音频KF=204Hz)
在57时段,[832 (27.5), 1040(41.9), 1248(48.9), 1456(25.1)]四个强点的最大公约数是208。显然这四点都准确地扣住了BF*[4,5,6,7]的关系!(其中BF=208) 在59时段,[848 (23.3), 1056(40.5), 1264(41.8), 1472(19.5)]四峰点的最大公约数是211(误差小于5),而且224(46.9)升为最强音,可见基音在升调:204-208-211-224,但是四点之间的关系“抱团”不变:都尽量保持与基音的倍数关系BF * [4,5,6,7]。 元音[a]的特征蜗点组是vG(a)=BF * [4,5,6,7]; 本例中是几个多倍谐音。但是元音[a]的表现不全是这样,多数呈“等差数列”关系式:An=A1+D*(n-1); D是公差与基音相近。 再看元音[a]的音例二“Ma2”第34帧:(基音BF=320Hz,KF=150Hz)
四个强蜗点(红色的[e,f, A, B])公差大约是160。值得注意的是其中频率数有误差,但是被蜗点域音团包容了(粗略!)。其实上式BF * [4,5,6,7]是下式等差数列的特例。 1.5.2 韵母[ao]:例如它的音例"oao2"第20帧的强点部分:
其中4个红色蜗点的关系是: vG(ao)=[BF,BF*2, BF*2*Vk(7),BF*2*Vk(12)]; [ao]的特征蜗点组vG是[C/2,C,f,B]。用这4个蜗点重构的音正是[ao]音。(请点击中间栏“附件_vG”看更多的音例)
2. 蜗节系统vkSy的工作原理 以上3例可见:我们听语音主要是听它们的关系!该关系就是它的“特征蜗点组vG”。 vG是口“说”耳“听”各个语音单元的模型,“幼儿学语”其实就是在努力掌握vG这个区域社会共同约定的韵律比模型。 2.1 蜗节系统vkSy由各级蜗节及其蜗点构成。在获得基音之后,vkSy被实例化,并且vkSy动态地映射在耳蜗螺旋器相应的部位之间,包括通路上核团以及听皮层,vkSy随时汇集与归纳语音流的反应信息,传递给意识。 蜗节系统vkSy相似于“刻度尺”。语音的韵母是周期信号,被vkSy分组编码。汉语的声母是启动音,由跳变的音色组成。声母与韵母组合成了丰富的语音。 2.2 用一句汉语作例:门口有人在喊“到(Dao)!”,母亲听到了(即,注意到了),其接受的过程是:首先感受到“启动音团”,其音色表明是出自舌尖部位的声母“D”;紧跟着的音团,耳蜗螺旋器明显感觉到了他的基音BF,听者的vkSy被BF实例化(“注意力”):其C1映射到了螺旋器的BF位。该音团还伴随着三个周期性的信号[BF, BF*Vk(7), BF*Vk(12)]在螺旋器相应的特征频率部位附近共振。映射中vkSy立刻感觉到了它们与基音BF的关系:用蜗符表示是[C, f, B]三个蜗点(请区别蜗符与拼音字母)。根据已有的印象,这是韵母[ao]的特征蜗点组vG,vkSy使意识知道刚才听到的音是“到(Dao)”。这熟悉的音色,母亲意识到是儿子到家了!而且还能进一步地关联到曾经有印象的词组,甚至于情感故事。 结束语:vkSy是意识的前沿。这些语音印象,即,大脑存储记忆的内容,是由一系列的韵律比构成的关系,而不是具体的频率!这篇文章中的这些假设是肯定存在的,因为人类对音乐敏感而且很有兴趣,而音乐就是vkSy(韵律结构)的化身。人类意识利用韵律结构对语音信号的分组编码,用以控制语言的发音,听音,存储。
The End
|
DownLoad: 点我 访问数:6128 |
|