本技術(shù)涉及發(fā)送裝置、發(fā)送方法、接收裝置以及接收方法,具體地,涉及一種被配置為發(fā)送包括預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流的發(fā)送裝置。
背景技術(shù):
近年來,作為三維(3D)聲音技術(shù),已經(jīng)提出了基于元數(shù)據(jù)將已編碼的采樣數(shù)據(jù)映射和渲染到位于任何位置的揚(yáng)聲器的技術(shù)(例如,參考專利文獻(xiàn)1)。
引用列表
專利文獻(xiàn)
專利文獻(xiàn)1 JP 2014-520491T
技術(shù)實(shí)現(xiàn)要素:
技術(shù)問題
考慮發(fā)送各種類型的對象內(nèi)容的編碼數(shù)據(jù),該編碼數(shù)據(jù)包括已編碼的采樣數(shù)據(jù)和元數(shù)據(jù)以及諸如5.1聲道和7.1聲道的聲道編碼數(shù)據(jù),從而能夠在接收側(cè)上高真度地再現(xiàn)聲音。例如,在一些情況下,根據(jù)背景聲音和視聽環(huán)境,難以聽到諸如對話語言等對象內(nèi)容。
本技術(shù)的目標(biāo)是在接收側(cè)上適當(dāng)?shù)卣{(diào)節(jié)對象內(nèi)容的聲壓。
問題的解決方法
本技術(shù)的構(gòu)思是一種發(fā)送裝置,包括:音頻編碼單元,音頻編碼單元被配置為產(chǎn)生包括預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流;發(fā)送單元,發(fā)送單元被配置為發(fā)送包括音頻流的預(yù)定格式的容器;以及信息插入單元,信息插入單元被配置為將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。
在本技術(shù)中,音頻編碼單元產(chǎn)生包括預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流。信息插入單元將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。
例如,指示允許每條對象內(nèi)容的聲壓增減的范圍的信息是關(guān)于聲壓的上限值和下限值的信息。此外,例如,音頻流的編碼方案是MPEG-H 3D音頻。信息插入單元可包括擴(kuò)展元素,擴(kuò)展元素包括指示允許音頻幀中的每條對象內(nèi)容的聲壓增減的范圍的信息。
以此方式,在本技術(shù)中,將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。因此,當(dāng)在接收側(cè)上使用插入信息時,容易在可允許范圍內(nèi)調(diào)節(jié)每條對象內(nèi)容的聲壓的增減。
在本技術(shù)中,例如,預(yù)定條數(shù)的對象內(nèi)容中的每條對象內(nèi)容均可屬于預(yù)定數(shù)目的內(nèi)容組中的任一內(nèi)容組,并且信息插入單元可將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。在這種情況下,發(fā)送指示允許聲壓增減的范圍的信息,以與內(nèi)容組的數(shù)目對應(yīng),并且能夠有效地發(fā)送指示允許每條對象內(nèi)容的聲壓增減的范圍的信息。
在本技術(shù)中,例如,可將指示多種要素類型之中要應(yīng)用的類型的要素類型信息添加到指示允許每條對象內(nèi)容的聲壓增減的范圍的信息中。在這種情況下,可以應(yīng)用適用于每條對象內(nèi)容的要素類型。
本技術(shù)的另一構(gòu)思是一種接收裝置,包括:接收單元,接收單元被配置為接收預(yù)定格式的容器,該容器包括含預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流;和控制單元,控制單元被配置為控制增減聲壓的過程,其中,對象內(nèi)容的聲壓根據(jù)用戶選擇增減。
在本技術(shù)中,接收單元接收預(yù)定格式的容器,該容器包括含預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流??刂茊卧刂圃鰷p聲壓的過程,其中,對象內(nèi)容的聲壓根據(jù)用戶選擇增減。
以此方式,在本技術(shù)中,根據(jù)用戶選擇執(zhí)行增減對象內(nèi)容的聲壓的過程。因此,能夠有效地調(diào)節(jié)預(yù)定條數(shù)的對象內(nèi)容的聲壓,例如,預(yù)定對象內(nèi)容的聲壓可增加并且另一條對象內(nèi)容的聲壓可減少。
在本技術(shù)中,例如,可以將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中,控制單元可進(jìn)一步控制信息提取過程,其中,從音頻流的層和/或容器的層中提取指示允許每條對象內(nèi)容的聲壓增減的范圍的信息,并且在增減聲壓的過程中,對象內(nèi)容的聲壓可基于已提取的信息根據(jù)用戶選擇而增減。在這種情況下,容易在可允許范圍內(nèi)調(diào)節(jié)每條對象內(nèi)容的聲壓。
在本技術(shù)中,例如,在增減聲壓的過程中,當(dāng)對象內(nèi)容的聲壓根據(jù)用戶選擇增加時,另一條對象內(nèi)容的聲壓可減少,并且當(dāng)對象內(nèi)容的聲壓根據(jù)用戶選擇減少時,另一條對象內(nèi)容的聲壓可增加。在這種情況下,無需用戶的操作時間和精力,就可以維持全部對象內(nèi)容的恒定聲壓。
在本技術(shù)中,例如,控制單元可進(jìn)一步控制顯示用戶界面畫面的顯示過程,用戶界面畫面指示在增減聲壓的過程中聲壓增減的對象內(nèi)容的聲壓狀態(tài)。在這種情況下,用戶能夠容易識別每條對象內(nèi)容的聲壓狀態(tài)并且容易設(shè)置聲壓。
發(fā)明的有益效果
根據(jù)本技術(shù),可在接收側(cè)上適當(dāng)?shù)卣{(diào)節(jié)對象內(nèi)容的聲壓。此處描述的效果僅是實(shí)施例并且本技術(shù)并不局限于此。可以提供額外的效果。
附圖說明
[圖1]圖1是示出了作為實(shí)施方式的發(fā)送和接收系統(tǒng)的配置實(shí)施例的框圖。
[圖2]圖2是示出了MPEG-H 3D音頻的傳送數(shù)據(jù)的配置實(shí)施例的圖示。
[圖3]圖3是示出了MPEG-H 3D音頻的傳送數(shù)據(jù)中的音頻幀的結(jié)構(gòu)實(shí)施例的圖示。
[圖4]圖4是示出了擴(kuò)展元素的類型(ExElementType)與其值(值)之間的對應(yīng)關(guān)系的圖示。
[圖5]圖5是示出了內(nèi)容增強(qiáng)幀的結(jié)構(gòu)實(shí)施例的圖示,內(nèi)容增強(qiáng)幀包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息作為擴(kuò)展元素。
[圖6]圖6是示出了內(nèi)容增強(qiáng)幀的結(jié)構(gòu)實(shí)施例中的主要信息的內(nèi)容的圖示。
[圖7]圖7是示出了由指示允許聲壓增減的范圍的信息所表示的聲壓的值(要素值)的實(shí)施例的圖示。
[圖8]圖8是示出了音頻內(nèi)容增強(qiáng)描述符的結(jié)構(gòu)實(shí)施例的圖示。
[圖9]圖9是示出了服務(wù)發(fā)送器的流生成單元的配置實(shí)施例的框圖。
[圖10]圖10是示出了傳送流TS的結(jié)構(gòu)實(shí)施例的圖示。
[圖11]圖11是示出了服務(wù)接收器的配置實(shí)施例的框圖。
[圖12]圖12是示出了音頻解碼單元的配置實(shí)施例的框圖。
[圖13]圖13是示出了顯示每條對象內(nèi)容的當(dāng)前聲壓狀態(tài)的用戶界面畫面的實(shí)施例的圖示。
[圖14]圖14是示出了根據(jù)用戶的單位操作在對象增強(qiáng)器中增減聲壓的過程的實(shí)施例的流程圖。
[圖15]圖15是用于描述對象內(nèi)容的聲壓調(diào)節(jié)實(shí)施例的效果的圖示。
[圖16]圖16是示出了由指示允許聲壓增減的范圍的信息所表示的聲壓的值(要素值)的另一實(shí)施例的圖示。
[圖17]圖17是示出了內(nèi)容增強(qiáng)幀的另一結(jié)構(gòu)實(shí)施例的圖示,內(nèi)容增強(qiáng)幀包括指示允許每個內(nèi)容組的聲壓增減的范圍信息作為擴(kuò)展元素。
[圖18]圖18是示出了內(nèi)容增強(qiáng)幀的結(jié)構(gòu)實(shí)施例中的主要信息的內(nèi)容的圖示。
[圖19]圖19是示出了音頻內(nèi)容增強(qiáng)描述符的另一結(jié)構(gòu)實(shí)施例的圖示。
[圖20]圖20是示出了根據(jù)用戶的單位操作在對象增強(qiáng)器中增減聲壓的過程的另一實(shí)施例的流程圖。
[圖21]圖21是示出了MMT流的結(jié)構(gòu)實(shí)施例的圖示。
具體實(shí)施方式
在下文中,將描述用于實(shí)現(xiàn)本技術(shù)的形式(以下稱之為“實(shí)施方式”)。將按照下列順序進(jìn)行描述。
1.實(shí)施方式
2.變形例
<1.實(shí)施方式>
[發(fā)送和接收系統(tǒng)的配置實(shí)施例]
圖1示出了作為實(shí)施方式的發(fā)送和接收系統(tǒng)10的配置實(shí)施例。發(fā)送和接收系統(tǒng)10包括服務(wù)發(fā)送器100和服務(wù)接收器200。服務(wù)發(fā)送器100經(jīng)由網(wǎng)絡(luò)通過廣播波或包發(fā)送傳送流TS。
傳送流TS包括音頻流或視頻流和音頻流。音頻流包括聲道編碼數(shù)據(jù)和預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)(對象編碼數(shù)據(jù))。在該實(shí)施方式中,音頻流的編碼方案是MPEG-H 3D音頻。
服務(wù)發(fā)送器100將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息(上限值和下限值信息)插入到音頻流的層和/或作為容器的傳送流TS的層中。例如,預(yù)定條數(shù)的對象內(nèi)容中的每條對象內(nèi)容均屬于預(yù)定數(shù)目的內(nèi)容組中的任一內(nèi)容組。服務(wù)發(fā)送器200將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。
圖2示出了MPEG-H 3D音頻的傳送數(shù)據(jù)的配置實(shí)施例。該配置實(shí)施例包括一條聲道編碼數(shù)據(jù)和六條對象編碼數(shù)據(jù)。一條聲道編碼數(shù)據(jù)是指5.1聲道的聲道編碼數(shù)據(jù)(CD)并且包括SCE1、CPE1.1、CPE1.2、以及LFE1中的每條編碼采樣數(shù)據(jù)。
在六條對象編碼數(shù)據(jù)之中,前三條對象編碼數(shù)據(jù)屬于對話語言對象的內(nèi)容組的編碼數(shù)據(jù)(DOD)。這三條對象編碼數(shù)據(jù)是與第一語言、第二語言、以及第三語言對應(yīng)的對話語言對象(用于對話語言的對象)的編碼數(shù)據(jù)。
與第一語言、第二語言以及第三語言對應(yīng)的對話語言對象的編碼數(shù)據(jù)包括編碼的采樣數(shù)據(jù)SCE2、SCE3、及SCE4、以及用于將編碼的采樣數(shù)據(jù)映射并且渲染到任意位置的揚(yáng)聲器的元數(shù)據(jù)(對象元數(shù)據(jù))。
此外,在這六條對象編碼數(shù)據(jù)之中,剩余三條對象編碼數(shù)據(jù)屬于聲音效果對象的內(nèi)容組中的編碼數(shù)據(jù)(SEO)。這三條對象編碼數(shù)據(jù)是與第一聲音效果、第二聲音效果、以及第三聲音效果對應(yīng)的聲音效果對象(用于聲音效果的對象)的編碼數(shù)據(jù)。
與第一聲音效果、第二聲音效果、以及第三聲音效果對應(yīng)的聲音效果對象的編碼數(shù)據(jù)包括已編碼采樣數(shù)據(jù)SCE5、SCE6、及SCE7、以及用于將已編碼的采樣數(shù)據(jù)映射并且渲染到任意位置的揚(yáng)聲器的元數(shù)據(jù)(對象元數(shù)據(jù))。
通過每個類別(category)的組(Group)的概念對編碼數(shù)據(jù)進(jìn)行分類。在該配置實(shí)施例中,5.1聲道的聲道編碼數(shù)據(jù)被分類為組1(Group 1)。此外,與第一語言、第二語言、以及第三語言對應(yīng)的對話語言對象的編碼數(shù)據(jù)分別被分類為組2(Group 2)、組3(Group 3)、以及組4(Group 4)。此外,與第一聲音效果、第二聲音效果、以及第三聲音效果對應(yīng)的聲音效果對象的編碼數(shù)據(jù)分別被分類為組5(Group 5)、組6(Group 6)、以及組7(Group 7)。
此外,在接收側(cè)上,從各組之中選擇的數(shù)據(jù)在切換組(SW組)中進(jìn)行登記并且編碼。在該配置實(shí)施例中,屬于對話語言對象的內(nèi)容組的組2、組3、以及組4被分類為切換組1(SW組1)。此外,屬于聲音效果對象的內(nèi)容組的組5、組6、以及組7被分類為切換組2(SW組2)。
圖3示出了MPEG-H 3D音頻的傳送數(shù)據(jù)中的音頻幀的結(jié)構(gòu)實(shí)施例。音頻幀包括多個MPEG音頻流包(mpeg Audio Stream Packet)。每個MPEG音頻流包均包括報頭(Header)和有效載荷(Payload)。
報頭包括諸如包類型(Packet Type)、包標(biāo)簽(Packet Label)、以及包長度(Packet Length)等信息。報頭的包類型中定義的信息被分配在有效載荷中。有效載荷信息包括與同步起始碼對應(yīng)的“SYNC”、用作3D音頻傳送數(shù)據(jù)的真實(shí)數(shù)據(jù)的“幀(Frame)”、以及指示“幀”的配置的“Config”。
“幀”包括構(gòu)成3D音頻傳送數(shù)據(jù)的聲道編碼數(shù)據(jù)和對象編碼數(shù)據(jù)。此處,聲道編碼數(shù)據(jù)包括諸如單聲道元素(SCE)、聲道對元素(CPE)、以及低頻元素(LFE)等已編碼的采樣數(shù)據(jù)。此外,對象編碼數(shù)據(jù)包括單聲道元素(SCE)的已編碼采樣數(shù)據(jù)和用于將已編碼的采樣數(shù)據(jù)映射并且渲染到任意位置的揚(yáng)聲器的元數(shù)據(jù)。元數(shù)據(jù)被包括作為擴(kuò)展元素(Ext_element)。
在實(shí)施方式中,作為擴(kuò)展元素(Ext_element),重新定義了包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的元素(Ext_content_enhancement)。相應(yīng)地,在“Config”中重新定義了該元素的配置信息(content_enhancement config)。
圖4示出了擴(kuò)展元素(Ext_element)的類型(ExElementType)與其值(Value)之間的對應(yīng)關(guān)系。例如,128被重新定義為“ID_EXT_ELE_content_enhancement”的類型的值。
圖5示出了包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息作為擴(kuò)展元素的內(nèi)容增強(qiáng)幀(Content_Enhancement_frame())的結(jié)構(gòu)實(shí)施例(語法)。圖6示出了該配置實(shí)施例中的主要信息的內(nèi)容(語義)。
“num_of_content_groups”的8位字段指示內(nèi)容組的數(shù)目。重復(fù)提供“content_group_id”的8位字段、“content_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段,以與內(nèi)容組的數(shù)目對應(yīng)。
“content_group_id”的字段指示內(nèi)容組的標(biāo)識符(ID)。“content_type”的字段指示內(nèi)容組的類型。例如,“0”指示“對話語言”,“1”指示“聲音效果”,“2”指示“BGM”,并且“3”指示“口頭子標(biāo)題”。
“content_enhancement_plus_factor”的字段指示聲壓增減的上限值。例如,如圖7中的圖表所示,“0x00”指示1(0dB),“0x01”指示1.4(+3dB),并且“0xFF”指示無窮大(+無窮大dB)?!癱ontent_enhancement_minus_factor”的字段指示聲壓增減的下限值。例如,如圖7中的圖表所示,“0x00”指示1(0dB),“0x01”指示0.7(-3dB),并且“0xFF”指示0.00(-無窮大dB)。圖7中的圖表在服務(wù)接收器200中共享。
此外,在實(shí)施方式中,重新定義了包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的音頻內(nèi)容增強(qiáng)描述符(Audio_Content_Enhancement descriptor)。因此,將該描述符插入到設(shè)置在節(jié)目映射表(PMT)下方的音頻基本流循環(huán)中。
圖8示出了音頻內(nèi)容增強(qiáng)描述符的結(jié)構(gòu)實(shí)施例(語法)。此處,“descriptor_tag”的8位字段指示描述符類型并且此處指示音頻內(nèi)容增強(qiáng)描述符。“descriptor_length”的8位字段指示描述符的長度(大小)并且描述符的長度指示下列字節(jié)數(shù)。
“num_of_content_groups”的8位字段指示內(nèi)容組的數(shù)目。重復(fù)提供“content_group_id”的8位字段、“content_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段,以與內(nèi)容組的數(shù)目對應(yīng)。字段的信息內(nèi)容與在上述內(nèi)容增強(qiáng)幀中描述的信息內(nèi)容相似(參考圖5)。
再次參考圖1,服務(wù)接收器200從服務(wù)發(fā)送器100接收經(jīng)由網(wǎng)絡(luò)通過包發(fā)送的廣播波或傳送流TS。除視頻流之外,傳送流TS還包括音頻流。音頻流包括3D音頻傳送數(shù)據(jù)的聲道編碼數(shù)據(jù)和預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)(對象編碼數(shù)據(jù))。
指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或作為容器的傳送流TS的層中。例如,插入指示允許預(yù)定數(shù)目的內(nèi)容組的聲壓增減的范圍的信息。此處,一條或多條對象內(nèi)容屬于一個內(nèi)容組。
服務(wù)接收器200對視頻流執(zhí)行解碼處理并且獲得視頻數(shù)據(jù)。此外,服務(wù)接收器200對音頻流執(zhí)行解碼處理并且獲得3D音頻的音頻數(shù)據(jù)。
服務(wù)接收器200根據(jù)用戶選擇對對象內(nèi)容執(zhí)行增減聲壓的處理。在這種情況下,服務(wù)接收器200基于允許每條對象內(nèi)容的聲壓增減的范圍限制聲壓增減的范圍,允許每條對象內(nèi)容的聲壓增減的范圍插入到音頻流的層和/或作為容器的傳送流TS的層中。
[服務(wù)發(fā)送器的流生成單元]
圖9示出了服務(wù)發(fā)送器100的流生成單元110的配置實(shí)施例。流生成單元110包括控制單元111、視頻編碼器112、音頻編碼器113、以及多路復(fù)用器114。
視頻編碼器112輸入視頻數(shù)據(jù)SV、對視頻數(shù)據(jù)SV進(jìn)行編碼、并且產(chǎn)生視頻流(視頻基本流)。除了作為音頻數(shù)據(jù)SA的聲道數(shù)據(jù)之外,音頻編碼器113還輸入預(yù)定數(shù)目的內(nèi)容組的對象數(shù)據(jù)。一條或多條對象內(nèi)容屬于每個內(nèi)容組。
音頻編碼器113對音頻數(shù)據(jù)SA進(jìn)行編碼、獲得3D音頻傳送數(shù)據(jù)、并且產(chǎn)生包括3D音頻傳送數(shù)據(jù)的音頻流(音頻基本流)。除了聲道編碼數(shù)據(jù)之外,3D音頻傳送數(shù)據(jù)包括預(yù)定數(shù)目的內(nèi)容組的對象編碼數(shù)據(jù)。
例如,如圖2中的配置實(shí)施例所示,包括聲道編碼數(shù)據(jù)(CD)、對話語言對象的內(nèi)容組的編碼數(shù)據(jù)(DOD)、以及聲音效果對象的內(nèi)容組的編碼數(shù)據(jù)(SEO)。
音頻編碼器113在控制單元111的控制下將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到音頻流中。在該實(shí)施方式中,包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的重新定義元素(Ext_content_enhancement)作為擴(kuò)展元素(Ext_element)插入到音頻幀中(參考圖3和圖5)。
多路復(fù)用器114將從視頻編碼器112輸出的視頻流和從音頻編碼器113輸出的預(yù)定數(shù)目的音頻流分成PES包,此外,將流分成傳送包且進(jìn)行多路復(fù)用,并且獲得傳送流TS作為多路復(fù)用流。
多路復(fù)用器114根據(jù)控制單元111的控制,將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到作為容器的傳送流TS中。在該實(shí)施方式中,包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的重新定義的音頻內(nèi)容增強(qiáng)描述符(Audio_Content_Enhancement descriptor)插入到設(shè)置在PMT下方的音頻基本流循環(huán)中(參考圖8)。
將簡要描述圖9中示出的流生成單元110的操作。視頻數(shù)據(jù)被供應(yīng)至視頻編碼器112。在視頻編碼器112中,對視頻數(shù)據(jù)SV進(jìn)行編碼并且產(chǎn)生包括已編碼的視頻數(shù)據(jù)的視頻流。視頻流被供應(yīng)至多路復(fù)用器114。
音頻數(shù)據(jù)SA被供應(yīng)至音頻編碼器113。除聲道數(shù)據(jù)之外,音頻數(shù)據(jù)SA還包括預(yù)定數(shù)目的內(nèi)容組的對象數(shù)據(jù)。此處,一條或多條對象內(nèi)容屬于每個內(nèi)容組。
在音頻編碼器113中,對音頻數(shù)據(jù)SA進(jìn)行編碼并且由此獲得3D音頻傳送數(shù)據(jù)。除聲道編碼數(shù)據(jù)之外,3D音頻傳送數(shù)據(jù)還包括預(yù)定數(shù)目的內(nèi)容組的對象編碼數(shù)據(jù)。因此,在音頻編碼器113中,產(chǎn)生包括3D音頻傳送數(shù)據(jù)的音頻流。
在這種情況下,在音頻編碼器113中,根據(jù)控制單元111的控制將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到音頻流中。即,將包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的重新定義元素(Ext_content_enhancement)作為擴(kuò)展元素(Ext_element)插入到音頻幀中(參考圖3和圖5)。
視頻編碼器112中產(chǎn)生的視頻流被供應(yīng)至多路復(fù)用器114。此外,音頻編碼器113中產(chǎn)生的音頻流被供應(yīng)至多路復(fù)用器114。在多路復(fù)用器114中,將從每個編碼器供應(yīng)的流分成PES包并且又分成傳送包且進(jìn)行多路復(fù)用,并且獲得傳送流TS作為多路復(fù)用流。
在這種情況下,在多路復(fù)用器114中,根據(jù)控制單元111的控制將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到作為容器的傳送流TS中。即,將包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的重新定義的音頻內(nèi)容增強(qiáng)描述符(Audio_Content_Enhancement descriptor)插入到設(shè)置在PMT下方的音頻基本流循環(huán)中(參考圖8)。
[傳送流TS的配置]
圖10示出了傳送流TS的結(jié)構(gòu)實(shí)施例。結(jié)構(gòu)實(shí)施例包括被標(biāo)識為PID1的視頻流的PES包“視頻PES”和被標(biāo)識為PID2的音頻流的PES包“音頻PES”。PES包包括PES報頭(PES_header)和PES有效載荷(PES_payload)。DTS和PTS的時間戳被插入到PES報頭中。
音頻流(音頻編碼流)被插入到音頻流的PES包的PES有效載荷中。包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的內(nèi)容增強(qiáng)幀(Content_Enhancement_frame())被插入到音頻流的音頻幀中。
此外,在傳送流TS中,包括作為節(jié)目專用信息(PSI)的節(jié)目映射表(PMT)。PSI是描述傳送流中包括的每個基本流所屬的節(jié)目的信息。PMT包括描述與整個節(jié)目相關(guān)聯(lián)的信息的節(jié)目循環(huán)(Program loop)。
此外,PMT包括含有與每個基本流相關(guān)聯(lián)的信息的基本流循環(huán)。配置實(shí)施例包括與視頻流對應(yīng)的視頻基本流循環(huán)(視頻ES循環(huán))和與音頻流對應(yīng)的音頻基本流循環(huán)(音頻ES循環(huán))。
在視頻基本流循環(huán)(視頻ES循環(huán))中,分配了諸如與視頻流對應(yīng)的流類型和包標(biāo)識符(PID)等信息,并且還分配了描述與視頻流相關(guān)聯(lián)的信息的描述符。視頻流的“Stream_type”的值被設(shè)置為“0x24”,并且PID信息指示被分配給上述視頻流的PES包“視頻PES”的PID1。作為一個描述符,分配HEVC描述符。
此外,在音頻基本流循環(huán)(音頻ES循環(huán))中,分配了諸如與音頻流對應(yīng)的流類型和包標(biāo)識符(PID)等信息,并且還分配了描述與音頻流相關(guān)聯(lián)的信息的描述符。音頻流的“Stream_type”的值被設(shè)置為“0x2C”,并且PID信息指示被分配給上述音頻流的PES包“音頻PES”的PID2。作為一個描述符,分配了音頻內(nèi)容增強(qiáng)描述符(Audio_Content_Enhancement descriptor),其包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息。
[服務(wù)接收器的配置實(shí)施例]
圖11示出了服務(wù)接收器200的配置實(shí)施例。服務(wù)接收器200包括接收單元201、解多路復(fù)用器202、視頻解碼單元203、視頻處理電路204、面板驅(qū)動電路205、以及顯示面板206。此外,服務(wù)接收器200包括音頻解碼單元214、音頻輸出電路215、以及揚(yáng)聲器系統(tǒng)216。此外,服務(wù)接收器200包括CPU 221、閃存ROM 222、DRAM 223、內(nèi)部總線224、遠(yuǎn)程控制接收單元225、以及遠(yuǎn)程控制發(fā)送器226。
CPU 221控制服務(wù)接收器200的各部件的操作。閃存ROM 222儲存控制軟件并且保存數(shù)據(jù)。DRAM 223構(gòu)成CPU 221的工作區(qū)。CPU 221將從閃存ROM 222讀取的軟件和數(shù)據(jù)部署在DRAM 223中,以執(zhí)行軟件,并且控制服務(wù)接收器200的各部件。
遠(yuǎn)程控制接收單元225接收從遠(yuǎn)程控制發(fā)送器226發(fā)送的遠(yuǎn)程控制信號(遠(yuǎn)程控制代碼)并且將信號供應(yīng)至CPU 221。CPU 221基于遠(yuǎn)程控制代碼控制服務(wù)接收器200的各部件。CPU 221、閃存ROM 222、以及DRAM 223連接至內(nèi)部總線224。
接收單元201從服務(wù)發(fā)送器100接收經(jīng)由網(wǎng)絡(luò)通過包發(fā)送的廣播波或傳送流TS。除視頻流之外,傳送流TS還包括音頻流。音頻流包括3D音頻傳送數(shù)據(jù)的聲道編碼數(shù)據(jù)和預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)(對象編碼數(shù)據(jù))。
指示允許預(yù)定數(shù)目的內(nèi)容組的聲壓增減的范圍的信息被插入到音頻流的層和/或作為容器的傳送流TS的層中。一條或多條對象內(nèi)容屬于一個內(nèi)容組。
此處,包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的重新定義元素(Ext_content_enhancement)作為擴(kuò)展元素(Ext_element)插入到音頻幀中(參考圖3和圖5)。此外,包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的重新定義音頻內(nèi)容增強(qiáng)描述符(Audio_Content_Enhancement descriptor)被插入到設(shè)置在PMT下方的音頻基本流循環(huán)中(參考圖8)。
解多路復(fù)用器202從傳送流TS提取視頻流并且將視頻流發(fā)送至視頻解碼單元203。視頻解碼單元203對視頻流執(zhí)行解碼處理并且獲得未壓縮的視頻數(shù)據(jù)。
視頻處理電路204對在視頻解碼單元203中獲得的視頻數(shù)據(jù)執(zhí)行縮放處理(scaling processing)和圖像質(zhì)量調(diào)節(jié)處理并且獲得顯示視頻數(shù)據(jù)。面板驅(qū)動電路205基于在視頻處理電路204中獲得的顯示圖像數(shù)據(jù)驅(qū)動顯示面板206。例如,顯示面板206包括液晶顯示器(LCD)和有機(jī)場致發(fā)光(EL)顯示器。
此外,解多路復(fù)用器202從傳送流TS提取諸如描述符信息等各種類型的信息并且將信息發(fā)送至CPU 221。各種類型的信息還包括音頻內(nèi)容增強(qiáng)描述符,音頻內(nèi)容增強(qiáng)描述符包括指示允許每個內(nèi)容組的聲壓增減的范圍的上述信息。CPU 221可根據(jù)描述符識別允許每個內(nèi)容組的聲壓增減的范圍(上限值和下限值)。
此外,解多路復(fù)用器202從傳送流TS提取音頻流并且將音頻流發(fā)送至音頻解碼單元214。音頻解碼單元214對音頻流執(zhí)行解碼處理并且獲得用于驅(qū)動揚(yáng)聲器系統(tǒng)216中的各個揚(yáng)聲器的音頻數(shù)據(jù)。
在這種情況下,在音頻解碼單元214中,在音頻流中包括的預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)中,在CPU 221的控制下僅將切換組中的多條對象內(nèi)容的編碼數(shù)據(jù)之中根據(jù)用戶選擇的任意一條對象內(nèi)容的編碼數(shù)據(jù)設(shè)置為解碼目標(biāo)。
此外,音頻解碼單元214提取插入到音頻流中的各種類型的信息并且將信息發(fā)送到CPU 221。各種類型的信息還包括有指示允許每個內(nèi)容組的聲壓增減的范圍的上述信息的元素。CPU 221可根據(jù)該元素識別允許每個內(nèi)容組的聲壓增減的范圍(上限值和下限值)。
此外,音頻解碼單元214在CPU 221的控制下根據(jù)用戶選擇對對象內(nèi)容執(zhí)行增減聲壓的過程。在這種情況下,基于允許每條對象內(nèi)容的聲壓增減的范圍(上限值和下限值),其插入到音頻流的層和/或作為容器的傳送流TS的層中,限制聲壓增減的范圍。下面將詳細(xì)描述音頻解碼單元214。
音頻輸出處理電路215對在音頻解碼單元214中獲得的用于驅(qū)動各個揚(yáng)聲器的音頻數(shù)據(jù)執(zhí)行諸如D/A轉(zhuǎn)換和放大等必要的處理并且將結(jié)果供應(yīng)至揚(yáng)聲器系統(tǒng)216。揚(yáng)聲器系統(tǒng)216包括具有多個聲道的多個揚(yáng)聲器,例如,2聲道、5.1聲道、7.1聲道、以及22.2聲道。
[音頻解碼單元的配置實(shí)施例]
圖12示出了音頻解碼單元214的配置實(shí)施例。音頻解碼單元214包括解碼器231、對象增強(qiáng)器232、對象渲染器233、以及混頻器234。
解碼器231對在解多路復(fù)用器202中提取的音頻流執(zhí)行解碼處理并且獲得除聲道數(shù)據(jù)之外的預(yù)定條數(shù)的對象內(nèi)容的對象數(shù)據(jù)。解編碼器213大約按照逆序執(zhí)行圖9中的流生成單元110的音頻編碼器113的過程。在切換組的多條對象內(nèi)容中,在CPU 221的控制下,僅獲得根據(jù)用戶選擇的任意一條對象內(nèi)容的對象數(shù)據(jù)。
此外,解編碼器231提取插入到音頻流中的各種類型的信息并且將信息發(fā)送至CPU 221。各種類型的信息還包括含有指示允許每個內(nèi)容組的聲壓增減的范圍的信息的元素。CPU 221可根據(jù)該元素識別允許每個內(nèi)容組的聲壓增減的范圍(上限值和下限值)。
對象增強(qiáng)器232對在解碼器213中獲得的預(yù)定條數(shù)的對象數(shù)據(jù)內(nèi)根據(jù)用戶選擇的對象內(nèi)容執(zhí)行增減聲壓的處理。當(dāng)執(zhí)行增減聲壓的處理時,分配指示將要經(jīng)歷增減聲壓的處理的目標(biāo)的對象內(nèi)容的目標(biāo)內(nèi)容(target_content)以及指示是增加還是減少聲壓的命令(command),并且根據(jù)用戶操縱將允許目標(biāo)內(nèi)容的聲壓增減的范圍(上限值和下限值)從CPU 221分配至對象增強(qiáng)器232。
對于用戶的每個單位操作,對象增強(qiáng)器232僅在命令(command)指示的方向上將目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓改變預(yù)定的寬度。在這種情況下,當(dāng)聲壓已經(jīng)是由可允許范圍指示的極限值(上限值和下限值)時,不改變聲壓并且直接使用聲壓。
此外,例如,對象增強(qiáng)器232參考圖7中的圖表設(shè)置聲壓的變化寬度(預(yù)定寬度)。例如,在當(dāng)前狀態(tài)是1(0dB)并且用戶的單位操作為增加時,該狀態(tài)改變成1.4(+3dB)的狀態(tài)。此外,例如,在當(dāng)前狀態(tài)是1.4(+3dB)并且用戶的單位操作為增加時,該狀態(tài)改變成1.9(+6dB)的狀態(tài)。
此外,例如,在當(dāng)前狀態(tài)是1(0dB)并且用戶的單位操作為減少時,該狀態(tài)改變成0.7(-3dB)的狀態(tài)。此外,例如,在當(dāng)前狀態(tài)是0.7(-3dB)并且用戶的單位操作為減少時,該狀態(tài)改變成0.5(-6dB)的狀態(tài)。
此外,當(dāng)執(zhí)行增減聲壓的過程時,對象增強(qiáng)器232將指示每條對象數(shù)據(jù)的聲壓狀態(tài)的信息發(fā)送至CPU 221。CPU 221基于該信息在顯示單元(例如,顯示面板206)上顯示指示每條對象內(nèi)容的當(dāng)前聲壓狀態(tài)的用戶界面畫面,并且當(dāng)用戶設(shè)置聲壓時,CPU 221提供該信息。
圖13示出了顯示聲壓狀態(tài)的用戶界面畫面的實(shí)施例。在該實(shí)施例中,示出了提供包括對話語言對象(DOD)和聲音效果對象(SEO)的兩條對象內(nèi)容的情況(參考圖2)。陰影線標(biāo)記部分處示出了當(dāng)前聲壓狀態(tài)?!皃lus_i”指示上限值并且“minus_i”指示下限值。
圖14中的流程圖示出了根據(jù)用戶的單位操作在對象增強(qiáng)器232中增減聲壓的實(shí)施例。對象增強(qiáng)器232開始于步驟ST1的處理。然后,對象增強(qiáng)器232前進(jìn)至步驟ST2的處理。
在步驟ST2中,對象增強(qiáng)器232確定命令(command)是否是增加指令。當(dāng)確定是增加指令時,對象增強(qiáng)器232前進(jìn)至步驟ST3的處理。在步驟ST3中,如果聲壓不是上限值,對象增強(qiáng)器232僅將目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓增加預(yù)定的寬度。在步驟ST3的處理之后,對象增強(qiáng)器232在步驟ST4中結(jié)束該處理。
此外,當(dāng)在步驟ST2中確定不是增加指令時,即,當(dāng)確定是減少指令時,對象增強(qiáng)器232前進(jìn)至步驟ST5的處理。在步驟ST5中,如果聲壓不是下限值,對象增強(qiáng)器232僅將目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓減少預(yù)定的寬度。在步驟ST5的處理之后,對象增強(qiáng)器232在步驟ST4中結(jié)束該處理。
再次參考圖12,對象渲染器233對通過對象增強(qiáng)器232獲得的預(yù)定條數(shù)的對象內(nèi)容的對象數(shù)據(jù)執(zhí)行渲染處理,并且獲得預(yù)定條數(shù)的對象內(nèi)容的聲道數(shù)據(jù)。此處,對象數(shù)據(jù)包括對象聲源的音頻數(shù)據(jù)和對象聲源的位置信息。對象渲染器233通過基于對象聲源的位置信息將對象聲源的音頻數(shù)據(jù)與揚(yáng)聲器位置進(jìn)行映射而獲得聲道數(shù)據(jù)。
混頻器234將在解碼器231中獲得的聲道數(shù)據(jù)與在對象渲染器233中獲得的每條對象內(nèi)容的聲道數(shù)據(jù)進(jìn)行組合,并且獲得用于驅(qū)動揚(yáng)聲器系統(tǒng)216的每個揚(yáng)聲器的音頻數(shù)據(jù)(聲道數(shù)據(jù))。
將簡要描述圖11中所示的服務(wù)接收器200的操作。接收單元201接收經(jīng)由網(wǎng)絡(luò)通過廣播波或包從服務(wù)發(fā)送器100發(fā)送的傳送流TS。除視頻流之外,傳送流TS還包括音頻流。
音頻流包括3D音頻傳送數(shù)據(jù)的聲道編碼數(shù)據(jù)和預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)(對象編碼數(shù)據(jù))。預(yù)定條數(shù)的對象內(nèi)容中的每條對象內(nèi)容均屬于預(yù)定數(shù)目的內(nèi)容組中的任一內(nèi)容組。即,一條或多條對象內(nèi)容屬于一個內(nèi)容組。
傳送流TS被供應(yīng)至解多路復(fù)用器202。在解多路復(fù)用器202中,從傳送流TS提取視頻流并且將視頻流供應(yīng)至視頻解碼單元203。在視頻解碼單元203中,對視頻流執(zhí)行解碼處理并且獲得未壓縮的視頻數(shù)據(jù)。視頻數(shù)據(jù)被供應(yīng)至視頻處理電路204。
視頻處理電路204對視頻數(shù)據(jù)執(zhí)行縮放處理和圖像質(zhì)量調(diào)節(jié)處理并且獲得顯示視頻數(shù)據(jù)。顯示視頻數(shù)據(jù)被供應(yīng)至面板驅(qū)動電路205。面板驅(qū)動電路205基于顯示視頻數(shù)據(jù)驅(qū)動顯示面板206。相應(yīng)地,在顯示面板206上顯示與顯示視頻數(shù)據(jù)對應(yīng)的圖像。
此外,解多路復(fù)用器202從傳送流TS提取諸如描述符信息等各種類型的信息并且將信息發(fā)送至CPU 221。各種類型的信息還包括含指示允許每個內(nèi)容組的聲壓增減的范圍的信息的音頻內(nèi)容增強(qiáng)描述符。CPU 221根據(jù)該描述符識別允許每個內(nèi)容組的聲壓增減的范圍(上限值和下限值)。
此外,解多路復(fù)用器202從傳送流TS提取音頻流并且將音頻流發(fā)送至音頻解碼單元214。音頻解碼單元214對音頻流執(zhí)行解碼處理并且獲得用于驅(qū)動揚(yáng)聲器系統(tǒng)216中的每個揚(yáng)聲器的音頻數(shù)據(jù)。
在這種情況下,在音頻解碼單元214中,在音頻流包括的預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)內(nèi),根據(jù)CPU 221的控制,僅將切換組的多條對象內(nèi)容的編碼數(shù)據(jù)之中根據(jù)用戶選擇的任意一條對象內(nèi)容的編碼數(shù)據(jù)設(shè)置為解碼目標(biāo)。
此外,音頻解碼單元214提取插入到音頻流中的各種類型的信息并且將信息發(fā)送至CPU 221。各種類型的信息還包括含有指示允許每個內(nèi)容組的聲壓增減的范圍的上述信息的元素。在CPU 221中,根據(jù)該元素識別允許每個內(nèi)容組的聲壓增減的范圍(上限值和下限值)。
此外,在音頻解碼單元214中,在CPU 221的控制下,根據(jù)用戶選擇執(zhí)行增減對象內(nèi)容的聲壓的處理。在這種情況下,在音頻解碼單元214中,基于允許每條對象內(nèi)容的聲壓增減的范圍(上限值和下限值)限制聲壓增減的范圍。
即,在這種情況下,分配指示將經(jīng)歷增減聲壓的處理的目標(biāo)的對象內(nèi)容的目標(biāo)內(nèi)容(target_content)和指示是增加還是減少聲壓的命令(command),并且根據(jù)用戶操作將允許目標(biāo)內(nèi)容的聲壓增減的范圍(上限值和下限值)從CPU 221分配至音頻解碼單元214。
因此,在音頻解碼單元214中,對于用戶的每個單位操作,僅在命令(command)指示的方向上將屬于目標(biāo)內(nèi)容(target_content)的內(nèi)容組的對象數(shù)據(jù)的聲壓改變(增加或減少)預(yù)定的寬度。在這種情況下,當(dāng)聲壓已經(jīng)是可允許范圍指示的極限值(上限值和下限值)時,不改變聲壓并且直接使用該聲壓。
在音頻解碼單元214中獲得的用于驅(qū)動每個揚(yáng)聲器的音頻數(shù)據(jù)被供應(yīng)至音頻輸出處理電路215。音頻輸出處理電路215對音頻數(shù)據(jù)執(zhí)行諸如D/A轉(zhuǎn)換和放大等必要的處理。因此,經(jīng)過處理的音頻數(shù)據(jù)被供應(yīng)至揚(yáng)聲器系統(tǒng)216。相應(yīng)地,從揚(yáng)聲器系統(tǒng)216輸出與顯示面板206的顯示圖像對應(yīng)的聲音。
如上所述,在圖1所示的發(fā)送和接收系統(tǒng)10中,服務(wù)接收器200根據(jù)用戶選擇對對象內(nèi)容執(zhí)行增減聲壓的處理。相應(yīng)地,能夠有效地調(diào)節(jié)預(yù)定條數(shù)的對象內(nèi)容的聲壓,例如,預(yù)定對象內(nèi)容的聲壓會得到增加并且另一條對象內(nèi)容的聲壓會得到減少。
圖15(a)示意性地示出了對話語言的對象內(nèi)容的音頻數(shù)據(jù)的波形。圖15(b)示意性地示出了其他對象內(nèi)容的音頻數(shù)據(jù)的波形。圖15(c)示意性地示出了一起呈現(xiàn)這些音頻數(shù)據(jù)時的波形。在這種情況下,因?yàn)槎鄺l其他對象內(nèi)容的音頻數(shù)據(jù)的波形的振幅大于對話語言的音頻數(shù)據(jù)的波形的振幅,所以對話語言的聲音被其他對象內(nèi)容的聲音所掩蓋并且由此非常難以聽到該聲音。
圖15(d)示意性地示出了聲壓增加的對話語言的對象內(nèi)容的音頻數(shù)據(jù)的波形。圖15(e)示意性地示出了聲壓減少的其他對象內(nèi)容的音頻數(shù)據(jù)的波形。圖15(f)示意性地示出了一起呈現(xiàn)這些音頻數(shù)據(jù)時的波形。
在這種情況下,因?yàn)閷υ捳Z言的音頻數(shù)據(jù)的波形的振幅大于多條其他對象內(nèi)容的音頻數(shù)據(jù)的波形的振幅,所以該對話語言的聲音不被其他對象內(nèi)容的聲音掩蓋并且由此容易聽到該聲音。此外,在這種情況下,盡管對話語言的對象內(nèi)容的聲壓增加,然而,因?yàn)槠渌麑ο髢?nèi)容的聲壓減少,所以保持了全部對象內(nèi)容的恒定聲壓。
此外,在圖1所示的發(fā)送和接收系統(tǒng)10中,服務(wù)發(fā)送器100將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或作為容器的傳送流TS的層中。因此,當(dāng)在接收側(cè)上使用插入信息時,容易可允許范圍內(nèi)調(diào)節(jié)每條對象內(nèi)容的聲壓的增減。
此外,在圖1所示的發(fā)送和接收系統(tǒng)10中,服務(wù)發(fā)送器100將指示允許預(yù)定條數(shù)的對象內(nèi)容所屬的每個內(nèi)容組的聲壓增減的范圍的信息插入到音頻流的層和/或作為容器的傳送流TS的層中。因此,可以發(fā)送指示允許聲壓增減的范圍信息,以與內(nèi)容組的數(shù)目對應(yīng),并且可以有效地發(fā)送指示允許每條對象內(nèi)容的聲壓增減的范圍的信息。
<2.變形例>
在上述所述實(shí)施方式中,示出了下列信息所使用的一種要素類型的實(shí)施例,即,指示允許每條對象內(nèi)容和每個內(nèi)容組的聲壓增減的范圍(參考圖7)。然而,可以設(shè)想,能夠從多種類型之中選擇指示允許每條對象內(nèi)容的聲壓增減的范圍的信息的要素類型。
圖16示出了能夠從多種類型之中選擇指示允許每個內(nèi)容組的聲壓增減的范圍的信息的要素類型的圖表的實(shí)施例。該實(shí)施例是使用“factor_1”和“factor_2”兩種要素類型的實(shí)施例。
在這種情況下,在接收側(cè),在指定“factor_1”的內(nèi)容組中,參考圖表中的“factor_1”的部分識別聲壓的上限值和下限值并且還識別調(diào)節(jié)聲壓增減的變化寬度。此外,同樣,在接收側(cè),在指定“factor_2”的內(nèi)容組中,參考圖表中的“factor_2”的部分識別聲壓的上限值和下限值并且還識別調(diào)節(jié)聲壓增減的變化寬度。
例如,即使“content_enhancement_plus_factor”與“0x02”相同,然而,當(dāng)指定“factor_1”時,將上限值識別為1.9(+6dB),并且當(dāng)指定“factor_2”時,將上限值識別為3.9(+12dB)。此外,當(dāng)從1(0dB)的狀態(tài)提供增加指令時,如果指定“factor_1”,狀態(tài)則改變成1.4(+3dB)的狀態(tài),并且如果指定“factor_2”,狀態(tài)則改變成1.9(+6dB)的狀態(tài)。此外,在任意要素中,當(dāng)指定值是“0x00”時,上限值和下限值皆是0dB。這表明不能夠改變目標(biāo)內(nèi)容組的聲壓。
圖17示出了當(dāng)從多種類型之中選擇指示允許每個內(nèi)容組的聲壓增減的范圍的信息的要素類型時,內(nèi)容增強(qiáng)幀(Content_Enhancement_frame())的結(jié)構(gòu)實(shí)施例(語法)。圖18示出了配置實(shí)施例中的主要信息的內(nèi)容(語義)。
“num_of_content_groups”的8位字段指示內(nèi)容組的數(shù)目。重復(fù)提供“content_group_id”的8位字段、“content_type”的8位字段、“factor_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段,以與內(nèi)容組的數(shù)目對應(yīng)。
“content_group_id”的字段指示內(nèi)容組的標(biāo)識符(ID)?!癱ontent_type”的字段指示內(nèi)容組的類型。例如,“0”指示“對話語言”,“1”指示“聲音效果”,“2”指示“BGM”,并且“3”指示“口頭子標(biāo)題”。“factor_type”的字段指示應(yīng)用要素類型。例如,“0”指示“factor_1”并且“1”指示“factor_2”。
“content_enhancement_plus_factor”的字段指示聲壓增減的上限值。例如,如圖16中的圖表所示,當(dāng)應(yīng)用要素類型是“factor_1”時,“0x00”指示1(0dB),“0x01”指示1.4(+3dB),并且“0xFF”指示無窮大(+無窮大dB)。當(dāng)應(yīng)用要素類型是“factor_2”時,“0x00”指示1(0dB),“0x01”指示1.9(+6dB),并且“0x7F”指示無窮大(+無窮大dB)。
“content_enhancement_minus_factor”的字段指示聲壓增減的下限值。例如,如圖16中的圖表所示,當(dāng)應(yīng)用要素類型是“factor_1”時,“0x00”指示1(0dB),“0x01”指示0.7(-3dB),并且“0xFF”指示0.00(-無窮大dB)。當(dāng)應(yīng)用要素類型是“factor_2”時,“0x00”指示1(0dB),“0x01”指示0.5(-6dB),并且“0x7F”指示0.00(-無窮大dB)。
圖19示出了當(dāng)從多種類型之中選擇指示允許每個內(nèi)容組的聲壓增減的范圍的信息的要素類型時,音頻內(nèi)容增強(qiáng)描述符(Audio_Content_Enhancement descriptor)的結(jié)構(gòu)實(shí)施例(語法)。
此處,“descriptor_tag”的8位字段指示描述符類型并且這里指示音頻內(nèi)容增強(qiáng)描述符。“descriptor_length”的8位字段指示描述符的長度(大小)并且描述符的長度指示下列字節(jié)數(shù)。
“num_of_content_groups”的8位字段指示內(nèi)容組的數(shù)目。重復(fù)提供“content_group_id”的8位字段、“content_type”的8位字段、“factor_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段,以與內(nèi)容組的數(shù)目對應(yīng)。字段的信息內(nèi)容與上述所述內(nèi)容增強(qiáng)幀中描述的字段信息內(nèi)容相似(參考圖17)。
此外,在上述實(shí)施方式中,描述了服務(wù)接收器200根據(jù)用戶選擇僅在命令(command)指示(增加或減小)的方向上將目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓改變預(yù)定的寬度的實(shí)施例。然而,當(dāng)執(zhí)行增減目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓的處理時,可以想到在反方向上自動執(zhí)行增減其他對象內(nèi)容的聲壓的處理。
以此方式,例如,用戶能夠僅通過執(zhí)行對對話語言的對象內(nèi)容的增加操作而在服務(wù)接收器200中執(zhí)行圖15(d)和圖15(e)的處理。
在這種情況下,圖20中的流程圖示出了根據(jù)用戶的單位操作在對象增強(qiáng)器232中增減聲壓的處理的實(shí)施例(參考圖12)。對象增強(qiáng)器232在步驟ST11中開始該處理。然后,對象增強(qiáng)器232前進(jìn)至步驟ST12中的處理。
在步驟ST12中,對象增強(qiáng)器232確定命令(command)是否是增加指令。當(dāng)確定是增加指令時,對象增強(qiáng)器232前進(jìn)至步驟ST13中的處理。在步驟ST13中,如果聲壓不是上限值,則對象增強(qiáng)器232僅將目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓增加預(yù)定的寬度。
接著,在步驟ST14中,為了維持全部對象內(nèi)容的恒定聲壓,對象增強(qiáng)器232減少不是目標(biāo)內(nèi)容(target_content)的另一條對象內(nèi)容的聲壓。在這種情況下,根據(jù)目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的上述聲壓的增加減少聲壓。在這種情況下,一條或多條其他對象內(nèi)容與聲壓減少有關(guān)。在步驟ST14的處理之后,對象增強(qiáng)器232在步驟ST15結(jié)束該處理。
此外,在步驟ST12中,當(dāng)確定是不增加指令時,即,確定是減少指令時,對象增強(qiáng)器232前進(jìn)至步驟ST16的處理。在步驟ST16中,如果聲壓不是下限值,對象增強(qiáng)器232則僅將目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓減少預(yù)定的寬度。
接著,在步驟ST17中,為了維持全部對象內(nèi)容的恒定聲壓,對象增強(qiáng)器232增加不是目標(biāo)內(nèi)容(target_content)的另一條內(nèi)容的聲壓。在這種情況下,根據(jù)上述目標(biāo)內(nèi)容(target_content)中的對象內(nèi)容的聲壓的增加減少聲壓。在這種情況下,一條或多條其他對象內(nèi)容與聲壓減少有關(guān)。在步驟ST17的處理之后,對象增強(qiáng)器232在步驟ST15結(jié)束該處理。
在上述所述實(shí)施方式中,示出了將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到音頻流的層和作為容器的傳送流TS的層中的實(shí)施例。然而,可以設(shè)想,將該信息僅插入到音頻流的層或作為容器的傳送流TS的層中。
此外,在上述所述實(shí)施方式中,示出了容器是傳送流(MPEG-2TS)的實(shí)施例。然而,本技術(shù)同樣可應(yīng)用于通過MP4或其他格式的容器進(jìn)行傳送的系統(tǒng)。例如,可以使用基于MPEG-DASH的流傳送系統(tǒng)或處理MPEG媒體傳送(MMT)結(jié)構(gòu)的傳送流的發(fā)送和接收系統(tǒng)。
圖21示出了MMT流的結(jié)構(gòu)實(shí)施例。MMT流包括諸如視頻和音頻等資源(asset)的MMT包。結(jié)構(gòu)實(shí)施例包括被標(biāo)識為ID1的視頻的資源的MMT包和被標(biāo)識為ID2的音頻的資源的MMT包。
包括指示允許每個內(nèi)容組的聲壓增減的范圍的信息的內(nèi)容增強(qiáng)幀(Content_Enhancement_frame())被插入到音頻的資源(音頻流)的音頻幀中。
此外,MMT流包括諸如包存取(PA)消息包等消息包。PA消息包包括諸如MMT包圖表(MMT Package Table)等圖表。MP圖表包括有關(guān)各個資源的信息。根據(jù)音頻資源(音頻流)分配包括有指示允許每個內(nèi)容組的聲壓增減的范圍的信息的音頻內(nèi)容增強(qiáng)描述符(Audio_Content_Enhancement descriptor)。
此外,本技術(shù)還可被配置如下。
(1)一種發(fā)送裝置,包括:
音頻編碼單元,音頻編碼單元被配置為產(chǎn)生包括預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流;
發(fā)送單元,發(fā)送單元被配置為發(fā)送包括音頻流的預(yù)定格式的容器;以及
信息插入單元,信息插入單元被配置為將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。
(2)根據(jù)(1)所述的發(fā)送裝置,
其中,預(yù)定條數(shù)的對象內(nèi)容中的每條對象內(nèi)容均屬于預(yù)定數(shù)目的內(nèi)容組中的任一內(nèi)容組;并且
信息插入單元將指示允許每個內(nèi)容組的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。
(3)根據(jù)(1)或(2)所述的發(fā)送裝置,
其中,音頻流具有作為MPEG-H 3D音頻的編碼方案;并且
信息插入單元包括擴(kuò)展元素,擴(kuò)展元素包括指示允許音頻幀中的每條對象內(nèi)容的聲壓增減的范圍的信息。
(4)根據(jù)(1)至(3)中任一項所述的發(fā)送裝置,
其中,將指示多個要素之中被應(yīng)用的類型的要素選擇信息添加到指示允許每條對象內(nèi)容的聲壓增減的范圍的信息中。
(5)一種發(fā)送方法,包括:
音頻編碼步驟,產(chǎn)生包括預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流;
發(fā)送步驟,通過發(fā)送單元發(fā)送包括音頻流的預(yù)定格式的容器;以及
信息插入步驟,將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中。
(6)一種接收裝置,包括:
接收單元,接收單元被配置為接收預(yù)定格式的容器,容器包括含有預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流;和
處理單元,處理單元被配置為執(zhí)行增減聲壓的處理,其中,對象內(nèi)容的聲壓根據(jù)用戶選擇增減。
(7)根據(jù)(6)所述的接收裝置,
其中,將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中;
接收裝置進(jìn)一步包括信息提取單元,信息提取單元被配置為從音頻流的層和/或容器的層中提取指示允許每條對象內(nèi)容的聲壓增減的范圍的信息;并且
處理單元基于提取的信息根據(jù)用戶選擇增減對象內(nèi)容的聲壓。
(8)根據(jù)(6)或(7)所述的接收裝置,
其中,當(dāng)對象內(nèi)容的聲壓根據(jù)用戶選擇增加時,處理單元減少另一條對象內(nèi)容的聲壓,并且當(dāng)對象內(nèi)容的聲壓根據(jù)用戶選擇減少時,處理單元增加另一條對象內(nèi)容的聲壓。
(9)根據(jù)(6)至(8)中任一項所述的接收裝置,進(jìn)一步包括:
顯示控制單元,顯示控制單元被配置為顯示UI畫面,UI畫面指示通過處理單元增減聲壓的對象內(nèi)容的聲壓狀態(tài)。
(10)一種接收方法,包括:
接收步驟,通過接收單元接收預(yù)定格式的容器,容器包括含有預(yù)定條數(shù)的對象內(nèi)容的編碼數(shù)據(jù)的音頻流;和
處理步驟,增減聲壓,其中,對象內(nèi)容的聲壓根據(jù)用戶選擇增減。
本技術(shù)的主要特征在于,將指示允許每條對象內(nèi)容的聲壓增減的范圍的信息插入到音頻流的層和/或容器的層中,并且在接收側(cè)上,在可允許范圍內(nèi)適當(dāng)?shù)卣{(diào)節(jié)每條對象內(nèi)容的聲壓的增減(參考圖9和圖10)。
參考符號列表
10 發(fā)送和接收系統(tǒng)
100 服務(wù)發(fā)送器
110 流生成單元
111 控制單元
112 視頻編碼器
113 音頻編碼器
114 多路復(fù)用器
200 服務(wù)接收器
201 接收單元
202 解多路復(fù)用器
203 視頻解碼單元
204 視頻處理電路
205 面板驅(qū)動電路
206 顯示面板
214 音頻解碼單元
215 音頻輸出處理電路
216 揚(yáng)聲器系統(tǒng)
221 CPU
222 閃存ROM
223 DRAM
224 內(nèi)部總線
225 遠(yuǎn)程控制接收單元
226 遠(yuǎn)程控制發(fā)送器
231 解碼器
232 對象增強(qiáng)器
233 對象渲染器
234 混頻器