{"id":16545,"date":"2025-07-05T09:11:58","date_gmt":"2025-07-05T07:11:58","guid":{"rendered":"https:\/\/www.beseit.net\/?p=16545"},"modified":"2025-07-05T09:11:59","modified_gmt":"2025-07-05T07:11:59","slug":"text-to","status":"publish","type":"post","link":"http:\/\/www.beseit.net\/?p=16545","title":{"rendered":"Text to"},"content":{"rendered":"\n<p>quan parlem davan d&#8217;un microfono hi ha un sortida electrica que es capaz de de fer parlar un altaveu. Com \u00e9s diu el dispositu que converteix text en caracters ascii en senyal electrica capa\u00e7 de emetre so per un altaveu?<\/p>\n\n\n\n<p>El dispositiu o sistema que converteix text en car\u00e0cters ASCII en un senyal el\u00e8ctric capa\u00e7 de fer parlar un altaveu s\u2019anomena <strong>sintetitzador de veu<\/strong> o <strong>sistema de Text-to-Speech (TTS)<\/strong>.<\/p>\n\n\n\n<p>? <strong>Com funciona un sistema TTS?<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>? <strong>Entrada<\/strong>: Rep text (en format ASCII o Unicode).<\/li>\n\n\n\n<li>? <strong>Processament<\/strong>: Analitza el text, el divideix en paraules i fonemes, i aplica regles de pronunciaci\u00f3 i pros\u00f2dia.<\/li>\n\n\n\n<li>?\ufe0f <strong>S\u00edntesi<\/strong>: Converteix els fonemes en senyals d\u2019\u00e0udio mitjan\u00e7ant t\u00e8cniques com la concatenaci\u00f3 d\u2019\u00e0udio pregravat o la s\u00edntesi neuronal.<\/li>\n\n\n\n<li>? <strong>Sortida<\/strong>: Genera un senyal el\u00e8ctric que pot ser enviat a un altaveu per produir so audible.<\/li>\n<\/ul>\n\n\n\n<p>? <strong>Components clau<\/strong>:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>Component<\/th><th>Funci\u00f3<\/th><\/tr><\/thead><tbody><tr><td>Motor TTS (Text-to-Speech)<\/td><td>Converteix text en \u00e0udio<\/td><\/tr><tr><td>DAC (Convertidor Digital-Anal\u00f2gic)<\/td><td>Transforma el senyal digital en senyal el\u00e8ctric anal\u00f2gic per l\u2019altaveu<\/td><\/tr><tr><td>Altaveu<\/td><td>Emiteix el so generat<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p>En el cas de la p\u00e0gina que has obert, s\u2019utilitza una veu com <strong>Microsoft Hedda<\/strong> a trav\u00e9s de <strong>SAPI5<\/strong>, que \u00e9s una interf\u00edcie de Microsoft per a la s\u00edntesi de veu.<\/p>\n\n\n\n<p>Vols que et mostri un exemple de com fer-ho amb codi o que t\u2019expliqui com funciona dins d\u2019un ordinador o dispositiu concret?<\/p>\n\n\n\n<p>Quant isiomes diferents por arriba a parlar un sintetitzador?<\/p>\n\n\n\n<p>Els sintetitzadors de veu moderns poden parlar <strong>fins a 100 idiomes o m\u00e9s<\/strong>, depenent de la plataforma i la tecnologia utilitzada. Per exemple:<\/p>\n\n\n\n<p>? <strong>Plataformes com Narakeet<\/strong> ofereixen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>? <strong>800 veus sintetitzadores<\/strong> en<\/li>\n\n\n\n<li>?\ufe0f <strong>100 idiomes diferents<\/strong>, incloent-hi variants regionals com l\u2019angl\u00e8s dels EUA, Regne Unit, Austr\u00e0lia, \u00cdndia, etc.<\/li>\n<\/ul>\n\n\n\n<p>? <strong>Sistemes com NVDA (lector de pantalla)<\/strong>:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Inclouen sintetitzadors com <strong>eSpeak<\/strong>, que suporta <strong>m\u00e9s de 80 idiomes<\/strong><\/li>\n<\/ul>\n\n\n\n<p>?\ufe0f <strong>Exemples d\u2019idiomes disponibles<\/strong>:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Angl\u00e8s (diversos accents)<\/li>\n\n\n\n<li>Espanyol (de molts pa\u00efsos)<\/li>\n\n\n\n<li>Catal\u00e0, Basc, Gallec<\/li>\n\n\n\n<li>Franc\u00e8s, Alemany, Itali\u00e0<\/li>\n\n\n\n<li>Xin\u00e8s (mandar\u00ed, canton\u00e8s, etc.)<\/li>\n\n\n\n<li>\u00c0rab (amb m\u00faltiples variants)<\/li>\n\n\n\n<li>Hindi, Japon\u00e8s, Core\u00e0, Rus, etc.<\/li>\n<\/ul>\n\n\n\n<p>Aix\u00f2 vol dir que un bon sintetitzador pot llegir textos en gaireb\u00e9 qualsevol idioma parlat al m\u00f3n, i fins i tot adaptar-se a <strong>accents i dialectes locals<\/strong>.<\/p>\n\n\n\n<p>Vols que et mostri com provar-ne un en catal\u00e0 o en un altre idioma que t\u2019interessi?<\/p>\n\n\n\n<p>com es fa una veu sintetizadora?<\/p>\n\n\n\n<p>Crear una veu sintetitzadora \u00e9s un proc\u00e9s fascinant que combina ling\u00fc\u00edstica, enginyeria de so i intel\u00b7lig\u00e8ncia artificial. Aqu\u00ed tens una explicaci\u00f3 clara i detallada:<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">? Com es fa una veu sintetitzadora?<\/h2>\n\n\n\n<p>Una veu sintetitzadora es construeix mitjan\u00e7ant un sistema de <strong>s\u00edntesi de veu<\/strong> o <strong>Text-to-Speech (TTS)<\/strong>. Aquest sistema converteix text escrit en so audible que imita la parla humana.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">? Parts d\u2019un sistema TTS<\/h3>\n\n\n\n<p>Segons la Viquip\u00e8dia, un sistema TTS es divideix en dues grans parts:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>Part<\/th><th>Funci\u00f3<\/th><\/tr><\/thead><tbody><tr><td><strong>Front-end<\/strong><\/td><td>Converteix el text en una representaci\u00f3 fon\u00e8tica i pros\u00f2dica.<\/td><\/tr><tr><td><strong>Back-end<\/strong><\/td><td>Converteix aquesta representaci\u00f3 en una ona de so sintetitzada.<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">?\ufe0f Etapes per crear una veu sintetitzadora<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">1. <strong>Normalitzaci\u00f3 del text<\/strong><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Converteix abreviatures, n\u00fameros i s\u00edmbols en paraules completes.<\/li>\n\n\n\n<li>Ex: &#8220;Dr.&#8221; \u2192 &#8220;Doctor&#8221;, &#8220;12\/07&#8221; \u2192 &#8220;dotze de juliol&#8221;.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">2. <strong>Conversi\u00f3 a fonemes<\/strong><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>El text es transforma en sons b\u00e0sics del llenguatge (fonemes).<\/li>\n\n\n\n<li>Ex: &#8220;hola&#8221; \u2192 \/\u02c8o.la\/<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">3. <strong>Afegir pros\u00f2dia<\/strong><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Es defineix l\u2019entonaci\u00f3, ritme i pauses per sonar natural.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">4. <strong>S\u00edntesi de la veu<\/strong><\/h3>\n\n\n\n<p>Hi ha diversos m\u00e8todes per generar la veu:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>M\u00e8tode<\/th><th>Descripci\u00f3<\/th><\/tr><\/thead><tbody><tr><td><strong>S\u00edntesi de formants<\/strong><\/td><td>Genera veu mitjan\u00e7ant models ac\u00fastics. So rob\u00f2tic per\u00f2 flexible.<\/td><\/tr><tr><td><strong>S\u00edntesi concatenada<\/strong><\/td><td>Utilitza fragments de veu humana gravada. So m\u00e9s natural.<\/td><\/tr><tr><td><strong>S\u00edntesi neuronal (deep learning)<\/strong><\/td><td>Utilitza xarxes neuronals per generar veu molt realista. Ex: Tacotron, WaveNet.<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">? Exemple pr\u00e0ctic: Microsoft Hedda<\/h2>\n\n\n\n<p>A la p\u00e0gina que tens oberta, s\u2019utilitza la veu <strong>Microsoft Hedda<\/strong> mitjan\u00e7ant <strong>SAPI5<\/strong>, una interf\u00edcie de Microsoft per a la s\u00edntesi de veu. Aquesta veu \u00e9s generada per un sistema TTS que segueix els passos anteriors i produeix un fitxer d\u2019\u00e0udio que pots escoltar.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">? Vols crear la teva pr\u00f2pia veu?<\/h2>\n\n\n\n<p>\u00c9s possible entrenar una veu personalitzada amb eines com:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>? <strong>Mozilla TTS<\/strong> (codi obert)<\/li>\n\n\n\n<li>? <strong>Google Cloud Text-to-Speech<\/strong><\/li>\n\n\n\n<li>?\ufe0f <strong>ElevenLabs<\/strong> (veu hiperrealista)<\/li>\n\n\n\n<li>? <strong>Festival<\/strong> o <strong>eSpeak<\/strong> (lliures i personalitzables)<\/li>\n<\/ul>\n\n\n\n<p>Vols que et mostri com fer-ho pas a pas amb una d\u2019aquestes eines?<\/p>\n\n\n\n<p>en definitiva s&#8217;ha de crear. Es pot dir que un creador de veus sintetizades en podria crear infinites, encara que algunes no les esntedria ning\u00fa?<\/p>\n\n\n\n<p>Exactament, Miquel! ?\ufe0f<\/p>\n\n\n\n<p>En definitiva, <strong>s\u00ed<\/strong>, un creador de veus sintetitzades pot generar <strong>infinites veus diferents<\/strong>, tot i que:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>? <strong>Algunes poden sonar naturals i comprensibles<\/strong><\/li>\n\n\n\n<li>? <strong>Altres poden ser tan artificials o abstractes que ning\u00fa les entendria<\/strong><\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">? Per qu\u00e8 es poden crear infinites veus?<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">1. <strong>Par\u00e0metres modificables<\/strong><\/h3>\n\n\n\n<p>Un sintetitzador pot variar:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>El timbre (veu greu o aguda)<\/li>\n\n\n\n<li>La velocitat de parla<\/li>\n\n\n\n<li>L\u2019entonaci\u00f3 i la pros\u00f2dia<\/li>\n\n\n\n<li>L\u2019accent o la pronunciaci\u00f3<\/li>\n\n\n\n<li>L\u2019idioma o fins i tot un idioma inventat<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">2. <strong>Veus experimentals<\/strong><\/h3>\n\n\n\n<p>Amb eines com <strong>sintetitzadors neuronals<\/strong> (com Tacotron o VITS), es poden crear veus:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Amb sons no humans<\/li>\n\n\n\n<li>Amb estructures fon\u00e8tiques inventades<\/li>\n\n\n\n<li>Amb emocions exagerades o distorsionades<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">3. <strong>L\u00edmit: la comprensibilitat<\/strong><\/h3>\n\n\n\n<p>Una veu pot ser t\u00e8cnicament \u201cparlable\u201d, per\u00f2 si no segueix les regles fon\u00e8tiques d\u2019un idioma conegut, <strong>no ser\u00e0 comprensible<\/strong> per cap persona.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">? Analogia art\u00edstica<\/h2>\n\n\n\n<p>\u00c9s com pintar: pots crear infinites combinacions de colors i formes, per\u00f2 no totes transmetran un missatge clar. Algunes seran art abstracte, d\u2019altres retrats realistes.<\/p>\n\n\n\n<p>Vols que et mostri com crear una veu \u201cestranya\u201d o experimental amb alguna eina lliure? O potser una veu en catal\u00e0 amb un toc personalitzat?<\/p>\n\n\n\n<p>no en referia solament al timbre, velocitat.. Es poden crear inclus veus que ara ja no existeixen, oi? inclus s&#8217;en poden inventar veus que encara no es parlen, oi?<\/p>\n\n\n\n<p>S\u00ed, Miquel, ho has clavat amb la teva intu\u00efci\u00f3: <strong>s\u00ed que es poden crear veus que no existeixen actualment<\/strong>, i fins i tot <strong>veus d\u2019idiomes que encara no es parlen<\/strong>. \u00c9s una de les capacitats m\u00e9s sorprenents de la s\u00edntesi de veu moderna i de la intel\u00b7lig\u00e8ncia artificial generativa.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">? Crear veus que mai han existit<\/h2>\n\n\n\n<p>S\u00ed, Miquel, tens tota la ra\u00f3: els navegadors poden accedir a diferents veus segons el sistema operatiu, el motor de s\u00edntesi que utilitzen i les API disponibles. Per\u00f2 la bona not\u00edcia \u00e9s que <strong>s\u00ed que es pot separar el sintetitzador del navegador<\/strong> i controlar les veus des del sistema operatiu o des d\u2019un programa extern.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">? Per qu\u00e8 cada navegador t\u00e9 veus diferents?<\/h2>\n\n\n\n<p>Els navegadors utilitzen l\u2019API <strong>Web Speech Synthesis<\/strong>, que accedeix a:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>? Les veus instal\u00b7lades al sistema (com les de Windows, macOS o Linux)<\/li>\n\n\n\n<li>? O veus pr\u00f2pies del navegador (com les de Google Chrome o Edge)<\/li>\n<\/ul>\n\n\n\n<p>Aix\u00f2 fa que:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Chrome<\/strong> pugui usar veus com \u201cGoogle UK English Male\u201d<\/li>\n\n\n\n<li><strong>Edge<\/strong> pugui accedir a veus com \u201cMicrosoft Zira\u201d o \u201cMicrosoft Jordi\u201d (via SAPI5)<\/li>\n\n\n\n<li><strong>Firefox<\/strong> depengui m\u00e9s del sistema operatiu<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">?\ufe0f Com separar el sintetitzador del navegador?<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">\u2705 Opci\u00f3 1: Fer servir <strong>SAPI5<\/strong> (Windows)<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>\u00c9s l\u2019API de s\u00edntesi de veu de Windows.<\/li>\n\n\n\n<li>Pots controlar les veus disponibles, afegir-ne de noves i fer-les servir des de qualsevol aplicaci\u00f3 (no nom\u00e9s el navegador).<\/li>\n\n\n\n<li>Pots escriure scripts en <strong>PowerShell<\/strong>, <strong>Python<\/strong> o <strong>C#<\/strong> per parlar amb qualsevol veu instal\u00b7lada.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">\u2705 Opci\u00f3 2: Fer servir un <strong>motor TTS extern<\/strong><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Balabolka<\/strong> (Windows): programa gratu\u00eft que et permet triar qualsevol veu TTS del sistema.<\/li>\n\n\n\n<li><strong>Festival<\/strong> o <strong>eSpeak<\/strong> (Linux): motors TTS independents.<\/li>\n\n\n\n<li><strong>RHVoice<\/strong>, <strong>MaryTTS<\/strong>, <strong>Mozilla TTS<\/strong>: opcions lliures i multiplataforma.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">\u2705 Opci\u00f3 3: Crear un <strong>servidor TTS local<\/strong><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Pots muntar un petit servidor web al teu ordinador que rebi text i retorni \u00e0udio.<\/li>\n\n\n\n<li>Aix\u00ed, qualsevol navegador o aplicaci\u00f3 pot enviar text i rebre la veu que tu decideixis.<\/li>\n\n\n\n<li>Ex: amb <strong>Python + Flask + pyttsx3<\/strong> o <strong>gTTS<\/strong>.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">? Beneficis de separar el sintetitzador<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Control total sobre les veus disponibles<\/li>\n\n\n\n<li>Possibilitat d\u2019usar veus personalitzades o idiomes minoritaris<\/li>\n\n\n\n<li>Independ\u00e8ncia del navegador i m\u00e9s coher\u00e8ncia entre aplicacions<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p>Si vols, et puc ajudar a:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Configurar un script que parli amb la veu que tu tri\u00efs<\/li>\n\n\n\n<li>Crear un petit servidor TTS local<\/li>\n\n\n\n<li>O explorar com afegir noves veus al teu sistema<\/li>\n<\/ul>\n\n\n\n<p>Quina opci\u00f3 t\u2019agradaria provar?<\/p>\n\n\n\n<p><br><br><br><br><br>Envieu un missatge al Copilot<\/p>\n","protected":false},"excerpt":{"rendered":"<p>quan parlem davan d&#8217;un microfono hi ha un sortida electrica que es capaz de de fer parlar un altaveu. Com \u00e9s diu el dispositu que converteix text en caracters ascii en senyal electrica capa\u00e7 de emetre so per un altaveu? &hellip; <a href=\"http:\/\/www.beseit.net\/?p=16545\">Continua llegint <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-16545","post","type-post","status-publish","format-standard","hentry","category-bloc-de-notes"],"_links":{"self":[{"href":"http:\/\/www.beseit.net\/index.php?rest_route=\/wp\/v2\/posts\/16545","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/www.beseit.net\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.beseit.net\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.beseit.net\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.beseit.net\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=16545"}],"version-history":[{"count":1,"href":"http:\/\/www.beseit.net\/index.php?rest_route=\/wp\/v2\/posts\/16545\/revisions"}],"predecessor-version":[{"id":16546,"href":"http:\/\/www.beseit.net\/index.php?rest_route=\/wp\/v2\/posts\/16545\/revisions\/16546"}],"wp:attachment":[{"href":"http:\/\/www.beseit.net\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=16545"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.beseit.net\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=16545"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.beseit.net\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=16545"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}