employment.az employment.az

Dərc olunma tarixi

02.12.2024 Texnologiya

Baxış sayı

eye 655

Oxunma müddəti

clock 9 dəq

Süni intellekt vasitəsilə insan səsinin təqlidi : “Audio deepfake” texnologiyası

Süni intellekt (SI), insanların təbii intellektini təqlid etməyə çalışan bir texnologiyadır. Süni intellekt, maşınlara və kompüterlərə düşünmə, öyrənmə, mühakimə etmə və qərar qəbul etmə qabiliyyətləri qazandıran alqoritmlər və proqramlarla işləyir. Bu texnologiya müxtəlif sahələrdə istifadə olunur: səhiyyə, maliyyə, təhsil və gündəlik həyatda da çoxsaylı tətbiqlər tapır.

Bu günlərdə süni intellektin ən maraqlı inkişaflarından biri, insan səsinin təqlidi və bu sahədə əldə edilən irəliləyişlərdir. Süni intellekt, əvvəlcə sadə, robotik səslərlə mətnləri oxuyarkən, indi daha təbii və insan kimi danışa bilir.

Həmçinin, süni intellekt vasitəsilə nitq klonlama texnologiyası həqiqi insanların səslərini təkrarlamağa imkan verir. Məsələn, bu texnologiya yaxınlarda səkkiz hissəli bir podkast hazırlamaq üçün mərhum britaniyalı teleaparıcı ser Maykl Parkinsonun səsini klonlamaq üçün istifadə edilmişdi. Təbii tarix yayımçısı ser Devid Attenboro isə süni intellekt tərəfindən klonlanmış səsini eşidəndə "dərin narahatlıq" hissi keçirərək bu işin onun razılığı olmadan edildiyini vurğulamışdı.

“Audio deepfake” texnologiyası nədir?

"Audio deepfake" texnologiyası, süni intellekt və "deep learning" alqoritmləri vasitəsilə insan səsinin təqlidini yaratmağa imkan verən bir texnologiyadır. Bu, real insanların səsini təkrarlamaq və onların danışıq üslubunu, tonunu, vurğularını, hətta emosional reaksiyalarını təqlid etmək qabiliyyətinə malikdir.

Bu texnologiya, səsin xüsusiyyətlərini (ton, vurğu, ritm, səsin gücü) təqlid edərək insan səsini çox inandırıcı şəkildə yaradaraq, real insanlardan fərqləndirilməyəcək səslər yaradır. Bu sahədəki inkişaflar, əvvəlki illərdə istifadə olunan sadə texnologiyalardan çox irəliləyib və indiki mərhələdə səsin çox təbii, emosional və dəyişkən təkrarı mümkündür.

Audio deepfake texnologiyası, əsasən iki üsula əsaslanır: text-to-speech (TTS)voice cloning. TTS, mətni səsə çevirmək üçün istifadə edilən bir üsuldur və böyük verilənlər bazasından istifadə edərək müxtəlif dil modelləri və tonları yaradır. Voice cloning isə daha spesifik bir yanaşmadır və müəyyən bir insanın səsini təkrarlamaq üçün istifadə olunur.

“Audio deepfake” texnologiyasının tətbiqləri

Audio deepfake, müasir media və əyləncə sektorlarında, o cümlədən filmlərdə və video oyunlarında aktyorların səsini təkrarlamaq üçün istifadə olunur. Eyni zamanda, reklam və marketinq sahəsində də məşhurların və digər şəxslərin səslərini təqlid edərək məhsul tanıtımları yaratmağa kömək edir.

Eyni zamanda, təhsil və dil öyrənmə sahələrində də faydalı ola bilər. Səsli kitablar, təlimat videoları və tədris proqramlarında, tələbələrin müxtəlif aksentlərlə və müxtəlif dillərlə əlaqə qurmasına imkan yaradan səsli proqramlar inkişaf etdirilir. Səsli köməkçilər (məsələn, Siri, Alexa) daha təbii və insan səsinə yaxın olmaq üçün deepfake texnologiyasından istifadə edir.

Bundan başqa bu texnologiya, neqativ istiqamətdə, məsələn bank fırıldaqları və şəxsi məlumat oğurluqları üçün istifadə oluna bilər.

“Audio deepfake” insanlar üçün təhlükəlidirmi?

"Audio Deepfake" texnologiyası insanların həyatını bir neçə cəhətdən təhlükəyə atır. İlk növbədə, bu texnologiya insanları aldatmaq, yalan məlumatlar yaymaq və maliyyə fırıldaqları törətmək üçün istifadə edilə bilər. Bu texnologiya, insan səsini təqlid edərək, yanlış məlumatlar yaymağa və insanları aldatmağa imkan verir. Məsələn, fırıldaqçılar, tanınmış şəxslərin və ya hətta yaxınlarımızın səslərini təqlid edərək insanları maliyyə fırıldaqlarına cəlb edə bilərlər.

Bundan başqa, bu texnologiya sosial manipulyasiya və dezinformasiya məqsədilə də istifadə oluna bilər. Məsələn, siyasi və ya ictimai mövzularda səhv məlumatlar yayılaraq insanların qərarlarını təsir edə bilər. Hətta tanınmış şəxslərin səslərinin təqlidi ilə onların imicinə zərər vurmaq mümkündür.

Bəzi ekspertlər, bu texnologiyanın cinayətkarlar tərəfindən kimlik oğurluğu, sosial mühəndislik və ya digər qanunsuz fəaliyyətlər üçün istifadə ediləcəyini düşünürlər.

Bu günlərdə AI ilə ünsiyyət çox asanlaşıb. Bəzi chatbotlara sual verdikdə, onlar hətta şifahi şəkildə cavab verə bilirlər. Siz onlarla bir neçə dildə danışa, hətta müəyyən dialekt və ya vurğu ilə cavab tələb edə bilərsiniz.

“Audio deepfake”-i insan səsindən necə fərqləndirə bilərik? Fırıldaqçılardan necə qorunaq?

Süni intellektlə işləyən nitq sintezatorları artıq ürkütücü dərəcədə real danışıq səviyyəsinə çatıb. Onlar vurğu ilə danışa, pıçıldaya və hətta başqalarının səsini klonlaya bilirlər. Bəs insan səsindən necə fərqlənirlər?

Vurğu və intonasiya: İnsanlar danışarkən cümlələrdə vurğuları və intonasiyaları təbii olaraq dəyişir. Məsələn, bir sual verdikdə səsin tonu dəyişir. İnsanlar bunu bilavasitə söhbət zamanı hiss edirlər. Deepfake səsində isə vurğu və intonasiya müəyyən zamanlarda qeyri-təbii ola bilər. Bəzi hallarda, vurğuların yanlış yerdə olması və ya sadəcə səsin düz olması, bu fərqi asanlıqla göstərə bilər. İnsanların vurğulama tərzi daha təbii və kontekstə uyğun olur.

Təbii olmayan tənəffüs və səs keyfiyyəti: İnsanlar danışarkən təbii olaraq nəfəs alır, buna görə də danışan zaman tənəffüsün səsi də duyulacaq şəkildə olur. Real insan səsi təbii olaraq dəyişir; məsələ, insan yorulduqda və ya daha emosional bir vəziyyətdə olduqda səsin tonu dəyişir. Deepfake səsi isə adətən bu təbii dəyişiklikləri təkrarlamaq üçün çətinlik çəkir. Buna görə də, deepfake səsi çox zaman sabit və monoton səslənə bilər.

Səsin monotonluğu və dəyişməzliyi: İnsanlar danışarkən səsin tonunu, sürətini və vurğusunu təbii olaraq dəyişir. Həmçinin, bir hissədə daha yavaş danışa bilərlər, başqa bir hissədə isə daha sürətli danışa bilərlər. Səsin təbii olaraq bu dəyişiklikləri və müxtəlifliyi təmin etməsi insan səsinin tipik xüsusiyyətlərindəndir. Deepfake isə çox vaxt sabit bir səs tonu və sürəti saxlayır. Bu, deepfake səsinin monoton və bəzən süni səslənməsinə səbəb olur.

Səsin kontekstə uyğun olmaması: İnsanlar təbii olaraq kontekstə uyğun intonasiya və vurğu istifadə edirlər. Məsələn, bir şəxs sual verdikdə və ya qarşı tərəfdən cavab alanda, onun səsi dəyişəcək. Deepfake isə bəzən bu təbii dəyişiklikləri düzgün uyğunlaşdıra bilmir. Bir cümlədə vurğu düzgün yerləşmədikdə, bu, səsin təbii olmadığını göstərir.

Qeyri-adi fon səs-küyləri və xətalar: İnsan səsi ətraf mühitin təsiri altında olan bir səsdir. Bu, xüsusən mobil telefon vasitəsilə danışarkən və ya telefon zəngində daha aydın olur. Fon səs-küyləri, digər insanların danışığı və mühitin səsləri, insan səsinin təbii hissəsidir. Lakin deepfake səsində bu cür fon səsləri çox vaxt olmur. Bəzən isə deepfake səsində bəzi qeyri-təbii təsirlər və səhvlər olur ki, bunlar da real səs ilə deepfake səsi arasında fərq yaradır.

Emosional ifadə və nüanslar: İnsanlar emosiyalarını danışarkən təbii olaraq ifadə edirlər. Məsələn, bir insan həyəcanla və ya üzgün halda danışırsa, səsin tonu və sürəti dəyişir. Lakin, deepfake səsi hələ də emosional ifadələrdə insan səsinin dərinliyini və çeşidini tamamilə təqlid edə bilmir. Deepfake səsi daha çox standart, robotik səslənir və emosiyaların həqiqi və dürüst bir şəkildə çatdırılması çətin olur.

Bütün bu fərqlər, insanların deepfake səsini real səsdən ayırd etmələrinə kömək edir. Ancaq süni intellektin inkişafı ilə bu texnologiya getdikcə daha təkmilləşir və insanlar üçün bu fərqləri tapmaq daha çətin ola bilər. Bu səbəbdən, texnologiyanın inkişafı ilə daha mürəkkəb detektor alətlərinin yaradılması da əhəmiyyətli olacaq.

“Audio deepfake” texnologiyasına qarşı görülən bəzi qlobal tədbirlər

Günümüzdə audio deepfake texnologiyası geniş yayılmaqdadır və xüsusilə fırıldaqçılıq və dezinformasiya üçün istifadə olunur. Fırıldaqçılar, real insanların səslərini təkrarlayaraq, maliyyə institutlarını aldatmaq və ya seçkilərdə saxta məlumat yaymaq üçün bu texnologiyadan faydalanırlar.

Bir çox ölkə, xüsusilə ABŞ, deepfake texnologiyasını tənzimləmək məqsədilə yeni qanunlar qəbul edir. Bu qanunlar, deepfake-lərin aldatmaq məqsədilə istifadə edilməsini cinayət sayır və ciddi cəzalar tətbiq edir. Texnologiya şirkətləri və araşdırma mərkəzləri, deepfake-ləri aşkarlamaq üçün süni intellekt və digər alətlərdən istifadə edərək sistemlər inkişaf etdirirlər. Məsələn, maliyyə sahəsində real vaxtda deepfake səslərini tapmaq üçün xüsusi alətlər üzərində işlənir​

Qlobal təşkilatlar və qeyri-hökumət təşkilatları deepfake texnologiyasının təhlükələri barədə geniş təbliğat kampaniyaları aparır. Məsələn, deepfake-lərin siyasət və sosial medianın manipulyasiyası məqsədilə istifadəsinin qarşısını almaq üçün fərdi şəxslərə və müəssisələrə təlimatlar təqdim edilir. Həmçinin, sosial mediada deepfakelərin yayılması ilə mübarizə aparmaq üçün müxtəlif maarifləndirici paylaşımlar edilir.

Nəticədə, insan səsi tam olaraq təqlid edilə bilirmi?

Hal-hazırda süni intellekt səs sistemləri, dərin öyrənmə və böyük insan nitqi məlumatları toplusundan istifadə edərək təbii səslər yaradır. Lakin, insan nitqinin bəzi incə xüsusiyyətlərini tam təkrarlamaq hələ çətindir. Bəzi texnologiyalar, məsələn, səs sintezatorları və səs klonlama alətləri, insan səsinin müəyyən xüsusiyyətlərini, tonunu və aksentini yaxşı təkrarlaya bilir, lakin hələ də bəzi təbii incəliklər, xüsusilə də emosional və vurğulu nüanslar tam olaraq ötürülə bilmir.

Süni intellekt insan səslərini yaxşı təqlid etsə də, insan səslərindəki təbii dəyişikliklər və qüsurlar çətinlik yaradır. Süni səs bəzən real insan səsindən daha sabit və mexaniki səslənir, halbuki insanın səsi daha müxtəlif və emosional olur. Həmçinin, bir şəxsin səsi üzərində öyrədilmiş süni intellektin, fərqli yaşlar, cinslər və aksentlərdə müxtəlif insan səslərini yaratması üçün hələ də böyük və müxtəlif məlumat bazalarına ehtiyac var.

 

 

 

heart save

Əli Əliyev

04.12.2024

Möhtəşəm bir məqalə çox faydalı oldu.

Abishov Mehemmed

06.12.2024

Çox yararlı məqalədir,təşəkkürlər.

Yazar
  • İstifadəçi adı:

    samidquliyev
  • Ad Soyad:

    Samid Quliyev
  • Məqalə sayı:

    1

Əlaqəli məqalələr

paper-1-img
Aqronomiya Robotları

04.05.2023

Texnologiya

Texnologiyanın durmadan inkişaf etdiyi müasir dövr yenilikləri aqronomiyadan da yan keçməyib. Bu gün sizlərlə aqronomiyada istifadə olunan bir-birindən fərqli və yararlı robotlarla tanış olacağıq.

paper-1-img
Texnoloji İnkişafların İnsan Davranışlarına və Sosial Mediaya Təsiri

28.10.2021

Texnologiya

Texnologiyanın inkişafı ilə insanların texnologiya ilə qarşılıqlı əlaqəsində fərqliliklər yaratdı. Keçmişdə çox evdə kompüter, telefon və planşet, hətta televizor belə yox idi.

paper-1-img
Metaverse: Yeni Virtual Dünya

19.11.2021

Texnologiya

Bildiyiniz kimi, bu yaxınlarda Facebook-un qurucusu və baş direktoru Mark Zukerberq ,Facebook adının şirkətin gələcəyini adekvat şəkildə təsvir etmədiyini və ad dəyişikliyini təsdiqlədi və “Metaverse”haqqında bəzi məlumatlar verdi.İnsanlarda “Metaverse” nədir? ,Hansı xüsusiyyətlələrə malikdir? və s kimi suallar yarandı.Gəlin bu suallara cavab tapmağa çalışaq.