Imkoniyati cheklangan shaxslar uchun intellektual yordamchi qurilmalar: Nutqni sintez qilish va tasvirni ovozga aylantirishning ilmiy‑nazariy asoslari

Jamshidbek Umaraliyev; Temurbek Abdullayev

Authors

Jamshidbek Umaraliyev Farg‘ona davlat texnika universiteti
Temurbek Abdullayev Farg‘ona davlat texnika universiteti

Keywords:

Nutqni sintez qilish, tasvirni ovozga aylantirish, sensory substitution, multimodal sun’iy intellekt, ko‘zi ojizlar, yordamchi texnologiyalar

Abstract

Ushbu maqolada imkoniyati cheklangan shaxslar, xususan ko‘rish qobiliyati past yoki ko‘zi ojiz foydalanuvchilar uchun yaratilayotgan intellektual yordamchi qurilmalar rivoji, ularning ilmiy‑nazariy asoslari va amaliy imkoniyatlari yoritiladi. Nutqni sintez qilish (Text‑to‑Speech), tasvirni matnga aylantirish (Image Captioning), tasvirni bevosita ovozga o‘tkazish (Visual‑to‑Audio Sensory Substitution) va multimodal sun’iy intellekt texnologiyalarining zamonaviy yutuqlari tahlil qilinadi. Sensorli almashinuv tizimlari, chuqur o‘rganish modellarining afzalliklari, cheklovlari va qo‘llanish sohalari ko‘rsatib o‘tiladi. Maqola yordamchi texnologiyalarni rivojlantirishda zamonaviy ilmiy ishlanmalar, neyron tarmoqlar, tabiiy tilni qayta ishlash va kompyuter ko‘rish yutuqlarining ahamiyatini ochib beradi

References

1. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. – 2015.

2. Vinyals O., Toshev A., Bengio S., Erhan D. Show and Tell: A Neural Image Caption Generator. – CVPR, 2015.

3. Xu K., Ba J., Kiros R., et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. – ICML, 2016.

4. Graves A. Speech Synthesis with Deep Neural Networks. – 2013–2014.

5. Shen J., Pang R., Weiss R., et al. Natural TTS Synthesis by Conditioning Wavenet on Mel-Spectrogram Predictions (Tacotron 2). – 2018.

6. Meijer A. The vOICe: A Vision-to-Sound Sensory Substitution System. – 2000–2020.

7. Striem-Amit E., Guendelman M., Amedi A. Visual cortex activation by auditory substitution in blind subjects. – Neuron, 2012.

8. Ngiam J., Khosla A., Kim M., et al. Multimodal Deep Learning. – ICML, 2011.

9. Arxiv Team. Vision-to-Audio Transformation Using Deep Autoencoding Models. – ArXiv, 2019.

10. Electronic Travel Aids for the Blind: A Review. – Sensors Journal, 2000–2020.

Imkoniyati cheklangan shaxslar uchun intellektual yordamchi qurilmalar: Nutqni sintez qilish va tasvirni ovozga aylantirishning ilmiy‑nazariy asoslari

Authors

Keywords:

Abstract

References

Downloads

Published

How to Cite

Issue

Section

Similar Articles

Most read articles by the same author(s)

SUBMIT

ISSN

researchbib

zenodo

Keywords

Current Issue

Language