Karaoke Gen Progress Presentation

50 %
50 %
Information about Karaoke Gen Progress Presentation
Education

Published on November 9, 2008

Author: m3rlinez

Source: slideshare.net

Automatic Generation of Karaoke-Game Stages from Audio Files ณัฐวุฒิ กุลนิรันดร ภาควิชาวิศวกรรมคอมพิวเตอร์ จุฬาลงกรณ์มหาวิทยาลัย 11/10/2008

สมาชิก นิสิต ณัฐวุฒิ กุลนิรันดร รหัสประจำตัวนิสิต 4831213321 อาจารย์ที่ปรึกษา ศ . ดร . บุญเสริม กิจศิริกุล 11/10/2008

นิสิต

ณัฐวุฒิ กุลนิรันดร รหัสประจำตัวนิสิต 4831213321

อาจารย์ที่ปรึกษา

ศ . ดร . บุญเสริม กิจศิริกุล

เกี่ยวกับโครงงาน เกมคาราโอเกะในปัจจุบันไม่สามารถเลือกเพลงที่อยากร้องมาร้องตามใจชอบได้ โครงงานนี้สร้างด่านจากเพลงในรูปแบบ MP3 ใดๆที่ผู้ใช้เลือก 11/10/2008

เกมคาราโอเกะในปัจจุบันไม่สามารถเลือกเพลงที่อยากร้องมาร้องตามใจชอบได้

โครงงานนี้สร้างด่านจากเพลงในรูปแบบ MP3 ใดๆที่ผู้ใช้เลือก

นิยาม “ ด่าน ” ชื่อไฟล์เสียงที่ใช้คู่กับด่านนั้น ลำดับของ ( โน้ต , เวลาเริ่มต้น , เวลาหยุด ) ไม่มีข้อมูลตัวใดอยู่ในช่วงเวลาที่ซ้อนทับกัน บางช่วงเวลาอาจไม่มีข้อมูลใดๆ เสียงร้องต่าง Octave แต่เป็นโน้ตตัวเดียวกัน ถือว่าได้คะแนน 11/10/2008

ชื่อไฟล์เสียงที่ใช้คู่กับด่านนั้น

ลำดับของ ( โน้ต , เวลาเริ่มต้น , เวลาหยุด )

ไม่มีข้อมูลตัวใดอยู่ในช่วงเวลาที่ซ้อนทับกัน

บางช่วงเวลาอาจไม่มีข้อมูลใดๆ

เสียงร้องต่าง Octave แต่เป็นโน้ตตัวเดียวกัน ถือว่าได้คะแนน

ความก้าวหน้าในการดำเนินการวิจัย ศึกษาเรื่องการประมวลผลสัญญาณเสียง (100%) การอ่านตัวอย่างสุ่มจากไฟล์เสียง (100%) การทำการแปลงฟูเรียร์แบบเร็วบนชุดข้อมูล (100%) ศึกษางานวิจัยที่เกี่ยวกับการแยกเสียงคนร้องออกจากเพลง (60%) ศึกษางานวิจัยที่เกี่ยวกับการแบ่งส่วนและแบ่งนับโน้ต (50%) พัฒนาโปรแกรมก่อกำเนิดด่านจากไฟล์เสียง (0%) พัฒนาหรือดัดแปลงโปรแกรมสำหรับทดสอบด่าน (0%) ทดสอบการทำงานของโปรแกรม (0%) จัดทำเอกสารประกอบ (0%) 11/10/2008

ศึกษาเรื่องการประมวลผลสัญญาณเสียง (100%)

การอ่านตัวอย่างสุ่มจากไฟล์เสียง (100%)

การทำการแปลงฟูเรียร์แบบเร็วบนชุดข้อมูล (100%)

ศึกษางานวิจัยที่เกี่ยวกับการแยกเสียงคนร้องออกจากเพลง (60%)

ศึกษางานวิจัยที่เกี่ยวกับการแบ่งส่วนและแบ่งนับโน้ต (50%)

พัฒนาโปรแกรมก่อกำเนิดด่านจากไฟล์เสียง (0%)

พัฒนาหรือดัดแปลงโปรแกรมสำหรับทดสอบด่าน (0%)

ทดสอบการทำงานของโปรแกรม (0%)

จัดทำเอกสารประกอบ (0%)

การอ่านตัวอย่างสุ่ม ( Samples) จากไฟล์เสียงในรูปแบบ MP3 อ่านจาก MP3 โดยตรงทำได้ยาก แปลงเป็น WAV ก่อนแล้วใช้ชุดเครื่องมือสำหรับอ่าน WAV ในการจัดการ ใช้ชุดเครื่องมือ LAME และ libsndfile 11/10/2008

อ่านจาก MP3 โดยตรงทำได้ยาก

แปลงเป็น WAV ก่อนแล้วใช้ชุดเครื่องมือสำหรับอ่าน WAV ในการจัดการ

ใช้ชุดเครื่องมือ LAME และ libsndfile

การทำการแปลงฟูเรียร์แบบเร็วสำหรับชุดข้อมูลที่อ่านได้ ทำการแปลงฟูเรียร์แบบเร็วโดยใช้ชุดเครื่องมือ FFTW ความถี่ที่ได้จากสัญญาณเสียงที่บันทึกเข้ามามีหลายฮาร์โมนิค 11/10/2008

ทำการแปลงฟูเรียร์แบบเร็วโดยใช้ชุดเครื่องมือ FFTW

ความถี่ที่ได้จากสัญญาณเสียงที่บันทึกเข้ามามีหลายฮาร์โมนิค

การทำการแปลงฟูเรียร์แบบเร็วสำหรับชุดข้อมูลที่อ่านได้ ( ต่อ ) หาค่าความถี่มูลฐานโดยการทำ Harmonic Product Spectrum 11/10/2008

หาค่าความถี่มูลฐานโดยการทำ Harmonic Product Spectrum

ศึกษางานวิจัยที่เกี่ยวข้องกับการแยกเสียงคนร้องออกจากเพลง หัวข้อที่เกี่ยวข้อง Vocal Pitch Detection/Tracking in Polyphonic Audio Predominant F0 Masataka Goto: A Predominant-F0 Estimation Method for Polyphonic Musical Audio Signals การกรองสัญญาณในช่วงความถี่ต่ำและสูงเพื่อแยกส่วนที่เป็น Bass และ Melody เสียงคนร้องจะเป็นความถี่มูลฐานที่เด่นที่สุดในช่วงเวลาส่วนใหญ่ มีการหา Probability Density Function ของความถี่ที่จะเป็น F0 ใช้สถาปัตยกรรมแบบ Multiple-Agent ในการติดตามความถี่แต่ละความถี่ 11/10/2008

หัวข้อที่เกี่ยวข้อง

Vocal Pitch Detection/Tracking in Polyphonic Audio

Predominant F0

Masataka Goto: A Predominant-F0 Estimation Method for Polyphonic Musical Audio Signals

การกรองสัญญาณในช่วงความถี่ต่ำและสูงเพื่อแยกส่วนที่เป็น Bass และ Melody

เสียงคนร้องจะเป็นความถี่มูลฐานที่เด่นที่สุดในช่วงเวลาส่วนใหญ่

มีการหา Probability Density Function ของความถี่ที่จะเป็น F0

ใช้สถาปัตยกรรมแบบ Multiple-Agent ในการติดตามความถี่แต่ละความถี่

ศึกษางานวิจัยที่เกี่ยวข้องกับการแยกเสียงคนร้องออกจากเพลง ( ต่อ ) PreFEst Algorithm 11/10/2008

PreFEst Algorithm

ศึกษางานวิจัยที่เกี่ยวข้องกับการแบ่งส่วนและแบ่งนับโน้ต X. Shao, C. Xu, and M. S. Kankanhali: Predominant Vocal Pitch Detection in Polyphonic Music ใช้ Smoother Function แบบมัธยฐาน 5 จุด เลือกยอดเพียง 10 ยอดแรกออกมาจากสเปรกตรัม ค่าระดับเสียงที่ได้ของเฟรมหนึ่งๆไม่ควรแตกต่างจากเฟรมก่อนหน้ามากจนเกินไป 11/10/2008

X. Shao, C. Xu, and M. S. Kankanhali: Predominant Vocal Pitch Detection in Polyphonic Music

ใช้ Smoother Function แบบมัธยฐาน 5 จุด

เลือกยอดเพียง 10 ยอดแรกออกมาจากสเปรกตรัม

ค่าระดับเสียงที่ได้ของเฟรมหนึ่งๆไม่ควรแตกต่างจากเฟรมก่อนหน้ามากจนเกินไป

ขั้นตอนวิธีการทำ HPS (Harmonic Product Spectrum) ใช้ Sliding Window ขนาด 10000 ตัวอย่างสุ่ม Sliding Window ขนาดใหญ่ -> ความละเอียดสูง , ประมวลผลช้า ทำ Harmonic Product Spectrum โดยการหาค่า |f(x)|.|f(2x)|.|f(3x)| เมื่อ f(x) แทนตัวอย่างสุ่มตัวที่ x หาตำแหน่ง x ในผลลัพธ์ที่มีค่าแอมพลิจูดสูงที่สุด ตั้งสมมติฐานว่ามียอดเดียว 11/10/2008

ใช้ Sliding Window ขนาด 10000 ตัวอย่างสุ่ม

Sliding Window ขนาดใหญ่ -> ความละเอียดสูง , ประมวลผลช้า

ทำ Harmonic Product Spectrum โดยการหาค่า |f(x)|.|f(2x)|.|f(3x)|

เมื่อ f(x) แทนตัวอย่างสุ่มตัวที่ x

หาตำแหน่ง x ในผลลัพธ์ที่มีค่าแอมพลิจูดสูงที่สุด

ตั้งสมมติฐานว่ามียอดเดียว

ผลการวิจัย – การทำ HPS บนเสียงเปียโน เสียงโน้ตตัว G จากเปียโนที่ 394.1 Hz 11/10/2008

เสียงโน้ตตัว G จากเปียโนที่ 394.1 Hz

ผลการวิจัย – การทำ HPS บนเสียงเพลงในท้องตลาด เพลง “ หยุด ” ของวง “ Groove Riders” ช่วง 30 – 37 วินาที 11/10/2008

เพลง “ หยุด ” ของวง “ Groove Riders” ช่วง 30 – 37 วินาที

สรุปผลการวิจัย เพียงแค่การแปลงฟูเรียร์และการใช้ Harmonic Product Spectrum ไม่เพียงพอจะใช้บอกระดับเสียงร้องเพื่อการก่อกำเนิดด่านได้ จำเป็นต้องใช้วิธีอื่นๆเช่นอัลกอริทึม PreFEst ช่วย 11/10/2008

เพียงแค่การแปลงฟูเรียร์และการใช้ Harmonic Product Spectrum ไม่เพียงพอจะใช้บอกระดับเสียงร้องเพื่อการก่อกำเนิดด่านได้

จำเป็นต้องใช้วิธีอื่นๆเช่นอัลกอริทึม PreFEst ช่วย

อุปสรรคและปัญหา การพัฒนาโปรแกรมด้วยภาษา C++ และ C# C# ทำงานระดับต่ำไม่ได้และช้า C++ ไม่มีชุดเครื่องมือ / คำสั่งพื้นฐานสำหรับทำงานหลายๆอย่าง ใช้งานยาก ความรู้ด้านการประมวลผลสัญญาณดิจิตอล ไม่รู้จักเทคนิคหลายอย่างที่ถูกอ้างถึงในงานวิจัย ใช้เวลาศึกษานาน การบริหารเวลา 11/10/2008

การพัฒนาโปรแกรมด้วยภาษา C++ และ C#

C# ทำงานระดับต่ำไม่ได้และช้า

C++ ไม่มีชุดเครื่องมือ / คำสั่งพื้นฐานสำหรับทำงานหลายๆอย่าง ใช้งานยาก

ความรู้ด้านการประมวลผลสัญญาณดิจิตอล

ไม่รู้จักเทคนิคหลายอย่างที่ถูกอ้างถึงในงานวิจัย ใช้เวลาศึกษานาน

การบริหารเวลา

รายการอ้างอิง [1] Harmonix Music Systems. (2007) Rock Band. [Online]. http://www.rockband.com [2] Harmonix Music Systems. (2004) Xbox.com. [Online]. http://www.xbox.com/en-US/games/k/karaokerevolution/ [3] Sony Computer Entertainment. (2003) SingStar. [Online]. http://www.us.playstation.com/singstar/ [4] Underbit. MAD: MPEG Audio Decoder. [Online]. http://www.underbit.com/products/mad/ [5] GNU Operating System. GNU Operating System. [Online]. http://www.gnu.org/licenses/gpl-2.0.html [6] craig@ccrma.stanford.edu. WAVE PCM soundfile format . [Online]. http://ccrma.stanford.edu/courses/422/projects/WaveFormat/ [7] LAME MP3 Encoder. LAME MP3 Encoder. [Online]. http://lame.sourceforge.net/ [8] E. d. C. Lopo. libsndfile. [Online]. http://www.mega-nerd.com/libsndfile/#History [9] M. Frigo and S. G. Johnson. FFTW. [10] M. Goto, "A Real-time Music Scene Description System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals," Speech Communication (ISCA Journal), Vol.43, No.4, pp. 311-329, 2004. [11] X. Shao, C. Xu, and M. S. Kankanhali, "Predominant Vocal Pitch Detection in Polyphonic Music," in IEEE International Conference on Multimedia and Expo, 2006. [12] P. Boersma and D. Weenink. Praat: doing phonetics by computer. [13] T. W. &. C. Kelley. (1986 - 1993, 1998, 2004 ) gnuplot. [Online]. http://www.gnuplot.info/docs/gnuplot.html 11/10/2008

[1] Harmonix Music Systems. (2007) Rock Band. [Online]. http://www.rockband.com

[2] Harmonix Music Systems. (2004) Xbox.com. [Online]. http://www.xbox.com/en-US/games/k/karaokerevolution/

[3] Sony Computer Entertainment. (2003) SingStar. [Online]. http://www.us.playstation.com/singstar/

[4] Underbit. MAD: MPEG Audio Decoder. [Online]. http://www.underbit.com/products/mad/

[5] GNU Operating System. GNU Operating System. [Online]. http://www.gnu.org/licenses/gpl-2.0.html

[6] craig@ccrma.stanford.edu. WAVE PCM soundfile format . [Online]. http://ccrma.stanford.edu/courses/422/projects/WaveFormat/

[7] LAME MP3 Encoder. LAME MP3 Encoder. [Online]. http://lame.sourceforge.net/

[8] E. d. C. Lopo. libsndfile. [Online]. http://www.mega-nerd.com/libsndfile/#History

[9] M. Frigo and S. G. Johnson. FFTW.

[10] M. Goto, "A Real-time Music Scene Description System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals," Speech Communication (ISCA Journal), Vol.43, No.4, pp. 311-329, 2004.

[11] X. Shao, C. Xu, and M. S. Kankanhali, "Predominant Vocal Pitch Detection in Polyphonic Music," in IEEE International Conference on Multimedia and Expo, 2006.

[12] P. Boersma and D. Weenink. Praat: doing phonetics by computer.

[13] T. W. &. C. Kelley. (1986 - 1993, 1998, 2004 ) gnuplot. [Online]. http://www.gnuplot.info/docs/gnuplot.html

Add a comment

Related presentations

Related pages

Natthawut Kulnirundorn - HubSlide

Karaoke Gen Progress Presentation 5 months ago. General . Automatic Generation of Karaoke-Game Stage Presentation at NSC
Read more

Karaoke Software - CompuHost V3 Karaoke Hosting Software

Premier Karaoke Software ... CompuHost Karaoke Hosting Solution V3 has been developed ... Automated Slide-Show Presentation Utilizing 100 ...
Read more

IPE ASSIGNMENT - YouTube

IPE ASSIGNMENT Larry Sippola ... Glock 22 Gen 4 (chapter 2) - Duration: 15:53. ... Britney Spears Carpool Karaoke - Duration: 9:50.
Read more

Asana is the easiest way for teams to track their work · Asana

Asana is the easiest way for teams to track their work—and get results. Sign Up Using Google. or. Email Address Get Started for FREE Go to Asana. Great ...
Read more

getpics.online - Berlin Hub

© 2016 by bring the pixel. Remember to change this. Back to Top
Read more

Google

Advertising Programmes Business Solutions +Google About Google Google.com © 2016 - Privacy - Terms. Search; Images; Maps; Play; YouTube; News; Gmail ...
Read more

sorahub.com - 소라허브

소라넷 앨범 사진 2013년 05월 #271: 소라넷 앨범 사진 2013년 05월 #270: 소라넷 앨범 사진 2013년 05월 #269
Read more

Vergleiche - pmgmbh.com

P&M GmbH Versicherungsmakler in Heidelberg ... Fehler. JUser: :_load: Fehler beim Laden des Benutzers mit der ID: 120
Read more