Marathi (India) General Conversation Speech Dataset

The audio dataset consist of general conversations between native Marathi people from India along with metadata and transcription.

Category

Unscripted General Conversations

Total Volume

60 Speech Hours

Last updated

July 2023

Number of participants

80

Get this Speech Dataset

Get Dataset Btn

About this Off-the-shelf Speech Dataset

About Gradiet Line

What’s Included

Welcome to the Marathi Language General Conversation Speech Dataset, a comprehensive and diverse collection of voice data specifically curated to advance the development of Marathi language speech recognition models, with a particular focus on Indian accents and dialects.

With high-quality audio recordings, detailed metadata, and accurate transcriptions, it empowers researchers and developers to enhance natural language processing, conversational AI, and Generative Voice AI algorithms. Moreover, it facilitates the creation of sophisticated voice assistants and voice bots tailored to the unique linguistic nuances found in the Marathi language spoken in India.

Speech Data:

This training dataset comprises 50 hours of audio recordings covering a wide range of topics and scenarios, ensuring robustness and accuracy in speech technology applications. To achieve this, we collaborated with a diverse network of 70 native Marathi speakers from different part of Maharashtra. This collaborative effort guarantees a balanced representation of Indian accents, dialects, and demographics, reducing biases and promoting inclusivity.

Each audio recording captures the essence of spontaneous, unscripted conversations between two individuals, with an average duration ranging from 15 to 60 minutes. The speech data is available in WAV format, with stereo channel files having a bit depth of 16 bits and a sample rate of 8 kHz. The recording environment is generally quiet, without background noise and echo.

Metadata:

In addition to the audio recordings, our dataset provides comprehensive metadata for each participant. This metadata includes the participant's age, gender, country, state, and dialect. Furthermore, additional metadata such as recording device detail, topic of recording, bit depth, and sample rate will be provided.

The metadata serves as a valuable tool for understanding and characterizing the data, facilitating informed decision-making in the development of Marathi language speech recognition models.

Transcription:

This dataset provides a manual verbatim transcription of each audio file to enhance your workflow efficiency. The transcriptions are available in JSON format. The transcriptions capture speaker-wise transcription with time-coded segmentation along with non-speech labels and tags.

Our goal is to expedite the deployment of Marathi language conversational AI and NLP models by offering ready-to-use transcriptions, ultimately saving valuable time and resources in the development process.

Updates and Customization:

We understand the importance of collecting data in various environments to build robust ASR models. Therefore, our voice dataset is regularly updated with new audio data captured in diverse real-world conditions.

If you require a custom training dataset with specific environmental conditions such as in-car, busy street, restaurant, or any other scenario, we can accommodate your request. We can provide voice data with customized sample rates ranging from 8kHz to 48kHz, allowing you to fine-tune your models for different audio recording setups. Additionally, we can also customize the transcription following your specific guidelines and requirements, to further support your ASR development process.

License:

This audio dataset, created by FutureBeeAI, is now available for commercial use.

Conclusion:

Whether you are training or fine-tuning speech recognition models, advancing NLP algorithms, exploring generative voice AI, or building cutting-edge voice assistants and bots, our dataset serves as a reliable and valuable resource.

Use Cases

Use of speech data for Automatic Speech Recognition

ASR

Use of speech data in Conversational AI

Conversational AI

Use of speech data for Chatbot & voicebot creation

Chatbot

Use of speech data in Language Modeling

Language Modelling

Use of speech data in Text-into-speech

TTS

Speech data usecase in Speech Analytics

Speech Analytics

Dataset Sample(s)

Sample Line

ATTRIBUTES

Channel 1Channel 2Format
Male(33)Male(33)wav, json

TRANSCRIPTION

LABELSTARTENDCHANNELTRANSCRIPT
Speech0.0000.375Speaker 2<lang:Foreign>Hello</lang:Foreign>
Speech1.0741.575Speaker 1<lang:Foreign>Hello</lang:Foreign>
Speech1.8992.774Speaker 1<lang:Foreign>Hello Futurebee</lang:Foreign>
Speech2.6243.325Speaker 2<lang:Foreign>Hello future</lang:Foreign>
Speech3.8754.750Speaker 2<lang:Foreign>Hello Futurebee</lang:Foreign>
Speech5.5006.823Speaker 1हा कसा आहेस मित्रा?
Speech7.8869.336Speaker 2मजेत मजेत, तू कसा आहेस?
Speech9.57610.525Speaker 1(()) मी पण मजेत
Speech11.12512.275Speaker 1 काय चाललंय? काय करतोय?
Speech13.82416.222Speaker 2काही नाही बसलोय जेवण झालं तुझं?
Speech16.50017.501Speaker 1हो माझं झालं
Speech18.44219.468Speaker 1 तुझं झालं का जेवण?
Speech19.38520.111Speaker 2काय विशेष?
Speech20.91121.736Speaker 2माझं पण झालं
Speech22.22824.277Speaker 1आज विशेष असं काही नव्हतं
Speech24.47525.602Speaker 1चपाती भाजी
Speech26.77227.873Speaker 1<lang:Foreign>Rice</lang:Foreign>
Speech27.97328.710Speaker 2अरे आज र
Speech29.20231.452Speaker 2अरे आज रविवार काही <lang:Foreign>Special Chicken</lang:Foreign> विकन
Speech31.51833.694Speaker 1नाही नाही तसं <lang:Foreign>Special</lang:Foreign> आज काय नव्हतं
Speech34.16737.518Speaker 1(()) [laugh] आज तुमच्याकडे काय <lang:Foreign>Special</lang:Foreign> होतं?
Speech35.62736.926Speaker 2[laugh]
Speech39.71841.768Speaker 2<lang:Foreign>Special</lang:Foreign>असं काही नाही <lang:Foreign>Regular</lang:Foreign> च आपलं
Speech43.46047.561Speaker 2निवांत मग रविवारी काय विशेष असं? <lang:Foreign>Cricket</lang:Foreign> बिकेट खेळायला जातोस का?
Speech47.92650.051Speaker 1(()) नाही आता सध्या तरी नाही जात आहे.
Speech52.21052.936Speaker 2[filler]
Speech52.88756.262Speaker 1एक वर्षापासून तर <lang:Foreign>Cricket</lang:Foreign> एक दीडवर्षा पासून <lang:Foreign>Cricket</lang:Foreign> तर बंद केलंय खेळणं.
Speech57.25360.228Speaker 2का बरं? वेळ नाही भेटत ना?
Speech59.66165.563Speaker 1आं आता वेळ पण नाही भेटत आणि आत्ता आपलं जरा <lang:Foreign>Body</lang:Foreign> अशी स्थूल झाल्यासारखी वाटायला लागली आणि आता असं वाटतं नाही
Speech66.23668.637Speaker 1कि <lang:Foreign>Fielding</lang:Foreign>करावी पळावं [laugh]
Speech69.77171.796Speaker 1हां तरी मागच्या वर्षी मी खेळलो.
Speech70.69471.620Speaker 2[laugh]
Speech72.16273.438Speaker 1हां एक [filler]
Speech74.08778.438Speaker 1हां मागच्या वर्षी खेळलो होतो इथेच खेळलो होतो आपल्या देहू रोड मधे एका <lang:Foreign>Ground</lang:Foreign>वर होत्या <lang:Foreign>Match</lang:Foreign>
Speech74.92075.396Speaker 2हां
Speech79.79682.596Speaker 1इथे खेळलो होतो आणि चांगला खेळ केला होता मी तिथे
Speech82.32883.055Speaker 2(())
Speech85.03088.631Speaker 1हं म्हणजे त्यांच्या कडे <lang:Foreign>Player</lang:Foreign> कमी होता आणि त्यांनी मला खेळवलं.
Speech86.79687.471Speaker 2अरे वा.
Speech89.45696.331Speaker 1[laugh] आणि त्यांचे पहिल्याच <lang:Foreign>Match</lang:Foreign>मध्ये काही तरी चार <lang:Foreign>Wicket</lang:Foreign>गेले नंतर मग <lang:Foreign>Batting</lang:Foreign>ला जायला घाबरायला लागले
Speech93.13893.638Speaker 2[filler]
Speech96.739103.688Speaker 1अं <lang:Foreign>Score</lang:Foreign> [laugh] समोर बघून मग मी म्हंटल आपण आधी ह्यांच्या <lang:Foreign>Team</lang:Foreign> मध्ये आपण नाहीय ह्यांनी असच <lang:Foreign>Voluntary</lang:Foreign> म्हणून बसवलं होतं.
Speech104.290108.840Speaker 1<lang:Foreign>Bat</lang:Foreign>घेतली गेलो दोन चौकार मारले आणि <lang:Foreign>Match</lang:Foreign> जिंकवली.
Speech108.674109.299Speaker 2[filler]
Speech109.757114.132Speaker 1आणि मग त्याच्या नंतर एवढे <lang:Foreign>Impress</lang:Foreign> झाले कि मला <lang:Foreign>Opening</lang:Foreign> लाच पाठवायला लागले
Speech110.438111.097Speaker 2हां
Speech113.450114.025Speaker 2अरे वा.
Speech114.325117.882Speaker 1आं दोन आ तीन <lang:Foreign>Matches opening</lang:Foreign> ला पाठवल्या
Speech118.542121.310Speaker 1आणि खूपच धुवांधार <lang:Foreign>बल्लेबाजी</lang:Foreign> केली मी तिथे.
Speech122.751123.379Speaker 2[filler]
Speech125.248127.489Speaker 2आणि तरी नशीब अशी <lang:Foreign>Practice</lang:Foreign> नव्हती हाय ना
Babble125.739127.263--
Speech127.290130.442Speaker 1मी आता तिसऱ्या <lang:Foreign>Match</lang:Foreign> ला तर मी आता <lang:Foreign>Single Run</lang:Foreign> काढून
Speech130.800135.025Speaker 1दुसरी <lang:Foreign>Run</lang:Foreign> धावाय पळत यायचो तर मी मधेच अर्ध्या <lang:Foreign>Pitch</lang:Foreign> वरच पडायचो
Speech135.275138.598Speaker 1[laugh] इतकी <lang:Foreign>energy</lang:Foreign>संपली होती कारण
Speech138.871142.020Speaker 1एका दिवशी तीन तीन <lang:Foreign>Match</lang:Foreign>खेळायची सवय नव्हती ना एवढी.
Speech139.258140.008Speaker 2[laugh]
Speech144.175145.050Speaker 1हा.
Speech144.491147.241Speaker 2अरे बापरे त्यांनी पण तुला <lang:Foreign>Break</lang:Foreign> द्यायला पाहिजे होता.
Speech147.431149.960Speaker 1हो पण खेळलो ए ए
Speech148.627150.002Speaker 2<lang:Foreign>A Energy</lang:Foreign>
Speech150.228156.054Speaker 1आ आपण संघ असं ते म्हणजे <lang:Foreign>Player</lang:Foreign>नसतानाही आम्ही तो संघ <lang:Foreign>Semi Final</lang:Foreign> पर्यंत घेऊन गेलो
Speech156.776161.804Speaker 1आणि हं <lang:Foreign>Semi final</lang:Foreign>पर्यंत च झाली <lang:Foreign>Semi Final Final</lang:Foreign> दुसऱ्या दिवशी होती
Speech158.122158.698Speaker 2 हूं हूं
Speech163.751170.776Speaker 1मग मी दुसऱया दिवशी काही मला <lang:Foreign>Possible</lang:Foreign> झाले नाही मग मी गेलो नाही आणि हारले मग दुसऱया दिवशी <lang:Foreign>Batsman</lang:Foreign>नव्हते [laugh]
Speech165.442165.889Speaker 2बरं.
Speech172.965176.788Speaker 2[laugh] आणि मग त्यांनी <lang:Foreign>Phone</lang:Foreign> बिन केले असतील बरेचशे या म्हणून.
Speech176.120181.020Speaker 1हो नाही मी जातानाच त्यांना सांगितलं होतं मला वाटलं मी असाच <lang:Foreign>Match</lang:Foreign> बघायला म्हणून गेलो होतो.

TRANSCRIPTION

TIMETRANSCRIPT
0.000
0.375
<lang:Foreign>Hello</lang:Foreign>
1.074
1.575
<lang:Foreign>Hello</lang:Foreign>
1.899
2.774
<lang:Foreign>Hello Futurebee</lang:Foreign>
2.624
3.325
<lang:Foreign>Hello future</lang:Foreign>
3.875
4.750
<lang:Foreign>Hello Futurebee</lang:Foreign>
5.500
6.823
हा कसा आहेस मित्रा?
7.886
9.336
मजेत मजेत, तू कसा आहेस?
9.576
10.525
(()) मी पण मजेत
11.125
12.275
काय चाललंय? काय करतोय?
13.824
16.222
काही नाही बसलोय जेवण झालं तुझं?
16.500
17.501
हो माझं झालं
18.442
19.468
तुझं झालं का जेवण?
19.385
20.111
काय विशेष?
20.911
21.736
माझं पण झालं
22.228
24.277
आज विशेष असं काही नव्हतं
24.475
25.602
चपाती भाजी
26.772
27.873
<lang:Foreign>Rice</lang:Foreign>
27.973
28.710
अरे आज र
29.202
31.452
अरे आज रविवार काही <lang:Foreign>Special Chicken</lang:Foreign> विकन
31.518
33.694
नाही नाही तसं <lang:Foreign>Special</lang:Foreign> आज काय नव्हतं
34.167
37.518
(()) [laugh] आज तुमच्याकडे काय <lang:Foreign>Special</lang:Foreign> होतं?
35.627
36.926
[laugh]
39.718
41.768
<lang:Foreign>Special</lang:Foreign>असं काही नाही <lang:Foreign>Regular</lang:Foreign> च आपलं
43.460
47.561
निवांत मग रविवारी काय विशेष असं? <lang:Foreign>Cricket</lang:Foreign> बिकेट खेळायला जातोस का?
47.926
50.051
(()) नाही आता सध्या तरी नाही जात आहे.
52.210
52.936
[filler]
52.887
56.262
एक वर्षापासून तर <lang:Foreign>Cricket</lang:Foreign> एक दीडवर्षा पासून <lang:Foreign>Cricket</lang:Foreign> तर बंद केलंय खेळणं.
57.253
60.228
का बरं? वेळ नाही भेटत ना?
59.661
65.563
आं आता वेळ पण नाही भेटत आणि आत्ता आपलं जरा <lang:Foreign>Body</lang:Foreign> अशी स्थूल झाल्यासारखी वाटायला लागली आणि आता असं वाटतं नाही
66.236
68.637
कि <lang:Foreign>Fielding</lang:Foreign>करावी पळावं [laugh]
69.771
71.796
हां तरी मागच्या वर्षी मी खेळलो.
70.694
71.620
[laugh]
72.162
73.438
हां एक [filler]
74.087
78.438
हां मागच्या वर्षी खेळलो होतो इथेच खेळलो होतो आपल्या देहू रोड मधे एका <lang:Foreign>Ground</lang:Foreign>वर होत्या <lang:Foreign>Match</lang:Foreign>
74.920
75.396
हां
79.796
82.596
इथे खेळलो होतो आणि चांगला खेळ केला होता मी तिथे
82.328
83.055
(())
85.030
88.631
हं म्हणजे त्यांच्या कडे <lang:Foreign>Player</lang:Foreign> कमी होता आणि त्यांनी मला खेळवलं.
86.796
87.471
अरे वा.
89.456
96.331
[laugh] आणि त्यांचे पहिल्याच <lang:Foreign>Match</lang:Foreign>मध्ये काही तरी चार <lang:Foreign>Wicket</lang:Foreign>गेले नंतर मग <lang:Foreign>Batting</lang:Foreign>ला जायला घाबरायला लागले
93.138
93.638
[filler]
96.739
103.688
अं <lang:Foreign>Score</lang:Foreign> [laugh] समोर बघून मग मी म्हंटल आपण आधी ह्यांच्या <lang:Foreign>Team</lang:Foreign> मध्ये आपण नाहीय ह्यांनी असच <lang:Foreign>Voluntary</lang:Foreign> म्हणून बसवलं होतं.
104.290
108.840
<lang:Foreign>Bat</lang:Foreign>घेतली गेलो दोन चौकार मारले आणि <lang:Foreign>Match</lang:Foreign> जिंकवली.
108.674
109.299
[filler]
109.757
114.132
आणि मग त्याच्या नंतर एवढे <lang:Foreign>Impress</lang:Foreign> झाले कि मला <lang:Foreign>Opening</lang:Foreign> लाच पाठवायला लागले
110.438
111.097
हां
113.450
114.025
अरे वा.
114.325
117.882
आं दोन आ तीन <lang:Foreign>Matches opening</lang:Foreign> ला पाठवल्या
118.542
121.310
आणि खूपच धुवांधार <lang:Foreign>बल्लेबाजी</lang:Foreign> केली मी तिथे.
122.751
123.379
[filler]
125.248
127.489
आणि तरी नशीब अशी <lang:Foreign>Practice</lang:Foreign> नव्हती हाय ना
125.739
127.263
-
127.290
130.442
मी आता तिसऱ्या <lang:Foreign>Match</lang:Foreign> ला तर मी आता <lang:Foreign>Single Run</lang:Foreign> काढून
130.800
135.025
दुसरी <lang:Foreign>Run</lang:Foreign> धावाय पळत यायचो तर मी मधेच अर्ध्या <lang:Foreign>Pitch</lang:Foreign> वरच पडायचो
135.275
138.598
[laugh] इतकी <lang:Foreign>energy</lang:Foreign>संपली होती कारण
138.871
142.020
एका दिवशी तीन तीन <lang:Foreign>Match</lang:Foreign>खेळायची सवय नव्हती ना एवढी.
139.258
140.008
[laugh]
144.175
145.050
हा.
144.491
147.241
अरे बापरे त्यांनी पण तुला <lang:Foreign>Break</lang:Foreign> द्यायला पाहिजे होता.
147.431
149.960
हो पण खेळलो ए ए
148.627
150.002
<lang:Foreign>A Energy</lang:Foreign>
150.228
156.054
आ आपण संघ असं ते म्हणजे <lang:Foreign>Player</lang:Foreign>नसतानाही आम्ही तो संघ <lang:Foreign>Semi Final</lang:Foreign> पर्यंत घेऊन गेलो
156.776
161.804
आणि हं <lang:Foreign>Semi final</lang:Foreign>पर्यंत च झाली <lang:Foreign>Semi Final Final</lang:Foreign> दुसऱ्या दिवशी होती
158.122
158.698
हूं हूं
163.751
170.776
मग मी दुसऱया दिवशी काही मला <lang:Foreign>Possible</lang:Foreign> झाले नाही मग मी गेलो नाही आणि हारले मग दुसऱया दिवशी <lang:Foreign>Batsman</lang:Foreign>नव्हते [laugh]
165.442
165.889
बरं.
172.965
176.788
[laugh] आणि मग त्यांनी <lang:Foreign>Phone</lang:Foreign> बिन केले असतील बरेचशे या म्हणून.
176.120
181.020
हो नाही मी जातानाच त्यांना सांगितलं होतं मला वाटलं मी असाच <lang:Foreign>Match</lang:Foreign> बघायला म्हणून गेलो होतो.

Dataset Demographics

Details Headline

Language

Marathi

Language code

mr-in

Country

India

Accents

Varhadi,...more

Gender Distribution

M: 55, F: 45

Age Group

18-70

Audio File Details

Details Headline

Environment

Silent, Noisy

Bit Depth

16 bit

Format

wav

Sample rate

8khz

Channel

Dual separate channel

Audio file duration

15-60 minutes

Download Sample Speech Dataset Now!

Explore Audio Data, Metadata and Transcription to get more clarity and hands on experience of this dataset.

Download Free Dataset

Audio Download Btn
Audio Promp Bg
Audio Promp Bg

Start your AI/ML model creation journey with FutureBeeAI!

Contact Us

Audio Arrow BtnAudio Arrow Btn Black
Audio Promp 2 Bg