Spanish (Spain) Call Center Speech Dataset for Healthcare

The audio dataset includes call center conversations in Healthcare, featuring native Spanish speakers from Spain, with detailed metadata and accurate transcriptions.

Category

Unscripted Call Center Conversations

Total Volume

30 Speech Hours

Last updated

July 2023

Number of participants

60

Get this Speech Dataset

Get Dataset Btn

About this Off-the-shelf Speech Dataset

About Gradiet Line

What’s Included

Welcome to the Spanish Language Call Center Speech Dataset for the Healthcare domain. It is a specialized and comprehensive collection of voice data designed to enhance the development of call center speech recognition models specifically for the Healthcare industry.

With high-quality call center audio recordings, detailed metadata, and accurate transcriptions, it empowers researchers and developers to enhance natural language processing, conversational AI, and generative voice AI algorithms in the Healthcare domain. Moreover, it facilitates the creation of sophisticated voice assistants and voice bots tailored to the unique linguistic nuances found in the Spanish language spoken in Spain.

Speech Data:

This training dataset comprises 30 hours of call center audio recordings covering various topics and scenarios related to the Healthcare domain, to build robust and accurate customer service speech technology.

To curate realistic call center interactions, we collaborated with a diverse network of 60 expert native Spanish speakers from different states/provinces of Spain. This collaborative effort ensures a balanced representation of Spain accents, dialects, and demographics, promoting inclusivity and reducing biases in the dataset.

Each audio recording captures the essence of unscripted and spontaneous conversations between call center agents and customers, with an average duration ranging from 5 to 15 minutes per call. The dataset includes both inbound and outbound calls, covering scenarios such as inquiries, promotional offers, complaints, technical support, and more. Additionally, the dataset contains call center conversations with both positive and negative outcomes, providing a diverse and realistic dataset.

The speech data is available in WAV format with stereo channels, a bit depth of 16 bits, and a sample rate of 8 kHz, ensuring high-quality audio for accurate analysis. The recording environment is generally quiet, without background noise and echo.

Metadata:

In addition to the audio recordings, our dataset provides comprehensive metadata for each participant. This includes the participant’s age, gender, country, state, and dialect. Additionally, it includes metadata like domain, topic, call type, outcome, bit depth, and sample rate for each conversation.

The metadata serves as a powerful tool for understanding and characterizing the data, enabling informed decision-making in the development of Spanish language call center speech recognition models for the Healthcare domain.

Transcription:

To facilitate your workflow, the dataset includes manual verbatim transcriptions of each call center audio file in JSON format. The transcriptions capture speaker-wise transcription with time-coded segmentation along with non-speech labels and tags, covering both the agent and customer conversations.

These ready-to-use transcriptions accelerate the development of Healthcare call center conversational AI and ASR models for the Spanish language.

Updates and Customization:

We understand the importance of collecting data in various environments to build robust ASR models. Therefore, our call center voice dataset is regularly updated with new audio data captured in diverse real-world conditions.

If you require a custom training dataset with specific environmental conditions, we can accommodate your request. We can provide voice data with customized sample rates ranging from 8kHz to 48kHz, allowing you to fine-tune your models for different audio recording setups. Additionally, we can also customize the transcription following your specific guidelines and requirements, to further support your ASR development process.

License:

This Healthcare call center audio dataset is created by FutureBeeAI and is available for commercial use!

Conclusion:

Whether you are training or fine-tuning speech recognition models, advancing NLP algorithms, or building state-of-the-art voice assistants to improve customer experiences in the Healthcare sector, our dataset serves as a trusted resource to meet your goals

Use Cases

Use of speech data for Automatic Speech Recognition

ASR

Use of speech data in Conversational AI

Conversational AI

Use of speech data for Chatbot & voicebot creation

Chatbot

Use of speech data in Language Modeling

Language Modelling

Use of speech data in Text-into-speech

TTS

Speech data usecase in Speech Analytics

Speech Analytics

Dataset Sample(s)

Sample Line

ATTRIBUTES

Channel 1Channel 2Format
Female(40)Male(31)wav, json

TRANSCRIPTION

LABELSTARTENDCHANNELTRANSCRIPT
Speech1.1122.156Speaker 1Hey Futurebee
Noise3.4433.601--
Noise4.2424.360--
Speech4.5415.484Speaker 2Hey Futurebee.
Speech9.56712.214Speaker 1Hola, buenos días. ¿El señor <PII>Antonio López</PII>?
Speech13.02215.176Speaker 2Sí, sí, soy yo. ¿Qué tal? Buenos días.
Speech15.37119.376Speaker 1Buenos días. Le llamo de la clínica Iderma.
Speech20.27427.596Speaker 1[filler]Probablemente no le sonará nuestro nombre, pero estamos azo~ asociados con el centro de fisioterapia donde acude usted habitualmente.
Speech28.05028.442Speaker 2Ya.
Speech29.09437.789Speaker 1Entonces, le quería informar que hemos creado un nuevo concepto de clínica. Vamos a inaugurar [filler] próximamente.
Speech38.17951.557Speaker 1Entones, como cliente del centro de fisioterapia, le queríamos explicar un poco el este nuevo este nuevo concepto de clínica y [filler] invitarlo a que nos conozca personalmente el día que inauguremos las instalaciones.
Noise49.96050.219--
Speech51.96052.411Speaker 2Sí.
Speech52.23153.526Speaker 1[filler]y
Speech52.85961.750Speaker 2A ver, un momentico. ¿Y estas instalaciones [filler] el centro este nuevo, esta nueva clínica, en qué sitio? ¿Donde? ¿Qué es aquí en en Barcelona?
Speech62.21668.683Speaker 1Está en Barcelona, sí. Muy cerca del del centro de fisioterapia donde donde usted era cliente.
Speech68.93869.248Speaker 2Sí.
Speech69.79579.831Speaker 1De momento ese centro lo vamos a mantener pero en en la nueva clínica, ya le digo, es un concepto más global. Va a haber muchos más servicios, a parte de la fisioterapia.
Speech80.24590.302Speaker 1Y usted puede puede acudir o puede combinar los tratamientos, porque algunos no van a estar en en los dos sitios, los vamos a tener en exclusiva en la clínica nueva.
Noise90.49290.796--
Speech90.98998.250Speaker 1[filler]Bueno, a parte de fisioterapia que es lo que usted, bueno [filler], te~ le tenemos en en ficha como cliente.
Speech98.724111.287Speaker 1Vamos a tener servicios de nutrición, servicios de estética, medicina de varios ámbitos. [filler] No sé si usted hace uso de estos servicios en otros centros, quizá.
Noise111.424111.864--
Speech111.543114.992Speaker 1Esta sería la manera de tenerlos un poco todos en el mismo sitio.
Noise115.638115.778--
Speech115.656115.953Speaker 2Sí.
Speech116.308116.801Speaker 1Qué
Speech116.378121.149Speaker 2No, me puede, me puede interesar, porque a parte de la fisioterapia que
Noise121.263121.462--
Speech121.700122.742Speaker 2ya me va muy bien,
Speech123.236126.465Speaker 2[noise] a esta, nutrición sí que me interesaría
Speech127.075136.020Speaker 2porque así podía combinar pues el tema este para mantener un poco el estado físico bien y tal, ¿no? Porque todo va acompañado.
Speech135.078135.436Speaker 1[filler]
Speech136.717144.008Speaker 2Pero, bueno, por eso te preguntaba antes si estaba en la en la zona. Si ya me dices que sí, pues sí, sí, puedo estar interesado.
Speech144.519149.776Speaker 1Sí, en l~ en concreto lo que me comenta de servicios de nutrición, tenemos asesores
Noise149.842150.181--
Speech150.366157.990Speaker 1tanto si existe una patología, por ejemplo problemas de de de peso de o que estén interesados en bajar de peso
Speech158.497165.747Speaker 1tanto personas que quieran, por ejemplo ganar masa muscular combinado con con entrenamiento físico
Speech166.548170.550Speaker 1una dieta especial, por ejemplo para deportistas o para gente que necesita
Speech170.967174.078Speaker 1[filler]pues, o que tiene un consumo de energía más elevado,
Speech174.681180.252Speaker 1[filler]tenemos, bueno, varios varios aspectos que se podrían tocar. No sé cuál cuál sería su caso en concreto.
Speech179.133185.443Speaker 2Vale. No, pero es que puede ser interesante, porque el hecho de bajar de peso pues bueno, es uno de mis problemas, ¿no?
Speech180.991181.544Speaker 1Pero (()).

TRANSCRIPTION

TIMETRANSCRIPT
1.112
2.156
Hey Futurebee
3.443
3.601
-
4.242
4.360
-
4.541
5.484
Hey Futurebee.
9.567
12.214
Hola, buenos días. ¿El señor <PII>Antonio López</PII>?
13.022
15.176
Sí, sí, soy yo. ¿Qué tal? Buenos días.
15.371
19.376
Buenos días. Le llamo de la clínica Iderma.
20.274
27.596
[filler]Probablemente no le sonará nuestro nombre, pero estamos azo~ asociados con el centro de fisioterapia donde acude usted habitualmente.
28.050
28.442
Ya.
29.094
37.789
Entonces, le quería informar que hemos creado un nuevo concepto de clínica. Vamos a inaugurar [filler] próximamente.
38.179
51.557
Entones, como cliente del centro de fisioterapia, le queríamos explicar un poco el este nuevo este nuevo concepto de clínica y [filler] invitarlo a que nos conozca personalmente el día que inauguremos las instalaciones.
49.960
50.219
-
51.960
52.411
Sí.
52.231
53.526
[filler]y
52.859
61.750
A ver, un momentico. ¿Y estas instalaciones [filler] el centro este nuevo, esta nueva clínica, en qué sitio? ¿Donde? ¿Qué es aquí en en Barcelona?
62.216
68.683
Está en Barcelona, sí. Muy cerca del del centro de fisioterapia donde donde usted era cliente.
68.938
69.248
Sí.
69.795
79.831
De momento ese centro lo vamos a mantener pero en en la nueva clínica, ya le digo, es un concepto más global. Va a haber muchos más servicios, a parte de la fisioterapia.
80.245
90.302
Y usted puede puede acudir o puede combinar los tratamientos, porque algunos no van a estar en en los dos sitios, los vamos a tener en exclusiva en la clínica nueva.
90.492
90.796
-
90.989
98.250
[filler]Bueno, a parte de fisioterapia que es lo que usted, bueno [filler], te~ le tenemos en en ficha como cliente.
98.724
111.287
Vamos a tener servicios de nutrición, servicios de estética, medicina de varios ámbitos. [filler] No sé si usted hace uso de estos servicios en otros centros, quizá.
111.424
111.864
-
111.543
114.992
Esta sería la manera de tenerlos un poco todos en el mismo sitio.
115.638
115.778
-
115.656
115.953
Sí.
116.308
116.801
Qué
116.378
121.149
No, me puede, me puede interesar, porque a parte de la fisioterapia que
121.263
121.462
-
121.700
122.742
ya me va muy bien,
123.236
126.465
[noise] a esta, nutrición sí que me interesaría
127.075
136.020
porque así podía combinar pues el tema este para mantener un poco el estado físico bien y tal, ¿no? Porque todo va acompañado.
135.078
135.436
[filler]
136.717
144.008
Pero, bueno, por eso te preguntaba antes si estaba en la en la zona. Si ya me dices que sí, pues sí, sí, puedo estar interesado.
144.519
149.776
Sí, en l~ en concreto lo que me comenta de servicios de nutrición, tenemos asesores
149.842
150.181
-
150.366
157.990
tanto si existe una patología, por ejemplo problemas de de de peso de o que estén interesados en bajar de peso
158.497
165.747
tanto personas que quieran, por ejemplo ganar masa muscular combinado con con entrenamiento físico
166.548
170.550
una dieta especial, por ejemplo para deportistas o para gente que necesita
170.967
174.078
[filler]pues, o que tiene un consumo de energía más elevado,
174.681
180.252
[filler]tenemos, bueno, varios varios aspectos que se podrían tocar. No sé cuál cuál sería su caso en concreto.
179.133
185.443
Vale. No, pero es que puede ser interesante, porque el hecho de bajar de peso pues bueno, es uno de mis problemas, ¿no?
180.991
181.544
Pero (()).

Dataset Demographics

Details Headline

Language

Spanish

Language code

es

Country

Spain

Accents

Castellano del Norte,...more

Gender Distribution

M: 55, F: 45

Age Group

18-70

Audio File Details

Details Headline

Environment

Silent, Noisy

Bit Depth

16 bit

Format

wav

Sample rate

8khz

Channel

Dual separate channel

Audio file duration

5-15 minutes

Download Sample Speech Dataset Now!

Explore Audio Data, Metadata and Transcription to get more clarity and hands on experience of this dataset.

Download Free Dataset

Audio Download Btn
Audio Promp Bg
Audio Promp Bg

Start your AI/ML model creation journey with FutureBeeAI!

Contact Us

Audio Arrow BtnAudio Arrow Btn Black
Audio Promp 2 Bg