Thông báo

Tất cả đồ án đều đã qua kiểm duyệt kỹ của chính Thầy/ Cô chuyên ngành kỹ thuật để xứng đáng là một trong những website đồ án thuộc khối ngành kỹ thuật uy tín & chất lượng.

Đảm bảo hoàn tiền 100% và huỷ đồ án khỏi hệ thống với những đồ án kém chất lượng.

LUẬN VĂN TỐT NGHIỆP Xây dựng bộ điều khiển và nhận dạng tiếng nói bằng xử lý tín hiệu số DSP56002.

mã tài liệu 301000100085
nguồn huongdandoan.com
đánh giá 5.0
mô tả 300 MB Bao gồm tất cả ....,.lưu đồ giải thuật.. CDR thuyết minh ,bản vẽ nguyên lý, bản vẽ thiết kế, mạch điều khiển, code điều khiển , sơ đồ mạch và nhiều tài liệu liên quan kèm theo đồ án này
giá 989,000 VNĐ
download đồ án

NỘI DUNG ĐỒ ÁN

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA ĐIỆN – ĐIỆN TỬ

BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG

LUẬN VĂN TỐT NGHIỆP

Xây dựng bộ điều khiển và nhận dạng tiếng nói bằng xử lý tín hiệu số DSP56002.

       Xây dựng bộ điều khiển và nhận dạng tiếng nói bằng xử lý tín hiệu số DSP56002.

Lời nói đầu:

  Ngày nay, khoa học và công nghệ đã phát triển vượt  bậc. Con người có thể làm được những điều mà tưởng không bao giờ làm được. Mở đầu là sự ra đời và phát triển ồ ạt của máy tính cũng như các phương tiện xử lí thông tin khác, đặc biệt là các hệ thống xử lí song song với tốc độ ngày càng cao. Cùng với sự phát triển đó xử lí tín hiệu số cũng như các ứng dụng của công cụ xử lý tín hiệu số ngày càng áp dụng hiệu quả trong các lĩnh vực thông tin liên lạc, phát thanh truyền hình, tự động điều khiển và các ngành công nghệ khác.
          
  Từ  lâu con người đã ước mơ có thể điều khiển các phương tiện thông qua tiếng nói(âm thanh). Với việc ứng dụng kỹ thuật số vào trong việc phân tích nhận dạng tiếng nói đã giúp chúng ta ngày càng đi đến gần ước mơ của mình.

Trong luận văn này, em sử dụng công cụ vi xử lý DSP56002  của Motorola để thực hiện việc nhận dạng tiếng nói. Do đây là một đề tài lớn và kiến thức của em còn rất hạn chế nên phần trình bày chắc chắn có nhiều sai sót, em rất mong sự góp ý và chỉ dẫn của các thầy cô để luận văn được hoàn chỉnh hơn.

MỤC LỤC

 CHƯƠNG I: GIỚI THIỆU................................................................................... 1

 CHƯƠNG II: GIỚI THIỆU BỘ XỬ LÝ TÍN HIỆU SỐ VÀ KHỐI ĐÁNH GIÁ DSP56002................................................................................................................  3

  1. MÔ TẢ TỔNG QUÁT BỘ XỬ LÝ TÍN HIỆU SỐ DSP56002.................. 3
  2. GIỚI THIỆU DSP56002EVM...................................................................   5
  3. GIỚI THIỆU TỔNG QUÁT CÁC CHÂN.................................................  6

CHƯƠNG III: MÔ TẢ CHỨC NĂNG DSP56002.............................................. 11

  1. CẤU TRÚC DSP56002.............................................................................    11
  2. ĐƠN VỊ ALU DỮ LIỆU............................................................................   13
  3. BỘ ĐIỀU KHIỂN CHƯƠNG TRÌNH........................................................ 16
  4. ĐƠN VỊ CẤP PHÁT ĐỊA CHỈ..................................................................  18
  5. CÁC CHẾ ĐỘ ĐỊNH ĐỊA CHỈ.................................................................  20
  6. PORT A CỦA DSP56002..........................................................................    22
  7. PORT B CỦA DSP56002..........................................................................    26
  8. PORT C CỦA DSP56002..........................................................................    31
  9. THANH GHI ƯU TIÊN NGẮT (IPR) CỦA DSP56002............................  43
  10. BỘ DAO ĐỘNG XUNG VÒNG GIỮ PHA (PLL).................................... 45
  11. MÔ PHỎNG TRÊN CHIP (ONCE)...........................................................   48
  12. BỘ ĐỊNH THỜI VÀ ĐẾM SỰ KIỆN CỦA DSP56002............................. 52

CHƯƠNG IV: TẬP LỆNH DSP56002................................................................. 57

  1. DẠNG LỆNH............................................................................................    57
  2. CÁC THAO TÁC TRUYỀN DỮ LIỆU  SONG SONG............................. 58
  3. CÁC LOẠI TRUYỀN DỮ LIỆU SONG SONG........................................ 58
  4. TẬP LỆNH DSP56002..............................................................................    59

CHƯƠNG V: CODEC GIAO TIẾP ÂM THANH ĐA NĂNG.......................... 67

      I.    GIỚITHIỆU..............................................................................................    67

      II.  MÔ TẢ CHỨC NĂNG CÁC CHÂN.........................................................   69

      III. ĐẶC TÍNH TƯƠNG TỰ...........................................................................    70

      IV. CÁC ĐẶC TÍNH CHUYỂN ĐỔI..............................................................  74

V.CHẾ ĐỘ ĐIỀU KHIỂN...............................................................................   74

VI.CHẾ ĐỘ DỮ LIỆU.....................................................................................   79

CHƯƠNG VI: MỞ RỘNG BỘ NHỚ CHO DSP56002........................................            83

  1. CÁC LINH KIỆN SỬ DỤNG....................................................................  83
  2. SƠ ĐỒ MẠCH...........................................................................................    86

CHƯƠNG VII: BIẾN ĐỔI FOURIER................................................................. 94

  1. BIẾN ĐỔI FOURIER LIÊN TỤC.............................................................   94
  2. BIẾN ĐỔI FOURIER RỜI RẠC...............................................................  96
  3. PHÂN TÍCH BIẾN ĐỔI NHANH FOURIER........................................... 96

CHƯƠNG VIII: BIẾN ĐỔI FOURIER THỜI GIAN NGẮN............................            101

  1. CÔNG THỨC BIẾN ĐỔI..........................................................................   102
  2. TÍNH CHẤT..............................................................................................    103
  3. HẠN CHẾ CỦA PHÉP BIẾN ĐỔI FOURIER THỜI GIAN NGẮN.........           103

CHƯƠNG IX : XỬ LÝ TÍN HIỆU TIẾNG NÓI................................................. 104

I.   TRÍCH ĐẶC TRƯNG TIẾNG NÓI DÙNG PHÉP PHÂN TÍCH STFT.....            104

II.  NHẬN DẠNG TIẾNG NÓI.......................................................................  122

III.CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI......................................... 126

KẾT QUẢ..............................................................................................................   167

KẾT LUẬN............................................................................................................   168

HƯỚNG PHÁT TRIỂN........................................................................................  169

PHỤ LỤC A...........................................................................................................   170

PHỤ LỤC B...........................................................................................................   176

TÀI LIỆU THAM KHẢO        

GIỚI THIỆU

 

I. Tổng quan:

Luận văn này thực hiện việc xây dựng bộ điều khiển và nhận dạng tiếng nói bằng xử lý tín hiệu số DSP56002.   

            Một vài thập niên trước đây, việc nhận dạng tiếng nói bằng máy chỉ tồn tại trong suy nghĩ của các nhà khoa học viễn tưởng, tuy nhiên trong một vài năm gần đây, vấn đề tìm hiểu và thực hiện một hệ thống nhận dạng tiếng nói một cách tự động đã được đưa vào nghiên cứu trong các viện nghiên cứu trên khắp thế giới. Những ứng dụng thực tiễn mà hệ thống này sẽ mang lại là vô cùng lớn như các máy tính của chúng ta sẽ không cần bàn phím, các hệ thống điều khiển sẽ không cần các bảng điều khiển phức tạp, máy điện thoại sẽ không còn cần đến các bàn quay số... có thể xem là một bước đột phá trên tất cả các lĩnh vực trong cuộc sống của chúng ta. Do đó vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói là một vấn đề đã và đang thu hút rất nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên khắp thế giới. Tuy nhiên cho đến nay kết quả mang lại còn rất hạn chế vì sự phức tạp của tiếng nói con người.

            Đối với nước ta, vấn đề nhận dạng tiếng nói đang ở trong giai đoạn đầu và các kết quả đạt được cho đến nay vẫn còn khiêm tốn. Luận văn này nghiên cứu thử nghiệm một hướng nhận dạng tiếng nói dựa trên đặc trưng ngữ âm quan trọng của tiếng nói là formant. Công cụ toán học có thể sử dụng là phép phân tích Fourier thời gian ngắn STFT(Short Time Fourier Transform). Nhận dạng tiếng nói là bộ phận nòng cốt trong bộ điều khiển tiếng nói cần thiết kế.

         

 II . Những nội dung chính của luận văn:

            Các chương 2, 3, 4, 5, 6 giới thiệu về xử lý tín hiệu số DSP56002, bộ giao tiếp âm thanh đa năng Codec 4215, bộ nhớ mở rộng, mạch giao tiếp và điều khiển. Chương 2 giới thiệu tổng quát về bộ xử lý tín hiệu số DSP56002. Tiếp đến Chương 3 mô tả cụ thể các chức năng của DSP56002 bao gồm: cấu trúc và các chế độ định địa chỉ của DSP56002; các thanh ghi trong và chế độ hoạt động của các PORT của DSP56002. Chương 4 mô tả tập lệnh xử lý tín hiệu số DSP56002. Chương 5 giới thiệu về CODEC giao tiếp âm thanh đa năng CS4215, bộ đồng bộ giao tiếp nối tiếp (SSI) của bộ xử lí DSP56002 được sử dụng để thích nghi với sự truyền dữ liệu nối tiếp từ hai bộ chuyển đổi A/D của CS4215 đến DSP56002 và từ DSP56002 đến hai bộ chuyển đổi D/A của CS4215. Chương 6 mở rộng bộ nhớ cho DSP56002; chương này sẽ trình bày về sơ đồ mạch của DSP56002EVM, bộ nhớ mở rộng, sơ đồ điều khiển động cơ DC và các linh kiện sử dụng trong    mạch. Các chương sau sẽ giới thiệu về các công cụ toán học và phương pháp nhận dạng tiếng nói. Chương 7 giới thiệu về phép biến đổi Fourier với tín hiệu liên tục và rời rạc, và giới thiệu phương pháp biến đổi nhanh Fourier FFT thực hiện trên DSP56002 sử dụng giải thuật phân chia theo thời gian DIT (decimation-in-time). Tiếp theo Chương 8 trình bày phép tổng quát về biến đổi Fourier thời gian ngắn STFT. Cuối cùng là Chương 9 sẽ tập trung vào phép biến đổi Fourier thời gian ngắn để trích formant của tín hiệu, Sau khi trích formant của tín hiệu sẽ sử dụng phương pháp kết hợp mẫu để nhận dạng tiếng nói.

III. Kết luận sơ bộ:

            Luận văn đã thực hiện được việc :mở rộng bộ nhớ cho DSP56002, nhận dữ liệu âm thanh từ ngoài qua giao tiếp SSI giữa DSP56002 và CS4215, thực hiện trích formant của tín hiệu tiếng nói dùng giải thuật STFT. Cuối cùng là đã thực hiện được việc nhận dạng tiếng nói và ứng dụng để điều khiển. 

.....................................

GIỚI THIỆU BỘ XỬ LÍ TÍN HIỆU SỐ &KHỐI ĐÁNH GIÁ DSP56002

            Trong chương này, sẽ giới thiệu tổng quát về bộ xử lý tín hiệu số          DSP56002 và các chân của nó.

A. MÔ TẢ TỔNG QUÁT BỘ XỬ LÍ TÍN HIỆU SỐ DSP56002:

        DSP56002 là bộ xử lí tín hiệu đơn chip, đa dụng. Khối đánh giá DSP56002EVM có giá thành thấp, sử dụng bộ xử lí DSP56002 cho việc thiết kế hệ thống xử lí tín hiệu số thời gian thực.

        Họ xử lí DSP56000 được tạo thành từ một bộ chip vi xử lí tín hiệu số      24-bit, hiệu suất cao và một vùng mở rộng. Trong vùng mở rộng, chip có thể trợ giúp cấu hình cho các thiết bị bộ nhớ và ngoại vi thay đổi tùy theo loại trong họ.

        DSP56002 là một loại trong họ xử lí DSP56000 bao gồm bộ phận chính xử lí tín hiệu số tương thích vơí họ 56000, được nạp bằng RAM chương trình trên chip, có 2 RAM dữ liệu độc lập, 2 ROM dữ liệu với các bảng sine, m-law va A-law. DSP56002 chứa bộ giao tiếp truyền thông nối tiếp, giao tiếp chủ song song, bộ đếm thời gian/sự kiện, bộ vòng khóa pha, một cổng mô phỏng trên chip.

        Bộ xử lí DSP56002 cung cấp các đặc trưng phong phú trong việc xử lí tín hiệu số.    DSP56002 Technical Literature

I.KHỐI TRUNG TÂM XỬ LÍ TÍN HIỆU SỐ

              1.Những bộ phận chính:

                       1.1.Ba đơn vị thực thi độc lập:

  • Đơn vị dữ liệu số học logic
  • Đơn vị cấp phát địa chỉ(AGU)
  • Đơn vị điều khiển chương trình

                       1.2.Bốn bus dữ liệu 24 bit độc lập:

  • Bus dữ liệu X (XDB)
  • Bus dữ liệu Y (YDP)
  • Bus dữ liệu chương trình (PDB)
  • Bus dữ liệu toàn cục (GDB)

                       1.3.Ba bus địa chỉ 16 bit độc lập:

  • Bus địa chỉ X (XAB)
  • Bus địa chỉ Y (YAB)
  • Bus địa chỉ chương trình (PAB)

                       1.4.Cổng mở rộng bộ nhớ (Port A)

                       1.5.Mạch mô phỏng trên chip (OnCE)

                       1.6.Vòng khóa pha (PLL)

              2.Đặc điểm chính của DSP56002:

  • 40 triệu lệnh/giây (MIPS) tại tần số 80Mhz
  • 240 triệu phép xử lí /giây (MOPS) tại tần số 80Mhz
  • Thực hiện lệnh song song với chế độ định địa chỉ
  • Nhân tích lũy song song 24x24 bit trong 1 chu kỳ lệnh (2 chu kỳ xung clock)
  • Đặt zero ở mỗi đầu dòng lặp DO
  • Các ngắt tự động trở về rất nhanh
  • Thiết kế CMOS tiêu thụ công suất thấp
  • Chế độ treo(standby) tiêu thụ công suất thấp cho STOP và WAIT

        II.VÙNG MỞ RỘNG

     Những bộ phận chính trong vùng mở rộng:

  • Ram chương trình 512x24
  • 2 Ram dữ liệu 256x24
  • 2 Rom dữ liệu 256x24
  •  Giao tiếp chủ độ rộng byte bằng phương pháp DMA
  •  Cổng giao tiếp nối tiếp đồng bộ (SSI)
  •  Cổng  giao tiếp nối tiếp bất đồng bộ(SCI)

B.GIỚI THIỆU DSP56002EVM

      DSP56002EVM là công cụ phần cứng dành cho việc thiết kế, sữa lỗi và đánh giá hệ thống căn bản của DSP56002. Bao gồm ba bộ phận  quan trọng:

  • Mạch đánh giá DSP56002 chứa bộ xử lí DSP56002, bộ nhớ mở rộng off-chip, bộ biến đổi stereo A/D và D/A, mạch giao tiếp và điều khiển, và nhiều đường nối dành cho truy xuất ngoài.
  • Trình biên dịch Motorola.
  • Cửa sổ giao diện của phần mềm debug EVM.

    Phần mềm chạy trong MS-DOS và nối liền với EVM  qua port nối tiếp     RS-232. Người sử dụng phải cung cấp nguồn 7®9V AC và DC, 700mA và cáp RS-232 với 9 bus dữ liệu.

C.GIỚI THIỆU TỔNG QUÁT CÁC CHÂN:

       

         1.Các tín hiệu cổng A:

           Các tín hiệu cổng A được chia thành ba nhóm chức năng:

  • Bus địa chỉ (A0-A15)
  • Bus dữ liệu (D0-D23)
  • Bus điều khiển. Các tín hiệu điều khiển có thể chia thành 3 nhóm    nhỏ:
    • Điều khiển ghi đọc (RD~/WR~).
    • Lựa chọn không gian địa chỉ (bao gồm chọn bộ nhớ chương trình PS~, chọn bộ nhớ dữ liệu DS~, chọn X/Y~).
    • Điều khiển truy xuất (BN~, BR~, BG~,WT~, BS~).

        2.Điều khiển chế độ ngắt:

           2.1 . Chế độ A / Yêu cầu ngắt ngoài A / Lấy lại STOP:

             Đầu vào này có ba chức năng. Nó làm việc với các chân MODB và MODC để chọn chế độ hoạt động của chip, nó nhận một yêu cầu ngắt từ bên ngoài, nó bật bộ phát xung nhip bên trong, khiến chip khôi phục từ trạng thái xử lí dừng.

           2.2 . Chọn chế độ B / Yêu cầu ngắt ngoài B:

             Chân vào này làm việc với các chân MODA và MODC để chọn chế độ hoạt động của chip, nó nhận một yêu cầu ngắt từ bên ngoài.

           2.3 . Chọn chế độ C / Yêu cầu ngắt không che:

         Chân này làm việc với các chân MODA và MODB để chọn chế độ hoạt động của chip, nó thu một yêu cầu ngắt từ bên ngoài.

           2.4 . Reset  (RESET): 

         Chân vào Schmitt trigger được dùng để reset DSP56002. Khi reset được tác động DSP được khởi động và đặt trong trạng thái reset. Khi chân reset không được tác động chip ghi trạng thái các chân chế độ (MODA, MODB, MODC ) vào thanh ghi chế độ hoạt động của chip.

      3.Năng lượng và xung nhịp:

           3.1 . Nguồn điện (VCC) , đất (GND):

             Có 6 cặp chân nguồn và đất dùng cho các chức năng: logic nội, bộ đệm ngỏ ra bus địa chỉ, dữ liệu, cổng B và C, Once, PLL, chân CKOUT.

           3.2 . Xung nhịp ngoài / Đầu vào tinh thể (EXTAL):

             Đầu vào EXTAL giao tiếp bộ dao động tinh thể bên ngoài hoặc bên trong.

           3.3 . Đầu ra tinh thể (XTAL):

             Đầu ra này nối với chân ra của bộ dao động tinh thể bên trong với một tinh thể bên ngoài.

   

      4.Giao tiếp chủ:

           4.1 . Bus dữ liệu chủ (H0-H7):

             Bus dữ liệu hai hướng này truyền dữ liệu giữa bộ giao tiếp chủ và DSP56002. Nó hoạt động như một ngỏ vào trừ khi chân được tác động tích cực và HR/ ở mức cao khiến cho H0-H7 trở thành ngỏ ra và cho phép bộ giao tiếp chủ đọc dữ liệu DSP56002.

           4.2 . Địa chỉ chủ(HA0-HA2):

             Các đầu vào này cung sự lựa chọn cho mỗi thanh ghi giao tiếp chủ.

           4.3 . Đọc / Viết chủ:

             Đầu vào này chọn hướng truyền dữ liệu đối với mỗi truy xuất bộ xử lí chủ. Nếu HR/ là cao và  được tích cực, H0-H7 là các đầu ra. Nếu HR/ là thấp và  được công bố, H0-H7 là các đầu vào.

           4.4 . Chủ yêu cầu (HREQ):

         Tín hiệu ra cực máng hở này được sử dụng bởi giao tiếp chủ để yêu cầu phục vụ từ bộ xử lí chủ, bộ điều khiển DMA, hoặc một bộ điều khiển bên ngoài đơn giản.

           4.5 . Chủ chấp nhận (HACK):

         Đầu vào này có hai chức năng . Nó cung cấp một tín hiệu bắt tay chủ chấp nhận cho việc truyền DMA  và có thu một ngắt chủ chấp nhận tương thích với bộ xử lí họ MC68000

         5.Giao tiếp truyền thông nối tiếp (SCI):

           5.1 . Dữ liệu thu(RXD):

             Đầu vào này thu dữ liệu hướng byte và truyền dữ liệu đó đến thanh ghi dịch thu SCI.

           5.2 . Dữ liệu phát(TXD):

             Đầu ra này phát dữ liệu nối tiếp từ thanh ghi dịch phát SCI.

           5.3 . Xung nhịp nối tiếp (SCLK):

             Chân hai hướng này cung cấp xung nhịp vào hoặc ra từ nơi mà tốc độ baud phát và/hoặc thu được lấy ra trong chế độ bất đồng bộ, và từ nơi mà dữ liệu được truyền trong chế  động bộ.

        6.Giao tiếp nối tiếp đồng bộ(SSI):

           6.1 . Xung nhịp nối tiếp 0 (SC0):

             Chức năng chân hai hướng này được xác định bởi việc SCLK ở chế độ đồng bộ. Ở chế độ đồng bộ, chân này được sử dụng cho cờ nối tiếp nhận. Trong chế độ bất đồng bộ, chân này thu xung nhịp xuất nhập .

           6.2 . Điều khiển nối tiếp 1 (SC1):

         SSI sử dụng chân hai hướng này để điều khiển cờ hoặc sự đồng bộ khung.

           6.3 . Điều khiển nối tiếp 2 (SC2):

             SSI sử dụng chân hai hướng này để điều khiển sự đồng bộ khung.

           6.4 . Xung nhịp nối tiếp SSI (SCK):

         Chân hai hướng này cung cấp xung nhịp tốc độ bit nối tiếp cho SSI chỉ khi có một xung nhịp đang được sử dụng.

           6.5 . Dữ liệu thu SSI (SRD):

         Chân vào này thu dữ liệu nối tiếp vào thanh ghi dịch thu SSI .

           6.6 . Dữ liệu phát SSI(STD):

         Chân ra này phát dữ liệu nối tiếp từ thanh ghi dịch phát SSI .

      7.Các chân mô phỏng trên chip:

           7.1 . Đầu vào nối tiếp gỡ rối / Trạng thái chip 0 (DSI/OS0):

             Dữ liệu nối tiếp hoặc lệnh được cung cấp từ bộ điều khiển Once qua chân DSI/OS0 khi nó là một đầu vào, khi chân DSI/OS0 là đầu ra nó làm việc với chân OS1 để cung cấp thông tin trạng thái chip.

           7.2 . Xung nhịp nối tiếp gỡ rối / trạng thái chip 1 (DSCK/OS1):

             Chân DSCK/OS1 cung cấp xung nhịp nối tiếp đến Once khi nó là một đầu vào. Khi là một đầu ra, cùng với chân OS0 chúng cung cấp thông tin trạng thái chip.

           7.3 . Đầu ra nối tiếp gỡ rối (DS0):

             DSP đọc dữ liệu nối tiếp từ Once thông qua chân ra DS0 khi được chỉ định bởi lệnh sau cùng thu từ bộ điều khiển lệnh bên ngoài.

           7.4 . Đầu vào yêu cầu gỡ rối (DR):

             Đầu vào này cho phép người sử dụng vào chế độ gỡ rối từ bộ điều khiển lệnh bên ngoài .

      8.Các chân của PLL:

           8.1 . Nguồn  mạch PLL tương tự (PVCC):

             Đầu cấp nguồn VCC này dành riêng cho hệ thống PLL.

           8.2 . Đất cho mạch PLL (PGND):

             Đầu GND này dành riêng cho hệ thống PLL.

           8.3 . Nguồn CKOUT (CLVCC):

             Đầu vào này hoạt động như VCC cho ngõ ra CKOUT.

           8.4 . Đất CKOUT (CLGND):

         Đầu vào này hoạt động  như GND đối với ngõ ra CKOUT.

           8.5 . Tụ lọc PLL (PCAP):

         Đầu này dùng để nối với tụ bên ngoài cần cho bộ lọc PLL.

           8.6 . Xung nhịp ra (CKOUT):

             Chân này cung cấp xung nhịp ra chu kì làm việc bằng 50% đồng bộ với xung nhịp bên trong bộ xử lí khi PLL được cho phép và ở trạng thái khóa.

           8.7 . Điều khiển phân cực CKOUT(CKP):

             Chân vào này định nghĩa sự phân cực của đầu ra xung nhịp CKOUT.

           8.8 . Đầu vào khởi động PLL(PINIT):

             Trong suốt thời gian Reset phần cứng hoạt động và nạp giá trị chân PINIT vào bit PEN của thanh ghi điều khiển PLL.

           8.9 . Khóa tần số và pha(PLOCK):

             Đầu ra PLOCK được phát sinh từ bộ phát hiện pha, khi PLL khóa các tần số và pha riêng của EXTAL.

        9.Chân bộ đếm thời gian/sự kiện:

           Chân hai hướng này cung cấp sự giao kết với khối bộ đếm thời gian /sự kiện. Khi chân TIO được sử dụng như đầu vào, khối có chức năng như một bộ đếm sự kiện bên ngoài hoặc nó đo độ rộng xung/chu kì tín hiệu bên ngoài. Khi TIO được sử dụng như đầu ra, khối có chức năng như một bộ đinh thời và tín hiệu trên chân TIO là xung nhịp định thời.


KẾT LUẬN

Luận văn đã thực hiện đầy đủ nhiệm vụ đặt ra của đề tài: Xây dựng bộ điều khiển và nhận dạng tiếng nói bằng xử lý tín hiệu số DSP56002. Cụ thể luận văn đã hoàn tất các phần sau:

     Hoàn tất board mạch mở rộng bộ nhớ cho DSP56002 và board mạch điều  khiển động cơ. Đã mở rộng nhớ với 64kbytes cho 2 vùng nhớ X và Y của DSP56002.
Thực hiện được việc nhận tín hiệu từ ngoài(micro)lưu vào RAM thông qua giao tiếp nối tiếp SSI của DSP56002 và CS4215 đồng thời phát tín hiệu ra loa.
Tìm hiểu công cụ toán học để xử lý tín hiệu từ phân tích Fourier đến tính STFT. Ứng dụng được công cụ biến đổi Fourier thời gian ngắn STFT vào DSP56002 và trích được formant của tín hiệu tiếng nói.
Sau khi trích được formant sử dụng phương pháp kết hợp mẫu để nhận dạng tín hiệu tiếng nói và đã nhận dạng được. Từ kết quả nhận dạng ứng dụng để điều khiển.

    Như vậy, luận văn nghiên cứu hoàn tất nhận dạng tiếng nói dựa trên công cụ phân tích tín hiệu là STFT (Short Time Fourier Transform ). Trong luận văn này nhận dạng tiếng nói với bộ từ vựng nhỏ. Do đặc trưng của tiếng nói thay đổi qua các lần phát âm dù là cùng một từ và của cùng một người nói nên độ chính xác của việc nhận dạng chưa cao lắm. Vì vậy vấn đề còn lại là mở rộng kích thước của bộ từ vựng và tăng thêm độ chính xác của hệ thống. Việc lấy mẫu tín hiệu chuẩn có thể được huấn luyện nhiều lần và nhiều người huấn luyện để tăng độ chính xác cho hệ thống và có thể cho nhiều người sử dụng. Đồng thời có thể kết hợp thêm nhiều bộ vi xử lý cùng hoạt động song song.  
 

KẾT QUẢ

    Vì mô hình điều khiển động cơ được thiết lập chỉ có các chức năng như left, right, stop nên bộ từ vựng điều khiển động cơ là left, right, stop. Để xem xét độ chính xác của của chương trình nhận dạng, từ cần nhận dạng sẽ được đọc vào và so sánh với các từ trong bộ từ vựng lấy D1 làm cơ sở kết quả so sánh. Lặp lại quá trình  trong 3 lần ta được kết quả sau:

Đọc
    Kết quả so sánh (D1)    Kết quả    
    left    right    stop        
left (1)    15    388    219    left    
right    421    6    220    right    
stop    396    258    15    stop    
left (2)    12    408    273    left    
right    462    3    261    right    
stop    307    294    17    stop    
left (3)    13    435    218    left    
right    444    4    243    right    
stop    396    270    14    stop    

    Qua các lần thử nghiệm cho thấy kết quả nhận dạng chấp nhận được. Quá trình thử nghiệm trên được thực hiện trong môi trường không có nhiễu, nếu trong môi trường có nhiễu độ chính xác có thể sẽ giảm bớt.  
 

PHỤ LỤC A

 

A.  GIỚi THIỆU CÁC LỆNH CỦA DEBUG-EVM

 

 

LỆNH

MÔ TẢ

ALIAS

Định nghĩa chuỗi lệnh

ASSEMBLE

Bộ biên dịch trên màn hình

BREAK

Thiết lập điểm ngắt

CHANGE

Bổ xung giá trị cho bộ nhớ/thanh ghi

CONFIG

Lựa chọn cấu hình hệ thống

COPY

Chép khối bộ nhớ đến nơi khác

DISPLAY

Hiển thị giá trị ô nhớ

DISASSEMBLE

Không phiên dịch bộ nhớ

FORCE

Reset hay Stop DSP65002

GO

Thực thi chương trình DSP56002

HELP

Hiển thị màn hình giúp đỡ

JUMP

Nhảy đến chương trình con

LOAD

Nạp chương trình DSP56002

LOG

Log tất cả thành tập tin log

PATH

Định nghĩa hay hiển thị thư mục

QUIT

Thoát khỏi DEBUG-EVM

RADIX

Thay đổi tính mặc định của thông số đưa vào

SAVE

Lưu khối bộ nhớ vào tập tin

STEP

Thực thi từng bước chương trình DSP56002

SYMBOL

Hiển thị bảng ký hiệu

SYSTEM

Thực thi lệnh xử lí hệ thống

TRACE

Thực thi từng lệnh của chương trình DSP56002

UNASSEMBLE

Không biên dịch bộ nhớ

UNALIAS

Loại bỏ chuỗi lệnh

USE

Dùng thư mục khác

VERSION

Hiển thị thế hệ của EVM

VIEW

Mở tập tin văn bản để xem

WAIT

Chờ

WATCH

Lựa chọn biến để xem

WINDOWS

Lựa chọn cửa sổ điểu khiển

  1. Lệnh HELP:

Lệnh HELP cho phép người sử dụng xem lại các lệnh của DEBUG-EVM hay những thông tin về cấu trúc của lệnh.

  1. Lệnh RADIX:

Lệnh RADIX làm thay đổi cửa sổ chỉ số lệnh mặc định. Tất cả các hằng số (địa chỉ và dữ liệu) được nhập vào cửa sổ lệnh được chấp nhận tùy theo chỉ số đã thiết lập. Các chỉ số có thể được đứng trước bởi các ký hiệu    sau:ký hiệu ($) cho số Hex, dấu (‘) cho số thập phân, dấu (%) cho số nhị phân.

  1. Lệnh DISPLAY:

Lệnh này có thể được dùng để hiển thị chương trình hay dữ liệu bộ nhớ trong cửa sổ dữ liệu.

  1. Lệnh CHANGE:

Lệnh này dùng để kiểm tra hay thay đổi giá trị của thanh ghi hay vị trí bộ nhớ.

  1. Lệnh COPY:

Lệnh này dùng để chép khối bộ nhớ này đến khối bộ nhớ khác.

  1. Các lệnh ENTER, ASSEMBLE và DISASSEMBLE:

Những lệnh này dùng để biên dịch chương trình cho DSP56002. Nó có thể dùng để nhập vào hay biên soạn bộ nhớ lưu trữ trong mã đối tượng chương trình DSP56002.

  1. Các lệnh SAVE, LOAD và RELOAD:

Chương trình DSP56002 có thể được đặt tên vào đĩa mềm hay đĩa cứng cũng như có thể reoad lên EVM.

  1. Các lệnh BREAK và TRACE:

Dùng để kiểm tra một chương trình DSP56002, các nội dung của thanh ghi được hiển thị trong cửa sổ dữ liệu.

B  . CHƯƠNG TRÌNH BIÊN DỊCH ASM56000

    Được viết cho xử lí tín hiệu số của Motorola. Trình biên dịch chuyển các phát biểu nguồn này thành các chương trình đối tượng tương thích các sản phẩm phần cứng và phần mềm DSP khác của Motorola.

  1. DẠNG PHÁT BIỂU CHƯƠNG TRÌNH NGUỒN

                Phần mềm trình biên dịch ASM5600 cho phép các phát biểu chương trình nguồn tận dụng sáu vùng. Các vùng này được tách biệt bởi một hay nhiều khoảng trắng hoặc khoảng tab. Sáu vùng này là:

           a. Vùng nhãn:

                     Vùng nhãn xuất hiện như vùng đầu tiên của một phát biểu nguồn và có các dạng sau:

  • Khoảng trắng hay khoảng tab: được sử dụng như kí tự đầu tiên của vùng nhãn để chỉ rằng đây là vùng trống, và phát biểu nguồn không có nhãn.

                                   Ví dụ:  <tab>  CLR  <tab>  B <return>

  • Kí tự: trong bảng chữ cái được sử dụng như là kí tự đầu tiên của vùng nhãn, để chỉ rằng phát biểu nguồn chứa một kí tự gọi là nhãn.

                                   Ví dụ: LOOP  <tab>  MOVE  <tab> B , L:-(R0) <return>

  • Dấu gạch dưới (_):  được sử dụng như là kí tự đầu tiên của vùng nhãn chỉ rằng nhãn là cục bộ.

                                   Ví dụ: _ENDP <return>

           b. Vùng thao tác:

          Vùng thao tác xuất hiện sau vùng nhãn và phải trước ít nhất một khoảng trắng hoặc khoảng tab. Các dẫn nhập vùng thao tác có một trong ba loại sau :

  • Mã lệnh:   

                       Ví dụ : ENTRY <tab> ADD <tab> B , A <return>

  • Chỉ thị :

                       Ví dụ : CNST  <tab>  EQU <tab> $5 <return>

  • Gọi Macro: nối dẫn macro được định nghĩa trước để được chèn vào nơi gọi macro.

            c. Vùng toán hạng:

                       Sự biểu diễn của vùng toán hạng thì phụ thuộc vào vùng thao tác . vùng toán hạng (nếu có) phải theo vùng thao tác  và phải trước ít nhất một khoảng trắng hay khoảng tab. Vùng thao tác phải chứa một kí tự, một biểu thức hoặc kết hợp những kí tự va biểu thức cách nhau bởi dấu phẩy.

            d. Vùng truyền dữ liệu #1 và #2:

                       Hầu hết mã lệnh dữ liệu ALU của DSP56002 được thêm vào để cho phép một hay hai dữ liệu truyền thao tác xảy ra đồng thời với sự thực thi mã lệnh chính nó. Nếu sử dụng, vùng truyền #1 xác định thao tác truyền dữ liệu thứ nhất, vùng truyền dữ liệu #2 xác định thao tác truyền dữ liệu thứ      hai. Thao tác truyền dữ liệu được xác định bởi hai toán hạng định địa chỉ cách biệt bằng dấu phẩy không được là khoảng trống. Vùng truyền dữ liệu cần được tách biệt.

                       Ví dụ: <tab> RND <tab> A <tab> X:(R0)+,X0 <tab>Y:(R4)+,Y0

            e. Vùng chú thích:

                       Vùng chú thích không được xem trọng trong trình biên dịch ASM56000. Nhưng nó được dùng để chú thích các phát biểu. Vùng chú thích bao gồm các kí tự nằm sau dấu (;).

 

  1. ĐỊNH NGHĨA VÀ SỬ DỤNG  MACRO:

        Chương trình thường lặp lại một nhóm lệnh. Một macro cung cấp một phương tiện ngắn nhất thông  qua một nhóm lệnh của DSP có thể xác định bởi một tên. Vì vậy khi đánh chương trình, một nhóm lệnh lặp lại có thể thay bằng một macro tương thích.

        Một macro được định nghĩa bởi phần mở đầu, phần thân và phần kết     thúc. Phần đầu gán một cái tên cho macro và gán đối số giả, các đối số giả sẽ được thay thế bằng đối số thật khi macro được gọi. Phần thân chứa một nhóm lệnh của DSP56002. Phần kết thúc là một dẫn hướng macro (ENDM).

        Một macro được xác định trong chương trình bởi phát biểu gọi macro.Phát biểu gọi macro có ba vùng: vùng nhãn, vùng thao tác và vùng toán hạng. Vùng nhãn nếu có tương ứng với các giá trị của vị trí phần mềm của bộ đếm tại nơi bắt đầu của sự mở rộng macro, nghĩa là thay thế nhóm lệnh tương ứng tại phát biểu gọi macro. Vùng thao tác chứa tên của macro. Vùng toán hạng chứa đối số thật mà sẽ thay thế đối số giả được sử dụng trong phần đầu của định nghĩa macro.

LẬP TRÌNH MỘT MACRO:

           Các dẫn hướng của bộ biên dịch là các lệnh của chương trình phần    mềm. Khi viết chương trình dẫn hướng ASM56000 có thể được sử dụng cho việc chứa địa chỉ, kí hiệu và dữ liệu định nghĩa, điều khiển biên dịch, điều khiển danh sách ngỏ ra, điều khiển tập tin đối tượng, các macro và điều kiện biên dịch. Mỗi dẫn hướng biên dịch được đặt tên là INCLUDE.

Chỉ thị hợp ngữ của ASM56000:

 

Dẫn hướng

Mô tả

 DC       

Định nghĩa hằng số.

 DS               

Định nghĩa lưu trữ.

 DSM           

Xác định khối lưu trữ.

 DSR            

Xác định đảo cờ nhớ.

 DUP        

Thực hiện tương tự đến thứ tự lần.

 END

Kết thúc chương trình.

 EQU             

Gán trị cho kí hiệu.

 INCLUDE    

Nối kết tập tin thứ hai.

 MACRO       

Định nghĩa macro.

 ORG            

Tạo ra khoảng trống bộ nhớ và định vị bộ đếm.

 SET              

 Đặt giá trị cho kí hiệu.     

 

            Ví dụ:    ORG            P:$100     ;thiết lập một khoảng trống bộ nhớ cho bộ nhớ chương trình bắt đầu tại vị trí $100.

  

                         ORG             X:$100      

                         TABLE    DC   0.1,0.2,0.3           ;lưu các giá trị thập phân vào ô nhớ X liên tiếp bắt đầu tại vị trí $100.

C . CHƯƠNG TRÌNH GỠ RỐI DEBUG-56K:

  1. Giới thiệu:

   Debug-56K là một bộ gỡ rối cho các bộ xử lý tín hiệu số 16-bit và 24-bit của Motorola. Nó có thể được sử dụng với bất kỳ DSP 16-bit và 24-bit của Motorola.

   Debug-56K là một bộ gỡ rối độc lập phần cứng được thiết kế để chạy trên nhiều môi trường.         

   Debug-56K là một phần mềm Windows, nó cung cấp hệ thống menupull-down ,các thanh công cụ,... để dễ dàng thao tác bằng đồ họa.

II.Mô tả các thành phần trong cửa sổ đồ họa của Debug-56K:

Sau khi gọi Debug-56K màn hình được chia thành 4 cửa sổ:cửa sổ       lệnh, cửa sổ Unassembly, cửa  sổ dữ liệu và cửa sổ thanh ghi.

Các menu pull-down và thanh công cụ xuất hiện tại đỉnh màn hình, dòng trạng thái nằm ở hàng cuối cùng trên màn hình. Cửa sổ lệnh hiện thời được chọn, nghĩa là phím bấm được đặt vào trong cửa sổ lệnh .

           Cửa sổ dữ liệu:

      Cửa sổ dữ liệu được sử dụng để hiển thị dữ liệu DSP . Biên trên của cửa sổ dữ liệu có 3 phần tử: Tên cửa sổ (Data), cơ số của cửa sổ, nhãn hoặc địa chỉ của phần tử đầu tiên trong cửa sổ.

      Trong cửa sổ, cột bên trái nhất là không gian địa chỉ (X,Y,P hoặc L), theo sau đó là địa chỉ (dạng HEX) .Thân của cửa sổ là dữ liệu.

    Cửa sổ Unassembly:

      Cửa sổ Unassembly được sử dụng để hiển thị chương trình     DSP. Đường biên trên của cửa sổ có 3 phần tử :

  • Tên cửa sổ .
  • Chế độ hiển thị chương trình .
  • Tên của file nguồn. Nó xuất hiện khi cửa sổ này được đặt trong chế độ nguồn hoặc chế độ hỗn hợp .

                      Cửa sổ thanh ghi:

      Cửa sổ thanh ghi hiển thị các thanh ghi trong của DSP. Cơ số được hiển thị ở trên biên trên của cửa sổ. Các thanh ghi của ALU được hiển thị như một thanh ghi dài hoặc chia thành các thanh ghi con. Tất cả các thanh ghi được hiển thị dưới dạng HEX. Thanh ghi A,B,X và Y có thể được hiển thị dưới dạng HEX, thập phân hoặc phân số.

               Cửa sổ lệnh:

                Cửa sổ lệnh được sử dụng để đưa vào các lệnh. Cơ số HEX có nghĩa là các số đưa vào cùng với lệnh được xem như số HEX.

        Các menu pull-down:

         Các menu pull-down được sử dụng để thực hiện một số lớn các lệnh, chức năng và các cài đặt gồm: Các thao tác về file, hiển thị thông tin, thực hiện các chế độ chạy chương trình (dừng, chạy bước đơn, nhảy , chạy bước liên tục ,...) các thao tác liên quan đến biểu tượng, đặt, xóa các điểm gãy, đặt cấu hình cho phần Debug-56K, cung cấp thông tin giúp đỡ.

    Thanh công cụ:

      Thanh công cụ cung cấp một phương thức tiện lợi để thực hiện nhiều lệnh trong số các lệnh thường được sử dụng nhất như: chạy chương trình, dừng chương trình, chạy bươc đơn, thực hiện nhảy , reset DSP, đổi cơ số,....

                Dòng trạng thái/giúp đỡ:

                 Hàng cuối cùng của màn hình là dòng trạng thái giúp đỡ. Nó được sử dụng để hiển thị các thông tin sau:

  • Giá trị bộ đếm chương trình của DSP .
  • Giúp đỡ chạy cho lệnh khi một lệnh được đưa vào .
  • Danh sách các lệnh có thể dùng được khi cửa sổ lệnh được chọn .                                                                           

.................................................................

Chương 9: XỬ LÝ TÍN HIỆU TIẾNG NÓI

         Chương trình này giới thiệu cụ thể về phép phân tích thời gian ngắn    (Short-time Analysis). Tín hiệu được tách thành các frame dài N mẫu và mọi phép toán đều thực hiện trên frame đó mà thôi. Đây là phương pháp phân tích cổ điển đối với các tín hiệu không dừng (non-stationary) như tín hiệu tiếng nói. Khi đã chia thành các frame thì tín hiệu trên từng frame có thể được xem như là một tín hiệu dừng và mọi phép xử lý trên frame được áp dụng như là xử lý trên một tín hiệu dừng. Sau khi thực hiện STFT trích được đặc trưng của tín hiệu tiếng nói sẽ dùng phương pháp kết hợp mẫu để nhận dạng tiếng nói.

 

I .TRÍCH ĐẶC TRƯNG TIẾNG NÓI DÙNG PHÉP PHÂN TÍCH STFT

         Sau khi đã số hoá tín hiệu, chúng ta bắt đầu trích đặc trưng tiếng nói của một tiết như chu kỳ cao độ, formant nhưng trước hết là phải tách tín hiệu tiếng nói khỏi nhiễu nền (khoảng im lặng) vì tín hiệu thu trong môi trường nhiễu nên khoảng im lặng chính là nhiễu. Tất cả công việc trên đều có thể xử lý bằng phép phân tích thời gian ngắn (Short-time Analysis).

         1 . Các khái niệm

            a) Frame : một frame tiếng nói fs(n,m) là tích của một cửa sổ được dịch w(m-n) với chuỗi tiếng nói s(n).

                                    fs(n,m)=s(n).w(m-n)                        (9.1)

            b) Năng lượng thời gian ngắn : hàm năng lượng thời gian ngắn (short-time energy function) của tín hiệu tiếng nói có thể được tính bằng cách chia tín hiệu tiếng nói ra thành các khung, tức là các đoạn N mẫu liên tiếp và tính tổng bình phương của các mẫu tín hiệu này trong từng khung. Việc chia tín hiệu ra thành các khung có thể được thực hiện bằng cách nhân tín hiệu đó với một hàm cửa sổ w(n) thích hợp với n=0,1,2…N-1. Hàm này sẽ có giá trị bằng 0 bên ngoài khoảng (0, N-1), thông thường các cửa sổ này là các cửa sổ chữ nhật có bề rộng từ 10 đến 20 ms. Với một cửa sổ kết thúc tại mẫu thứ m, hàm năng lượng thời gian ngắn E(m) được xác định bởi:

                                      (9.2)

              Đồ thị của hàm năng lượng thời gian ngắn của một đoạn tín hiệu được thể hiện trên hình 9.1. Ta thấy năng lượng của tín hiệu lớn hơn rất nhiều so với khoảng im lặng (có thể xem là nhiễu).

 

Hình 9.1

  1. Tín hiệu     b) Năng lượng thời gian ngắn

 

 

            c) Tỷ lệ qua điểm zero (Zero-crossing rate):

              Tỷ lệ này là một thông số cho biết số lần mà biên độ tín hiệu đi qua điểm zero trong một khoảng thời gian cho trước được xác định bởi:

                           (9.3)

                    Trong đó, N là chiều dài của cửa sổ w(m-n).

      

         d) Hàm tự tương quan thời gian ngắn :

 

Hình 9.2 Hàm tự tương quan của frame tương ứng khoảng cực đại của tín hiệu

            Hàm tự tương quan (autocorrelation function) cho ta thông số về sự tương quan của tín hiệu với một phiên bản trễ của chính nó. Hàm tự tương quan thời gian ngắn của frame kết thúc tại m:

                               (9.4)

              Hình 9.2 là đồ thị hàm tự tương quan thời gian ngắn tương ứng khoảng cực đại của tín hiệu hình 9.1 a) sử dụng cửa sổ hình chữ nhật N=250. Nếu tín hiệu tuần hoàn thì hàm này cực đại khi khoảng trễ là bội số của chu kỳ cơ bản.

         2 . Phát hiện điểm đầu và cuối của một âm tiết dùng năng lượng frame

           Một trong những vấn đề cơ bản nhất trong xử lý tiếng nói là việc xác định điểm đầu và điểm cuối của chuỗi tiếng nói được phát ra. Đây là một khâu quan trọng trong quá trình nhận dạng mẫu tiếng nói sử dụng kiểu nhận dạng từ đơn (isolated-word) theo hướng phối hợp mẫu (Pattern Matching Approach) và được gọi là end-point detection. Theo kiểu này, các âm tiết trong mẫu ghi âm sẽ được tách riêng và trích đặc trưng của từng âm tiết. Việc phát hiện end-point rất khó thực hiện trong thực tế trừ trường hợp tỷ số tín hiệu trên nhiễu rất lớn.

           Tín hiệu tiếng nói thu được thông qua các thiết bị ngoại vi luôn nằm giữa khoảng im lặng. Việc ghi âm trong môi trường nhiễu nên khoảng im lặng còn gọi là nhiễu. Năng lượng thời gian ngắn của các cửa sổ chứa tín hiệu có ích luôn lớn hơn nhiều so với đoạn chỉ có nhiễu. Do đó, nếu chúng ta đặt ra một mức ngưỡng để phân biệt giữa frame chứa tín hiệu và frame chỉ gồm nhiễu thì đoạn chứa âm tiết sẽ được tách ra. Vì thế, giải thuật phát hiện end-point dùng năng lượng frame như hình 9.3

           Trước tiên, các frame nhiễu nền sẽ được thu thập liên tục trước khi ghi âm tín hiệu tiếng nói nhằm thiết lập ngưỡng nhiễu. Ngưỡng này có thể xác định bằng bội số nào đó của năng lượng frame nhiễu lớn nhất. Sau đó, ghi âm tín hiệu của một âm tiết trong khoảng thời gian đủ dài để âm tiết được thu trọn vẹn và tính năng lượng frame cho tín hiệu vừa ghi âm. Dò từ đầu về cuối tín hiệu nếu frame nào có năng lượng lớn hơn ngưỡng chính là frame bắt đầu của tín hiệu và tiếp tục dò nếu frame có năng lượng nhỏ hơn ngưỡng (frame chứa nhiễu) thì đây là frame kết thúc của tín hiệu. Cuối cùng xét tín hiệu vừa tách được có phải là nhiễu hay không bằng cách so sánh chiều dài này với chiều dài tối thiểu của một từ. Nếu thỏa điều kiện này thì đây thật sự là âm tiết, ngược lại phải ghi âm lại.

Hình 9.3  Giải thuật phát hiện điểm đầu và điểm cuối dùng năng lượng frame

Giá trị a từ 2-5%

 

           Nhận xét :

              Giải thuật này tuy đơn giản nhưng lại có nhiều nhược điểm. Chúng ta không thể xác định được điểm đầu và điểm cuối của một âm tiết vì nếu frame đầu được xác định chính xác thì điểm bắt đầu âm tiết có thể nằm ở vị trí nào đó trong frame này, dẫn đến độ sai lệch điểm đầu có thể bằng chiều dài frame N và tương tự cho điểm cuối. Đó là trường hợp lý tưởng, còn nếu frame đầu xác định sai ( trong môi trường nhiễu dao động nên định mức ngưỡng nhiễu không chính xác), thì độ sai lệch sẽ là bội số của N. vậy dùng năng lượng frame để phát hiện điểm đầu và cuối của từng âm tiết trong câu lệnh sẽ thiếu chính xác.

           Lưu ý :

              Công việc truy tìm frame đầu của tín hiệu tiếng nói có thể được xuất phát từ vị trí frame có năng lượng cực đại trên ngưỡng nhiễu (trong đoạn tín hiệu thực sự). Thực hiện theo cách này sẽ tăng thời gian xử lý nhưng hệ thống thiếu tính thực tế vì tín hiệu được thu xong mới tiến hành endpoint detection. Vì vậy, mục đích của người thiết kế giải thuật là tạo cho giải thuật có tính thực tế cao bởi vì bộ cảm biến (cụ thể ở trường hợp này là micro) của hệ thống điều khiển chỉ cần thăm dò và kiểm tra một frame tín hiệu (khoảng 10-20ms) trên ngưỡng nhiễu là biết có tín hiệu tiếng nói thu vào hay chưa. Từ đó có thể thực hiện các công việc song song khác như vừa truy tìm tín hiệu vừa tính STFT để thu được phổ cục bộ. Như vậy kết thúc endpoint detection cũng là kết thúc công việc nhận dạng.

           Một nổ lực khác để khắc phục nhược điểm trên khi tín hiệu tiếng nói được thu trong môi trường nhiễu cao là kết hợp năng lượng frame và tỷ lệ qua điểm zero với nhận xét: bản chất của “nhiễu” là tín hiệu ngẫu nhiên nên tỷ lệ qua điểm zero sẽ lớn trong miền nhiễu và nhỏ trong miền tín hiệu. Trong khi năng lượng frame lại lớn trong miền tín hiệu và nhỏ trong miền nhiễu. Nếu kết hợp cả năng lượng frame và zero-crossing thì chúng ta tận dụng được cả tính chất của tín hiệu và nhiễu.

           Tuy nhiên nổ lực này vẫn không cải thiện hiệu quả cho lắm vì chúng ta phải dùng đến hai mức ngưỡng cho năng lượng frame và zero-crossing.

Hình 9.4

         (a,b) Tín hiệu và năng lượng của từ ‘LEFT’ trước khi tách khỏi khoảng nhiễu .

         (c,d) Tín hiệu và năng lượng của từ ‘LEFT’ sau khi tách khỏi khoảng nhiễu .

 

         3 . Trích formant dùng phép biến đổi STFT

           Tiếng nói là tín hiệu không dừng (nonstationary signal) gồm nhiều thành phần. Về mặt toán học, một đoạn tiếng nói được biểu diễn với độ chính xác cao trong không gian Hilbert là tổng của các hàm mũ:

                Trong đó, {Ai(t)} và {i(t)} lần lượt là tập biên độ và pha tức thời của N thành phần tần số của tín hiệu. Tần số góc tức thời của i(t) là

 

                                        (9.6)

 

           Thực hiện STFT đối với tín hiệu S(t) trong biểu thức (9.5), ta được:

 

                                   (9.7)

          Ap dụng định lý Parserval,

                                      (9.8)

và tính chất dịch theo thời gian, định lý điều chế của biến đổi Fourier vào (9.7) ta thu được :

         Trong đó, W() và S () lần lượt là biến đổi Fourier của cửa sổ w (t) và tín hiệu S(t), là tần số đang phân tích.

         Hàm W () có tác dụng như một bộ lọc thông dãy, làm giới hạn phổ tín hiệu S() xung quanh tần số trung tâm  (hình 9.5). Do đó theo (9.9), các thành phần tần số   trong tín hiệu tiếng nói sẽ ảnh hưởng lên kết quả STFT trong lân cận của các , tạo thành các ridge của STFT (hình 9.7). Điểm cực đại của các ridge chính là tần số .

Hình 9.5 Biểu diễn phổ của tín hiệu và phổ của hàm cửa sổ tại t=

         STFT chuyển tín hiệu một chiều thành hàm hai biến  và  . Do đó, kết quả của STFT là một ảnh biểu diễn các thành phần tần số của tín hiệu theo thời      gian. Hình ảnh này được gọi là spectralgram.

 

         Từ kết quả phân tích trên, chúng ta thu được các ridges tương ứng với các tần số tức thời trong tín hiệu mà có biên độ tương đối lớn. Nếu xem mỗi thành phần tần số này là một formant thì đỉnh của các ridges chính là hình ảnh của các formant trong tín hiệu tiếng nói.

 

         Hình 9.7c cho phép chúng ta rút ra kết luận là đỉnh của các ridges chính là cực đại địa phương của module    tính theo hướng tần số. Như vậy nếu tính được cực đại địa phương module của phép biển đổi STFT theo hướng tần số thì có thể thu được hình ảnh biểu diễn các formant có trong tín hiệu tiếng nói.

 

         Như vậy, đặc trưng formant trong tín hiệu tiếng nói được trích ra từ dữ liệu STFT theo giải thuật tổng quát hình 9.6. Đầu tiên, tín hiệu tiếng nói của một âm tiết sau khi qua endpoint detection được phân tích thời gian-tần số bằng STFT để thu được các ridges tương ứng với các formant. Sau đó, kết quả STFT được lấy cực đại địa phương module (local maxima modulus) theo hướng tần số để định vị chính xác vị trí của các formant. Bước cuối cùng trong công việc trích các formant là lần theo vết của các cực đại địa phương để thu được giá trị của mỗi formant theo thời gian. Để phục vụ cho mục đích nhận dạng, chỉ cần trích 3-5 formant là đủ để phân biệt các âm tiết với nhau.

 

CODEC 4215

ANALOG CHARACTERISTICS(T =25 C;VA1,VA2,Vd1,VD2 = +5V;

Input Levels : Logic 0 = 0V, Logic 1 = VD1,VD2;Full Scale Input Sine wave,No Gain , No Attenuation 1 kHz ; Conversion Rate = 48kHz;No Gain,No Attenuation ,  SCLK = 3.072MHz

 , Measurement Bandwidth is 10Hz to 20kHz  ; Slave Mode;Unless otherwise specified .)

Parameter*

  Symbol

     Min

     Typ

Max

Units

Analog Input Characteristics-Minimum Gain setting(0 dB); Unless otherwise specified .

ADC Resolution

 

16

-

-

Bits

ADC Differential Nonlinearity

 

-

-

0.9

LSB

Instantanneous Dynamic Range :Line Inputs

                                                       Mic Inputs

IDR

80

72

84

78

-

-

dB

dB

Total Harmonic Distortion :          Line Inputs

                                                        Mic Inputs

 

THD

-

-

-

-

0.012

0.032

%

%

Interchannel Isolation :   Line to Line Inputs

                                          Line to Mic Inputs

 

-

-

80

60

-

-

dB

dB

Interchannel Gain Mismatch : Line Inputs

                                                   Mic Inputs

 

-

-

-

-

0.5

0.5

dB

dB

Frequency Respone (Note 1)   (0 to 0.45 Fs )

 

-0.5

-

+0.2

dB

Programmable Input Gain:            Line Inputs

                                                        Mic Inputs

 

-0.2

19.8

-

-

23.5

44

dB

dB

Gain Step Size

 

-

1.5

-

dB

Absolute Gain Step Error

 

-

-

0.75

dB

Offset Error            Line Inputs (AC coupled)

With HPF = 0         Line Inputs (DC coupled)

(No Gain)                        Mic Inputs

 

-

-

-

150

*10

400

*400

*150

     -

 

LSB

Offset Error               Line Inputs(AC coupled)

With HPF=1              Line Inputs(DC coupled)

(No Gain) (Notes 1,2)        Mic Inputs

 

-

-

-

0

0

0

*5

*5

*5

 

LSB

Full Scale Input Voltage:(MLB=0) Mic Inputs

                                          (MLB=1) Mic Inputs

                                                Line Inputs

 

0.25

2.50

2.50

0.28

2.80

2.80

0.31

3.10

3.10

Vpp

Vpp

Vpp

Gain Drift

 

-

100

-

ppm/oC

Input Resistance                     (Note 3)

 

20

-

-

k

Input Capacitance

 

-

-

15

PF

CMOUT Output Voltage                    (Note 4)

(maximum output current = 400 A)

 

1.9

2.1

2.3

V

 

Notes :

  1. This specification is guaranteed by characterization ,not production testing .
  2. Very low frequency signals will be slightly distorted when using the HPF .
  3. Input resistance is for the input selected .Non-selected input have a very high (>1M ) input resistance .
  4. DC current only . If dynamic loading exists ,then CMOUT must be buffered or the performance of ADC’s and DAC’s may be degraded .

 

 ANALOG CHARACTERISTICS (continued)

Parameter*

Symbol

Min

Typ

Max

Units

Analog Output Characteristics – Minimum Attenuation ;Unless Otherwise Specified

DAC Resolution

 

16

-

-

Bits

DAC Differential Nonlinearity

 

-

-

0.9

LSB

Total Dynamic Range

TDR

-

95

-

dB

Instantanneous Dynamic Range (OLB=1)  (All Outputs)

IDR

80

85

-

dB

Total Harmonic Distortion: Line Out(Note 5)   

   (OLB = 1)              Headphone Out(Note 6) 

                                       Speaker Out(Note 6)                                  

 

THD

-

-

-

-

-

-

0.025

0.200

0.320

%

%

%

Interchannel Isolation :  Line Out(Note 5)

                             Headphone Out(Note 6)

 

-

-

80

40

-

-

dB

dB

Interchannel Gain Mismatch : Line Out

                                              Headphone

 

-

-

-

-

0.5

0.5

dB

dB

Frequency Respone (Note 1)   (0 to 0.45 Fs )

 

-0.5

-

+0.2

dB

Programmable Attenuation        (All Outputs)

 

0.2

-

-94.7

dB

Attenuation Step Size

 

-

1.5

-

dB

Absolute Attenuation Step Error

 

-

-

0.75

dB

Offset Voltage

 

-

10

-

MV

Full Scale Output Voltage   Line Output (Note 5) 

with OLB = 0         Headphone Output    (Note 6)

                 Speaker Output-Differential   (Note 6)

 

2.55

3.60

7.30

2.8

4.0

8.0

3.80

4.40

8.80

Vpp

Vpp

Vpp

Full Scale Output Voltage   Line Output (Note 5) 

with OLB = 1        Headphone Output    (Note 6)

                 Speaker Output-Differential   (Note 6)

 

 

1.8

1.8

3.6

 

2.0

2.0

4.0

 

2.2

2.2

4.4

 

Vpp

Vpp

Vpp

External Load Impedance     Line Output

                                                Headphone Output

                                                Speaker Output

 

10

48

32

-

-

-

-

-

-

Gain Drift

 

-

100

-

ppm/oC

Deviation from Linear Phase

 

-

-

1

Degree

Out of Band Energy(22kHz to 100kHz)  Line Out

 

-

60

-

dB

Power Supply

Power Supply Current  (Note7)   Operating

                                                      Power Down

 

-

-

110

0.5

140

2

mA

mA

Power Supply Rejection               (1kHz)

 

-

40

-

dB

 

 

  Notes :

  1. 10k  ,100pF load .Headphone and Speaker outputs disabled .
  2. 48 ,100pF load. For the Headphone outputs , THD with 10k  ,100pF load is 0.02% .
  3. Typically ,50% of the power supply current is supplied to the analog power pins(VA1,VA2) and 50% is supplied to the digital power pins (VD1,VD2) .Values given are for unloaded outputs .

 

 

A/D DECIMATION FILTER CHARACTERISTICS

 

Parameter*

Symbol

Min

Typ

Max

Units

Passband         (Fs is conversion freq.)

 

0

-

0.45Fs

Hz

Frequency Respone

 

-0.5

-

+0.2

dB

Passband Ripple

 

-

-

0.1

dB

Transition Band

 

0.45Fs

-

0.55Fs

Hz

 

 

Close