1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu kiến trúc VXL intel core i5 thế hệ 2

37 56 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 5,21 MB

Nội dung

Sử dụng kiến trúc Sandy Bridge thực sự là một kiến trúc theo kiểu hoàn toàn mới, hiệu suất xử lý tổng thế cũng thực sự khiến bạn chao đảo, sau khi chao đảo, bạn sẽ thấy kinh ngạc khi thâ

Trang 1

Nhóm 7 Tìm hiểu kiến trúc VXL Intel core i5 thế hệ 2

Giảng viên: Hoàng Xuân Dậu

Sinh viên thực hiên:

Trang 2

Mục Lục

Phần I.Giới thiệu………

Phần II.Kiến trúc tập lệnh……….

Phần III.Đặc tính và công nghệ mới………

1 Đặc điểm kỹ thuật………

2 Memory……….………

3 Graphics………

4 Công nghệ nâng cao………

Phần IV Tổng kết………

Phần V Nguồn tài liệu……….

Phần I Giới thiệu về vi xử lý intel core i5 thế hệ mới

Trang 3

1 giới thiệu lịch sử của intel core i5

Ngày 8-9-2009, Intel đã chính thức đưa ra thị trường thế hệ vi xử lý mới Intel Core i5 cho phân khúc mainstream-level dành cho người tiêu dùng rộng rãi.

Thật sự Core i5 là một phiên bản phổ cập của Core i7 Vào thời điểm ra đời (tháng 11-2008), Core i7 tên mã Bloomfield được mệnh danh là “CPU nhanh nhất hành tinh”, với nhiều cải tiến và công nghệ vượt trội so với các thế hệ CPU từ Core 2 trở

về trước Nhưng dòng vi xử lý này có giá rất đắt (con Core i7-975 Extreme Edition 3,33GHz có giá xuất xưởng tới 999 USD cho đơn hàng 1.000 sản phẩm) và chỉ thích hợp cho các hệ thống mạnh và chuyên nghiệp Giờ đây, với dòng Core i7 và Core i5 tên mã Lynnfield.

Core i5-750 là sản phẩm đầu tiên của thế hệ CPU Core i5 Nó cũng được chế tạo trên công nghệ 45nm, có 4 nhân và 8MB L3 cache (dạng SmartCache dùng chung cho tất cả các nhân) Cũng giống như Core i7, Core i5 là vi xử lý đa nhân có thiết kế nguyên khối (monolithic processor), nghĩa là tất cả 4 nhân cùng nằm chung một cách “bình đẳng” trên một die duy nhất Ở thiết kế đa nhân của Core 2, một bộ vi

xử lý 4 nhân được hình thành bằng cách gom 2 die vi xử lý 2 nhân vào chung một đóng gói Nhờ cùng nằm chung một die, việc liên lạc giữa các nhân với nhau sẽ có băng thông lớn và độ trễ thấp Còn trong thiết kế cũ, khi nhân này cần làm việc với nhân nằm trên die khác, lộ trình liên lạc sẽ phải đi vòng qua chip Northbridge trên mainboard.

Nhưng các CPU dòng Lynnfield dùng socket hoàn toàn mới LGA1156 (thay vì LGA1366 của Core i7-900 Series) Bạn sẽ phải ngạc nhiên trước tốc độ đưa ra socket CPU mới quá nhanh của Intel Socket LGA775 được xài từ năm 2004 Mãi

Trang 4

tới tháng 11-2008, với Core i7, Intel mới tung ra Socket LGA1366, và 10 tháng sau

đã có thêm LGA1156.

2.Tìm hiểu về intel core i5- 2500k.

BXL Intel Core i5-2500K có đến 4 nhân thật, và kí hiệu K ở cuối cũng cho biết đây

là BXL được mở hệ số nhân nên cho phép ép xung dễ dàng Intel cũng cải tiến công nghệ Intel Turbo Boost lên 2.0 mang lại khả năng tăng tốc tối ưu hơn và đáng kể nhất là nhân đồ họa Intel HD3000 mới.Clarkdale với hai thành phần CPU và GPU tách biệt.Điểm cải tiến trong kiến trúc so với Clarkdale trước đây là nhân đồ họa trên Sandy Bridge được sản xuất trên dây chuyền 32nm, cùng dây chuyền với CPU thay vì 45nm như trước đây.

Hai thành phần CPU và GPU trong Sandy Bridge nằm chung một khối.Điều này giúp 2 thành phần CPU và GPU được tích hợp lại với nhau thành một con chip duy

Trang 5

nhất chứ không nằm tách biệt như Clarkdale, điều này cũng giúp giảm độ trễ trao đổi dữ liệu giữa CPU và GPU, mang lại hiệu năng xử lý cao hơn.

BXL Core i5-2500K cũng hỗ trợ bộ nhớ kênh đôi DDR3 1333MHz, 16 làn trao đổi

dữ liệu cho khe PCI Express 16x (1 card 16x hoặc 2 card 8x) Trên Core i5-2500K vẫn tồn tại hai tuyến bus là DMI cho CPU và chipset; FDI cho nhân đồ họa tích hợp BXL mới cũng sử dụng chuẩn socket mới là 1155 trên các BMC chipset Intel 6 series (hiện tại là Intel P67 và H67).

Sử dụng kiến trúc Sandy Bridge thực sự là một kiến trúc theo kiểu hoàn toàn mới, hiệu suất xử lý tổng thế cũng thực sự khiến bạn chao đảo, sau khi chao đảo, bạn sẽ thấy kinh ngạc khi thâm nhập vào sâu bên trong, chúng tôi đã phát hiện ra một GPU được tích hợp (dẫu sao thì thực ra thì bản thân tôi thích gọi nó là một video processor hơn) với hiệu suất được nâng cao gấp đôi so với thế hệ cuối cùng chúng tôi thấy ở bộ vi xử lý Clarkdale Dẫu cho ở đây không có sự thay đổi nhiều nhưng chắc chắn là sẽ có một sự cải tiến trong phân khúc low – end, dù sao thì chúng tôi vẫn nhận thấy ở đây có thiết lập hướng dẫn mở rộng mới của AVX mà thực sự sẽ giúp ích rất nhiều cho người dùng trong vấn đề chuyển mã, chúng tôi còn phát hiện ra một thiết bị update Turbo cho phép hiệu suất sử dụng và tần số clock ở mỗi lõi cao hơn và hiệu quả hơn và ở đây chúng tôi còn đặc biệt chú trọng đến việc điện năng tiêu thụ là cực tốt, nhất là khi ở chế độ idle, ngoài ra còn có chipset và một số công

cụ mới nữa… vấn đề còn lại ở đây là cách nhìn nhận cũng như sự chào đón của công chúng, vì vậy, hãy cùng chúng tôi điểm qua một số khía cạnh quan trọng cần tìm hiểu.

+vi kiến trúc Westmere.

Vi xử lý hai nhân

"Clarkdale" (32 nm)

Các công nghệ được tích hợp: MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, Enhanced Intel SpeedStep Technology (EIST), Intel 64, XD bit, TXT, Intel VT-x, Intel VT-d, Hyper-Threading, Turbo Boost, Smart Cache và AES-NI

Core i5-655K có hệ số nhân mở.

Core i5-661 không hỗ trợ Intel TXT và Intel VT-d

FSB được thay thế bởi DMI.

Vi mạch có kích thước: 81 mm², số bóng bán dẫn: 382 triệu.

Trang 6

Vi mạch Đồ họa tích hợp và Bộ phận điều khiển bộ nhớ tích hợp: 114 mm², số bóng bán dẫn: 177 triệu.

FSB được thay thế bởi DMI.

Vi mạch có kích thước: 286 mm²

Số bước nhảy: B1

Hyper-Threading không hoạt động.

+ Kiến trúc Sandy Bridge

Trước đây, bộ vi xử lý Clarkdale đã sở hữu một GPU 45 nm và một lõi CPU 32 nm được đặt bên trong một con chip, còn giờ đây, kiến trúc Sandy Bridge kiểu mới đã tiến hành ghép hai bộ phận này cố định luôn trong đó, tất cả đều là 32 nm

SB (Sandy Bridge) Core i5 là bộ vi xử lý với 4 lõi CPU vật lý, mỗi lõi lại được kết cấu với khả năng của công nghệ siêu phân luồng (tạo nên 4 lõi vật lý và 8 lõi logic siêu phân luồng), chúng đã được trang bị với việc tích hợp đồ họa và một bộ điều khiển bộ nhớ Giống như thế hệ đầu tiên của dẫn xuất Nehalem, SB được đi kèm với tính năng Intel Turbo Boost và hứa hẹn sẽ còn được phát triển hơn nữa, hiện tại thì đây là phiên bản đã qua sửa đổi 2.0 Với thế hệ Sandy Bridge này, sẽ có một sự phân biệt rõ ràng cho mỗi phân khúc của bộ xử lý (i3/i5/i7) Dưới đây là danh sách những tính năng bạn nên biết và những hạn chế bạn cần lưu ý.

Desktop Core i7 processors have four cores / eight hyper-threads / Up to 8MB cache Desktop Core i5 processors have four cores / NO hyper-threading / Up to 8MB cache Desktop Core i3 processors have four cores / NO hyper-threading / Up to 3MB cache.

Trang 7

Tất cả các model ở trên đầu được trang bị với chế độ Turbo tương ứng, tuy vậy, sẽ chỉ có dòng series Core i7 mới có khả năng để xử lý được hai phần mềm độc lập trên mỗi lõi cũng như siêu phân luồng Đây là một tính năng chúng tôi đánh giá rất cao với sự hữu hiệu thực sự của chúng để có thể đạt hiệu suất ở mức cao nhất, nó cũng

sẽ cho phép một bộ vi xử lý có thể thực thi với hai dòng mã khác nhau tại thời điểm gần như là tương đương nhau.

Bộ vi xử lý Core i7 SB đặc trưng với 8MB trong Intel Smart Cache và một bộ điều khiển Integrated Memory Controller (IMC) để hỗ trợ cho hai kênh của bộ nhớ DDR3 với việc chính thức hỗ trợ cho tốc độ đạt tới 1333 MHz Core i5 sẽ còn có hai

bộ nhớ cache nhỏ L3, 6MB

Nếu như bạn đi sâu hơn vào trong lõi thì chắc hẳn điều băn khoăn đầu tiên sẽ là những điều về cache L1 và L2, bộ nhớ cache Sandy Bridge bao gồm một cache 32KB L1 Data, cache 32KB Instruction ( = 64KB L1) và sau đó, chúng tôi còn phát hiện một cache 256KB L2 trên mỗi lõi Tiếp theo, ở đây có một cache L3 được nằm cùng với các lõi CPU với 8MP bộ nhớ trong toàn bộ bộ vi xử lý 6MB cho Core i5

2500 Bộ nhớ cache L3 ở đây xuất hiện đi kèm với một điều khá kì lạ, xung quanh bên trong của phân đoạn, cache L3 được đặt ở vị trí trong phần kết cấu vật lý, chính

vì vậy mà cache L3 có thể được sử dụng bởi các lõi xử lý cũng như các lõi đồ họa

Trang 8

Phần II.TỔNG QUAN VỀ KIẾN TRÚC TẬP LỆNH

-khái quát kiến trúc phần mềm

-kiến trúc chung của tập lệnh

Trang 9

hiện, bao gồm: mã tác vụ, địa chỉ toán hạng nguồn, địa chỉ toán hạng kết quả, lệnh

kế tiếp (thông thường thì thông tin này ẩn)

+ Kiểu định vị chỉ ra cách thức thâm nhập toán hạng

1.Kiến trúc chung của tập lệnh

Như đã nói ở trên:lệnh là từ (số) nhị phân thể hiện một thao tác xác định của bộ vi

xử lý.

-các lệnh được lưu trong bộ nhớ

- các lệnh được nạp từ bộ nhớ vào cpu trong quá trình thực hiện

- mỗi lệnh có một chức năng riêng

a-Các lệnh được chia thành các nhóm chức năng riêng :

c-Cấu trúc của một lệnh có thể có các dạng sau:

Trang 10

+Toán hạng 1 dịa chỉ: định dạng: opcode addr1

+Toán hạng 1 địa chỉ rưỡi: định dạng : opcode addr1 ,addr2(addr1 tham chiếu tới thanh ghi còn addr2 tham chiếu tới ô nhớ hoặc ngược lại)

+Toán hạng 0 địa chỉ :không sử dụng địa chỉ  dùng để thực hiện các thao tác ngăn xếp

*Mã lệnh:là phần chứa thông tin xác định các thao tác hoặc công việc cần được thực hiện

*Phần địa chỉ:là phần thông tin xác định nơi chứa toán hạng Nó có thể : Nằm ngay trong lệnh(tức thời trong lệnh);Các thanh ghi của CPU ;Bộ nhớ

*Các thao tác có thể xảy ra giữa các toán hạng :

d-Phương pháp xác định địa chỉ toán hạng(định vị toán hạng) cho phép xác định nơi chứa toán hạng Có 3 nhóm chế độ định vị toán hạng.

+Định vị tức thời :Dữ liệu nằm ngay trong câu lệnh

Vd: MOV AX, 0F000h; đưa giá trị F000h vào AX

+Định vị thanh ghi:Dữ liệu chứa trong thanh ghi đa năng(địa chỉ hoặc đoạn)của CPU

+Định vị bộ nhớ :xác định địa chỉ offset(địa chỉ lệnh) của ô nhớ chứa toán hạng ,ô nhớ được mặc định nằm trong đoạn dữ liệu.

Kiến trúc tập lệnh 8086

Trang 11

a.Dạng lệnh

-Một lệnh của vi xử lý 86 có dạng tổng quát như sau

<mã lệnh> <địa chỉ toán hạng đích > <địa chỉ toán hạng nguồn>

Ví dụ: MOV AX,CX ;AXCX (MOV :thuộc nhóm lệnh chuyển)

(chép toán hạng nguồn CX vào toán hạng đích AX)

-Mã lệnh :giúp cho người sử dụng biết hoạt động của lệnh.Mã gợi nhớ thường là các chữ tiếng anh viết tắt như:MOV là lệnh chuyển,ADD là lệnh cộng,AND là lệnh và luận lý,JMP là lệnh nhảy….

-Toán hạng đích:giữ kết quả(nếu có yêu cầu )sau khi thi hành lệnh.Toán hạng đích

có thể là thanh ghi hay bộ nhớ.

-Toán hạng nguồn:có thể là thanh ghi ,bộ nhớ hay một số tức thời.

+Toán hạng thanh ghi là các thanh ghi của vi xử lý 86 gồm các thanh ghi tống quát(8bits lẫn 16bit)và các thanh ghi đoạn.

+Toán hạng số tức thời có thể là số trong các hệ đếm khác nhau và được viết theo qui định như sau:

*số hệ 2 : xxxxxxxxB(với x là bit nhị phân)

Trang 12

Địa chỉ hiệu dụng chính là thành phần offset của địa chỉ luận lý bộ nhớ.

Segment của địa chỉ hiệu dụng được mặc định như sau:

.Nếu không sử dụng BP trong địa chỉ hiệu dụng thì mặc định theo thanh ghi DS Nếu có BP trong địa chỉ hiệu dụng thì mặc định theo thanh ghi SS.

-Các hoạt động thực hiện trên bộ nhớ thông qua địa chỉ hiệu dụng chia ra làm 2 trường hợp :hoạt động 8 bít và hoạt động 16 bít.

*Hoạt động bộ nhớ 8 bít làm việc trên 1 byte bộ nhớ ngay vị trí chỉ ra bởi địa chỉ hiệu dụng

*Hoạt động bộ nhớ 16 bít sẽ làm việc trên 2 byte bộ nhớ có địa chỉ kế tiếp nhau và nội dung của chúng được ghép lại thành dữ liệu 16 bít theo qui tắc “byte cao địa chỉ cao,byte thấp địa chỉ thấp”

Ví dụ: địa chỉ -> 1000h 1001h

Bộ nhớ 34 12

Dữ liệu 1234h

b.Trong kiến trúc trúc x86 những tập lệnh cơ bản ta có thể liệt kê như sau:

+Nhóm lệnh chuyển dữ liệu gồm :MOV;PUSH ;POP; XCHG;….

Ví dụ:lệnh MOV:

Trang 13

.Dạng lệnh: MOV reg,reg MOV reg ,immed

MOV mem,reg MOV reg,immed….

.Giải thích: toán hạng đích  toán hạng nguồn

.Tác động cờ OF DF IF SF ZF AF FF CF

.Chép toán hạng nguồn vào toán hạng đích.

.ví dụ: MOV AX,CX ;AXCX

3.Tiếp nối kiến trúc 16 bít mà đại diện là vi xử lý 8086 intel ,là thế hệ thứ 4:vi xử lý

32 bít mà đại diện là 80386/80486,IA 32(intel) và thế hệ thứ 5:vi xử lý 64 bít đại diện

là dòng coro i3,i5,i7.Nhìn chung kiến trúc tập lệnh trong vi xử lý 32 bít và 64 bít có nhiều điểm tương đồng với kiến trúc tập lênh vi xử lý 16 bít,dựa trên nền kiến trúc

16 bít để phát triển Đa dạng và phức tạp hơn.

•Với dòng Core i5

* Clarkdale - nền tảng 32 nm

• Tất cả các tập lệnh hỗ trợ: MMX , SSE , SSE2 , SSE3 , SSSE3 , SSE4.1 , SSE4.2 , Enhanced Intel SpeedStep Technology (EIST), Intel 64 , XD bit (một bit NX thực hiện), TXT , Intel VT-x , Intel VT-d , Hyper-Threading , Turbo Boost , Smart Cache

và AES-NI

• i5-661 không hỗ trợ Intel VT-d

Trang 14

• FSB đã được thay thế với DMI

* Lynnfield - nền tảng 45 nm

•Dựa trên Nehalem

•Tất cả các tập lệnh hỗ trợ: MMX , SSE , SSE2 , SSE3 , SSSE3 , SSE4.1 , SSE4.2 , Enhanced Intel SpeedStep Technology (EIST), Intel 64 , XD bit (một bit NX thực hiện), Intel VT-x , Turbo Boost , Smart Cache

•Hyper-Threading bị vô hiệu hóa.

Tập lệnh MMX gồm có các nhóm lệnh chính MMX-The Registers (Thanh ghi MMX),State Management,Data Movement,Boolean Logic

Là một tập hợp mở rộng gồm 57 lệnh hỗ trợ đồ họa được xây dựng dành riêng cho CPU Intel Pentium nhằm mục đích giúp hệ thống xử lý các tác vụ đa phương tiện (multimedia operation) như âm thanh, phim, hình ảnh và modem (truyền nhận dữ liệu)

Nó gồm các lệnh:

Lệnh quản lý trạng thái(State Management): enums

lệnh trao đổi dữ liệu(Data movement): movd,movq

Tập lện SSE Tập lệnh Sse: Một nhóm gồm 70 lệnh được thiết kế thêm trên Bộ xử lý Pentium III nhằm tăng cường chất lượng thực thi các tác vụ đồ họa 3 chiều (3D graphics) Kiến trúc tập lệnh SSE gồm :

Trang 15

SSE — MXCSR.

SSE — OpCode List: các lệnh về toán học,logic,so sánh….

Nó hỗ trợ khả năng thực hiện tính toán dấu chấm động và hình học - các tính năng cần thiết để hiển thị và di chuyển hình ảnh 3 chiều trên màn hình Đây là tập hợp các lệnh tăng cường thứ 2 của Intel nhằm cải tiến khả năng đồ họa của các bộ vi xử

lý (tập hợp đầu tiên chính là MMX) SSE còn được gọi là KNI (Katmai New Instruction) do tên mã trước đây của CPU Intel Pentium III là Katmai.Nó gồm có những lệnh sau: Lệnh tính toán số học

1)

Tập lệnh SSE 4.1 với 47 lệnh SSE mới :

• Công nghệ Deep Power Down ( chỉ có trong những CPU Mobile và được gọi là Trạng thái C6 – State )

• Công nghệ Enhanced Intel Dynamic Acceleration Technology ( chỉ có trong những CPU Mobile )

Trang 16

• Cải thiện FPU ( Bộ tính toán dấu phảy động ) bằng những phép chia theo hệ số 16 nhanh hơn “ Fast Radix-16 Divider “

• Cải thiện FPU ( Bộ tính toán dấu phảy động ) bằng “Super Shuffle Engine”

• Công nghệ Ảo hoá nâng cao “Enhanced Virtualization Technology” ( hiệu suất tăng 25 – 75% khi chuyển trạng thái sang máy ảo )

Tập lệnh SSE 4.2 mới với việc thêm bảy lệnh mới để hỗ trợ cho xử lí văn bản , có tên gọi “Application Target Accelerator “

• MMX - MultiMedia eXtensions: Là một tập hợp mở rộng gồm 57 lệnh hỗ trợ đồ họa được xây dựng dành riêng cho CPU Intel Pentium nhằm mục đích giúp hệ thống xử lý các tác vụ đa phương tiện (multimedia operation) như âm thanh, phim, hình ảnh và modem (truyền nhận dữ liệu) Tập lệnh MMX cho phép các tác vụ được thực hiện đồng thời trên nhiều đơn vị dữ liệu khác nhau Các đối thủ cạnh của Intel (như AMD, Cyrix, Centaur) cũng phát triển các bộ xử lý tương thích MMX của họ (MMX-compliant chips) với các bộ lệnh riêng chuyên xử lý các tác vụ tính tóan hình học và dấu chấm động cần thiết khi di chuyển các hình ảnh 3D (3 Dimension - 3 chiều) trên màn hình.

 Kiến trúc tập lệnh MMX : MMX-The Registers (Thanh ghi MMX),State Management,Data Movement,Boolean Logic

Nguồn : http://www.kythuatvien.com/knowledge/view/41.ktv

•SSE - Single SIMD Extentions:

Một nhóm gồm 70 lệnh được thiết kế thêm trên Bộ xử lý Pentium III nhằm tăng cường chất lượng thực thi các tác vụ đồ họa 3 chiều (3D graphics) Nó hỗ trợ khả năng thực hiện tính toán dấu chấm động và hình học - các tính năng cần thiết để hiển thị và di chuyển hình ảnh 3 chiều trên màn hình Đây là tập hợp các lệnh tăng cường thứ 2 của Intel nhằm cải tiến khả năng đồ họa của các bộ vi xử lý (tập hợp đầu tiên chính là MMX) SSE còn được gọi là KNI (Katmai New Instruction) do tên

mã trước đây của CPU Intel Pentium III là Katmai.

Kiến trúc tập lệnh SSE gồm :

SSE — MXCSR.

SSE — OpCode List: các lệnh về toán học,logic,so sánh….

Trang 17

Nguồn : http://www.kythuatvien.com/knowledge/view/44.ktv

•SSE2: Là tập lệnh được thiết kế cho Intel Pentium 4 Nó tăng cường thêm 144 lệnh

hỗ trợ đồ họa, truyền thông đa phương tiện và kết nối mạng trực tuyến (true multimedia and online Internet).Các lệnh này bao gồm các tác vụ số Nguyên SIMD 128-bit (128-bit SIMD integer arithmetic operations) và các tác vụ dấu chấm động với độ chính xác gấp đôi SIMD 128-bit (128-bit SIMD double-precision floating- point operations) Các lệnh mới này làm tối ưu hóa khả năng thực hịên các ứng dụng như phim video, xử lý âm thanh - hình ảnh, mã hóa, tài chính, thiết kế và nghiên cứu khoa học, kết nối mạng trực tuyến

• SSE3 : là phiên bản thứ ba của SSE đặt cho kiến trúc IA-32.Hỗ trợ làm tăng kết nội mạng, đa phương tiện… SSE3 thêm vào 13 câu lệnh mới.

•SSE4

MPSADBW Compute eight offset sums of absolute differences, four at a time (i.e., | x0−y0|+|x1−y1|+|x2−y2|+|x3−y3|,|x0−y1|+|x1−y2|+|x2−y3|+|x3−y4|, …, |x0−y7|+| x1−y8|+|x2−y9|+|x3−y10|); this operation is important for some HD codecs, and allows an 8×8 block difference to be computed in fewer than seven cycles.[5] One bit

of a three-bit immediate operand indicates whether y0 y10 or y4 y14 should be used from the destination operand, the other two whether x0 x3, x4 x7, x8 x11 or x12 x15 should be used from the source.

PHMINPOSUW Sets the bottom unsigned 16-bit word of the destination to the smallest unsigned 16-bit word in the source, and the next-from-bottom to the index

of that word in the source.

PMULDQ Packed signed multiplication on two sets of two out of four packed integers, the 1st and 3rd per packed 4, giving two packed 64-bit results.

PMULLD Packed signed multiplication, four packed sets of 32-bit integers multiplied to give 4 packed 32-bit results.

DPPS, DPPD Dot product for AOS (Array of Structs) data This takes an immediate operand consisting of four (or two for DPPD) bits to select which of the entries in the input to multiply and accumulate, and another four (or two for DPPD) to select whether to put 0 or the dot-product in the appropriate field of the output.

Trang 18

BLENDPS, BLENDPD, BLENDVPS, BLENDVPD, PBLENDVB, PBLENDW Conditional copying of elements in one location with another, based (for non-V form) on the bits in an immediate operand, and (for V form) on the bits in register XMM0.

PMINSB, PMAXSB, PMINUW, PMAXUW, PMINUD, PMAXUD, PMINSD, PMAXSD Packed minimum/maximum for different integer operand types

register to integers, using one of four rounding modes specified by an immediate operand

INSERTPS, PINSRB, PINSRD/PINSRQ, EXTRACTPS, PEXTRB, PEXTRW, PEXTRD/PEXTRQ The INSERTPS and PINSR instructions read 8, 16 or 32 bits from an x86 register memory location and insert it into a field in the destination register given by an immediate operand, EXTRACTPS and PEXTR read a field from the source register and insert it into an x86 register or memory location For example, PEXTRD eax, [xmm0], 1; EXTRACTPS [addr+4*eax], xmm1, 1 stores the first field of xmm1 in the address given by the first field of xmm0.

PMOVSXBW, PMOVZXBW, PMOVSXBD, PMOVZXBD, PMOVSXBQ, PMOVZXBQ, PMOVSXWD, PMOVZXWD, PMOVSXWQ, PMOVZXWQ, PMOVSXDQ, PMOVZXDQ Packed sign/zero extension to wider types

PTEST This is similar to the TEST instruction, in that it sets the Z flag to the result

of an AND between its operators: ZF is set, if DEST AND SRC is equal to 0 Additionally it sets the C flag if (NOT DEST) AND SRC equals zero

This is equivalent to setting the Z flag if none of the bits masked by SRC are set, and the C flag if all of the bits masked by SRC are set.

PCMPEQQ Quadword (64 bits) compare for equality

PACKUSDW Convert signed DWORDs into unsigned WORDs with saturation.

area into SSE register; this is useful for retrieving results from peripherals attached

to the memory bus

• [edit] SSE4.2

Ngày đăng: 12/03/2020, 11:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w